Orange bullet points

데이터 엔지니어링 뉴스 2024년 7월 업데이트 요약

Background blur
Left arrow orange
모든 블로그 보기

데이터 웨어하우스(DWH), ETL 프로세스, BI 도구 등의 업데이트 정보와 최신 트렌드의 중요한 소식만 정리해 매달 전달해 드리는 블로그입니다.

빠르고 편하게 최신 정보를 파악하고 싶은 분들께 추천드립니다!

Google BigQuery 뉴스 요약

EXPORT DATA 문을 사용하여 BigQuery에서 Spanner를 통한 Reverse ETL 이 가능


이 기능은 아직 공식 출시 전 입니다. 자세한 내용은 공식 문서를 참조해 주세요.

데이터셋 생성 시 default 스토리지 과금 모델을 설정가능


데이터셋 생성 시 기본 스토리지 과금 모델로 logical byte 과금 또는 physical byte 과금 중 하나를 선택할 수 있게 되었습니다.

Continuous Query가 베타 버전에서 지원됨


Continuous Query를 사용하면 실시간 분석, Vertex AI를 통한 머신러닝 예측 적용, 다른 플랫폼으로의 데이터 복제 등 실시간 작업을 수행할 수 있습니다.

Continuous Query는 Enterprise 에디션, Enterprise Plus 에디션에서 이용 가능합니다.

자세한 내용은 공식 문서를 참조해 주세요.

CHANGES 함수 베타 버전에서 지원


CHANGES 함수로 지정된 기간(최대 1일) 내의 테이블 변경 이력을 조회할 수 있습니다.

이 함수를 사용하려면, 테이블 생성 시 enable_change_history 옵션을 TRUE로 설정해야 합니다.

베타 버전에서 테이블 탐색기 지원


테이블 탐색기에서는 테이블 데이터를 시각적으로 탐색하고, 테이블 필드 선택에 따라 쿼리를 자동으로 생성할 수 있습니다.

자세한 내용은 공식 문서를 참조해 주세요.

Snowflake 뉴스 요약

Cortex Search가 사용 가능


LLM을 이용한 RAG 애플리케이션 구축을 간소화할 수 있는 기능으로, Cortex Search가 사용 가능해졌습니다.

RAG 애플리케이션 구축 시 신경 써야 할 사항으로는 데이터 벡터화(embedding), 인프라스트럭처 유지 관리, 검색 품질 조정, 지속적인 인덱스 업데이트 등 모든 항목을 신경 쓰지 않고도, 시작부터 실행까지 진행할 수 있습니다.

주의사항으로, 아직 현재 베타 단계이므로 다음과 같은 제약 사항들이 있습니다.

  • 영어 문서와 쿼리에 대해 최적화되어 있습니다.
  • 최적의 성능을 유지하기 위해, 크기가 1,000만 행 이하인 기본 테이블을 사용하는 것이 권장됩니다.
  • AWS us-east-1, AWS us-west-2 지역의 계정에서만 이용 가능합니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Iceberg 테이블의 Polaris 카탈로그가 사용 가능


Snowflake에서 Iceberg 테이블을 사용할 때 Polaris 카탈로그를 카탈로그로 사용할 수 있게 되었습니다.

Iceberg 테이블의 단점으로는 테이블 메타데이터를 관리하는 카탈로그 기능이 Snowflake를 비롯한 다른 서비스 및 OSS(예: Apache Flink, Apache Spark, PyIceberg, Trino 등)와 언어적 차이가 있어, Iceberg를 사용하면서도 통합되지 않는 부분이 있다는 점이 있습니다.

Polaris 카탈로그를 사용하여 이 차이를 보완하고, 여러 서비스에서 동일한 테이블에 접근할 수 있습니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Snowflake Copilot이 GA(일반 출시)


LLM을 이용한 어시스턴트 기능으로, 강력한 데이터 거버넌스를 유지하면서 데이터 분석을 간소화하고, 기존의 Snowflake 워크플로우에 원활하게 통합됩니다.

사용 사례로는 데이터 구조에 대한 질문을 하거나, 자체 SQL을 개선 및 수정하는 데 활용할 수 있습니다.

게시일 기준, 다음 지역의 계정에서만 이용 가능합니다.

  • AWS us-east-1
  • AWS us-west-2
  • AWS eu-central-1


자세한 내용은 릴리스 노트를 참조해 주세요.

RDBMS용 Snowflake 커넥터가 사용 가능


이번 릴리스에서는 PostgreSQL과 MySQL의 CDC (Change Data Capture) 커넥터로 작동하는 Snowflake 커넥터가 사용 가능해졌습니다.

PostgreSQL, MySQL 데이터베이스 각각에서 Snowflake로 데이터를 로드하고, 전송원본 데이터베이스에서의 변경 사항이 Snowflake에 복제되도록 Replication을 구성할 수 있게 됩니다.

현재는 베타 버전이기 때문에 일부 제약 사항이나 불안정성이 있을 수 있지만, RDBMS에서 Snowflake로의 실시간에 근사하는 로그 기반 연동이 가능하다는 것은 분석 기반 구축에서 유연성을 높일 수 있는 선택지가 늘어나는 것을 의미합니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Snowflake Cortex AI에서 새로운 Meta AI 모델이 사용 가능


LLM 모델인 Llama 3.1 컬렉션이 Snowflake Cortex AI에서 사용 가능해졌습니다.

이번 릴리스에서 추가된 모델은 다음과 같습니다.

  • llama3.1-405b
  • llama3.1-70b
  • llama3.1-8b


Llama 3.1 계열은 Llama 3 계열과 비교하여 다양한 벤치마크 기준에서 같은 크기의 LLM 모델보다 우수하다고 알려진 모델이며, 특히 코딩 능력이 뛰어난 것으로 알려져 있습니다.

주의할 점은, 기본 Llama 3.1 계열 모델이 한국어를 제외한 8개 언어에만 대응하고 있어, 향후 확장이 기대된다는 점입니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Snowflake Cortex AI에서 새로운 AI21 모델이 사용 가능


이스라엘에 본사를 두고 있는 AI21 Labs가 개발한 기초 모델인 jamba-instruct 모델이 사용 가능해졌습니다.

이 모델은 비용과 지연을 최소화 시켜 256k 토큰 텍스트 윈도우를 제공하도록 최적화된 모델로, 긴 문서나 광범위한 지식의 요약, Q&A, 엔티티 추출 등의 작업에 최적화되어 있습니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Snowflake Cortex AI용 Cortex Guard의 GA(일반 출시)


부적절하거나 안전하지 않은 대규모 언어 모델 (LLM) 응답을 제외할 수 있는 세이프가드를 기업이 쉽게 구현할 수 있도록 하는 기능이 GA(일반 출시)되었습니다.

COMPLETE 함수 호출 시 지정할 수 있는 새로운 세이프티 필터가 도입되어, 폭력 범죄, 증오, 성적 콘텐츠, 자해 행위 등 유해한 콘텐츠와 관련된 언어 모델 응답이 자동으로 제외됩니다.

구체적으로는 COMPLETE 함수의 인수로 'guardrails': true를 지정하기만 하면 사용할 수 있습니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

기타 업데이트 (일부 발췌)


Hybrid Table에 사용 할당 제한 부여

RDBMS처럼 읽기와 쓰기에 대한 낮은 지연 시간과 높은 처리량이 필요한 트랜잭션용으로 최적화된 Hybrid Table에 대해, 스토리지와 요청에 대한 기본 용량이 강제로 설정되었습니다.

구체적인 수치들은 다음과 같습니다.

제한 사항 기본 값 비고
스토리지 데이터베이스당 500GB Hybrid Table에 저장할 수 있는 데이터 용량을 의미합니다. 제한을 초과하면 테이블에 대한 쓰기 작업이 일시적으로 차단됩니다.
요청 속도 데이터베이스당 초당 약 1000회 테이블에 대한 읽기 및 쓰기 속도를 제어합니다.
데이터베이스 수 계정당 총 100개, 1시간 이내 10개까지 추가 가능 Snowflake 계정 내의 데이터베이스에 Hybrid Table을 포함할 수 있는 수를 의미합니다. 제한을 초과하면, 제한 상한을 증가시키거나 삭제하지 않는 한 새로 만들 수 없습니다.


자세한 내용은 릴리스 노트를 참조해 주세요.

Snowflake Notebooks의 외부 접근이 가능


기본적으로 Snowflake는 외부 엔드포인트로부터의 네트워크 접근을 제한하지만, 외부 네트워크 접근(External Network Access)을 통해 접근할 수 있게 되었습니다.

예를 들어, Kaggle이나 HuggingFace와 같은 일반적인 데이터 사이언스 및 머신러닝 관련 사이트에 대한 접근을 설정하는 등의 사용 사례가 있을 수 있습니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Snowflake에서 Streamlit의 외부 접근이 가능


이 역시 Snowflake Notebooks와 마찬가지로 기본적으로 Snowflake는 외부 엔드포인트로부터의 네트워크 접근을 제한하지만, 외부 네트워크 접근(External Network Access)을 사용하여 접근할 수 있게 되었습니다.

예를 들어, OpenAI API에 접근하여 LLM 애플리케이션을 향상하는 등의 사용 사례가 있을 수 있습니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Dynamic Table과 Iceberg Table의 더 편리한 사용 가능


Snowflake가 관리하는 Iceberg Table을 사용하는 Dynamic Table을 위한 두 가지 새로운 기능이 이용 가능해졌습니다.

  • Snowflake가 관리하는 Iceberg Table을 소스로 읽어오는 동적 테이블 생성
  • 쿼리 결과를 Snowflake 관리의 Iceberg Table로 저장하는 Dynamic Iceberg Table 생성


추가적으로, 이번 출시는 Snowflake에서 관리하지 않는 Iceberg table의 Stream 사용도 지원합니다

자세한 내용은 릴리스 노트를 참조해 주십시오.

USER의 새로운 TYPE 속성의 GA(일반 출시)


TYPE 속성을 사용하여 서비스 사용자와 실제 사용자를 구분할 수 있습니다.

예를 들어, 실제로 Snowflake에 접속하는 “인간” 사용자와 TROCCO나 dbt와 같은 서비스에서 사용하는 “비인간” 서비스 계정을 명확하게 구분할 수 있습니다.

자세한 내용은 릴리스 노트를 참조해 주시기 바랍니다.

Looker Studio의 소식 요약

Google Ads와 새로운 Search Ads 360 커넥터에 asset location field가 추가되었습니다


다음 asset location field들이 추가되었습니다.

  • address line 1
  • address line 2
  • business name
  • city
  • country code
  • phone number
  • postal code
  • province

새로운 파트너 커넥터들 추가


다음 파트너 커넥터들이 Looker Studio 보고서 갤러리에 추가되었습니다.

  • Facebook Ads By “DAXRM”
  • Pitchbox Daily Outreach Activity By Pitchbox
  • Wrike By Windsor.ai
  • Cart.com By Windsor.ai
  • Metabase By Windsor.ai
  • SurveyMonkey By Windsor.ai
  • Okta By Windsor.ai
  • Chargebee By Windsor.ai
  • Mailerlite By Windsor.ai
  • Clickup By Windsor.ai
  • Courier By Windsor.ai
  • Play console connector By Multivariate Tech
  • Dynamics 365 By Windsor.ai
  • AdRoll By Catchr
  • Typeform By Windsor.ai
  • Google Search Console By Catchr
  • Clockify By Windsor.ai
  • GitLab By Windsor.ai
  • AppFollow By Windsor.ai
  • Monday By Windsor.ai
  • Agorapulse Social Analytics By Agorapulse
  • Oktopost By Oktopost
  • LinkedIn Business Manager By Power My Analytics
  • Facebook Insights By Doodlytics
  • Instagram Insights By Doodlytics
  • Facebook Ads Insights By Doodlytics
  • Pardot By Catchr
  • ConvertKit By Windsor.ai
  • Delighted By Windsor.ai
  • Everhour By Windsor.ai
  • Linnworks By Windsor.ai
  • s.i.m.b.a Google Ads By s.i.m.b.a
  • s.i.m.b.a Google Analytics By s.i.m.b.a
  • s.i.m.b.a LinkedIn Page By Simba
  • s.i.m.b.a LinkedIn Ads By s.i.m.b.a
  • MINT ARM By MINT
  • WooCommerce By Windsor.ai
  • Bing Webmaster Tool By Catchr

Looker Studio Pro 소식 요약

Gemini in Looker Public 베타 버전으로 출시


다음 Gemini in Looker 기능들이 public 베타 버전로 출시되었습니다.

  • 계산 필드의 생성: Looker Studio의 계산식 언어에 대한 사전 지식이나 경험이 없어도 Looker Studio에서 계산 필드를 생성할 수 있습니다. 
  • 콘텐츠를 Google 슬라이드에 추가: Looker Studio 보고서의 구성 요소를 Google 슬라이드 프레젠테이션으로 가져올 수 있습니다.

Gemini in Looker의 자세한 내용이나 Looker Studio에서의 활성화 방법에 대해서는 각각의 링크를 확인해 주세요.

dbt 소식 요약

dbt Cloud – 계정 설정에서 Connections 기능이 사용 가능


계정 설정에서 Connections 기능이 사용 가능해졌습니다. 지금까지는 프로젝트별로 설정이 필요했지만, 이제는 계정 단위로 여러 프로젝트에서 설정을 사용할 수 있습니다. 변경 사항의 자세한 내용은 공식 문서를 확인해 주세요.

dbt Cloud – CD를 실행하기 위한 병합 작업이 일반 출시


CD(Continuous Distribution)를 실행하기 위한 통합 작업이 일반 출시되었습니다. 이제는 Pull Request가 병합될 때마다 사용자 정의 GitHub Actions를 설정하거나 수동으로 변경 사항을 빌드할 필요 없이 자동으로 처리할 수 있습니다. 설정 방법은 공식 문서를 확인해 주세요.

dbt Cloud – dbt Cloud CLI에서 SQL 파일의 Lint가 가능해졌습니다


dbt Cloud CLI에서 SQL 파일의 Lint가 가능해졌습니다. 자세한 내용은 공식 문서를 확인해 주세요.

dbt Cloud – Generic Data Tests에서 사용자 정의 설정 가능


Generic Data Tests에서 사용자 정의 설정이 가능해졌습니다. 이를 통해 테스트 실행 시 일반설정과 다른 Snowflake 웨어하우스를 설정할 수 있게 됩니다. 설정 방법은 공식 문서를 확인해 주세요.

이 기능 확장에 대해서는 dbt Core에서도 나중에 사용할 수 있을 예정입니다.

dbt Cloud – dbt Semantic Layer: Python 라이브러리인 dbt-sl-sdk의 SDK의 도입


dbt Semantic Layer에 대해 Python 라이브러리인 dbt-sl-sdk의 SDK가 도입되었습니다. 이를 통해 Python으로 dbt Semantic Layer에 쉽게 접근할 수 있게 됩니다. 개발자는 dbt Semantic Layer API를 이용하여 다른 도구에서 metric과 Dimension을 쿼리할 수 있습니다. 자세한 내용은 공식 문서를 참조해 주세요.

dbt Cloud – dbt Semantic Layer: CI 파이프라인에 세맨틱 검증 도입


CI 파이프라인에 세맨틱 검증이 도입되었습니다. dbt sl validate 명령어를 사용하여 CI 작업에 웨어하우스 검증 체크를 추가함으로써, 코드 리뷰 중에 semantic node (metric, semantic model, saved queries)를 자동으로 테스트할 수 있습니다.

변경된 semantic node 검증하여 dbt 모델에 가해진 코드 변경이 metric들을 손상시키지 않도록 할 수 있습니다. 추가적인 명령어와 사용 사례에 대해서는 공식 문서를 참조해 주세요.

기타 업데이트에 대해서는 릴리스 노트를 확인해 주세요.

Tableau 소식 요약

Tableau Pulse 업데이트


인사이트 유형에 이상값 인사이트 설정이 추가됨

Tableau Pulse에는 생성된 metric들에 대해 자동으로 제안을 표시해주는 insight라는 기능이 있습니다. insight에는 여러 종류가 있으며(예: 현재 트렌드, 주요 요인 등), ON/OFF 형식으로 선택 및 설정할 수 있습니다.

해당 insight 유형에 일정 기간 동안의 이상값을 표시하는 Record-level Outliers가 추가되었습니다.

공식 문서는 여기에서 확인하실 수 있습니다.

편집 제한 기능 추가

이전에는 누구나 metric들을 편집하거나 삭제할 수 있었지만, metric 생성 화면에서 편집 가능한 사용자를 지정하고 제한할 수 있게 되었습니다. (Creator 또는 Explorer 사용자 대상).

기타 사항은 공식 릴리스 대시보드를 참조해 주세요.

Databricks 소식 요약

Lakeflow Connect가 제한된 공개 미리보기로 제공


LakeFlow Connect는 데이터베이스와 엔터프라이즈 애플리케이션에서 데이터를 가져와 Databricks에 로드할 수 있는 네이티브 커넥터를 제공합니다. 
LakeFlow Connect는 효율적인 점진적 읽기 및 쓰기를 활용하여 데이터 가져오기를 더 빠르고, 확장 가능하며, 비용 효율적으로 수행할 수 있습니다.

현재 지원하는 데이터 소스들은 아래와 같다:

  • Salesforce Sales Cloud
  • Microsoft Azure SQL Database
  • Amazon RDS for SQL Server
  • Workday


자세한 내용은 'LakeFlow Connect'에 대한 문서를 참조해 주세요.

Delta Sharing을 통한 모델 공유의 GA(일반 출시)


Delta Sharing이 AI 모델 공유를 지원합니다.

자세한 내용은 공식 문서를 확인해 주세요.

Meta Llama 3.1이 Model Serving에서 지원됩니다


Mosaic AI Model Serving은 Meta와 제휴를 맺어, Meta가 구축하고 훈련한 모델 아키텍처인 Meta Llama 3.1을 지원하게 되었습니다. Llama 3.1은 Foundation Model API에 포함돼 지원됩니다.

Foundation Model API에 대한 자세한 내용은 공식 문서를 확인해 주세요.

Serverless 컴퓨팅이 워크플로우, 노트북도 지원


Serverless 컴퓨팅을 통해 Databricks 작업을 직접 인프라 리소스를 준비하지 않고 실행할 수 있었는데, 이번에 이 대상에 워크플로우와 노트북이 추가되었습니다. 이를 통해 워크플로우로 작업을 실행하거나 노트북을 사용한 즉석 분석 시에도 serverless 컴퓨팅의 혜택을 누릴 수 있게 되었습니다. 자세한 내용은 아래를 참조해 주세요.


Lakehouse Federation이 Salesforce Data Cloud를 지원


Federated query를 Salesforce Data Cloud에 대해 실행할 수 있게 되었습니다.

자세한 내용은 공식 문서를 참조해 주세요.

Databricks에서 관리하는 비밀번호 지원 중단


2024년 7월 10일부터 Databricks의 UI 및 API 인증에 Databricks에서 관리하는 비밀번호를 사용할 수 없게 되었습니다. 싱글 사인온(SSO)이 설정되지 않은 경우, 사용자는 로그인할 때 이메일로 전송된 고유 코드를 받게 됩니다. Databricks는 OAuth 인증 사용을 권장하며, 이를 고려하여 전환을 검토하는 것이 좋습니다.

자세한 내용은 공식 문서를 참조해 주세요.

Databricks Assistant가 에러의 자동 수정 제안을 공개 미리보기(Public Preview)에서 지원


Databricks Assistant는 에러 메시지를 감지하면 노트북에서 자동으로 /fix 명령을 실행하게 되었습니다. Assistant는 생성형 AI를 사용하여 코드와 에러 메시지를 분석하고, 노트북 내에서 직접 수정 제안을 제공합니다.

자세한 내용은 공식 문서를 참조해 주세요.

TROCCO에 대한 소식 요약

전송 작업의 메모리 크기가 증가했습니다


2024년 7월 16일 릴리스로 인해 데이터 전송에 사용되는 메모리 크기가 증가했습니다.

  • 변경 전 메모리 크기: 2 GiB
  • 변경 후 메모리 크기: 6 GiB


이번 변경은 위의 릴리스 이후에 생성된 전송 설정에 적용됩니다. 전송 작업의 스펙 업그레이드로 인해, 변경 전 작업에 비해 성능이 향상될 가능성이 있습니다.

단, 아래 커넥터들은 예외적으로 현재 메모리 크기가 15 GiB이며, 이번 변경 이후에도 계속해서 15 GiB가 적용됩니다.

메모리 크기가 예외적으로 15 GiB인 커넥터 목록입니다


  • 전송원 – Amazon S3
  • 전송원 – Box
  • 전송원 – Google Cloud Storage
  • 전송원 – Google Play
  • 전송원 – KARTE Datahub
  • 전송원 – Repro

전송원 – Databricks가 추가되었습니다


전송원 – Databricks가 새롭게 추가되었습니다. 

자세한 내용은 전송원 – Databricks를 참조해 주세요.

관리형 데이터 전송의 전송 대상으로 Databricks가 추가되었습니다


관리형 데이터 전송의 전송 대상으로 Databricks를 선택할 수 있게 되었습니다. 전송원– Databricks를 참조해 주세요. 
데이터 소스를 일괄적으로 가져와 Databricks로 전송하는 전송 설정을 중앙에서 생성 및 관리할 수 있습니다.

전송 설정 목록에서 연결 정보의 종류에 따라 필터링할 지원


지난 업데이트에서 커넥터 단위로 필터링이 지원되었고, 이번 업데이트에서는 개별 연결 정보 단위로 필터링이 가능해졌습니다. 이를 통해 원하는 연결 정보가 어떤 전송 설정에 사용되고 있는지 쉽게 확인할 수 있게 되었습니다.

사용자 관리 화면이 새로워졌습니다


사용자 관리 화면의 디자인이 변경되었습니다. 이를 통해 각 사용자의 권한(TROCCO®에서 허용된 작업)을 한눈에 확인할 수 있게 되었습니다. 

또한, COMETA와 함께 사용할 경우 사용자를 필터링할 수도 있습니다.

TROCCO의 Terraform Provider(베타 버전)가 출시


TROCCO의 Terraform Provider(베타 버전)가 출시되었습니다.

  • BigQuery 데이터 마트 정의를 Terraform으로 관리할 수 있게 되었습니다(생성, 변경, 삭제).
  • 전송 설정, 워크플로우 등도 지원 검토 중입니다.


※1: Advanced 플랜에서 이용할 수 있는 API 옵션 계약이 필요합니다.
※2: 베타버전이므로, 향후 사양이 변경될 가능성이 있습니다.

TROCCO는  파트너들에게서 신뢰받고 있습니다.