데이터 웨어하우스(DWH), ETL 프로세스, BI 도구 등의 업데이트 정보와 최신 트렌드의 중요한 소식만 정리해 매달 전달해 드리는 블로그입니다.
빠르고 편하게 최신 정보를 파악하고 싶은 분들께 추천드립니다!
이 기능은 아직 공식 출시 전 입니다. 자세한 내용은 공식 문서를 참조해 주세요.
데이터셋 생성 시 기본 스토리지 과금 모델로 logical byte 과금 또는 physical byte 과금 중 하나를 선택할 수 있게 되었습니다.
Continuous Query를 사용하면 실시간 분석, Vertex AI를 통한 머신러닝 예측 적용, 다른 플랫폼으로의 데이터 복제 등 실시간 작업을 수행할 수 있습니다.
Continuous Query는 Enterprise 에디션, Enterprise Plus 에디션에서 이용 가능합니다.
자세한 내용은 공식 문서를 참조해 주세요.
CHANGES 함수로 지정된 기간(최대 1일) 내의 테이블 변경 이력을 조회할 수 있습니다.
이 함수를 사용하려면, 테이블 생성 시 enable_change_history 옵션을 TRUE로 설정해야 합니다.
테이블 탐색기에서는 테이블 데이터를 시각적으로 탐색하고, 테이블 필드 선택에 따라 쿼리를 자동으로 생성할 수 있습니다.
자세한 내용은 공식 문서를 참조해 주세요.
LLM을 이용한 RAG 애플리케이션 구축을 간소화할 수 있는 기능으로, Cortex Search가 사용 가능해졌습니다.
RAG 애플리케이션 구축 시 신경 써야 할 사항으로는 데이터 벡터화(embedding), 인프라스트럭처 유지 관리, 검색 품질 조정, 지속적인 인덱스 업데이트 등 모든 항목을 신경 쓰지 않고도, 시작부터 실행까지 진행할 수 있습니다.
주의사항으로, 아직 현재 베타 단계이므로 다음과 같은 제약 사항들이 있습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
Snowflake에서 Iceberg 테이블을 사용할 때 Polaris 카탈로그를 카탈로그로 사용할 수 있게 되었습니다.
Iceberg 테이블의 단점으로는 테이블 메타데이터를 관리하는 카탈로그 기능이 Snowflake를 비롯한 다른 서비스 및 OSS(예: Apache Flink, Apache Spark, PyIceberg, Trino 등)와 언어적 차이가 있어, Iceberg를 사용하면서도 통합되지 않는 부분이 있다는 점이 있습니다.
Polaris 카탈로그를 사용하여 이 차이를 보완하고, 여러 서비스에서 동일한 테이블에 접근할 수 있습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
LLM을 이용한 어시스턴트 기능으로, 강력한 데이터 거버넌스를 유지하면서 데이터 분석을 간소화하고, 기존의 Snowflake 워크플로우에 원활하게 통합됩니다.
사용 사례로는 데이터 구조에 대한 질문을 하거나, 자체 SQL을 개선 및 수정하는 데 활용할 수 있습니다.
게시일 기준, 다음 지역의 계정에서만 이용 가능합니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
이번 릴리스에서는 PostgreSQL과 MySQL의 CDC (Change Data Capture) 커넥터로 작동하는 Snowflake 커넥터가 사용 가능해졌습니다.
PostgreSQL, MySQL 데이터베이스 각각에서 Snowflake로 데이터를 로드하고, 전송원본 데이터베이스에서의 변경 사항이 Snowflake에 복제되도록 Replication을 구성할 수 있게 됩니다.
현재는 베타 버전이기 때문에 일부 제약 사항이나 불안정성이 있을 수 있지만, RDBMS에서 Snowflake로의 실시간에 근사하는 로그 기반 연동이 가능하다는 것은 분석 기반 구축에서 유연성을 높일 수 있는 선택지가 늘어나는 것을 의미합니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
LLM 모델인 Llama 3.1 컬렉션이 Snowflake Cortex AI에서 사용 가능해졌습니다.
이번 릴리스에서 추가된 모델은 다음과 같습니다.
Llama 3.1 계열은 Llama 3 계열과 비교하여 다양한 벤치마크 기준에서 같은 크기의 LLM 모델보다 우수하다고 알려진 모델이며, 특히 코딩 능력이 뛰어난 것으로 알려져 있습니다.
주의할 점은, 기본 Llama 3.1 계열 모델이 한국어를 제외한 8개 언어에만 대응하고 있어, 향후 확장이 기대된다는 점입니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
이스라엘에 본사를 두고 있는 AI21 Labs가 개발한 기초 모델인 jamba-instruct 모델이 사용 가능해졌습니다.
이 모델은 비용과 지연을 최소화 시켜 256k 토큰 텍스트 윈도우를 제공하도록 최적화된 모델로, 긴 문서나 광범위한 지식의 요약, Q&A, 엔티티 추출 등의 작업에 최적화되어 있습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
부적절하거나 안전하지 않은 대규모 언어 모델 (LLM) 응답을 제외할 수 있는 세이프가드를 기업이 쉽게 구현할 수 있도록 하는 기능이 GA(일반 출시)되었습니다.
COMPLETE 함수 호출 시 지정할 수 있는 새로운 세이프티 필터가 도입되어, 폭력 범죄, 증오, 성적 콘텐츠, 자해 행위 등 유해한 콘텐츠와 관련된 언어 모델 응답이 자동으로 제외됩니다.
구체적으로는 COMPLETE 함수의 인수로 'guardrails': true를 지정하기만 하면 사용할 수 있습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
RDBMS처럼 읽기와 쓰기에 대한 낮은 지연 시간과 높은 처리량이 필요한 트랜잭션용으로 최적화된 Hybrid Table에 대해, 스토리지와 요청에 대한 기본 용량이 강제로 설정되었습니다.
구체적인 수치들은 다음과 같습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
기본적으로 Snowflake는 외부 엔드포인트로부터의 네트워크 접근을 제한하지만, 외부 네트워크 접근(External Network Access)을 통해 접근할 수 있게 되었습니다.
예를 들어, Kaggle이나 HuggingFace와 같은 일반적인 데이터 사이언스 및 머신러닝 관련 사이트에 대한 접근을 설정하는 등의 사용 사례가 있을 수 있습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
이 역시 Snowflake Notebooks와 마찬가지로 기본적으로 Snowflake는 외부 엔드포인트로부터의 네트워크 접근을 제한하지만, 외부 네트워크 접근(External Network Access)을 사용하여 접근할 수 있게 되었습니다.
예를 들어, OpenAI API에 접근하여 LLM 애플리케이션을 향상하는 등의 사용 사례가 있을 수 있습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
Snowflake가 관리하는 Iceberg Table을 사용하는 Dynamic Table을 위한 두 가지 새로운 기능이 이용 가능해졌습니다.
추가적으로, 이번 출시는 Snowflake에서 관리하지 않는 Iceberg table의 Stream 사용도 지원합니다
자세한 내용은 릴리스 노트를 참조해 주십시오.
TYPE 속성을 사용하여 서비스 사용자와 실제 사용자를 구분할 수 있습니다.
예를 들어, 실제로 Snowflake에 접속하는 “인간” 사용자와 TROCCO나 dbt와 같은 서비스에서 사용하는 “비인간” 서비스 계정을 명확하게 구분할 수 있습니다.
자세한 내용은 릴리스 노트를 참조해 주시기 바랍니다.
다음 asset location field들이 추가되었습니다.
다음 파트너 커넥터들이 Looker Studio 보고서 갤러리에 추가되었습니다.
다음 Gemini in Looker 기능들이 public 베타 버전로 출시되었습니다.
Gemini in Looker의 자세한 내용이나 Looker Studio에서의 활성화 방법에 대해서는 각각의 링크를 확인해 주세요.
계정 설정에서 Connections 기능이 사용 가능해졌습니다. 지금까지는 프로젝트별로 설정이 필요했지만, 이제는 계정 단위로 여러 프로젝트에서 설정을 사용할 수 있습니다. 변경 사항의 자세한 내용은 공식 문서를 확인해 주세요.
CD(Continuous Distribution)를 실행하기 위한 통합 작업이 일반 출시되었습니다. 이제는 Pull Request가 병합될 때마다 사용자 정의 GitHub Actions를 설정하거나 수동으로 변경 사항을 빌드할 필요 없이 자동으로 처리할 수 있습니다. 설정 방법은 공식 문서를 확인해 주세요.
dbt Cloud CLI에서 SQL 파일의 Lint가 가능해졌습니다. 자세한 내용은 공식 문서를 확인해 주세요.
Generic Data Tests에서 사용자 정의 설정이 가능해졌습니다. 이를 통해 테스트 실행 시 일반설정과 다른 Snowflake 웨어하우스를 설정할 수 있게 됩니다. 설정 방법은 공식 문서를 확인해 주세요.
이 기능 확장에 대해서는 dbt Core에서도 나중에 사용할 수 있을 예정입니다.
dbt Semantic Layer에 대해 Python 라이브러리인 dbt-sl-sdk의 SDK가 도입되었습니다. 이를 통해 Python으로 dbt Semantic Layer에 쉽게 접근할 수 있게 됩니다. 개발자는 dbt Semantic Layer API를 이용하여 다른 도구에서 metric과 Dimension을 쿼리할 수 있습니다. 자세한 내용은 공식 문서를 참조해 주세요.
CI 파이프라인에 세맨틱 검증이 도입되었습니다. dbt sl validate 명령어를 사용하여 CI 작업에 웨어하우스 검증 체크를 추가함으로써, 코드 리뷰 중에 semantic node (metric, semantic model, saved queries)를 자동으로 테스트할 수 있습니다.
변경된 semantic node 검증하여 dbt 모델에 가해진 코드 변경이 metric들을 손상시키지 않도록 할 수 있습니다. 추가적인 명령어와 사용 사례에 대해서는 공식 문서를 참조해 주세요.
기타 업데이트에 대해서는 릴리스 노트를 확인해 주세요.
Tableau Pulse에는 생성된 metric들에 대해 자동으로 제안을 표시해주는 insight라는 기능이 있습니다. insight에는 여러 종류가 있으며(예: 현재 트렌드, 주요 요인 등), ON/OFF 형식으로 선택 및 설정할 수 있습니다.
해당 insight 유형에 일정 기간 동안의 이상값을 표시하는 Record-level Outliers가 추가되었습니다.
공식 문서는 여기에서 확인하실 수 있습니다.
이전에는 누구나 metric들을 편집하거나 삭제할 수 있었지만, metric 생성 화면에서 편집 가능한 사용자를 지정하고 제한할 수 있게 되었습니다. (Creator 또는 Explorer 사용자 대상).
기타 사항은 공식 릴리스 대시보드를 참조해 주세요.
LakeFlow Connect는 데이터베이스와 엔터프라이즈 애플리케이션에서 데이터를 가져와 Databricks에 로드할 수 있는 네이티브 커넥터를 제공합니다.
LakeFlow Connect는 효율적인 점진적 읽기 및 쓰기를 활용하여 데이터 가져오기를 더 빠르고, 확장 가능하며, 비용 효율적으로 수행할 수 있습니다.
현재 지원하는 데이터 소스들은 아래와 같다:
자세한 내용은 'LakeFlow Connect'에 대한 문서를 참조해 주세요.
Delta Sharing이 AI 모델 공유를 지원합니다.
자세한 내용은 공식 문서를 확인해 주세요.
Mosaic AI Model Serving은 Meta와 제휴를 맺어, Meta가 구축하고 훈련한 모델 아키텍처인 Meta Llama 3.1을 지원하게 되었습니다. Llama 3.1은 Foundation Model API에 포함돼 지원됩니다.
Foundation Model API에 대한 자세한 내용은 공식 문서를 확인해 주세요.
Serverless 컴퓨팅을 통해 Databricks 작업을 직접 인프라 리소스를 준비하지 않고 실행할 수 있었는데, 이번에 이 대상에 워크플로우와 노트북이 추가되었습니다. 이를 통해 워크플로우로 작업을 실행하거나 노트북을 사용한 즉석 분석 시에도 serverless 컴퓨팅의 혜택을 누릴 수 있게 되었습니다. 자세한 내용은 아래를 참조해 주세요.
Federated query를 Salesforce Data Cloud에 대해 실행할 수 있게 되었습니다.
자세한 내용은 공식 문서를 참조해 주세요.
2024년 7월 10일부터 Databricks의 UI 및 API 인증에 Databricks에서 관리하는 비밀번호를 사용할 수 없게 되었습니다. 싱글 사인온(SSO)이 설정되지 않은 경우, 사용자는 로그인할 때 이메일로 전송된 고유 코드를 받게 됩니다. Databricks는 OAuth 인증 사용을 권장하며, 이를 고려하여 전환을 검토하는 것이 좋습니다.
자세한 내용은 공식 문서를 참조해 주세요.
Databricks Assistant는 에러 메시지를 감지하면 노트북에서 자동으로 /fix 명령을 실행하게 되었습니다. Assistant는 생성형 AI를 사용하여 코드와 에러 메시지를 분석하고, 노트북 내에서 직접 수정 제안을 제공합니다.
자세한 내용은 공식 문서를 참조해 주세요.
2024년 7월 16일 릴리스로 인해 데이터 전송에 사용되는 메모리 크기가 증가했습니다.
이번 변경은 위의 릴리스 이후에 생성된 전송 설정에 적용됩니다. 전송 작업의 스펙 업그레이드로 인해, 변경 전 작업에 비해 성능이 향상될 가능성이 있습니다.
단, 아래 커넥터들은 예외적으로 현재 메모리 크기가 15 GiB이며, 이번 변경 이후에도 계속해서 15 GiB가 적용됩니다.
전송원 – Databricks가 새롭게 추가되었습니다.
자세한 내용은 전송원 – Databricks를 참조해 주세요.
관리형 데이터 전송의 전송 대상으로 Databricks를 선택할 수 있게 되었습니다. 전송원– Databricks를 참조해 주세요.
데이터 소스를 일괄적으로 가져와 Databricks로 전송하는 전송 설정을 중앙에서 생성 및 관리할 수 있습니다.
지난 업데이트에서 커넥터 단위로 필터링이 지원되었고, 이번 업데이트에서는 개별 연결 정보 단위로 필터링이 가능해졌습니다. 이를 통해 원하는 연결 정보가 어떤 전송 설정에 사용되고 있는지 쉽게 확인할 수 있게 되었습니다.
사용자 관리 화면의 디자인이 변경되었습니다. 이를 통해 각 사용자의 권한(TROCCO®에서 허용된 작업)을 한눈에 확인할 수 있게 되었습니다.
또한, COMETA와 함께 사용할 경우 사용자를 필터링할 수도 있습니다.
TROCCO의 Terraform Provider(베타 버전)가 출시되었습니다.
※1: Advanced 플랜에서 이용할 수 있는 API 옵션 계약이 필요합니다.
※2: 베타버전이므로, 향후 사양이 변경될 가능성이 있습니다.