본 글에서는 데이터 웨어하우스(DWH), ETL 프로세스, BI 도구 등의 업데이트 정보와 최신 트렌드를 매달 쉽게 전달해 드립니다.
주요 뉴스를 선별해 소개하므로, 간단하게 최신 정보를 얻고 싶은 분들은 꼭 확인해 보세요.
VECTOR_SEARCH 함수를 사용하면 임베딩(※)을 검색하여 의미적으로 유사한 항목을 식별할 수 있습니다.
벡터 인덱스를 사용하면 재현성이 떨어질 수 있는 트레이드오프가 있지만, 더 효율적으로 검색할 수 있습니다.
※ 텍스트나 이미지를 벡터 표현으로 변환한 것
다음 함수들을 사용하여 BigQuery ML에서 모델을 모니터링할 수 있습니다.
자세한 내용은 공식 문서를 참조해 주세요.
SQL과 노트북의 실행 순서를 정의하고, 스케줄 실행을 할 수 있게 되었습니다.
자세한 내용은 공식 문서를 참조해 주세요.
자세한 내용은 공식 문서를 참조해 주세요.
최적화를 활성화하면 유사한 쿼리의 실행 정보를 기반으로 쿼리 성능을 개선할 수 있습니다.
자세한 내용은 공식 문서를 참조해 주세요.
이제 Snowflake Feature Store를 모든 지역에서 사용할 수 있습니다.
이 기능은 데이터 사이언티스트나 ML 엔지니어가 머신러닝 모델을 위해 특징량을 생성, 유지, 운영할 때 자주 사용하는 변환 방법을 중앙 집중식으로 repository로 표준화하는 기능입니다.
이를 통해 전처리나 특징량 생성 방법을 재사용할 수 있게 되어, 작업의 수고를 줄이고 품질을 유지하는 데 기여할 수 있습니다.
자세한 내용은 릴리즈 노트를 참조해 주세요.
분석에서 Activation Hub를 사용할 경우, 사용자는 분석 결과를 자신의 Yahoo DSP 계정에 직접 활성화할 수 있게 되었습니다.
이를 통해 Clean Room 내에서 생성된 Audience에 대해 Yahoo DSP를 통해 광고 슬롯을 구매할 수 있게 됩니다.
이로써 Data Clean Rooms 외부로 데이터를 내보내지 않고 통합 형태로 데이터를 연계할 수 있습니다.
사용을 위해 클린 룸 사용자가 Yahoo DSP로 활성화를 진행하려면, Snowflake Data Clean Rooms Activation Connectors 내의 Yahoo DSP 커넥터를 설정해야 합니다.
자세한 내용은 릴리즈 노트를 참조해 주세요.
클린 룸 내에서 Google PAIR를 사용하여 광고주와 퍼블리셔가 각각의 퍼스트 파티 데이터를 안전하게 매칭할 수 있게 되었습니다 .이를 통해 Publisher와 광고주는 Google PAIR 프로토콜을 활용하여 광고주가 암호화된 식별자를 사용해 audience 중복 분석을 실행할 수 있습니다.
또한, 매칭된 개인 데이터를 활용해 안전하게 광고를 입찰하는 온라인 광고 플랫폼인 Google DV 360으로 맞춤형 오디언스 데이터를 push할 수 있게 되었습니다.
이를 통해 Data Clean Rooms 외부로 데이터를 내보내지 않고, 통합된 방식으로 데이터를 진행행할 수 있습니다.
사용을 위해 클린 룸 사용자가 Google DV 360으로 데이터를 push하려면, Snowflake Data Clean Rooms Activation Connectors 내의 Google DV 360 커넥터를 설정해야 합니다.
자세한 내용은 릴리즈 노트
를 참조해 주세요.
이 새로운 Snowflake Cortex LLM 함수 CLASSIFY_TEXT를 사용하면 텍스트 레코드를 비즈니스와 관련된 카테고리로 쉽게 라벨링할 수 있습니다.
라벨은 사용자가 직접 설정해야 하지만, 문장과 라벨 목록을 인수로 입력하면 간단하게 문장에 대한 라벨링을 수행할 수 있습니다.
자세한 내용은 릴리즈 노트를 참조해 주세요.
Cortex LLM COMPLETE 기능에서 다음의 추가 모델들이 지원됩니다.
jamba-1.5-large는 재무 분석 및 고급 추론 작업에서 속도와 효율성을 동시에 갖춘 모델로, 256k의 컨텍스트 윈도우, RAG 최적화, JSON 출력 지원 등 실용성을 중시하여 설계되었습니다.
llama3.2-1 계열은 경량 텍스트 모델로, 간단한 작업에서 비용 효율성을 중시할 때 사용할 수 있습니다.
자세한 내용은 릴리즈 노트를 참조해 주세요.
SELECT 문에서 테이블 형식의 데이터를 반환하는 저장 프로시저를 아래와 같이 FROM 절에서 호출할 수 있게 되었습니다.
SELECT … FROM TABLE( <stored_procedure_name>( <arg> [ , <arg> … ] )
이로 인해 CALL 절로 호출할 필요가 없어져, dbt나 TROCCO의 데이터 마트 전송에서 직접 호출할 수 있게 됩니다.
자세한 내용은 릴리스 노트를 참고해 주세요.
이상 감지 모델의 ML 함수에 전처리 기능이 추가되어, 학습 데이터에 누락, 중복, 또는 불규칙한 시간이 있어도 이상 감지 모델을 정상적으로 학습할 수 있게 되었습니다.。
그동안 실제 데이터에서 흔히 발생하는 데이터 불일치와 부적합성으로 인해 학습에 방해가 되는 경우가 많았습니다.
이번 릴리스에서는 추가된 전처리 기능을 통해 다음과 같은 작업이 가능해집니다.
시계열 데이터의 전처리는 난이도가 높고, 특히 도메인 특성을 이해한 후에 올바르게 전처리하는 것이 필요합니다. 이를 자동으로 대체해 주는 기능으로서 활용도가 매우 높다고 생각합니다.
자세한 내용은 릴리스 노트를 참고해 주세요.
ACCOUNT_USAGE 스키마 내에서 새로운 DYNAMIC_TABLE_REFRESH_HISTORY가 이용 가능합니다.
Dynamic Table의 업데이트 이력에 관한 정보가 제공되며, 최대 1년간의 이력이 유지됩니다.
Dynamic Table 업데이트는 한 번 정의한 후 모니터링 방법이 제한적이었지만, 이제 새로운 뷰를 사용하면 처리 지연 발생이나 불필요한 비용 사용 등을 감지할 수 있습니다.
다국어 모델인 voyage-multilingual-2가 지원됩니다.
multilingual-e5-large보다 32k로 컨텍스트 윈도우가 크며, 일본어, 한국어, 프랑스어에 대해 높은 정확도를 보이는 모델로 보고되었습니다. (참고)
자세한 내용은 릴리스 노트를 참고해 주세요.
이번 릴리스에서는 외부 카탈로그를 사용하는 Apache Iceberg 테이블에 대한 자동 메타데이터 업데이트의 베타 지원을 발표합니다. 자동 업데이트를 통해 Snowflake는 외부 Iceberg 카탈로그를 지속적으로 서버리스 방식으로 폴링하여 메타데이터를 최신 원격 변경 사항과 동기화합니다.
생성 시 REFRESH_INTERVAL_SECONDS 옵션을 설정하면 외부 카탈로그와의 동기화를 수행할 수 있습니다.
자세한 내용은 릴리스 노트를 참고해 주세요.
이번 릴리스에서 Snowflake 관리 Iceberg 테이블의 클론 생성 기능이 프리뷰로 이용 가능해졌습니다.
일반 테이블을 클론하는 것처럼 Iceberg 테이블도 CLONE할 수 있게 됩니다.
자세한 내용은 릴리스 노트를 참고해 주세요.
Snowpark에 최적화된 가상 웨어하우스의 리소스 제약 기능이 베타버전으로 제공됩니다.
원래 가상 웨어하우스를 구축할 때 Snowpark에 최적화하는 옵션이 존재했으나, 이제는 리소스 제약으로 CPU 및 메모리 크기를 지정할 수 있게 되었습니다.
Snowpark 사용 시 내부 리소스를 많이 사용하는 경우가 많기 때문에, workload 확보를 위한 옵션 기능이 추가됨으로써 수행할 수 있는 작업의 범위가 크게 확장되었습니다.
자세한 내용은 릴리스 노트를 참조하세요.
이제 피벗 테이블의 열 헤더 텍스트가 너무 길어서 보기 어려울 때 텍스트를 줄바꿈하여 가독성을 높일 수 있습니다.
다음 파트너 커넥터가 Looker Studio 보고서 갤러리에 추가되었습니다.
Funnel 차트가 새롭게 사용 가능해졌습니다. 연속적인 프로세스에서 지표의 변화를 시각화하는 데 활용할 수 있습니다.
Excel 워크시트에 있는 데이터에 연결하여 활용할 수 있습니다.
대화형 분석을 통해 자연어로 데이터를 쿼리할 수 있으며, 이를 통해 자연어로 답을 찾고 데이터를 탐색하며 인사이트를 쉽게 공유할 수 있습니다.
dbt Assist의 코파일럿 기능으로 Semantic 모델을 생성할 수 있으며, 문서화, 테스트, 의미 모델을 자동으로 생성할 수 있습니다.
자세한 내용은 dbt Assist를 참조해 주세요.
dbt Cloud Versionless에서 새로운 foreign_key 제약 조건 권장 구문을 사용할 수 있습니다.
이 구문은 종속성을 파악하여 다양한 환경에서도 기능하며, 곧 출시 예정인 dbt Core v1.9에서도 제공될 예정입니다.
자세한 내용은 공식 문서를 참고해 주세요.
dbt Cloud IDE에서 세맨틱 레이어 명령어를 실행할 수 있게 되었습니다.
지원되는 명령어들은 다음과 같습니다.
Excel Desktop 및 Excel Online에서 metric을 쿼리할 수 있는 연동 기능이 정식(식)으로 사용 가능합니다.
이제 dbt Explorer에서 Data health tile을 사용할 수 있어 데이터의 품질과 잠재적 문제를 한눈에 파악할 수 있습니다.
자세한 내용은 공식 문서를 참고해 주세요.
dbt Cloud Enterprise용 dbt Explorer에서 Model query history 기능이 베타 버전으으로 출시되었으며, 데이터 웨어하우스의 쿼리 로그를 기반으로 모델의 쿼리 소비량을 확인할 수 있습니다. 이를 통해 중요한 데이터 제품에 집중할 수 있는 인사이트를 제공합니다.
자세한 내용은 공식 문서를 참고해 주세요.
Semantic 레이어 자격 증명에서 직접 설정된 값이 우선 적용됩니다.
현재는 exports 사용 시 환경 변수의 작업 덮어쓰기를 지원하지 않지만, 향후 지원될 예정입니다.
다음 두 가지 환경 변수에 기본 설정들이 추가되었습니다.
dbt Cloud에서 Versionless로 업그레이드된 계정을 대상으로 Amazon Athena 데이터 웨어하우스 연결이 베타 버전으로 제공됩니다.
Tableau Desktop 2024.3는 아직 "Coming Soon" 상태이지만, 일부 기능이 클라우드에서 먼저 구현된 것으로 보입니다.
기존 파라미터 기능 유형 중 하나로 "공간"을 선택할 수 있게 되었습니다.
WKT 형식의 값을 전달하여 공간 데이터를 기반으로 계산할 수 있으며, 생성된 파라미터와 공간 연산자(DIFFERENCE, INTERSECTION, SYMDIFFERENCE, UNION)를 사용하여 계산 필드를 만들 수 있습니다. 예를 들어, 두 영역의 교차하는 영역을 시각화하는 것이 가능해집니다.
※ 값은 WKT 형식이어야 합니다.
예를 들어, 샘플 수퍼스토어의 "Country" 필드는 지리적 역할이 부여되어 있더라도 데이터 형식은 텍스트 형식이기 때문에 파라미터 생성 시 값의 원본으로 사용할 수 없습니다.
자세한 내용은 공식 문서를 참조하세요.
Einstein Copilot의 대화 창에 데이터를 탐색할 수 있는 질문이 표시되도록 업데이트되었습니다.
질문을 선택하면 해당 질문에 답하는 시각화(Viz)가 자동으로 생성됩니다.
자세한 내용은 공식 문서를 참조하세요.
Snowflake를 커넥터로 선택할 때 인증 방법으로 Key Pair 인증을 선택할 수 있게 되었습니다.
자세한 내용은 공식 문서를 참조하세요.
IBM Informix가 커넥터로 새롭게 추가되었습니다. 자세한 내용은 공식 문서를 참조해 주세요.
그 외 업데이트 정보는 공식 릴리스 대시보드를 확인해 주세요.
Meta Llama 3.1 405B Instruct가 Databricks Function Calling에서 지원되기 시작했습니다.
이 기능은 이전에는 요청을 통해서만 사용할 수 있었으나, 이제는 요청 없이도 이용할 수 있습니다.
vector_search() 기능의 자세한 내용은 공식 문서를 참조해 주세요.
이제 외부 모델이 Amazon Bedrock에서 모델을 사용할 때 AWS 리소스에 접근하기 위한 인스턴스 프로파일을 지원합니다.
자세한 내용은 공식 문서를 확인해 주세요.
Databricks 계정 관리자는 SSO가 구성되지 않은 경우에도 최대 20명의 사용자에게 긴급 접근을 설정할 수 있습니다.
이 사용자들은 FIDO 2 보안 키나 모바일 인증 앱을 통한 다중 요소 인증으로 Databricks에 로그인할 수 있습니다.
자세한 내용은 공식 문서를 참조해 주세요.
이제 Foundation Model API의 프로비저닝된 처리량을 통해 Meta Llama 3.2 3B 및 1B 모델을 사용할 수 있습니다.
Meta Llama 3.2의 3B 및 1B 모델이 Mosaic AI Model Training에서 지원되기 시작했습니다.
지원되는 모델 목록은 공식 문서를 확인해 주세요.
이제 Databricks의 테이블이나 스키마에서 Power BI 서비스로 직접 시맨틱 모델을 게시할 수 있습니다. 자세한 내용은 공식 문서를 참조해 주세요.
에이전트에 Unity Catalog의 함수를 툴로 제공하여 AI Playground 내에서 직접 상호작용할 수 있습니다.
자세한 내용은 공식 문서를 참조해 주세요.
새로운 EXTERNAL USE SCHEMA 권한을 통해 Iceberg 클라이언트나 Microsoft Fabric이 Unity Catalog API를 사용해 데이터에 접근할 때 외부 처리 엔진의 데이터 접근을 제한할 수 있습니다.
Assistant Quick Fix는 코드 실행 중 오류가 발생했을 때 단일 행 수정 사항을 제안하며, 수정 사항을 수락하면 코드를 계속 실행할 수 있습니다. 자세한 내용은 공식 문서를 참고해 주세요.
Mosaic AI Gateway가 베타 버전로 제공되며, 생성 AI 모델의 사용 및 관리를 효율화하고 접근 제어, 모니터링, 프로덕션 대응을 지원합니다. 접근 제어, 로그 기록, 사용 추적, AI 가드레일, 트래픽 라우팅 등의 기능이 포함되어 있습니다.
이제 테이블 및 테이블 열뿐 아니라, 카탈로그, 스키마, 함수, 모델, 볼륨에도 AI 생성 댓글을 추가할 수 있게 되었습니다
이를 통해 VSCode IDE에서 원격 Databricks 워크스페이스에 연결하여 노트북 디버깅 및 작업 실행 등을 수행할 수 있습니다.
자세한 내용은 공식 문서를 참고해 주세요.
Databricks의 시스템 테이블 플랫폼이 GA로 출시되었으며, 여기에는 system.billing.usage 및 system.billing.list_price 테이블의 GA 릴리스가 포함됩니다.
자세한 내용은 공식 문서를 참고해 주세요.
플로우 편집 시 작업 자동 레이아웃이 가능해졌습니다. 플로우 편집 중 자동 레이아웃을 클릭하면 워크플로 작업이 자동으로 정렬됩니다.
이제 TROCCO API에서 임의의 데이터 마트 정의를 지정하여 작업을 실행할 수 있습니다.
아래의 전송 원본 커넥터에서 Parquet 전송이 가능해졌습니다.
HTTP 및 HTTPS 연결 정보를 생성할 때 사용자 지정 매개변수를 추가할 수 있게 되어, 연결 대상 API의 사양에 맞춘 특정 매개변수를 요청에 포함할 수 있습니다. 자세한 내용은 HTTP 및 HTTPS 연결 정보를 참조해 주세요.
Google BigQuery와 Google Cloud Storage 연결 정보의 서비스 계정 인증과 관련하여, 기존에는 서비스 계정을 생성한 프로젝트가 자동으로 지정되었습니다.
이번 변경으로 서비스 계정이 권한을 가진 프로젝트 목록에서 프로젝트 ID를 선택할 수 있게 되었습니다.
전송 설정이나 데이터 마트 정의 등의 메모란은 Markdown 문법을 지원합니다. 이러한 Markdown 지원 영역에서 Tab 키로 인덴트를 추가하고, Shift+Tab 키로 인덴트를 제거할 수 있게 되었습니다.