이 기사에서는 데이터 웨어하우스(DWH), ETL 프로세스, BI 도구 등의 업데이트 정보와 최신 트렌드를 매월 알기 쉽게 정리해 드립니다.
주요 뉴스를 엄선하여 제공하므로, 최신 정보를 간편하게 확인하고 싶은 분들께 추천드립니다.
파이프 문법은 파이프 기호(|>)를 사용하여 처리를 작성합니다.
표준 문법과는 달리, 필터링, 집계, 결합 등을 원하는 순서로 원하는 횟수만큼 작성할 수 있어 애드혹 분석 등에 활용할 수 있습니다.
2024년 10월 현재, 파이프 문법을 사용하려면 신청 양식을 통해 신청해야 합니다.
자세한 내용은 공식 문서를 참고하세요.
BigQuery orchestration 페이지에서 노트북의 스케줄 관리, Airflow DAGs의 표시, trigger, 일시 정지가 가능합니다.
자세한 내용은 아래 공식 문서들을 참고해 주세요.
BigQuery에서 Gemini를 통해 데이터 정리 및 변환에 대한 제안과 적용이 가능합니다.
또한 증분 업데이트를 포함한 대상 테이블로의 쓰기 및 작업 스케줄 실행도 가능합니다.
자세한 내용은 공식 문서를 참고하세요.
Cortex Search는 고품질 검색과 대규모 언어 모델(LLM) 기반 챗봇 애플리케이션 개발을 간소화하는 텍스트 검색 서비스입니다.
이 서비스는 RAG 챗봇의 검색 엔진으로 활용하거나 독립형 검색 엔진으로 사용할 수 있습니다.
GA로 정식 출시되었지만, 여전히 영어에 최적화되어 있으며, 성능상의 이유로 크기 제한 등의 제약이 있습니다.
자세한 내용은 릴리스 노트를 참고하세요.
이번 릴리스를 통해 Snowpark Container Services를 통해 Snowflake Notebooks를 실행할 수 있게 되었습니다.
현재는 프리뷰 단계로, CPU와 GPU 두 가지 런타임을 선택할 수 있습니다. 또한 Snowflake에서 이미 검증 및 통합한 Python 패키지와 버전의 기본 세트가 포함되어 있어 바로 시작할 수 있습니다.
자세한 내용은 릴리스 노트를 참고하세요.
Cortex Analyst를 Cortex Search와 통합하여 문자열 서치를 개선하고, Cortex Analyst가 보다 정확한 SQL 쿼리를 작성할 수 있게 되었습니다.
구체적으로는, Cortex Search 서비스를 생성하여 기본 데이터베이스 열에 대해 semantic 검색을 실행하고, SQL 쿼리에서 Cortex Analyst가 사용하는 데 필요한 값을 찾아 사용자 질문에 답할 수 있습니다.
자세한 내용은 릴리스 노트를 참조해 주세요.
Snowflake는 Snowflake의 Apache Iceberg™ 테이블과 이전에 Polaris Catalog로 불렸던 Snowflake Open Catalog의 통합이 GA(정식 출시)에 도달했다고 발표했습니다.
GA와 함께 다음 기능들이 업데이트되었습니다.
OCR로 기능하는 Document AI는 청구서나 계약서와 같은 문서에서 정보를 추출하고 이를 운영 워크플로에 직접 적용함으로써, Snowflake 내에서 지능형 문서 처리(IDP) 워크플로를 설정할 수 있습니다.
Document AI는 Snowflake의 독자적인 대규모 언어 모델(LLM)인 Arctic-TILT(Text Image Layout Transformer)를 탑재하고 있습니다.
자세한 내용은 릴리스 노트를 참조하세요.
단일 데이터베이스 내에서 트랜잭션과 분석 두 가지 사용 사례의 실행을 지원하는 Hybrid Table이 GA(정식 출시)에 도달했습니다.
애플리케이션 DB로의 사용을 염두에 두면서도 분석 워크로드를 처리할 수 있도록 설계되었습니다.
자세한 내용은 릴리스 노트를 참조하세요.
Snowflake 내에서 배포된 Streamlit 애플리케이션과 Snowflake 오브젝트 간의 상호작용을 공용 인터넷을 거치지 않고, AWS 내의 전용선에서만 완료할 수 있는 기능이 GA(정식 출시)에 도달했습니다.
이를 통해 애플리케이션 배포 시 보안 요구 사항이 엄격한 경우에도 대응할 수 있습니다.
자세한 내용은 릴리스 노트를 참조하세요.
직접 Fine-Tuning을 수행하여 조정한 모델을 Data Sharing 메커니즘을 통해 공유할 수 있게 되었습니다.
Fine-Tuning 자체는 SNOWFLAKE.CORTEX.FINETUNE 함수를 사용하여 수행할 수 있습니다.
자세한 내용은 릴리스 노트를 참조하세요.
문서에서 텍스트와 레이아웃을 추출하기 위한 새로운 Snowflake Cortex LLM 함수 중 하나로 PARSE_DOCUMENT 함수가 도입되었습니다.
PARSE_DOCUMENT 함수는 강력한 광학 문자 인식(OCR) 기능과 기계 학습 모델을 결합하여 문장이나 테이블에 저장된 정보 및 PDF 문서의 구조적 요소를 식별할 수 있습니다.
단독으로 활용하는 것뿐만 아니라 RAG 애플리케이션에서도 사용할 수 있도록 설계되었습니다.
자세한 내용은 릴리스 노트를 참조하세요.
Snowflake Native App 프레임워크에서 AWS PrivateLink가 지원됩니다.
AWS PrivateLink는 공용 인터넷을 거치지 않고 AWS VPC와 Snowflake VPC 간에 직접적이고 안전한 연결을 가능하게 하는 프라이빗 VPC 엔드포인트를 생성하기 위한 AWS 서비스입니다.
이를 통해 Snowflake에 배포된 Native App과 AWS 서비스를 안전하게 연결할 수 있습니다.
자세한 내용은 릴리스 노트를 참조하세요.
리소스 관리용 API로서 Snowflake REST API가 정식으로 제공됩니다.
사용자는 Snowflake Data Cloud 내 다양한 리소스를 프로그래밍 방식으로 조작하고 제어할 수 있는 엔드포인트 세트를 이용할 수 있습니다.
또한 GA 출시와 함께 서비스 및 컴퓨팅 풀 API의 PUT 엔드포인트 추가, 계정 및 카탈로그 통합, 사용자 정의 함수 등 세부적인 설정이 가능해졌습니다.
자세한 내용은 릴리스 노트를 참조하세요.
외부 네트워크 액세스를 구성하고 프라이빗 엔드포인트를 생성하여, 프라이빗 연결을 통해 Snowpark 내 UDF/UDTF 또는 스토어드 프로시저에서 외부 네트워크 위치에 연결하는 기능이 정식 제공됩니다.
Snowflake 계정은 AWS PrivateLink를 사용하여 외부 네트워크 위치에 접근할 수 있으며, Azure 기반의 Snowflake 계정은 Azure Private Link를 통해 연결할 수 있습니다.
자세한 내용은 릴리스 노트를 참조하세요.
테스트나 개발 시 원본 데이터에 최대한 가까운 데이터를 사용하고 싶지만, 기밀 정보나 제약으로 인해 사용이 어려운 경우가 있을 수 있습니다.
이 스토어드 프로시저를 통해 합성 데이터 생성 기능을 활용하여 원본 데이터와 매우 유사한 현실적인 데이터셋을 프로그래밍 방식으로 생성할 수 있습니다. 이를 통해 테스트, 검증 등 다양한 워크로드에서 기밀 정보나 제한된 정보를 대체할 수 있습니다.
자세한 내용은 릴리스 노트를 참조하세요.
새로운 검색 광고 360(Search Ads 360) 커넥터를 통해 다음과 같은 카트 전환 관련 필드들이 제공됩니다.
다음 파트너 커넥터가 Looker Studio 보고서 갤러리에 추가되었습니다.
추가된 커넥터 목록들은 다음과 같습니다:
피벗 테이블 차트에서 스타일 탭에 있는 "텍스트 줄바꿈" 옵션을 활성화하면, 행 머리글 텍스트에 줄바꿈을 적용할 수 있게 되었습니다. 이를 통해 긴 텍스트도 더 가독성 있게 표시할 수 있습니다.
dbt Labs가 주최한 컨퍼런스 Coalesce 2024에서 많은 새로운 기능들이 발표되었습니다.
자세한 내용은 공식 문서를 참고해 주세요.
사용자 이름과 비밀번호를 사용하는 인증 방식에서 다중 인증이 의무화됩니다.
사용자 API 토큰은 비권장 상태로 전환되며, 개인 액세스 토큰(personal access token)의 사용이 권장됩니다.
Enterprise 플랜에서 Git의 서명된 커밋이 지원됩니다. 지원되는 Git 제공자는 GitHub와 GitLab입니다.
dbt Mesh를 사용하면 프로젝트 간에 양방향 종속성을 활성화할 수 있습니다. 이전까지 dbt는 종속성을 단방향으로만 강제했습니다. dbt는 프로젝트 간 순환 종속성을 검사하며, 이를 감지하면 오류를 발생시킵니다.
자세한 내용은 공식 문서를 참고해 주세요.
사용자는 Python을 통해 dbt 세멘틱 레이어에 쉽게 접근할 수 있으며, 개발자는 dbt 세멘틱 레이어 API와 상호작용하여 하위 도구에서 메트릭 및 디멘션을 쿼리할 수 있게 됩니다.
데이터 갱신 방식에서 마이크로배치 증분 모델 전략을 선택할 수 있게 되었습니다. 이를 통해 대규모 시계열 데이터셋을 효율적으로 배치 기반으로 처리할 수 있으며, 매일 새로운 레코드가 추가되는 데이터를 다룰 때 성능과 복원력이 향상됩니다.
이를 통해 회계연도와 같이 일반적인 달력과 다른 기준으로 기간 쿼리를 설정할 수 있게 되었습니다.
설정된 데이터 테스트와 manifest.json의 내용을 기반으로 모델의 primary_key를 추론하는 기능이 제공되기 시작했습니다. 추론된 primary_key는 dbt Explorer에서 시각화됩니다.
dbt Explorer에 신뢰 신호 아이콘이 추가되었습니다. 신뢰 신호를 사용하면 Explorer에서 dbt 모델을 참조할 때 데이터의 건강 상태를 한눈에 빠르게 확인할 수 있습니다. 건강 상태는 Healthy, Caution, Degraded, 또는 Unknown 중 하나로 표시됩니다.
Auto-exposures 기능이 사용 가능해졌습니다. Tableau 대시보드 등과 같은 다운스트림 분석 도구에서 모델이 사용되고 있는 경우, 리니지를 시각화할 수 있습니다.
그 외에도 몇 가지 사양 변경 및 수정 사항이 릴리스되었습니다.
자세한 내용은 10월 릴리스 노트를 참조하시기 바랍니다.
10월에 Tableau 2024.3이 릴리스되었습니다.
모든 업데이트는 공식 사이트를 참조해 주세요.
여러 사이트를 운영할 수 있게 되었으며, 사이트 관리자는 TCM을 통해 사용자 권한 관리 등을 수행할 수 있게 되었습니다.
이전에는 구매한 라이선스당 1개의 사이트만 운영할 수 있었지만, Standard 플랜에서는 최대 3개의 사이트를 운영할 수 있습니다.
자세한 내용은 공식 문서나 공식 블로그를 참조해 주세요.
Viz 확장 기능에 "테이블용 Viz 확장"이 추가되었습니다.
이제 테이블에 대해 데이터 바, 색상 스케일 등 Excel과 유사한 표현이 가능합니다.
또한, 열별 데이터 유형에 따라 간단한 필터 표시 및 Excel로 다운로드 버튼 표시 기능도 제공합니다.
자세한 내용은 확장 기능에 대한 공식 문서를 참조해 주세요.
게시된 데이터 소스를 연결했을 때, 데이터 소스 화면에서도 데이터 모델을 확인할 수 있게 되었습니다.
기존에는 게시된 데이터 소스를 연결한 경우, Desktop에서는 데이터 모델이 표시되지 않고 항목 목록만 확인할 수 있었습니다.
데이터 모델을 확인하려면 Cloud에 게시된 워크북을 참조해야 했지만, 이제는 Desktop에서도 확인이 가능합니다.
지난달 Cloud에서 선공개된 기능으로, 이제 매개변수에 전달할 수 있는 값의 유형으로 "공간"을 선택할 수 있게 되었습니다.
예를 들어, BUFFER 함수와 공간 매개변수를 결합하면 중심 좌표에서 반경 5km의 원 같은 도형들을 그릴 수 있습니다.
자세한 내용은 공식 문서를 참조해 주세요.
Teams용 Tableau 앱이 출시되었습니다. 이를 통해 Teams를 통해 Tableau Cloud 및 Pulse의 공유가 더욱 쉬워집니다.
Microsoft의 AppSource에서 다운로드할 수 있습니다.
TabPy는 Tableau에서 Python 스크립트나 함수를 실행할 수 있게 해주는 분석 확장 기능으로, 번역 함수 구현, 고급 통계 분석, 예측 모델 활용 등이 필요한 경우 유용합니다.
커스텀 함수 탐색기를 통해 배포된 모델 목록과 상세 정보를 확인할 수 있으며, TabPy를 보다 효율적으로 활용할 수 있는 인터페이스를 제공합니다.
자세한 내용은 공식 문서를 참조해 주세요.
Databricks Assistant에 /optimize 슬래시 명령어가 추가되었습니다.
SQL 쿼리의 비효율적인 부분을 식별하고 실시간으로 수정해줍니다.
Databricks Runtime 15.1 및 Machine Learning용 동일 버전에 대한 지원이 10월 30일부로 종료되었습니다. 자세한 내용은 support life cycle을 참조하세요.
Llama 2 70B Chat 모델이 Foundation Model APIs의 사용량 기반(pay-per-token) 엔드포인트에서 지원이 종료되었습니다. 권장 대체 모델에 대한 정보는 단종된 모델 목록(retired models)을 참조하세요.
계정 관리자는 새 워크스페이스 생성 시 동일한 리전 내에서 Unity Catalog의 메타스토어를 자동으로 할당할 수 있게 되었습니다.
이를 통해 기본적으로 Unity Catalog가 활성화됩니다. 자세한 내용은 공식 문서를 확인하세요.
Mosaic AI Model Serving에서 구조화된 출력이 지원되며, 이제 챗 모델이 생성하는 응답을 JSON 스키마로 포맷 지정할 수 있습니다. 자세한 내용은 공식 문서를 확인하세요.
Databricks Runtime 16.0 이상에서 Single User Compute의 세분화된 액세스 제어(Fine-grained access control)가 정식 출시(GA)되었습니다.
다음과 같은 뷰 및 필터가 적용된 테이블에 대한 쿼리가 서버리스 컴퓨팅에서 실행됩니다:
자세한 내용은 공식 문서를 확인하세요.
서버리스 사용량의 과금 명확성을 높이기 위해 사용자, 그룹 또는 service principal에 Budget Policies를 생성 및 할당할 수 있게 되었습니다.
정책 할당 대상에 따라 모든 서버리스 사용량에 커스텀 태그가 적용되며, 이를 통해 노트북, 작업(Job), 파이프라인에서의 사용량에 대한 상세한 과금 정보를 확인할 수 있습니다.
Billing Usage System 테이블에 서버리스 컴퓨팅과 리소스 간 연결로 발생하는 비용을 모니터링하기 위한 필드가 추가되었습니다.
자세한 내용은 공식 문서를 확인하세요.
코드 입력 시 인라인 코드 자동 완성을 제공하여 보다 빠르고 효율적으로 코드를 작성할 수 있도록 지원하는 Assistant Autocomplete가 정식 출시(GA)되었습니다.
자세한 내용은 공식 문서를 확인하세요.
Python 프레임워크를 활용한 애플리케이션을 구축하고 Unity Catalog 및 Databricks SQL과 같은 Databricks 리소스를 활용할 수 있도록 지원하는 Databricks Apps가 공개 미리보기로 제공됩니다.
자세한 내용은 공식 문서를 확인하세요.
Salesforce 커넥터가 자동화되어, 이전에 수동으로 설정해야 했던 소스 설정이 간소화되었습니다.
자세한 내용은 공식 문서를 참고하세요.
워크플로우 정의 상세 화면의 변경 이력 탭에서 과거 변경 내용을 복원할 수 있게 되었습니다. 복원하려는 수정 시점에서 세부 설정·복원을 클릭하면 리비전 상세 화면이 표시됩니다. 차이를 확인한 후 설정을 복원을 클릭하면 해당 수정 시점의 설정으로 돌아갈 수 있습니다.
워크플로우 정의 상세 화면에 변경 이력 탭이 추가되었습니다.
이를 통해 워크플로 정의의 변경 이력을 확인할 수 있습니다.
연결 정보를 생성하거나 편집할 때 사용자·비밀번호 인증이 더 이상 권장되지 않습니다.
이제 key pair 인증으로도 사전 연결 확인이 가능하므로, 앞으로는 key pair 인증을 사용해 주시기 바랍니다.
TROCCO API를 통해 사용자 정보와 관련된 다음 작업들을 수행할 수 있게 되었습니다.
전송에 사용되는 Yahoo! 광고 API 버전이 v12에서 v13으로 업데이트되었습니다. 새 버전에 대한 자세한 내용은 아래 문서들을 참조하시기 바랍니다.