본 기사에서는 데이터웨어하우스(DWH), ETL 프로세스, BI 툴 등의 업데이트 정보와 최신 트렌드를 매월 알기 쉽게 전달해 드립니다.
주요 뉴스를 선별해 놓았으니, 빠르게 최신 소식을 접하고 싶으신 분들은 꼭 읽어보시기 바랍니다.
쿼리 작업의 과거 슬롯 사용량을 분석하여 유사한 성능을 유지한 상태에서 비용 최적화 권장 사항과 예약에 대한 성능 기반 권장 사항을 얻을 수 있습니다.
온디맨드 과금의 경우, 프로젝트를 Enterprise 에디션으로 전환할 경우 비용 최적화 권장 사항을 얻을 수 있습니다.
Jupyter 노트북을 이용해BigQuery 데이터 확인,BigQuery DataFrames API 사용,노트북을 CloudComposer에 배포할 수 있습니다.
이번 달의 스노우플레이크 소식을 정리하면서 6월 3일~6월 6일(현지 시간) 개최된 Snowflake Summit 2024에서 발표된 내용도 함께 소개합니다.
이 라이브러리는 Java 템플릿과 퀵스타트를 결합한 라이브러리로, 이를 통해 독자적인 Snowflake Native App 기반 커넥터를 빠르게 구축하여 외부 데이터 소스에서 Snowflake로 데이터를 쉽게 가져올 수 있습니다.
자세한 내용은 '커넥터용Snowflake 네이티브 SDK 소개' 페이지를 참고하시기 바랍니다.
본 내용은 Snowflake Summit 2024에서 발표된 내용입니다.
스노우사이트에서 노트북 형태로 대화형으로 데이터에 접근하고 분석할 수 있는 환경을 이용할 수 있게 되었습니다.
지금까지는 로컬 환경이나 다른 Python Notebook에서 접속 정보를 이용해 Snowflake에 접속해야 했지만, 이제 Snowflake 내의 폐쇄된 환경 내에서만 데이터 활용이 가능해졌다.
또한, 기사 작성 시점에는 사용 가능한 지역이 제한되어 있지만, Snowflake Copilot을 사용할 수도 있습니다.
자세한 내용은 'Snowflake Notebooks 소개' 페이지를 참고하세요.
본 내용은 Snowflake Summit 2024에서 발표된 내용입니다.
Snowpark를 통해 데이터에 접근하여 데이터 처리 및 데이터 가공을 할 때, Snowpark Pandas API를 이용하여 Snowflake의 데이터에 대해 Pandas의 설명을 SQL로 번역하여 발행하는 형태로 처리할 수 있는 기능을 사용할 수 있게 되었습니다.
지금까지Snowpark API를 통해 Pandas로 데이터에 대한 조작을 할 때, 클라이언트 실행 환경에 다운로드하는 형태로 데이터를 보관한 후 PySpark처럼 DataFrame을 조작하는 것이 가능했지만, 실행 환경의 사양에 따른 성능 및 보안 우려 등이 있었다, 보안에 대한 우려 등이 있었지만, 처리 자체를 Snowflake 내부에서만 완료할 수 있게 됨으로써 워크로드 및 보안에 대한 우려를 해소할 수 있게 되었습니다.
자세한 내용은 Snowpark pandas API 페이지를 참고하시기 바랍니다.
본 내용은 Snowflake Summit 2024에서 발표된 내용입니다.
Snowflake Native Apps로Streamlit에서 개발된 애플리케이션을 이용할 수 있었는데, 이번 릴리스에서Snowpark Container Service도 이용할 수 있게 되었습니다.
Snowpark ContainerService는 컨테이너화된 애플리케이션을 Snowflake 내에 배포할 수 있는 기능으로, Streamlit처럼 Python으로만 개발하지 않고 배포할 수 있는 것이라면 모든 언어, 프레임워크로 배포할 수 있는 환경을 제공한다, 애플리케이션을 실행할 수 있는 환경을 제공하는 서비스입니다.
Native Apps로 이용할 수 있게 됨으로써 Streamlit에서는 개발이 어려운 웹 애플리케이션 구축이나 LLM을 비롯한 머신러닝 모델 학습 및 실행까지 다양한 애플리케이션을 Marketplace를 통해 누구나 이용할 수 있도록 공개할 수 있게 되었습니다. 할 수 있게 됩니다.
자세한 내용은 컨테이너 앱에 대한 페이지를 참고하세요.
본 내용은 Snowflake Summit 2024에서 발표된 내용입니다.
Snowflake에 대한 처리 코드를 작성할 때 CI/CD 파이프라인 배포 전에 테스트할 수 있는 프레임워크를 사용할 수 있게 되었습니다.
가장 큰 장점은 Snowflake 계정에 대한 접근이 필수적이지 않고, 테스트 코드 내에 작성한 DataFrame을 Snowflake의 객체로 인식시켜 Snowflake에서 테스트하는 것과 같은 환경 제공(에뮬레이터) 역할을 할 수 있다는 점입니다.
자세한 내용은 로컬 테스트 프레임워크에 대한 페이지를 참고하세요.
본 내용은 Snowflake Summit 2024에서 발표된 내용입니다.
Snowflake Marketplace에서 사용 가능한 테이블, 함수, 데이터베이스, 데이터 제품, 관련 Snowflake 문서 주제, Snowflake 커뮤니티 지식베이스의 관련 기사 등 Snowflake와 관련된 다양한 정보를 Snowsight에서 한 번에 검색할 수 있는 기능이 추가되었습니다.
Snowflake와 관련된 다양한 정보를 한 번에 검색할 수 있는 기능이 GA에 추가되었습니다.
GA와 함께 워크시트와 대시보드도 검색 결과에 포함되었습니다.
자세한 내용은 'Snowflake 객체 및 리소스 검색' 페이지를 참고하세요.
본 내용은 Snowflake Summit 2024에서 발표된 내용입니다.
기밀 정보를 유지하면서 인사이트를 얻을 수 있는 공유 방법으로 제공되는 Data Clean Rooms의 다양한 기능을 추가 및 개선했습니다.
특징적인 릴리스를 중심으로 발췌하여 소개합니다.
Snowflake Data CleanRooms는 현재 Snowflake가 지원하는 모든 상용 지역에서 사용할 수 있습니다.
지원 지역은 릴리즈 노트를 참고해 주시기 바랍니다.
이제 공급자는 개발자 API를 통해 웹 앱에 여러 개의 커스텀 템플릿을 추가할 수 있다. 이를 통해 데이터 클린룸 소비자는 UI를 사용하여 단일 데이터 클린룸 내에서 다양한 종류의 맞춤형 분석을 수행할 수 있다.
자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.
이제 클린룸 소비자뿐만 아니라 데이터 공급자도 자신의 클린룸에서 분석을 할 수 있게 되었습니다. 이전에는 공급자가 데이터 제공자가 될 수만 있었지만, 이번 출시로 소비자가 공유한 데이터를 공급자가 직접 분석할 수 있게 됐다.
자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.
현재 사용 가능한 LLM 함수로 EMBED_TEXT_768 함수를 사용하여 문자열에서 벡터(숫자 문자열)로 변환할 수 있습니다.
이것은 768차원의 벡터로 출력되는데, 이번에 1024차원으로 출력할 수 있는 EMBED_TEXT_1024 함수를 사용할 수 있게 되었습니다.
차원 수가 다르면 다음과 같은 트레이드오프를 조정할 수 있습니다.
구축하고자 하는 애플리케이션의 특성에 맞게 조정할 수 있는 폭이 넓어진 것이 큰 장점으로 작용할 수 있을 것 같습니다.
현재 AWS의 US West 2 (Oregon) 리전에서 사용 가능합니다.
자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.
Open Table Format인 Iceberg 형식의 테이블을 Snowflake에서 사용할 수 있는 기능이 GA에 추가되었습니다.
다양한 컴퓨팅 엔진에서 상호 운용 가능한 형태로 운영할 수 있어 데이터 관리의 유연성과 일관성을 제공합니다.
자세한 내용은 Iceberg Table에 대한 페이지를 참고하세요.
가상웨어하우스의 상태 변경 이벤트를 참조할 수 있는WAREHOUSE_EVENTS_HISTORY 뷰가GA로 변경되었습니다.
각 가상 웨어하우스가 이벤트의 타임스탬프와 이벤트 발생 이유(예: 사용자 실행 등)에 대한 로그를 참조할 수 있습니다.
가상웨어하우스의 세부적인 이용 현황을 확인할 수 있어 비용 관리 및 감사 목적으로의 활용이 가능할 것으로 보인다.
자세한 내용은 WAREHOUSE_EVENTS_HISTORY뷰에 대한 페이지를 참고하시기 바랍니다.
Snowflake Cortex LLM 함수를 사용할 때 토큰 수 제한에 따른 오류 처리 등을 할 때 사용할 수 있는 함수입니다.
자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.
Account_usage 내에서 사용 가능한 뷰가 GA로 변경되었습니다.
자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.
Snowflake 고유의 OLAP 테이블의 특징뿐만 아니라 OLTP 테이블로 활용 가능한 Hybrid Table에 Time Travel 기능을 사용할 수 있게 되었습니다.
AT, BEFORE와 같은 쿼리 구문을 사용할 수 있습니다.
자세한 내용은 릴리즈 노트
를 참고하시기 바랍니다.
Snowsight의 조직 개요 페이지가 GA로 변경되어 Snowflake 사용 비용에 대한 조직적 인사이트를 얻을 수 있게 되었습니다.
이 페이지에는 다음과 같은 정보가 포함되어 있습니다.
자세한 내용은 '총 비용 조사' 페이지를 참고해 주세요.
Streamlit in Snowflake의 커스텀 UI를 사용할 수 있게 되었습니다. 이 기능을 이용하면 Streamlit의 기본 컴포넌트의 기본 동작을 넘어 앱의 외형, 조작성 등 프론트엔드 조작을 사용자 정의할 수 있습니다.
이번 릴리스에서는 다음과 같은 기능이 지원됩니다.
자세한 내용은 Streamlit in Snowflake의 추가 기능 페이지에서 확인할 수 있습니다.
표 형식에서는 지금까지 '집계 행 표시'에서 합계값을 표시할 수 있었지만, 표시 대상에 대해 필터를 걸면 필터링된 대상에 대한 합계값을 표시하도록 되어 있었습니다.
이번 업데이트에서는 '집계 행에서 캔버스 필터 무시'를 선택하면 필터를 무시한 합계를 표시할 수도 있습니다. 비교 대상의 총합계를 유연하게 설정하여 수치 비교의 편의성이 향상되었습니다.
속성 패널의 스타일 탭에 있는 데이터 라벨 섹션에서 글꼴 종류, 글꼴 색상, 글꼴 크기, 글꼴 스타일, 배경색, 불투명도 설정 등 세부적인 설정이 가능해졌다. 이들은 아래 그래프에서 확인할 수 있습니다.
'기타' 그룹의 그래프 설정을 통해 지정한 한도를 초과하는 집계 결과를 기타 레이블로 집계할 수 있습니다. 이번 업데이트를 통해 의도하지 않은 표시 데이터 제한을 보다 쉽게 제어할 수 있게 되었습니다. 이 기능은 아래 그래프에서 사용할 수 있습니다.
필드 생성 시 계산 필드와 별도로 빈을 선택할 수 있게 되었습니다. 이는 지표를 일정한 폭으로 분할하는 것인데, 계산 필드에서는 CASE 문장을 여러 번 써야 했던 것을 빈에서는 간단하게 작성할 수 있게 되었습니다.
배색 설정으로 행 라벨, 바 라벨 외에 툴팁별로 배색을 지정할 수 있게 되었습니다.
아래 파트너 커넥터가 Looker Studio 보고서 갤러리에 추가되었습니다.
dbt Cloud를 Snowflake의 Native App이라는 사용자가 Snowflake 내에서 쉽게 애플리케이션을 이용할 수 있는 기능으로 이용할 수 있게 되었습니다.
이용하려면 AWS또는 Azure 리전의 Enterprise 플랜의 dbt Cloud 계정이 필요합니다.
새로운 기능으로 Ask dbt라는 dbt Semantic Layer의 데이터 참조 및 카탈로그 정보를 기반으로 도움을 주는 Chatbot 기능을 이용할 수 있습니다.
자세한 내용은 아래 페이지를 참고하세요.
누적 메트릭의 세분화 옵션은 다른 메트릭과 달리 date_trunc 함수를 사용하여 시간 세분화를 변경할 수 없습니다.
이제 다른 모든 메트릭 유형과 마찬가지로 일, 주, 월, 분기, 연도 등 여러 가지 세분화 옵션(일, 주, 월, 분기, 연도)을 반환하도록 지원됩니다. 이전에는 누적 메트릭스에 대해 하나의 세분화 옵션만 조회할 수 있었습니다.
또한 이번 지원으로 first(), last(), avg() 집계 함수를 사용할 수 있게 되어 특정 기간의 누적값의 첫 번째 값 또는 마지막 값, 또는 평균값을 계산할 수 있게 되었다.
자세한 내용은 누적 지표에 대한 페이지를 참고하세요.
다음과 같은 새로운 기능이 추가되었습니다.
마크카드의 풀다운에서 확장 기능을 추가할 수 있습니다. (아직 베타 버전이라는 설명이 있습니다.)
산키 다이어그램을 쉽게 만들 수 있도록 되어 있습니다.
필터나 파라미터의 서식을 선택할 때, 기존에는 모든 필터나 파라미터에 대해 일률적으로 설정만 할 수 있었습니다. 이에 반해 이제 개별 설정이 가능해졌습니다.
데이터 소스에서 데이터 추출 편집에서 '증분 업데이트'를 선택했을 때, 업데이트 대상 기간을 지정할 수 있게 되었습니다. (예를 들어, 지난 14일 동안만 증분 업데이트하기 등)
사용 사례에 맞는 경우, 추출 속도를 높이고 비용을 절감할 수 있을 것으로 보인다.
자세한 내용은 Extract Your Data - Tableau의 'Date Range (Subrange)' 섹션을 참고하세요.
지금까지는Tableau Desktop의 데이터 소스에서 여러 차원 테이블을 여러 팩트 테이블에서 공유하는 형태의 관계를 맺을 수 없었습니다.
차원 모델링을 채택한 데이터웨어하우스에 접속하는 장면에서 장애물이 될 수 있었는데, 이를 해소할 수 있습니다.
자세한 내용은 When to Use a Multi-fact Relationship Model - Tableau에서 확인할 수 있습니다.
Tableau Cloud의 새로운 엔터프라이즈용 요금제입니다. 패키지에 포함된 내용은 다음과 같습니다.
자세한 내용은Tableau+: NewEdition with Premium AI, Enterprise Capabilities and Premier Success에서 확인할 수 있다.
Tableau Trust가 2024/7/15부터 Salesforce Trust에 통합될 것으로 보입니다
이메일로 이미 구독 등록한 사용자는 별도의 대응이 필요 없이 승계되는 것 같지만, SMS의 경우 재등록이 필요한 것 같습니다.
Mosaic Ai VectorSearch는 벡터 기반 임베디드 검색과 기존 키워드 검색을 결합한 하이브리드 검색을 지원합니다. 이를 통해 보다 포괄적이고 관련성 높은 결과를 얻을 수 있을 것으로 기대됩니다.
Delta lake에 열 매핑이 출시되었습니다. 이를 통해 데이터 파일을 다시 작성하지 않고 메타데이터만 변경하여 열을 삭제 또는 이름 변경으로 표시할 수 있습니다.
자세한 내용은 'Delta Lake 열 매핑을 사용하여 열 이름 변경 및 삭제하기'를 참고하세요.
Unity Catalog에서 관리되는 테이블에 대해 예측 최적화가 GA로 전환되었습니다. 이를 통해 OPTIMIZE 및 VACUUM을 통한 테이블 최적화가 자동으로 실행되어 수동으로 유지보수할 필요가 없습니다.
자세한 내용은 'Delta Lake의 예측적 최적화'를 참고하세요.
Lakehouse Monitorning이GA가 되었습니다. Lakehouse monitornig를 사용하면 계정 내 모든 테이블의 데이터 통계와 품질을 모니터링할 수 있습니다.
자세한 내용은 '데이터브릭스 레이크하우스 모니터링 개요'에서 확인할 수 있습니다.
Databricks Geos가 GA로 변경되어 Databricks에서 데이터가 처리될 때 Databricks가 명시적으로 정의한 지역 단위(Geo)로만 처리됩니다. 이를 통해 데이터가 예상치 못한 지역에서 처리되거나 전송되는 것을 방지할 수 있습니다.
자세한 내용은 'Databricks Geos: 데이터 위치'에서 확인할 수 있습니다.
작년부터 Public preview 상태였던Databricks Assistant가GA가 되었으며, Databricks Assistant를 사용하면 예를 들어 다음과 같은 것들을 구현할 수 있습니다.
자세한 내용은 'DatabricksAssistant란'을 참고하세요.
전송 대상 Databricks가 새롭게 추가되었습니다. 자세한 내용은 Databricks를 참고하세요.
전송 대상 kintone의 update/upsert에서 업데이트 키에 레코드 ID를 지정할 수 있게 되었습니다.
레코드 ID를 지정하고 싶다면 업데이트 키에 $id를 입력하면 됩니다.
dbt Core v1.7 및 dbt Core v1.8을 지정할 수 있게 되었습니다.
dbt 버전은 dbt Git 저장소에서 선택할 수 있습니다.
확장 전환과 관련하여 전송 시 사용하는 Google Ads API 버전이 v14.1에서 v16으로 업데이트되었습니다.
새로운 버전에 대한 자세한 내용은 Google Ads API 문서를 참고하시기 바랍니다.