Orange bullet points
7.11.2024

Data Engineering News 2024년 5월 업데이트 정리

Background blur
Left arrow orange
모든 블로그 보기

저희 아티클에서는 데이터웨어하우스(DWH), ETL 프로세스, BI 툴 등의 업데이트 정보와 최신 트렌드를 매월 알기 쉽게 전달해 드립니다.

주요 데이터 관련 뉴스를 선별하여 전달해 드리고 있으니, 빠르게 최신 소식을 접하고 싶으신 분들은 꼭 읽어보시기 바랍니다.

Google BigQuery 뉴스 정리

자바스크립트 사용자 정의 집계 함수(UDAF)가 미리보기로 제공됩니다.


CREATE AGGREGATE FUNCTION 문으로 JavaScript UDAF를 생성할 수 있게 되었습니다.

자세한 내용은 여기를 참고하세요.

원격 모델 생성에서 Gemini 1.5 Pro에서 미리보기로 사용할 수 있도록 됩니다.


ML.GENERATE_TEXT 함수에서 이 모델을 사용하여 BigQuery 테이블에 저장된 텍스트의 자연어 생성 작업을 수행하거나, BigQuery 객체 테이블에 저장된 이미지, 동영상, 음성, PDF, 텍스트 콘텐츠를 사용하여 음성 필사 및 문서 분류 등의 생성 AI 작업을 수행할 수 있게 되었습니다.

ML.GENERATE_TEXT 함수에서 Gemini 모델을 사용할 때 그라운딩과 안전성 속성을 지정할 수 있도록 그라운딩을 하기 위해서는 ground_with_google_search 인수를 사용하면 됩니다.

그라운딩을 통해 Gemini 모델이 응답을 생성할 때 인터넷의 추가 정보를 사용할 수 있도록 되었습니다. 안전 속성을 설정하려면 safety_settings 인수를 사용하면 Gemini 모델이 지정한 속성에 따라 안전하지 않은 콘텐츠의 차단이 필요합니다.

자세한 내용은 다음 페이지를 참고하세요.

• https://cloud.google.com/vertex-ai/generative-ai/docs/grounding/overview?hl=ko
• https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-attributes?hl=ko

테이블당 최대 파티션 수 4000에서 10000으로 변경되었습니다.


일 단위로 분할할 경우 기존에는 11년이면 파티션 수 상한에 도달했지만, 앞으로는 약 27년 분량의 파티션을 분할할 수 있게 되었습니다.

Snowflake 뉴스 정리

Snowpark ML에서 Snowflake Model Registry가 GA가 되었습니다.


Snowflake Model Registry는 자체 제작한 머신러닝 모델을 Snowflake에서 저장, 관리, 사용할 수 있는 기능입니다. 다양한 유형의 머신러닝 모델을 지원하며, Python, SQL 모두에서 사용할 수 있습니다.

등록된 모델은 아래와 같이 몇 줄로 실행할 수 있습니다.

m = reg.get_model("MYMODEL")
mv = m.default
mv.run(test_df, function_name="predict").show()


또한, 태스크를 활용하여 Snowflake에서 MLOps를 수행하는 것도 가능합니다.

자세한 내용은 아래를 참고해주세요.

• Snowflake Model Registry - Snowflake Document

Vector 타입과 Vector 관련 함수가 GA가 되었습니다.

데이터 타입


데이터 타입으로 Vector 타입을 사용할 수 있게 되었습니다. 기존에도 ARRAY를 사용하여 유사한 조작을 할 수 있었지만, 보다 대규모 언어 모델에서 효율적으로 벡터 조작을 할 수 있는 데이터 타입으로 사용할 수 있습니다.

함수

다음으로 Vector 타입을 효율적이고 범용적으로 사용할 수 있는 함수를 사용할 수 있게 되었습니다.

함수는 다음과 같습니다.

함수명 가능한 계산 용도
VECTOR_INNER_PRODUCT 벡터 간 내적분 계산 기계학습용 경제금융계, 과학계 등의 고급 계산
VECTOR_L2_DISTANCE 벡터 간 유클리드 거리 계산 ChatBot, RAG 애플리케이션, 검색 애플리케이션 등
VECTOR_COSINE_SIMILARITY 벡터 간 코사인 유사도 계산 ChatBot, RAG 애플리케이션, 검색 애플리케이션 등
EMBED_TEXT_768 Snowflake Cortex Snowflake Cortex에서 사용할 수 있는. LLM 모델을 이용한 벡터 임베딩(문자열→벡터) 처리 벡터 데이터베이스 구축 및 RAG 애플리케이션의 검색 쿼리 생성 등

이러한 기능과 Snowflake Cortex를 결합하여 강력한 LLM 애플리케이션을 Snowflake만으로 구축할 수 있습니다.

자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.

Snowflake Cortex 함수가 GA가 되었습니다.


LLM 함수를 이용하여 Snowflake Arctic을 비롯한 대규모 언어 모델을 SQL을 통해 사용할 수 있게 되었습니다.

GA가 된 함수는 다음과 같습니다.

함수명 설명
COMPLETE 프롬프트를 입력하면 이에 대한 응답을 반환합니다.
EXTRACT_ANSWER 질문과 비정형 데이터를 지정하여 데이터 내에 질문에 대한 답변이 있는 경우 답변을 반환합니다.
SEMTIMENT 지정한 텍스트가 긍정적인지 부정적인지 감정을 나타내는 -1 ~ 1까지의 점수를 반환한다.
SUMMARIZE 지정된 문자열의 요약을 반환한다.
TRANSLATE 지정된 문자열을 지원되는 모든 언어에서 다른 언어로 번역한다.


자세한 내용은 릴리즈 노트를 참고 하세요.

알림 전송을 위한 새로운 저장 프로시저를 사용할 수 있게 되었습니다.


SYSTEM$SEND_SNOWFLAKE_NOTIFICATION 저장 프로시저를 사용하여 이메일, Amazon SNS 토픽, Microsoft Azure Event Grid 토픽, Google Cloud Pub/Sub 토픽에 알림을 보낼 수 있습니다.

자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.

Document AI가 사용 가능하게 되었습니다.


인보이스, 계약서 등의 문서에서 SQL을 통해 정보를 추출할 수 있습니다.

Document AI는 Snowflake Arctic-TILT(Text Image Layout Transformer)라는 Snowflake Arctic의 자체 대규모 언어 모델인 Snowflake Arctic 전용 모델이 탑재되어 있습니다.

현재 AWS 및 Microsoft Azure 상용 리전 계정에서 사용할 수 있습니다.

자세한 내용은 릴리즈 노트를 참고하시기 바랍니다.

트러스트 센터(Trust Center)가 출시되었습니다.


계정의 보안 위험을 평가하고 모니터링할 수 있는 기능이 추가되었습니다.

Snowsight에서 이용할 수 있습니다.

트러스트 센터를 통해 미리 준비된 평가서를 통해 문제점을 열거하고 개선 권고사항 등을 제공하여 계정 보안 유지 활동에 도움을 줄 수 있습니다.

현재 평가는 CIS Benchmarks의 스캐너 패키지를 이용할 수 있으며, 권한 관리 및 사용자 상태 등 39개 항목을 평가할 수 있도록 되어 있습니다.

자세한 내용은 아래에서 확인할 수 있습니다.

• 릴리즈 노트
• 공식 문서
• Snowflake용 CIS Benchmarks 소개

기타 업데이트 (일부 발췌)


집계 및 프로젝션 정책이 GA로 변경되었습니다.

집계 정책은 정책을 설정한 테이블에 대해 SELECT를 할 때 집계 함수(SUM, AVG 등)를 사용하지 않으면 쿼리할 수 없도록 하는 정책입니다. 이를 통해 집계 전의 값이 어떤 값인지 참조할 수 없도록 할 수 있습니다.

프로젝션 정책은 SELECT를 수행할 때 정책으로 설정된 컬럼을 참조할 수 없도록 하는 것이다. 직접 열람은 물론 집계도 불가능하게 됩니다.

개인 정보 비밀 유지 등의 실행에 효과적인 방법으로 활용할 수 있습니다.

새로운 LLM Embedding 모델 사용 가능

Cortex LLM 함수 중 하나인 EMBED_TEXT_768 함수에서 사용할 수 있는 LLM 모델이 추가되었습니다.

'snowflake-arctic-embed-m'을 인수로 전달하면 사용할 수 있습니다.

Streamlit in Snowflake의 커스텀 슬립타이머를 사용할 수 있게 되었습니다.

config.toml 구성 파일에 타이머를 지정하여 Streamlit 앱의 자동 정지 시간을 기본 15분에서 5~240분 사이의 임의의 값을 설정할 수 있습니다.

ASOF JOIN 구문이 GA로 변경되었습니다.

근접성에 따라 테이블을 결합할 때 사용되는 ASOF JOIN 구문이 GA로 변경되었습니다.

시계열 데이터 결합 등에 사용되는 결합 방법으로, 유사한 방법을 사용하려면 복잡한 쿼리를 준비해야 했지만, 이 기능을 통해 구현이 쉬워지고 성능이 효율화될 수 있습니다.

Streamlit in Snowflake의 GCP 지원이 GA로 확장되었습니다.

미리보기 기능으로 제공되던 Google Cloud Platform의 Snowflake에서 Streamlit이 GA로 제공됩니다.

EXECUTE IMMEDIATE FROM의 Jinja2 템플릿이 지원됩니다.

EXECUTE IMMEDIATE FROM 명령의 템플릿 이용 시, 진자2 템플릿 파일을 사용하여 SQL 스크립트를 생성 및 실행할 수 있게 되었습니다.

유연한 제어가 가능해져 템플릿 변수를 사용한 파라미터에 의한 제어가 가능해졌습니다.

Python 사용자 정의 집계 함수 사용 가능

Snowflake의 Python 핸들러를 사용한 사용자 정의 집계 함수(UDAF)를 사용할 수 있게 되었습니다. 여러 행을 받아 합계, 평균 등 일반적인 집계부터 가중 평균 등 복잡한 집계를 구현하고 싶을 때 사용할 수 있습니다.

Looker Studio 소식 정리

그래프 제목 사용 가능


그래프에 직접 제목을 추가할 수 있게 되었습니다. 폰트, 폰트 크기, 폰트 색상, 스타일, 위치를 커스터마이징할 수 있습니다.

기존에 별도로 텍스트를 추가하던 분들에게는 편리한 기능이지만, 배경색은 커스터마이징이 불가능하므로 향후 업데이트가 기대되고 있습니다.

일정 및 알림 이벤트 로그 추가


이벤트 로그에 일정 및 경고가 포함되며, Looker Studio 관리자는 조직 내 Looker Studio 사용자가 일정 및 경고를 어떻게 사용하는지 감사 및 모니터링할 수 있게 되었습니다.

Looker 데이터 소스 기능 개선 사항


아래 3가지 기능이 추가되었습니다.

LookML 필터가 표시됩니다.
드릴 액션 메뉴에서 드릴 필드와 링크를 사용할 수 있습니다.
필터 전용 필드를 사용할 수 있게 되었습니다.

Looker Studio 포럼이 Google Cloud로 이전되었습니다.


Looker Studio, Looker Studio Pro 사용자를 위한 포럼이 Google Cloud에 공개되었습니다. 이제 사용자들 간의 질문과 소통을 할 수 있습니다.

새로운 파트너 커넥터가 추가되었습니다.


Looker Studio 보고서 갤러리에 다음과 같은 파트너 커넥터가 추가되었습니다.

Pro Rank Tracker - SEO Data by F.T.B ONLINE LTD.
CallRail by Catchr.io
Basis by Supermetrics
Facebook Ads by Adzviser
LinkedIn Revenue Attribution by Supermetrics
Pinterest Organic by Catchr.io

dbt 뉴스 요약

dbt Core - dbt Core v1.8이 출시되었습니다.


dbt v1.8에서는 단위 테스트가 표준 기능으로 지원됩니다.

v1.8부터는 dbt test 명령어를 실행하면 단위 테스트와 데이터 테스트가 모두 실행됩니다. 둘 중 하나만 실행하려면 test_type을 지정하면 됩니다.

dbt test --select "test_type:unit" # run all unit testsdbt test --select "test_type:data" # run all data tests

dbt Core와 관련된 기타 변경 사항은 여기를 참고한다.

dbt Cloud - dbt Assist의 프라이빗 베타 버전이 출시되었습니다.


dbt Assist는 dbt Cloud IDE 내에서 dbt SQL 모델의 문서 및 테스트를 자동으로 생성하는 AI 기반 co-pilot 기능입니다.

dbt Assist는 dbt Cloud IDE 내에서만 사용할 수 있으며, dbt Cloud Enterprise 계정이 필요합니다.

dbt Cloud - 로우코드 에디터 기능이 프라이빗 베타 버전으로 출시되었습니다.


dbt Cloud 내에서 GUI 상에서 드래그 앤 드롭으로 dbt 모델을 생성 및 편집할 수 있습니다.

기존 dbt 모델과 마찬가지로 직접 SQL로 컴파일되어 버전 관리도 가능합니다.

이 기능을 통해 SQL에 익숙하지 않은 사용자도 dbt로 모델을 생성하고 편집할 수 있습니다.

dbt Cloud - dbt Cloud CLI가 GA로 출시되었습니다.


dbt Cloud CLI에서는 로컬 명령줄에서 dbt Cloud 개발 환경에 대한 dbt 명령을 실행할 수 있습니다.

dbt Cloud - 스테이징 환경이 GA로 전환되었습니다.


스테이징 환경을 사용하여 개발자가 프로덕션 데이터에 대한 액세스를 제어하면서 배포 워크플로우 및 도구에 대한 액세스를 허용할 수 있습니다.

dbt Cloud - dbt Mesh가 GA로 출시되었습니다.


dbt Mesh는 조직이 팀과 데이터 자산을 효율적으로 확장할 수 있는 프레임워크입니다. 거버넌스 모범 사례를 촉진하고 대규모 프로젝트를 관리하기 쉬운 섹션으로 나눌 수 있습니다.

dbt Cloud Enterprise 사용자가 이용할 수 있습니다.

dbt Cloud - dbt Semantic Layer로 Tableau Desktop, Tableau Server 및 Google Sheets 통합이 가능해졌습니다.


Tableau 또는 Google Sheets에서 시맨틱 레이어에 직접 쿼리하여 신뢰할 수 있는 데이터를 참조할 수 있습니다.

이 기능은 dbt Cloud Team 또는 Enterprise 계정에서 사용할 수 있습니다.

dbt Cloud의 다른 변경사항은 여기에서 확인할 수 있습니다.

Amazon QuickSight 뉴스 요약

Amazon Q in QuickSight의 일반 제공이 시작되었습니다.


아마존은 생성 AI 기능인 Amazon Q in QuickSight의 일반 제공을 시작했습니다.

자연어 질문을 통해 인사이트를 제공하는 'QuickSight Q'는 이전부터 공개되어 왔지만, 이번에 더욱 강화됐다. 또한, 분석가와 작성자를 위한 보조 기능인 'Generative BI'도 퍼블릭 프리뷰를 거쳐 정식으로 공개되었습니다.

새로운 기능은 사용자 인사이트 추출을 강화하는 것은 물론, 분석가와 작성자가 BI(비즈니스 인텔리전스)를 생성할 때 보조 기능을 제공하고, 생성한 대시보드로 프레젠테이션 스토리를 구성할 수 있는 기능을 제공합니다.

이번 출시와 함께 QuickSight의 사용자 역할에 '작성자 프로(Creator Pro)'와 '뷰어 프로(Viewer Pro)'가 새롭게 추가되었으며, 가격 체계도 변경했습니다.

기존 '뷰어' 역할은 세션 수에 따라 종량제였으나, 고정 요금으로 변경됩니다.

기존 가격: 세션당 종량제, 최대 5 USD/사용자/월
새로운 가격: 3 USD/사용자/월

자세한 내용은 요금 페이지를 참고하시기 바랍니다.

역할과 기능의 예시는 다음과 같습니다.

뷰어 프로 및 크리에이터 프로 사용자를 위한 기능 스토리: 자연어를 사용하여 지시하여 문서 및 프레젠테이션을 작성할 수 있다. 경영진 요약: 데이터 트렌드와 변화에 대한 경영진 요약 생성.
작성자 프로 사용자를 위한 기능 대시보드 구축 지원: 시각적 구성, 계산 필드 구성, 시각적 조정을 자연어로 요청하고 생성한다.


자세한 내용은 여기를 참고하세요.

Databricks 뉴스 요약

Databricks Runtime 15.2, 15.3(Beta)이 GA로 출시되었습니다.


Apache Spark 3.5.0을 지원하는 Databricks Runtime 15.2 및 15.3(Beta)이 출시되었습니다.

자세한 변경 사항은 아래 페이지를 참고하시기 바랍니다.

• https://docs.databricks.com/en/release-notes/runtime/15.2.html
• https://docs.databricks.com/en/release-notes/runtime/15.3.html

The compute metrics UI가 GA로 변경되었습니다.


The compute metrics UI가 모든 Databricks Runtime 버전에 적용되었습니다. 이전에는 Databricks Runtime 13.3 이상에서 실행되는 컴퓨팅 리소스에만 해당 메트릭을 사용할 수 있었습니다.

자세한 내용은 여기에서 확인할 수 있습니다.

Snowflake에 대한 페더레이티드 연결에 OAuth 지원이 추가되었습니다.


Unity Catalog는 Snowflake 연결 생성에 OAuth를 지원합니다.

자세한 내용은 해당 페이지를 참고 하세요.

Mosaic AI Vector Search에 새로운 기능이 추가되었습니다.


Mosaic AI Vector Search에 다음과 같은 새로운 기능이 추가되었습니다.

PrivateLink와 IP 액세스 목록이 지원됩니다.
Customer Managed Keys가 2024년 5월 8일 이후 생성된 엔드포인트부터 지원되며, 현재 public preview 상태입니다.
감사 로그 기능이 강화되었습니다.
generated embedding의 저장 위치로 delta table을 선택할 수 있게 되었습니다.

Git 폴더 기능이 GA로 변경되었습니다.


Databricks notebook 등의 파일을 외부 Git 공급자와 연동하기 위한 Git 폴더 기능이 GA로 변경되었습니다. 참고로 기존에 제공되던 Git과 Databricks notebook을 연동하는 Git Repos 기능은 레거시 기능으로 취급되며, 마이그레이션 방법도 준비되어 있습니다.

자세한 내용은 해당 페이지를 참고하시기 바랍니다.

기반 모델 트레이닝 기능으로 Meta Llama3 지원을 시작했습니다.


기반 모델 트레이닝의 베이스 모델로 Meta Llama3를 지원하게 되었습니다.

TROCCO® 뉴스 정리

Snowflake의 테이블 쓰기 설정에 새로운 선택지를 추가했습니다.


출력 대상 테이블의 쓰기 설정으로 전건 교체 모드를 TRUNCATE INSERT와 REPLACE 두 가지 중에서 선택할 수 있게 되었습니다.

TRUNCATE INSERT의 경우 기존 테이블의 스키마는 삭제되지 않습니다.
REPLACE의 경우 기존 테이블의 스키마는 삭제됩니다.

둘의 차이점에 대한 자세한 내용은 데이터마트 - Snowflake를 참고하시기 바랍니다.

Microsoft SQL Server 연결 정보에서 SSH 개인키 암호를 입력할 수 있도록 되었습니다.


설정 항목에 SSH 개인 키 암호를 입력할 수 있는 항목이 추가되었습니다.
이를 통해 Microsoft SQL Server에 암호화된 비밀키로 접속할 수 있게 되었습니다.

API 버전이 업데이트 되었습니다.


Google Ads 업데이트

전송 시 사용하는 Google Ads API 버전을 v14.1에서 v16으로 업데이트했습니다.

새로운 버전에 대한 자세한 내용은 Google Ads API 문서를 참고하시기 바랍니다.

Yahoo! 검색 광고, Yahoo! 디스플레이 광고 업데이트

전송 시 사용하는 Yahoo! 광고 API 버전이 v11에서 v12로 업데이트 되었습니다.

새로운 버전에 대한 자세한 내용은 아래 문서를 참고하시기 바랍니다.

• 광고 API | 검색 광고 API v12 릴리즈 노트
• Yahoo! 광고 API | 디스플레이 광고 API v12 릴리스 노트

TROCCO는  파트너들에게서 신뢰받고 있습니다.