Orange bullet points
데이터 엔지니어링 용어집

Data Engineering News 2024년 10월 업데이트 소식

Background blur
Left arrow orange
모든 블로그 보기

이 기사에서는 데이터 웨어하우스(DWH), ETL 프로세스, BI 도구 등의 업데이트 정보와 최신 트렌드를 매월 알기 쉽게 정리해 드립니다.

주요 뉴스를 엄선하여 제공하므로, 최신 정보를 간편하게 확인하고 싶은 분들께 추천드립니다.

Google BigQuery 소식 요약

파이프(Pipe) 문법이 사용 가능해졌습니다 (베타 버전)


파이프 문법은 파이프 기호(|>)를 사용하여 처리를 작성합니다.

표준 문법과는 달리, 필터링, 집계, 결합 등을 원하는 순서로 원하는 횟수만큼 작성할 수 있어 애드혹 분석 등에 활용할 수 있습니다.

2024년 10월 현재, 파이프 문법을 사용하려면 신청 양식을 통해 신청해야 합니다.

자세한 내용은 공식 문서를 참고하세요.

오케스트레이션 페이지에서 노트북과 Airflow DAGs의 오케스트레이션이 가능해졌습니다 (베타 버전)


BigQuery orchestration 페이지에서 노트북의 스케줄 관리, Airflow DAGs의 표시, trigger, 일시 정지가 가능합니다.

자세한 내용은 아래 공식 문서들을 참고해 주세요.

BigQuery Data Preparation을 사용할 수 있게 되었습니다 (베타 버전)


BigQuery에서 Gemini를 통해 데이터 정리 및 변환에 대한 제안과 적용이 가능합니다.

또한 증분 업데이트를 포함한 대상 테이블로의 쓰기 및 작업 스케줄 실행도 가능합니다.

자세한 내용은 공식 문서를 참고하세요.

Snowflake 소식 요약

Cortex Search가 GA(정식 출시)로 출시되었습니다.


Cortex Search는 고품질 검색과 대규모 언어 모델(LLM) 기반 챗봇 애플리케이션 개발을 간소화하는 텍스트 검색 서비스입니다.

이 서비스는 RAG 챗봇의 검색 엔진으로 활용하거나 독립형 검색 엔진으로 사용할 수 있습니다.

GA로 정식 출시되었지만, 여전히 영어에 최적화되어 있으며, 성능상의 이유로 크기 제한 등의 제약이 있습니다.

자세한 내용은 릴리스 노트를 참고하세요.

Container Runtime에서 Snowflake Notebooks를 사용할 수 있게 되었습니다.


이번 릴리스를 통해 Snowpark Container Services를 통해 Snowflake Notebooks를 실행할 수 있게 되었습니다.

현재는 프리뷰 단계로, CPU와 GPU 두 가지 런타임을 선택할 수 있습니다. 또한 Snowflake에서 이미 검증 및 통합한 Python 패키지와 버전의 기본 세트가 포함되어 있어 바로 시작할 수 있습니다.

자세한 내용은 릴리스 노트를 참고하세요.

Cortex Analyst와 Cortex Search를 통합하여 사용할 수 있게 되었습니다.


Cortex Analyst를 Cortex Search와 통합하여 문자열 서치를 개선하고, Cortex Analyst가 보다 정확한 SQL 쿼리를 작성할 수 있게 되었습니다.
구체적으로는, Cortex Search 서비스를 생성하여 기본 데이터베이스 열에 대해 semantic 검색을 실행하고,  SQL 쿼리에서 Cortex Analyst가 사용하는 데 필요한 값을 찾아 사용자 질문에 답할 수 있습니다.

자세한 내용은 릴리스 노트를 참조해 주세요.

Apache Iceberg 테이블의 Snowflake Open Catalog가 GA(정식 출시)되었습니다


Snowflake는 Snowflake의 Apache Iceberg™ 테이블과 이전에 Polaris Catalog로 불렸던 Snowflake Open Catalog의 통합이 GA(정식 출시)에 도달했다고 발표했습니다.

GA와 함께 다음 기능들이 업데이트되었습니다.

  • 서비스 관리자가 Open Catalog 계정에 추가 사용자를 생성할 수 있게 되었습니다.
  • 카탈로그 관리자는 카탈로그 내 개별 네임스페이스나 테이블을 보호할 수 있게 되었습니다. 또한, 카탈로그 레벨에서도 카탈로그를 계속 보호할 수 있습니다.
  • Open Catalog에 과금 지원이 추가되었지만, Open Catalog는 2025년 4월 30일까지 무료로 이용할 수 있습니다.

Document AI가 GA(정식 출시)되었습니다


OCR로 기능하는 Document AI는 청구서나 계약서와 같은 문서에서 정보를 추출하고 이를 운영 워크플로에 직접 적용함으로써, Snowflake 내에서 지능형 문서 처리(IDP) 워크플로를 설정할 수 있습니다.

Document AI는 Snowflake의 독자적인 대규모 언어 모델(LLM)인 Arctic-TILT(Text Image Layout Transformer)를 탑재하고 있습니다.

자세한 내용은 릴리스 노트를 참조하세요.

Hybrid Table가 GA(정식 출시)되었습니다


단일 데이터베이스 내에서 트랜잭션과 분석 두 가지 사용 사례의 실행을 지원하는 Hybrid Table이 GA(정식 출시)에 도달했습니다.

애플리케이션 DB로의 사용을 염두에 두면서도 분석 워크로드를 처리할 수 있도록 설계되었습니다.

자세한 내용은 릴리스 노트를 참조하세요.

Snowflake의 Streamlit에서 Amazon Web Service PrivateLink가 GA(정식 출시)되었습니다

Snowflake 내에서 배포된 Streamlit 애플리케이션과 Snowflake 오브젝트 간의 상호작용을 공용 인터넷을 거치지 않고, AWS 내의 전용선에서만 완료할 수 있는 기능이 GA(정식 출시)에 도달했습니다.

이를 통해 애플리케이션 배포 시 보안 요구 사항이 엄격한 경우에도 대응할 수 있습니다.

자세한 내용은 릴리스 노트를 참조하세요.

기타 업데이트들 (일부 발췌)


Fine-Tuning된 모델을 공유할 수 있게 되었습니다.

직접 Fine-Tuning을 수행하여 조정한 모델을 Data Sharing 메커니즘을 통해 공유할 수 있게 되었습니다.

Fine-Tuning 자체는 SNOWFLAKE.CORTEX.FINETUNE 함수를 사용하여 수행할 수 있습니다.

자세한 내용은 릴리스 노트를 참조하세요.

Cortex LLM 함수로 PARSE_DOCUMENT을 사용할 수 있게 되었습니다

문서에서 텍스트와 레이아웃을 추출하기 위한 새로운 Snowflake Cortex LLM 함수 중 하나로 PARSE_DOCUMENT 함수가 도입되었습니다.

PARSE_DOCUMENT 함수는 강력한 광학 문자 인식(OCR) 기능과 기계 학습 모델을 결합하여 문장이나 테이블에 저장된 정보 및 PDF 문서의 구조적 요소를 식별할 수 있습니다.

단독으로 활용하는 것뿐만 아니라 RAG 애플리케이션에서도 사용할 수 있도록 설계되었습니다.

자세한 내용은 릴리스 노트를 참조하세요.

Native App에서 Amazon Web Service PrivateLink를 사용할 수 있게 되었습니다.

Snowflake Native App 프레임워크에서 AWS PrivateLink가 지원됩니다.

AWS PrivateLink는 공용 인터넷을 거치지 않고 AWS VPC와 Snowflake VPC 간에 직접적이고 안전한 연결을 가능하게 하는 프라이빗 VPC 엔드포인트를 생성하기 위한 AWS 서비스입니다.

이를 통해 Snowflake에 배포된 Native App과 AWS 서비스를 안전하게 연결할 수 있습니다.

자세한 내용은 릴리스 노트를 참조하세요.

Snowflake REST API가 GA(정식 출시) 되었습니다.

리소스 관리용 API로서 Snowflake REST API가 정식으로 제공됩니다.

사용자는 Snowflake Data Cloud 내 다양한 리소스를 프로그래밍 방식으로 조작하고 제어할 수 있는 엔드포인트 세트를 이용할 수 있습니다.

또한 GA 출시와 함께 서비스 및 컴퓨팅 풀 API의 PUT 엔드포인트 추가, 계정 및 카탈로그 통합, 사용자 정의 함수 등 세부적인 설정이 가능해졌습니다.

자세한 내용은 릴리스 노트를 참조하세요.

AWS PrivateLink 및 Azure Private Link를 사용한 Snowpark의 외부 네트워크 액세스 기능이 GA(정식 출시) 되었습니다.

외부 네트워크 액세스를 구성하고 프라이빗 엔드포인트를 생성하여, 프라이빗 연결을 통해 Snowpark 내 UDF/UDTF 또는 스토어드 프로시저에서 외부 네트워크 위치에 연결하는 기능이 정식 제공됩니다.

Snowflake 계정은 AWS PrivateLink를 사용하여 외부 네트워크 위치에 접근할 수 있으며, Azure 기반의 Snowflake 계정은 Azure Private Link를 통해 연결할 수 있습니다.

자세한 내용은 릴리스 노트를 참조하세요.

합성 데이터를 생성하기 위한 새로운 시스템 내장 프로시저 GENERATE_SYNTHETIC_DATA를 사용할 수 있게 되었습니다.

테스트나 개발 시 원본 데이터에 최대한 가까운 데이터를 사용하고 싶지만, 기밀 정보나 제약으로 인해 사용이 어려운 경우가 있을 수 있습니다.

이 스토어드 프로시저를 통해 합성 데이터 생성 기능을 활용하여 원본 데이터와 매우 유사한 현실적인 데이터셋을 프로그래밍 방식으로 생성할 수 있습니다. 이를 통해 테스트, 검증 등 다양한 워크로드에서 기밀 정보나 제한된 정보를 대체할 수 있습니다.

자세한 내용은 릴리스 노트를 참조하세요.

Looker Studio 소식 요약

새로운 검색 광고 360 커넥터에서 새로운 카트 전환 필드가 사용 가능합니다


새로운 검색 광고 360(Search Ads 360) 커넥터를 통해 다음과 같은 카트 전환 관련 필드들이 제공됩니다.

  • 주문 수(카트)
  • 평균 카트 크기
  • 평균 주문 단가
  • 교차 판매 매출 원가
  • 교차 판매 총이익
  • 교차 판매 매출
  • 교차 판매 판매 단위 수
  • 리드 매출 원가
  • 리드 총이익
  • 리드 매출
  • 리드 판매 단위 수
  • 매출 원가
  • 총이익
  • 매출(카트)
  • 판매 단위 수(카트)

새로운 파트너 커넥터 추가


다음 파트너 커넥터가 Looker Studio 보고서 갤러리에 추가되었습니다.

추가된 커넥터 목록들은 다음과 같습니다:

  • Heureka.sk Sortiment report by METRIXANA
  • Auth0 by Windsor.ai
  • CJ Affiliate by Supermetrics
  • WooCommerce by Supermetrics
  • TikTok Ads by Detrics
  • Oktopost by Oktopost
  • Jepto – GMB/GBP Free by Jepto
  • Instagram Insights by Detrics
  • Bing Ads by Detrics
  • LinkedIn Ads by Detrics
  • X Ads (Twitter) by Detrics
  • Insites by Insites
  • LinkedIn Ads by Pro Plugg
  • TikTok Organic by Power My Analytics
  • Nightwatch SEO Tracker by Nightwatch
  • MongoDB AppiWorks by Jivrus Technologies
  • Google Merchant Center by Adformatic

피벗 테이블에서 행 머리글 텍스트 줄바꿈 기능 추가

피벗 테이블 차트에서 스타일 탭에 있는 "텍스트 줄바꿈" 옵션을 활성화하면, 행 머리글 텍스트에 줄바꿈을 적용할 수 있게 되었습니다. 이를 통해 긴 텍스트도 더 가독성 있게 표시할 수 있습니다.

dbt 뉴스 요약

Coalesce 2024에서 발표된 새로운 기능들


dbt Labs가 주최한 컨퍼런스 Coalesce 2024에서 많은 새로운 기능들이 발표되었습니다.

  • Snowflake의 Iceberg 테이블 지원
  • dbt Cloud의 Azure 호스팅 지원
  • Advanced CI
  • Python SDK
  • 기타 등등

자세한 내용은 공식 문서를 참고해 주세요.

다중 인증(MFA) 필수화


사용자 이름과 비밀번호를 사용하는 인증 방식에서 다중 인증이 의무화됩니다.

사용자 API 토큰이 비권장됨


사용자 API 토큰은 비권장 상태로 전환되며, 개인 액세스 토큰(personal access token)의 사용이 권장됩니다.

서명된(signed) 커밋 지원


Enterprise 플랜에서 Git의 서명된 커밋이 지원됩니다. 지원되는 Git 제공자는 GitHub와 GitLab입니다.

dbt Mesh


dbt Mesh를 사용하면 프로젝트 간에 양방향 종속성을 활성화할 수 있습니다. 이전까지 dbt는 종속성을 단방향으로만 강제했습니다. dbt는 프로젝트 간 순환 종속성을 검사하며, 이를 감지하면 오류를 발생시킵니다.

자세한 내용은 공식 문서를 참고해 주세요.

dbt Semantic Layer Python SDK가 GA로 출시됨


사용자는 Python을 통해 dbt 세멘틱 레이어에 쉽게 접근할 수 있으며, 개발자는 dbt 세멘틱 레이어 API와 상호작용하여 하위 도구에서 메트릭 및 디멘션을 쿼리할 수 있게 됩니다.

데이터 갱신 전략에 마이크로배치 증분 모델 선택 가능 (베타)


데이터 갱신 방식에서 마이크로배치 증분 모델 전략을 선택할 수 있게 되었습니다. 이를 통해 대규모 시계열 데이터셋을 효율적으로 배치 기반으로 처리할 수 있으며, 매일 새로운 레코드가 추가되는 데이터를 다룰 때 성능과 복원력이 향상됩니다.

dbt Semantic Layer(MetricFlow)에서 커스텀 캘린더 사용 가능 (베타 버전)


이를 통해 회계연도와 같이 일반적인 달력과 다른 기준으로 기간 쿼리를 설정할 수 있게 되었습니다.

primary_key 추론 기능


설정된 데이터 테스트와 manifest.json의 내용을 기반으로 모델의 primary_key를 추론하는 기능이 제공되기 시작했습니다. 추론된 primary_key는 dbt Explorer에서 시각화됩니다.

신뢰 신호 아이콘(베타 버전)


dbt Explorer에 신뢰 신호 아이콘이 추가되었습니다. 신뢰 신호를 사용하면 Explorer에서 dbt 모델을 참조할 때 데이터의 건강 상태를 한눈에 빠르게 확인할 수 있습니다. 건강 상태는 Healthy, Caution, Degraded, 또는 Unknown 중 하나로 표시됩니다.

Auto exposures 기능(베타 버전)


Auto-exposures 기능이 사용 가능해졌습니다. Tableau 대시보드 등과 같은 다운스트림 분석 도구에서 모델이 사용되고 있는 경우, 리니지를 시각화할 수 있습니다.

그 외에도 몇 가지 사양 변경 및 수정 사항이 릴리스되었습니다.

자세한 내용은 10월 릴리스 노트를 참조하시기 바랍니다.

Tableau 뉴스 요약

10월에 Tableau 2024.3이 릴리스되었습니다.

모든 업데이트는 공식 사이트를 참조해 주세요.

Tableau Cloud – Tableau Cloud Manager 출시


여러 사이트를 운영할 수 있게 되었으며, 사이트 관리자는 TCM을 통해 사용자 권한 관리 등을 수행할 수 있게 되었습니다.

이전에는 구매한 라이선스당 1개의 사이트만 운영할 수 있었지만, Standard 플랜에서는 최대 3개의 사이트를 운영할 수 있습니다.

자세한 내용은 공식 문서공식 블로그를 참조해 주세요.

Tableau Desktop – 테이블용 Viz 확장 기능 출시


Viz 확장 기능에 "테이블용 Viz 확장"이 추가되었습니다.

이제 테이블에 대해 데이터 바, 색상 스케일 등 Excel과 유사한 표현이 가능합니다.

또한, 열별 데이터 유형에 따라 간단한 필터 표시 및 Excel로 다운로드 버튼 표시 기능도 제공합니다.

자세한 내용은 확장 기능에 대한 공식 문서를 참조해 주세요.

Tableau Desktop – 게시된 데이터 소스의 데이터 모델 표시 가능


게시된 데이터 소스를 연결했을 때, 데이터 소스 화면에서도 데이터 모델을 확인할 수 있게 되었습니다.
기존에는 게시된 데이터 소스를 연결한 경우, Desktop에서는 데이터 모델이 표시되지 않고 항목 목록만 확인할 수 있었습니다.

데이터 모델을 확인하려면 Cloud에 게시된 워크북을 참조해야 했지만, 이제는 Desktop에서도 확인이 가능합니다.

Tableau Desktop – 공간 매개변수 사용 가능


지난달 Cloud에서 선공개된 기능으로, 이제 매개변수에 전달할 수 있는 값의 유형으로 "공간"을 선택할 수 있게 되었습니다.

예를 들어, BUFFER 함수와 공간 매개변수를 결합하면 중심 좌표에서 반경 5km의 원 같은 도형들을 그릴 수 있습니다.

자세한 내용은 공식 문서를 참조해 주세요.

Tableau Cloud/Desktop/Pulse – Microsoft Teams용 Tableau 앱 출시


Teams용 Tableau 앱이 출시되었습니다. 이를 통해 Teams를 통해 Tableau Cloud 및 Pulse의 공유가 더욱 쉬워집니다.

Microsoft의 AppSource에서 다운로드할 수 있습니다.

Tableau Desktop – TabPy 커스텀 함수 탐색기 사용 가능


TabPy는 Tableau에서 Python 스크립트나 함수를 실행할 수 있게 해주는 분석 확장 기능으로, 번역 함수 구현, 고급 통계 분석, 예측 모델 활용 등이 필요한 경우 유용합니다.
커스텀 함수 탐색기를 통해 배포된 모델 목록과 상세 정보를 확인할 수 있으며, TabPy를 보다 효율적으로 활용할 수 있는 인터페이스를 제공합니다.

자세한 내용은 공식 문서를 참조해 주세요.

Databricks 뉴스 요약

Databricks Assistant에서 SQL 쿼리 최적화를 지원


Databricks Assistant에 /optimize 슬래시 명령어가 추가되었습니다.

SQL 쿼리의 비효율적인 부분을 식별하고 실시간으로 수정해줍니다.

Databricks Runtime 15.1 시리즈 지원 종료


Databricks Runtime 15.1 및 Machine Learning용 동일 버전에 대한 지원이 10월 30일부로 종료되었습니다. 자세한 내용은 support life cycle을 참조하세요. 

Foundation Model APIs에서 Llama 2 70B Chat 모델 지원 종료


Llama 2 70B Chat 모델이 Foundation Model APIs의 사용량 기반(pay-per-token) 엔드포인트에서 지원이 종료되었습니다. 권장 대체 모델에 대한 정보는 단종된 모델 목록(retired models)을 참조하세요.

새 워크스페이스에 자동으로 메타스토어 할당 가능


계정 관리자는 새 워크스페이스 생성 시 동일한 리전 내에서 Unity Catalog의 메타스토어를 자동으로 할당할 수 있게 되었습니다.

이를 통해 기본적으로 Unity Catalog가 활성화됩니다. 자세한 내용은 공식 문서를 확인하세요.

Mosaic AI Model Serving에서 구조화된 출력 기능을 공개 미리보기로 제공 시작


Mosaic AI Model Serving에서 구조화된 출력이 지원되며, 이제 챗 모델이 생성하는 응답을 JSON 스키마로 포맷 지정할 수 있습니다. 자세한 내용은 공식 문서를 확인하세요.

Single User Compute에서 세분화된 액세스 제어 GA(정식 출시)


Databricks Runtime 16.0 이상에서 Single User Compute의 세분화된 액세스 제어(Fine-grained access control)가 정식 출시(GA)되었습니다.

다음과 같은 뷰 및 필터가 적용된 테이블에 대한 쿼리가 서버리스 컴퓨팅에서 실행됩니다:

  • 다이내믹 뷰
  • 행 필터 및 마스킹이 적용된 테이블
  • 머티리얼라이즈드 뷰 및 스트리밍 테이블

자세한 내용은 공식 문서를 확인하세요.

서버리스 사용량을 Budget Policies로 태그 지정하게 해주는 기능을 배타 버전으로 공개


서버리스 사용량의 과금 명확성을 높이기 위해 사용자, 그룹 또는 service principal에 Budget Policies를 생성 및 할당할 수 있게 되었습니다.
정책 할당 대상에 따라 모든 서버리스 사용량에 커스텀 태그가 적용되며, 이를 통해 노트북, 작업(Job), 파이프라인에서의 사용량에 대한 상세한 과금 정보를 확인할 수 있습니다.

Billing Usage System 테이블에 네트워크 비용 항목 추가


Billing Usage System 테이블에 서버리스 컴퓨팅과 리소스 간 연결로 발생하는 비용을 모니터링하기 위한 필드가 추가되었습니다.

자세한 내용은 공식 문서를 확인하세요.

Databricks Assistant Autocomplete 정식 출시(GA)


코드 입력 시 인라인 코드 자동 완성을 제공하여 보다 빠르고 효율적으로 코드를 작성할 수 있도록 지원하는 Assistant Autocomplete가 정식 출시(GA)되었습니다.

자세한 내용은 공식 문서를 확인하세요.

Databricks Apps 공개 베타 버전 시작


Python 프레임워크를 활용한 애플리케이션을 구축하고 Unity Catalog 및 Databricks SQL과 같은 Databricks 리소스를 활용할 수 있도록 지원하는 Databricks Apps가 공개 미리보기로 제공됩니다.

자세한 내용은 공식 문서를 확인하세요.

Salesforce 커넥터 간소화


Salesforce 커넥터가 자동화되어, 이전에 수동으로 설정해야 했던 소스 설정이 간소화되었습니다.

자세한 내용은 공식 문서를 참고하세요.

TROCCO® 소식 요약

워크플로우 정의에서 과거 변경 내용들을 복원 가능


워크플로우 정의 상세 화면의 변경 이력 탭에서 과거 변경 내용을 복원할 수 있게 되었습니다. 복원하려는 수정 시점에서 세부 설정·복원을 클릭하면 리비전 상세 화면이 표시됩니다. 차이를 확인한 후 설정을 복원을 클릭하면 해당 수정 시점의 설정으로 돌아갈 수 있습니다.

워크플로우 정의 변경 이력 확인 가능


워크플로우 정의 상세 화면에 변경 이력 탭이 추가되었습니다.

이를 통해 워크플로 정의의 변경 이력을 확인할 수 있습니다.

Snowflake 연결 정보에서 Key Pair 인증 권장 및 연결 확인 기능 추가


연결 정보를 생성하거나 편집할 때 사용자·비밀번호 인증이 더 이상 권장되지 않습니다.

이제 key pair 인증으로도 사전 연결 확인이 가능하므로, 앞으로는 key pair 인증을 사용해 주시기 바랍니다.

사용자 API 추가


TROCCO API를 통해 사용자 정보와 관련된 다음 작업들을 수행할 수 있게 되었습니다.

  • 사용자 목록 조회
  • 사용자 생성
  • 사용자 상세 조회
  • 사용자 업데이트
  • 사용자 삭제

API 업데이트: 전송 출처 Yahoo! 검색 광고 및 Yahoo! 디스플레이 광고(운용형, Operational Type)


전송에 사용되는 Yahoo! 광고 API 버전이 v12에서 v13으로 업데이트되었습니다. 새 버전에 대한 자세한 내용은 아래 문서들을 참조하시기 바랍니다.

  • [Yahoo! 광고 API | 검색 광고 API v13 릴리스 노트]
  • [Yahoo! 광고 API | 디스플레이 광고 API v13 릴리스 노트]

TROCCO는  파트너들에게서 신뢰받고 있습니다.