Orange bullet points

데이터 마트란? 종류, 장점 및 데이터 웨어하우스와의 차이점을 알기 쉽게 설명!

Background blur
Left arrow orange
모든 블로그 보기

데이터 마트란? 종류, 장점 및 데이터 웨어하우스와의 차이점을 알기 쉽게 설명!

최근 데이터 엔지니어링과 데이터 분석에서는 데이터 활용 목적에 맞게 데이터를 적절히 관리하는 데이터 매니지먼트의 중요성이 커지고 있습니다.

기업 내부에 흩어져 있는 데이터를 데이터 웨어하우스(DWH)에 통합하여 대규모 데이터를 분석 가능한 상태로 만드는 것은 데이터 매니지먼트의 첫 단계에 불과합니다. 그러나 처리해야 할 데이터의 양이 증가할수록, DWH에 저장된 데이터를 분석 목적에 맞게 최적화하는 고도화된 데이터 매니지먼트가 필요해집니다.

이러한 경우에 유용한 것이 본 기사에서 소개하는 "데이터 마트"입니다. 데이터 마트를 활용하면 사용자의 데이터 분석이 훨씬 쉬워집니다. 데이터 마트에 대해 완벽 이해하고, 여러분들의 회사 데이터 분석 기반에 활용해 나가봅시다.

데이터 마트란 무엇인가?

데이터 마트란 데이터 검증, 분석 등 특정 목적을 위해 설계된 데이터베이스를 말합니다.

일반적으로 데이터 분석에는 회사 내 데이터를 통합한 데이터 웨어하우스(DWH)가 사용되며, 데이터 마트는 이 데이터 웨어하우스 내에서 별도의 테이블로 데이터를 추출해 생성됩니다. 쉽게 말해, 데이터 마트는 규모가 작은 데이터 웨어하우스라고 할 수 있습니다.

데이터 마트는 데이터 웨어하우스와 달리, 데이터 전체 구조의 순서를 변경하거나 데이터를 삭제 및 추가하는 등의 분석 최적화가 가능합니다.

이러한 분석 최적화를 통해 데이터 웨어하우스를 직접 사용하는 경우와 비교했을 때, 분석 속도의 향상을 기대할 수 있습니다.

의외로 잘 모르는! 데이터 마트와 데이터 웨어하우스·데이터 Lake의 차이점

데이터 마트는 종종 데이터 웨어하우스(DWH) 또는 데이터 Lake와 혼동되어 사용되고는 합니다.

많은 사람들이 저장된 데이터의 양이 많으면 데이터 웨어하우스나 데이터 Lake, 적으면 데이터 마트라고 단순히 생각하기 쉽습니다. 그러나 실제로는 데이터베이스의 목적과 구조에 따라 명확히 구분됩니다.

데이터 마트를 효과적으로 활용하려면 데이터 웨어하우스와 데이터 Lake의 차이를 이해하고, 적절히 구분하여 사용하는 것이 중요합니다.

이를 위해 "데이터 마트", "데이터 웨어하우스", "데이터 Lake"의 주요 차이를 아래 표에 정리했습니다.

목적 구조 특징
데이터 Lake 원시 데이터(생 데이터)를 보관하는 것 데이터를 수집된 순서대로 저장 저장이 목적이기 때문에 데이터 활용에는 적합하지 않습니다.
데이터 웨어하우스 데이터 활용의 기반으로 사용 데이터를 행 단위로 시간순에 따라 정리 데이터 양이 많아지면 분석이 복잡해집니다.
데이터 마트 특정 데이터 분석에 사용 정해진 구조 없음 데이터 양이 증가해도 다루기 쉽습니다.

사내의 각 서비스 및 도구가 보유한 데이터는 우선적으로 데이터 Lake 테이블에 저장됩니다.

이 데이터 레이크를 시간순으로 정리한 테이블이 바로 데이터 웨어하우스 테이블입니다. 일반적으로 이 데이터 웨어하우스 테이블이 데이터 활용의 기반이 되는 마스터 데이터로 사용됩니다.

그러나 데이터 양이 증가하거나, 원본 데이터에 변경을 가해 사용해야 하는 경우에는 데이터를 별도의 테이블로 분리해야 합니다. 이때 생성되는 것이 바로 데이터 마트입니다.

원시 데이터 보관이라는 제약이 있는 데이터 레이크나, 데이터를 시간순으로 저장해야 하는 데이터 웨어하우스와 달리, 사용자가 데이터를 자유롭게 가공할 수 있다는 점이 데이터 마트의 가장 큰 특징입니다.

데이터 마트는 목표 달성과 의사 결정에 매우 중요합니다다

데이터 웨어하우스와 데이터 마트는 구조적 차이뿐 아니라, 데이터 분석의 목적에 따라 다르게 활용될 수 있습니다.

데이터 웨어하우스는 사내 데이터를 포괄적으로 저장하며, 이를 기반으로 한 분석은 데이터의 양과 질이 풍부한 대규모 분석에 적합합니다.

이러한 분석은 몇 개월 단위의 큰 트렌드를 파악하여 중장기적인 전략을 수립하는 데 주로 활용됩니다.

다만, 월별 혹은 일별과 같은 미시적인 데이터를 활용하여 구체적인 전술을 도출하기에는 적합하지 않습니다.

반면, 시계열 외의 관점이나 특정 기간의 데이터를 바탕으로 미세한 분석을 수행하려면, 데이터 마트를 기반으로 한 분석이 효과적입니다. 예를 들어, B2B 환경에서 금요일부터 일요일까지 사용자 클릭 수가 감소하는 현상을 발견했다고 가정해봅시다. 이러한 통찰은 월별과 같은 거시적인 데이터가 아닌, 일별로 세분화된 데이터에서 얻을 수 있습니다.

이처럼 데이터 마트는 세부적인 데이터를 활용해 목적 달성을 위한 전략을 설계하는 데 유용합니다.

데이터 마트의 종류 3가지

데이터 마트는 저장하는 데이터에 따라 다음과 같은 3가지 유형으로 나눌 수 있습니다.

  1. 종속형 데이터 마트
  2. 독립형 데이터 마트
  3. 하이브리드형 데이터 마트

이들 모두 데이터 분석을 위한 데이터베이스라는 점은 공통적입니다. 하지만 각각의 운영상 장점과 단점이 다릅니다.

데이터 마트를 효과적으로 활용하려면 이들 차이를 인식하고, 데이터 분석의 목적이나 운영상의 과제에 적합한 유형을 선택해야 합니다.

종속형 데이터마트


종속형 데이터 마트는 가장 일반적인 데이터 마트 유형입니다.

이는 부모 관계에 있는 데이터 웨어하우스에서 분석에 필요한 데이터를 추출하는 방식으로 생성됩니다.

데이터 웨어하우스에서 발생한 변경 사항이 자식 데이터 마트에도 반영된다는 점이 특징이며, 부모 데이터의 업데이트에 따라 데이터 마트도 해당 업데이트를 따릅니다.

그러나 부모 데이터에서 필요한 데이터가 제외되면, 그 변경 사항에 따라 데이터 마트에서도 데이터를 삭제합니다.

부모 데이터 웨어하우스는 기본적으로 시계열 데이터를 보관하는 용도로만 사용하고, 분석을 위한 데이터 편집은 반드시 데이터 마트를 사용하도록 규칙을 정하는 등 취급에 주의해야 합니다.

독립형 데이터 마트


독립형 데이터 마트는 종속형 데이터 마트와 대칭을 이루는 유형의 데이터 마트입니다.

데이터 웨어하우스에 없는 데이터를 사용하여 데이터 분석을 진행할 경우 사용됩니다.

데이터 마트를 만들 때만 부모 데이터 웨어하우스와 연결하여 데이터를 추출하고, 이후에는 데이터 웨어하우스와의 연결을 끊고 운영되는 것이 독립형 데이터 마트의 특징입니다.

부모 데이터 웨어하우스의 영향을 받지 않고 운영할 수 있습니다. 또한 매번 데이터 분석할 때마다 데이터를 업데이트해야 하므로 ad-hoc (즉흥적) 분석에 유효합니다.

하이브리드형 데이터 마트


하이브리드형 데이터 마트는 종속형과 독립형 데이터 마트의 특징을 모두 갖춘 데이터 마트입니다. 기본적인 데이터는 부모 데이터 웨어하우스에서 추출하면서도, 외부 서비스에서 얻은 데이터를 결합한 고급 분석에 사용됩니다.

종속형과 독립형 데이터 마트에 비해 더욱 유연한 데이터 분석이 가능합니다. 그러나 부모 데이터 웨어하우스의 영향을 받기 쉬우며, 분석할 때마다 외부 데이터를 업데이트해야 하는 등의 운영상의 단점도 함께 존재합니다.

데이터 마트를 도입하는 3가지 장점

자사의 보유 데이터 양이 적다면 데이터 마트를 도입할 필요가 없다고 생각할 수 있지만, 데이터 마트에는 운영상 여러 가지 장점이 있습니다.

데이터 웨어하우스만 사용하는 것이 아니라, 일부러 데이터 마트를 도입하는 장점 3가지를 소개합니다.

목표나 부서 등 특정 영역의 데이터 분석이 쉬워짐


데이터 웨어하우스가 보유하는 데이터는 방대해서 미시적인 분석에는 적합하지 않습니다.

반면, 데이터 마트는 방대한 데이터 중 분석에 필요한 데이터만을 추출합니다. 예를 들어, "회계 부서가 월별 예산 관리", "마케팅 부서가 매주 데이터 분석" 등을 하는 경우, 특정 부서나 부문에서도 데이터 분석이 용이해집니다.

데이터 마트로의 데이터 추출은 간단한 SQL로 실행할 수 있기 때문에, 내부 데이터 엔지니어에게 의존하지 않고 데이터 활용의 민주화(democratization)가 촉진됩니다. 그 결과, 어떤 부서나 부분에서도 데이터 분석 결과를 바탕으로 정확한 의사결정을 내릴 수 있게 되며, 확신을 가지고 전략을 실행할 수 있습니다.

데이터 처리가 간단해지고 업무 효율화에 기여한다


보통 데이터 웨어하우스만을 기반으로 데이터 분석을 할 때는 마스터 데이터를 함부로 수정하지 않도록 주의해야 합니다.

하지만 데이터 마트를 사용하면 마스터 데이터에 영향을 주지 않고 데이터 수정이 가능해집니다.

데이터 분석의 전 단계로, 분석하기 쉽게 데이터를 정리하는 것이 일반적입니다. 단순한 데이터 정렬뿐만 아니라, 일일 데이터에서 월간 데이터로 통합하는 등의 복잡한 작업도 쉽게 할 수 있습니다.

게다가 만약 의도하지 않은 작업으로 데이터가 손실되더라도, 마스터 데이터에서 다시 데이터를 얻을 수 있습니다. 이렇게 하면 언제든지 다시 시도할 수 있어 데이터 처리도 간단해집니다.

저렴하고 구현 시간이 빠름


데이터 마트는 기존의 데이터 웨어하우스 서비스 위에 구축됩니다.

이미 데이터 웨어하우스 시스템을 도입했다면, 데이터 마트를 위한 별도의 서비스를 준비할 필요가 없습니다.

데이터 마트를 활용한 데이터 분석을 진행하고자 한다면, 바로 데이터 분석을 시작할 수 있으며, 빠른 데이터 활용이 가능합니다. 또한 Google BigQuery나 Amazon Redshift와 같은 주요 데이터 웨어하우스 서비스의 요금 체계는 서비스 기본 요금에 더해 사용한 데이터량에 따라 과금되는 경우가 많습니다.

따라서 데이터 마트를 도입하더라도 발생하는 비용은 소액의 사용량 기반 요금에 그칩니다.

데이터 마트를 도입하는데 단점 2가지

데이터 마트는 도입이 용이하고, 단순한 데이터 추출은 데이터 엔지니어 없이도 사용할 수 있습니다.

하지만 앞서 말씀드린 매력적인 장점이 있는 반면, 데이터 마트를 도입하면서 발생할 수 있는 단점도 존재합니다. 이번 장에서는 2가지 단점을 소개합니다.

두 가지 단점은 모두 사용자 측에서 이를 올바르게 인식하고 운영함으로써, 자사의 사업에 큰 효과를 가져올 수 있습니다.

데이터셋 및 테이블 관리가 복잡해짐


데이터 마트는 앞서 언급한 바와 같이 데이터 엔지니어링 지식 없이도 사용할 수 있습니다. 그러나 데이터 웨어하우스 서비스에는 상세 내용이 명확하지 않은 테이블이 여러 개 나열되어 있어 관리가 어려워지는 경우가 많습니다.

특히, 임시로 사용된 분석 테이블이 삭제되지 않고 방치되는 경우가 있습니다. 또한,  규모가 조금 큰 데이터를 분석하려고 마스터 데이터 웨어하우스를 그대로 분석용으로 복제하여 데이터 마트로 활용하는 경우, 지속적인 비용이 발생할 수 있습니다.

데이터 마트를 도입할 때는 "마스터가 될 데이터베이스를 명확히 결정한다", "한 번 사용한 데이터 마트는 용도가 끝나면 삭제한다" 등 운영 규칙을 정해두는 것이 중요합니다.

다각적인 분석이 어려워 새로운 인사이트를 얻기 힘듦


미국 월마트가 매출 분석을 하면서 맥주와 기저귀의 매출 간 상관 관계를 발견한 사례가 있습니다.

이 두 제품을 가까이 배치함으로써 매출을 증가시킨 이야기는 유명하지만, 만약 맥주나 기저귀 데이터만 보고 있었다면 이런 인사이트는 얻을 수 없었을 것입니다.

데이터 마트를 사용할 때도 마찬가지입니다. 필요한 데이터를 추출했다고 생각하더라도, 특정 데이터만 보고 있다면 예상한 분석 결과를 얻기 어려운 경우가 있습니다.

"추출하는 데이터를 좀 더 넓게 설정해 보거나", "외부 서비스의 데이터와 결합하여 하이브리드형 데이터 마트를 만들어 보거나" 등 여러 가지 방법이 필요합니다. 특히 하이브리드형 데이터 마트를 만들고 운영하려면 간단한 SQL만으로는 부족하고 데이터 엔지니어링 지식이 요구됩니다.

일상적으로 복잡한 분석을 진행하지 않는다면, 필요한 경우 벤더에게 유료 분석 지원을 요청하는 것이 좋습니다.

마무리

본 글에서는 데이터 마트의 개요와 유사한 용어와의 차이점, 그리고 장점과 단점에 대해 설명했습니다.

부서와 팀을 불문하고 데이터를 효과적으로 활용하려면 데이터 마트의 활용이 필수적입니다. 복잡한 데이터 분석을 수행할 때 데이터 엔지니어의 도움이 필요한 경우도 있지만, 그 단점을 보완하고도 남을 매력이 있습니다.

여러분들의 회사 데이터 분석 기반을 구축할 때 데이터 마트 도입을 적극적으로 고려해 보시길 권장드립니다.

저희가 제공하는 ETL 도구 TROCCO®에는 데이터 마트 생성 기능이 포함되어 있어 데이터 웨어하우스의 콘솔 화면을 조작하지 않고도 TROCCO® 화면에서 간단한 설정만으로 데이터 마트를 생성할 수 있습니다.

더불어 TROCCO®의 워크플로 기능을 활용하면, 새로 취득한 데이터를 통합하여 데이터 마트를 생성하는 프로세스까지 자동화할 수 있습니다.

TROCCO는  파트너들에게서 신뢰받고 있습니다.