기업의 규모와 상관없이 현대 비즈니스에서 데이터 활용의 중요성은 더 이상 강조할 필요가 없을 것입니다. 수집된 데이터를 그래프나 표로 시각화하거나 통계적으로 분석하여, 경험이나 직감이 아닌 데이터를 기반으로 전략을 세우는 데이터 분석은 데이터 활용의 중요한 방식 중 하나입니다.
최근 데이터 활용이 급격히 활발해진 이유 중 하나는, 방대한 양의 데이터를 고속으로 처리할 수 있는 도구가 등장했기 때문입니다. 동시에, 데이터 엔지니어링 지식이 없는 비엔지니어도 데이터를 쉽게 다룰 수 있는 도구가 개발된 것도 중요한 이유 중 하나입니다. 즉, 다룰 수 있는 데이터 양이 늘어난 ‘세로의 확장’과, 도구를 통해 데이터 분석의 진입 장벽이 낮아진 ‘가로의 확장’이라는 두 가지 요인이 데이터 활용을 촉진한 것입니다.
이러한 데이터 분석을 위한 도구 중 하나가 이번에 소개할 ETL 도구입니다.
데이터 분석 기반을 구축하기 위해 필요한 요소는 크게 다음 세 가지로 나눌 수 있습니다.
이 세 가지 요소를 연결하는 것이 바로 데이터의 ETL(추출: Extract, 변환: Transform, 적재: Load)입니다. 간단히 말하면, ETL 도구는 데이터 엔지니어 대신 이 ETL 작업을 수행하는 도구입니다.
기존에는 ETL을 직접 구현하려면 각 서비스의 API에 대한 지식이 필요하거나, 데이터를 전송하기 위한 프로그램을 구축해야 했습니다. 또한, 한 번 구축한 데이터 분석 기반도 서비스의 버전 변경, API 사양 변경, 오류 대처 등으로 인해 유지보수에 드는 비용이 매우 크다는 것이 일반적인 인식이었습니다.
그러나 ETL 도구는 이러한 문제를 해결하기 위해 등장한 도구입니다.
ETL 도구에는 말 그대로 ETL 작업만 수행하는 단순 도구부터, 데이터 분석 기반의 구축에서 운영까지 지원하는 다기능 ETL 도구까지 다양한 유형이 존재합니다. 이러한 점을 염두에 두고 ETL 도구를 도입할 때 비교 검토해야 할 몇 가지 주요 포인트를 소개합니다.
ETL 도구를 도입하더라도 자사에서 사용하는 서비스가 전송 대상에 포함되지 않으면 데이터를 전송할 수 없습니다. 따라서 가장 먼저 확인해야 할 것은, ETL 도구가 자사에서 사용하는 서비스 중 얼마나 많은 서비스를 전송 대상으로 지원하는지입니다.
데이터는 신선도가 중요하며, 시간이 지난 데이터를 참고하면 신선도가 떨어진 분석 결과로 이어질 수 있습니다. 따라서, 데이터를 매일 업데이트하고 분석 결과를 지속적으로 갱신하는 것이 일반적입니다.
ETL 도구는 사용자의 ETL 작업을 지원하는 도구이지만, 데이터 분석 플랫폼을 구축할 수 있다 하더라도 결국 사람이 데이터를 계속 업데이트해야 하는 운영 방식은 큰 부담이 될 수 있습니다. 따라서, 데이터 정기 전송 기능 등 데이터 분석 플랫폼의 운영 측면을 지원하는 기능을 갖추고 있는지 여부가 도구 선택의 중요한 포인트가 됩니다.
최근 DWH(Digital Warehouse) 도구의 성능이 크게 향상됨에 따라, 원시 데이터를 모두 한 번에 DWH에 통합한 뒤 이를 추출하고 분석용으로 가공하여 같은 DWH 내의 다른 테이블에 저장하는 ELT 방식이 점점 보편화되고 있습니다.
ETL 도구를 선택할 때 이러한 ELT 기능을 지원하는지 여부에 주목하면 현대적인 데이터 엔지니어링 기법에도 대응할 수 있습니다.
ETL은 데이터를 DWH(데이터 웨어하우스)로 통합하는 것을 말하지만, 여기서 더 나아가 DWH에서 원래 데이터 소스로 데이터를 다시 보내는, 즉 ETL과 반대 방향의 흐름을 리버스 ETL이라고 합니다.
예를 들어, Salesforce와 같은 CRM 도구에서 영업 데이터나 고객 데이터가 DWH로 통합되어 분석 및 관리하기 쉬운 형식으로 변환되더라도, Salesforce 자체에서는 그 분석 결과의 혜택을 누릴 수 없습니다. 리버스 ETL은 이러한 경우에 효과적으로 작동하며, 데이터 활용의 범위를 확장해줍니다.
특히 데이터 분석 플랫폼 구축만을 목표로 하지 않고, 부서나 부문을 초월하여 전사적으로 데이터를 활용하려는 경우에는 리버스 ETL 기능 지원 여부도 중요한 검토 포인트가 됩니다.
최근 데이터 관리의 중요성이 높아지면서 메타데이터를 활용한 데이터 관리가 주목받고 있습니다.
데이터 파이프라인의 흐름을 메타데이터로 관리하는 데이터 계보(Data Lineage), 사용자들의 데이터 검색성을 향상시키는 데이터 카탈로그(Data Catalog) 등이 그 예입니다. 하지만 이러한 데이터 관리는 매일 모든 데이터에 대해 메타데이터를 생성하고 수집하는 데 큰 어려움이 따르며, 이를 사람이 직접 처리하는 것은 현실적으로 어렵다는 것이 현재의 상황입니다.
물론 별도의 메타데이터 관리 도구를 도입하는 것도 하나의 방법이지만, 데이터가 전송될 때마다 ETL 도구를 통과한다는 특성상, 이 단계에서 메타데이터를 생성하고 수집할 수 있습니다. 따라서 ETL 도구는 메타데이터를 활용한 데이터 관리와 궁합이 좋다고 할 수 있습니다. 아직 이러한 기능을 갖춘 서비스는 많지 않지만, 메타데이터 관련 기능을 제공하는 ETL 도구를 활용하면 데이터 분석 기반 구축과 함께 사내 데이터 관리를 개선할 수 있어 일상적인 운영에서 큰 도움을 받을 수 있습니다.
서두에서도 언급했듯이, 데이터 분석에서는 광고 데이터, 영업 데이터, 로그 데이터 등 분석의 기초가 되는 다양한 데이터가 활용됩니다.
이 세 가지 요소를 기반으로, 이를 연결하는 요소로서 ETL이 필요합니다. ETL 도구를 선택한 후, 자사에서 직면한 과제나 데이터 분석 활용 방안에 맞춰 이들 도구도 함께 검토하며 데이터 분석 기반을 구축해 나갑니다.
또한, 자사에 데이터 엔지니어링 관련 노하우가 부족하다면 데이터 분석 기반의 구축 및 운영을 지원하는 도구를 선택하면, 수작업을 최소화한 운영이 가능해집니다. 더불어, 다루는 데이터 양이 증가하더라도 운영 측면에서의 부담을 줄일 수 있습니다.
ETL 도구란 무엇인지부터 ETL 도구를 선택하는 포인트들에 대해 설명해 보았습니다.
이러한 포인트들을 참고하여 귀사의 데이터 분석 기반에 가장 적합한 ETL 도구를 선정해 보시기 바랍니다.
또한, 당사는 데이터 분석 기반 구축 서비스 TROCCO®를 제공하고 있습니다. TROCCO®는 단순한 ETL 기능뿐만 아니라 분석 기반의 운영 지원, 메타데이터를 활용한 데이터 관리 지원 등 데이터 분석을 종합적으로 지원하는 도구입니다.
도입 시에는 무료 체험판도 제공하고 있어, 정말로 ETL 도구가 필요한지, 다른 ETL 도구와 비교하여 어떤 점이 다른지 등의 의문을 실제로 사용하면서 해결할 수 있습니다.
데이터 연계, 관리, 운영을 효율적으로 진행하고자 하는 분이나 당사의 제품에 관심이 있는 분은 꼭 자료를 확인해 보시기 바랍니다.