데이터베이스의 진화: 데이터 플랫폼

데이터 플랫폼 단계*

앞서 살펴본 데이터 플랫폼의 구성 요소들이 모든 데이터 플랫폼에서 동일하게 사용되는 것은 아닙니다. 데이터 플랫폼은 구축 목적과 투자 가능한 리소스에 따라 필요한 구성 요소와 단계가 달라질 수 있습니다. 따라서 각 조직의 상황에 맞추어 적절한 형태로 설계되고 구축됩니다.

여기에서는 데이터 플랫폼을 구성하는 주요 단계를 구분하여 설명하고자 합니다. 이해를 돕기 위해 각 단계를 편의상 1단계부터 6단계까지로 나누어 설명하겠습니다.

1단계: 초기 단계

데이터 플랫폼 발전의 초기 단계인 1단계는 트랜잭션 시스템에 직접 접근하여 데이터를 쿼리하고 보고서를 생성하는 방식입니다. 이 단계에서는 Excel, Power BI 또는 이와 유사한 스프레드 시트나 BI 리포팅 도구를 OLTP(Online Transaction Processing) 운영 데이터베이스에 직접 연결하여 필요한 데이터를 수집하고 표나 차트 형태로 시각화합니다.

이 방식은 데이터에 빠르게 직접 접근할 수 있다는 장점이 있습니다. 그러나 운영 데이터베이스에 직접 연결하여 대규모 집계 쿼리를 실행할 경우, 운영 중인 데이터베이스에 부하를 주어 성능 저하를 발생시킬 수 있습니다. 또한 필요한 정보를 추출하기 위해 수동으로 데이터를 가공하거나 정리해야 하는 경우가 많아, 분석과 시각화, 리포팅 과정이 전반적으로 비효율적이 되는 경향이 있습니다.

그림 1 1단계 데이터 플랫폼 구조 (출처: https://medium.com/@mariusz_kujawski/from-database-to-ai-the-evolution-of-data-platforms-59f487e235df)

2단계: 저장 스토리지 활용

1단계에서는 운영 데이터베이스에 직접 접근하여 분석을 수행하기 때문에, 분석 과정에서 발생하는 오버헤드가 운영 시스템의 성능에 직접적인 영향을 주는 문제가 발생합니다.

이러한 문제를 해결하기 위해, 2단계의 주요 목표는 운영 데이터베이스로부터 데이터를 주기적으로 혹은 실시간으로 추출하여 별도의 데이터베이스나 파일에 저장하는 것입니다. 분석은 이 추출된 데이터에 대해 수행되며, 이를 통해 집계와 분석을 위한 무거운 쿼리가 운영 데이터베이스의 속도에 미치는 영향을 최소화할 수 있습니다.

분석을 위한 서버를 구성하는 방법은 새로운 서버를 도입하여 시스템 리소스를 확장하거나, 가상 머신(VM)을 활용하여 부하를 분산시키는 방법, 또는 Azure, AWS와 같은 클라우드 환경으로 전환하는 방법이 사용되기도 합니다.

다만, 2단계에서 수행되는 데이터 추출은 분석 사례별로 별도로 추출되는 경우가 많습니다. 이로 인해 분석 대상 데이터가 늘어날수록 별도로 저장된 데이터 스토리지가 많아지고, 유사한 데이터가 중복되거나, 데이터 추출 담당자의 관점에 따라 데이터의 일관성이 유지되지 않는 문제가 발생할 수 있습니다.

그림 2 2단계 데이터 플랫폼 구조 (출처: https://medium.com/@mariusz_kujawski/from-database-to-ai-the-evolution-of-data-platforms-59f487e235df)

3단계: 데이터 웨어하우스

2단계에서는 운영 애플리케이션의 데이터를 분석하기 위해 데이터 분석가들도 상세한 비즈니스 지식을 갖추어야 했으며, 추출된 데이터 간의 일관성 문제로 인해 기업 내에서 데이터를 원활하게 공유하는 데 어려움이 있습니다.

이러한 문제를 해결하기 위해, 기업들은 데이터 분석의 일관성과 데이터 공유를 강화하기 위해 데이터 웨어하우스를 구축하게 됩니다. 데이터 웨어하우스의 주요 목표는 데이터 분석을 위한 통합된 소스를 마련하여, 동일한 이름을 가진 측정값이 항상 일관된 의미를 전달할 수 있도록 하는 데 있습니다.

데이터 웨어하우스에 저장되는 데이터는 모든 사용자가 쉽게 이해할 수 있도록 설계되어야 하며, 동시에 빠른 액세스가 가능해야 합니다. 또한, 기존 운영 데이터베이스의 정상적인 운영에 방해를 주지 않고 데이터 웨어하우스로 데이터를 추출할 수 있도록 구조가 설계되어야 합니다.

데이터 웨어하우스는 퍼블릭 클라우드나 온프레미스 환경에 구축할 수 있습니다. 퍼블릭 클라우드에서는 AWS Redshift, Google BigQuery, Databricks, Microsoft Synapse, Snowflake 등이 주요 솔루션으로 활용되며, 온프레미스에서는 Microsoft SQL Server, Oracle, PostgreSQL 등이 사용됩니다. 어떤 방식과 데이터베이스 엔진을 선택할지는 데이터 크기, 데이터 팀의 전문성, 그리고 특정 사용 사례와 같은 여러 요인에 따라 달라집니다.

그림 3 3단계 데이터 플랫폼 구조 (출처: https://medium.com/@mariusz_kujawski/from-database-to-ai-the-evolution-of-data-platforms-59f487e235df)

데이터베이스 엔진을 선택하는 것도 중요하지만, 데이터 웨어하우스를 구축할 때 고려해야 할 또 다른 핵심 요소는 바로 데이터 모델링 방법과 데이터 추출 방식입니다.

데이터 웨어하우스에서는 일반적으로 스타 스키마Star Schema 와 스노우플레이크 스키마Snowflake Schema 같은 모델링 기법이 사용되며, 각각의 구조는 데이터의 특성과 활용 목적에 따라 적절하게 선택되어야 합니다. 스타 스키마는 단순하고 직관적인 구조로 빠른 쿼리 성능을 제공하는 반면, 스노우플레이크 스키마는 데이터 정규화를 통해 저장 공간을 효율적으로 사용할 수 있는 장점이 있습니다.

또한, 소스 데이터의 특성과 데이터 모델링 구조에 따라 ETLExtract, Transform, Load 방식을 사용할지, 또는 ELTExtract, Load, Transform 방식을 사용할지를 신중하게 결정해야 합니다. ETL은 데이터를 추출한 후 변환 과정을 거쳐 저장하는 방식이며, ELT는 데이터를 먼저 저장한 후 필요에 따라 변환하는 방식을 의미합니다. 각각의 방법은 데이터 처리량, 시스템 성능, 분석 목적에 따라 선택이 달라질 수 있습니다.

4단계: 데이터 레이크

기업이 방대한 양의 데이터, 실시간 데이터, 그리고 다양한 소스에서 인사이트를 얻어야 하는 상황에서는 기존의 데이터 웨어하우스만으로 분석 목적을 달성하는 데 한계가 있을 수 있습니다. 데이터 웨어하우스는 일반적으로 많은 시간이 소요되는 데이터 모델링과 스키마 정의 과정을 거쳐야 하며, 구조화된 정형 데이터를 중심으로 관리됩니다. 특히 비정형 데이터나 반정형 데이터 활용에 제약이 있다는 점은 최근 데이터 플랫폼 환경에서 데이터 웨어하우스의 분명한 약점으로 지적되고 있습니다.

이러한 데이터 웨어하우스의 한계를 보완하기 위해 등장한 것이 바로 데이터 레이크Data Lake입니다. 데이터 레이크는 비정형 데이터를 포함하여 대규모 데이터를 저장하고 처리할 수 있는 저장소로, 수집된 모든 원시 데이터를 여러 소스에서 가공 없이 그대로 저장하는 특징을 가집니다. 이 때문에 데이터 레이크에 저장된 데이터는 초기에는 정제되지 않은, 다소 '지저분한' 상태일 수 있습니다.

데이터 웨어하우스가 특정 용도에 맞게 변환된 데이터를 저장하는 반면, 데이터 레이크는 모든 형태의 데이터를 원본 그대로 저장합니다. 또한, 데이터 웨어하우스는 미리 스키마를 정의한 후 데이터를 저장하는 Schema on Write 방식을 따르는 반면, 데이터 레이크는 저장 당시 스키마를 정의하지 않고 나중에 데이터를 읽을 때 스키마를 적용하는 Schema on Read 방식을 채택합니다.

이로 인해 데이터 레이크는 데이터 웨어하우스에 비해 훨씬 더 많은 양의 데이터를 저장할 수 있으며, 저장 방식을 특정 데이터 모델에 맞추어 제한하지 않습니다. 다만, 저장된 데이터가 정형화되어 있지 않기 때문에, 데이터의 탐색과 활용을 원활하게 하기 위해서는 데이터 레이크 내의 데이터 카탈로그를 항상 최신 상태로 유지하는 것이 매우 중요합니다.

그림 4 4단계 데이터 플랫폼 구조 (출처: https://medium.com/@mariusz_kujawski/from-database-to-ai-the-evolution-of-data-platforms-59f487e235df)

이 단계의 데이터 플랫폼은 데이터 레이크가 데이터 웨어하우스를 완전히 대체하는 것이 아니라, 두 시스템이 서로를 보완하며 함께 공존하는 형태로 구성됩니다. 데이터 레이크는 Schema on Read 접근 방식을 통해 방대한 양의 다양한 비정형 데이터를 저장하는 데 탁월한 강점을 가지고 있습니다. 이를 통해 새로운 데이터 소스를 빠르게 로딩하고 유연하게 분석할 수 있는 환경을 제공합니다.

반면, 데이터 웨어하우스는 여전히 집계 및 모델링된 정형 데이터를 안정적으로 저장하고, 고속 분석을 지원하는 데 중요한 역할을 담당합니다. 데이터 웨어하우스는 구조화된 데이터와 정형화된 분석이 필요한 경우에 최적의 성능을 발휘합니다.

따라서 데이터의 특성과 분석 목적에 따라 데이터 레이크와 데이터 웨어하우스를 적절히 조합하여 활용하면, 각각의 장점을 살리면서 전체 데이터 플랫폼의 성능과 유연성을 더욱 향상시킬 수 있습니다. 두 시스템은 서로 보완적인 관계를 유지하면서, 현대 데이터 플랫폼의 핵심 인프라로 함께 진화해 나가고 있습니다.

l 5단계: 머신러닝과 AI

데이터 플랫폼의 5단계에서는 방대한 데이터를 Delta Lake, Iceberg, Apache Hudi, Parquet와 같은 열column 기반 데이터 형식으로 저장합니다. 이러한 데이터 형식은 데이터 엔지니어가 데이터를 고도로 압축된 열 단위로 저장함으로써, 분석 쿼리뿐만 아니라 트랜잭션 처리, 다양한 병합(Merge), 업데이트(Update), 삭제(Delete) 작업까지 효율적으로 지원할 수 있도록 설계되어 있습니다.

또한 이 단계에서는 단순히 과거 데이터를 분석하는 것에 그치지 않고, 머신러닝 및 AI 모델을 적극적으로 활용하여 미래 데이터를 예측하고, 데이터 기반 의사결정을 위한 인사이트를 제공합니다. 이를 통해 기업은 데이터에서 얻은 정보를 바탕으로 전략적인 판단을 내릴 수 있으며, 생성형 AI와 같은 첨단 AI 기반 서비스를 개발하거나 제공하는 데에도 활용할 수 있습니다.

결과적으로, 이 단계는 데이터 저장과 처리를 고도화할 뿐 아니라, AI 기술과 결합하여 데이터 플랫폼의 가치를 한층 더 확장하는 시스템을 의미합니다.

그림 5 5단계 데이터 플랫폼 구조 (출처: https://medium.com/@mariusz_kujawski/from-database-to-ai-the-evolution-of-data-platforms-59f487e235df)

이 단계에서 추가된 머신러닝 모듈은 오픈 소스 라이브러리를 활용하여 온프레미스나 퍼블릭 클라우드 인프라를 기반으로 구축할 수 있습니다. 온프레미스 환경에서는 파이썬 기반의 Pandas, Scikit-Learn, PyTorch, TensorFlow와 같은 도구를 사용하여 머신러닝 모델을 개발하고 배포할 수 있습니다. 반면, Azure 머신 러닝, BigQuery ML, Vertex AI, Amazon SageMaker, Redshift ML과 같은 퍼블릭 클라우드에서 제공하는 머신러닝 SaaS(Software as a Service)를 활용하여 손쉽게 모델을 구축하고 운영하는 방법도 많이 사용되고 있습니다.

머신러닝 프로세스 전체를 자동화하고 관리하기 위해 Azure Data Factory, Apache Airflow, Prefect, GCP 워크플로, AWS Step Functions와 같은 오케스트레이션 도구를 사용하는 것도 일반적입니다. 이러한 도구들은 데이터 수집, 모델 학습, 예측, 배포까지의 전 과정을 체계적으로 연결하여 보다 안정적이고 효율적인 머신러닝 파이프라인을 구축할 수 있도록 지원합니다.

또한 퍼블릭 클라우드 환경에서 제공하는 다양한 AI SaaS 서비스를 활용하면, 데이터레이크에 저장된 텍스트나 음성 데이터를 자연어 처리하여 챗봇이나 번역 서비스를 구현할 수 있습니다. 더 나아가 이미지나 영상 데이터를 활용하여 생성형 AI 서비스를 제공하거나, 거대 언어 모델LLM, Large Language Model을 기반으로 한 생성형 AI, RAGRetrieval Augmented Generation 같은 고급 AI 서비스도 구축할 수 있습니다. 이러한 AI 서비스는 데이터 플랫폼의 활용 가치를 한층 더 확장시키고, 비즈니스 혁신을 가속화하는 데 중요한 역할을 합니다.

l 6단계: 생성형 AI

6단계는 사실 전통적인 의미의 데이터 플랫폼이라기보다는, AI 플랫폼으로도 여겨질 수 있습니다. 이 단계에 이르면 각 기업은 자체적으로 구축한 데이터 웨어하우스와 데이터 레이크를 기반으로 하여 생성형 AI를 개발할 수 있는 토대를 마련하게 됩니다. 이를 통해 기업 내부에 축적된 도메인 지식을 활용하여, 특정 비즈니스에 최적화된 생성형 AI 시스템을 구현하는 것도 가능해집니다.

다만, 이러한 고도화된 데이터 및 AI 플랫폼의 구축은 상당한 시간과 리소스가 소요되는 작업입니다. 아직까지는 많은 기업들이 이 수준에 도달하기 위해 단계적으로 준비를 진행하고 있으며, 완전한 구현까지는 시간이 더 필요할 것으로 보입니다.

그림 6 6단계 데이터 플랫폼 구조 (출처: https://medium.com/@mariusz_kujawski/from-database-to-ai-the-evolution-of-data-platforms-59f487e235df)

* : 이 블로그는 Mariusz Kujawski의 블로그를 참조하여 작성하였습니다. (출처: https://medium.com/@mariusz_kujawski/from-database-to-ai-the-evolution-of-data-platforms-59f487e235df)

저작자표시 비영리 동일조건 (새창열림)

'데이터 사이언스 & 데이터 엔지니어링' 카테고리의 다른 글

마케팅 분석에서의 대수(Logarithms)의 실용 가이드 - part 2 (0)	2026.05.14
마케팅 분석에서의 대수(Logarithms)의 실용 가이드 - part 1 (0)	2026.05.14
데이터 레이크 vs. 데이터 웨어하우스(Data Lakes vs. Data Warehouses) (0)	2026.05.13
데이터베이스의 진화: 데이터 플랫폼 - Part 3 (0)	2026.05.09
데이터베이스의 진화: 데이터 플랫폼 - Part 1 (0)	2026.05.09

시계열, Plotly, 폴라스, DuckDB를 사용한 데이터 분석

데이터베이스의 진화: 데이터 플랫폼 - Part 2

데이터 플랫폼 단계*

'데이터 사이언스 & 데이터 엔지니어링' 카테고리의 다른 글

댓글

티스토리툴바

데이터베이스의 진화: 데이터 플랫폼 - Part 2

데이터 플랫폼 단계*

'데이터 사이언스 & 데이터 엔지니어링' 카테고리의 다른 글

관련글

댓글

티스토리툴바