데이터베이스의 진화: 데이터 플랫폼

1950년대부터 시작된 데이터베이스는 데이터 관리 기술의 중심으로 자리 잡으며, 성능이 지속적으로 개선되고 활용 분야도 점차 넓어졌습니다. 그러나 컴퓨터 환경이 발전하고, 인터넷을 통해 다양한 시스템들이 서로 연결되면서, 이제는 셀 수 없이 많은 데이터가 수집되고 있습니다. 이러한 변화로 인해 데이터베이스는 더 이상 단순한 데이터 저장소에 머물지 않고, 데이터 중심의 통합 플랫폼으로 발전하고 있습니다.

데이터 사이언스, 데이터 분석, 데이터 인텔리전스, 데이터 웨어하우스, 데이터 레이크, 데이터 사일로, 빅데이터 등, 데이터와 관련된 다양한 시스템과 개념들은 데이터베이스를 통해 데이터가 체계적으로 저장되고, 다양한 응용 목적에 맞게 효과적으로 연계되며, 사용자나 다른 시스템에서 활용될 수 있도록 설계되지 않으면 제 기능을 할 수 없습니다.

이처럼 데이터를 중심으로 데이터의 수집, 저장, 처리, 분석, 시각화까지 전 과정을 관리하는 통합 시스템을 데이터 플랫폼이라고 합니다. 데이터 플랫폼은 데이터 기반 애플리케이션의 중앙 허브 역할을 수행하며, 기업과 조직이 가치 있는 인사이트를 추출하고 정보에 기반한 의사결정을 내릴 수 있도록 지원하는 역할을 합니다.

데이터 플랫폼 구성

데이터 플랫폼은 데이터를 활용하기 위한 여러 개의 시스템으로 구성되며, 각 시스템의 구성 요소는 데이터의 생산부터 소멸까지의 수명 주기에 따라 단계 단계별로 구성되어 있습니다.

그림 1 데이터 플랫폼 구조도(출처: Muhlheim, Michael & Pradeep, Ramuhalli. (2022). LWRS Development of a Cloud-based Application. 10.13140/RG.2.2.13728.05127.)

데이터 소스

데이터 소스(Data Sources)는 데이터가 생성되고 저장되는 원천을 의미합니다. 데이터 플랫폼은 데이터 소스에서부터 시작합니다. 업무 시스템에서 발생한 트랜잭션 데이터, 데이터들이 변경되거나 시스템이 운영되는 과정에서 발생한 로그 데이터, IoT나 모니터링 과정에서 발생한 센서 데이터, 소셜 미디어 데이터 등 다양한 형태로 존재하고 저장됩니다. 이를 흔히 원천 데이터Raw data라고 말하기도 합니다.

데이터 수집

데이터 수집Ingestion이란 다양한 데이터 소스에서 데이터를 가져와 저장 및 처리할 수 있도록 하는 과정입니다. 데이터는 정형Structured, 반정형Semi-structured, 비정형Unstructured 형태로 존재할 수 있으며, 배치Batch, 실시간Streaming 이벤트 기반Event-driven 등의 방식으로 수집됩니다.

그림 2 데이터 수집 개념(출처: https://airbyte.com/data-engineering-resources/data-ingestion-architecture)

이렇게 수집된 데이터는 데이터 웨어하우스DWH 또는 데이터 레이크Data Lake로 저장되고, 이 데이터 수집에 대표적으로 사용되는 도구로는 아파치 카프카Kafka, Azure Data Factory 등이 있습니다.

데이터 저장

데이터 저장Storage은 데이터 플랫폼에서 수집된 데이터를 안전하게 보관하고 효율적으로 관리하는 핵심 기능입니다. 이 기능은 다양한 형식의 데이터를 안정적으로 저장하고, 필요할 때 빠르게 접근할 수 있도록 설계되어 있습니다. 저장되는 데이터에는 수집된 원본 데이터뿐만 아니라, 분석을 위해 정제된 가공 데이터도 포함됩니다.

데이터 저장에서 가장 중요한 요소는 두 가지입니다. 첫 번째는, 데이터가 안정적으로 저장·관리되어야 한다는 점이며, 두 번째는, 필요할 때 언제든지 해당 데이터를 사용할 수 있어야 한다는 점입니다.

이를 위해, 시스템에서는 데이터 손실을 방지하기 위해 여러 저장소에 데이터를 복제Replication하는 방식이 사용되기도 합니다. 또한, 저장된 데이터의 처리 속도와 접근성(가용성)을 높이기 위해 인덱싱indexing 과 캐싱caching 등의 기법도 함께 활용됩니다.

데이터 저장 방식은 일반적으로 블록 스토리지Block Storage, 파일 스토리지File Storage, 오브젝트 스토리지Object Storage의 세 가지 유형으로 나뉩니다. 각 저장 방식은 데이터의 특성과 사용 목적에 따라 적절히 선택되어야 하며, 다양한 시스템에서 다르게 활용됩니다.

각 저장 방식은 데이터의 특성과 사용 목적에 따라 적절히 선택되어야 하며, 다양한 시스템에서 다르게 활용되는데 크게 정형 데이터를 위한 데이터웨어하우스와 정형, 비정형 데이터를 함께 다루는 데이터 레이크로 나눌 수 있습니다.

정형 데이터를 위한 데이터 웨어하우스는 정형 데이터를 분석하기 위해 설계된 저장소입니다. ETL(추출, 변환, 적재) 등의 과정을 거쳐 분석에 최적화된 형태로 데이터를 저장하며, 복잡한 분석 쿼리를 빠르게 처리할 수 있는 구조를 갖추고 있습니다. 대표적인 데이터 웨어하우스 솔루션으로는
Snowflake, Google BigQuery, Amazon Redshift 등이 있습니다.

한편, 데이터 레이크Data Lake 는 정형 데이터뿐 아니라 이미지, 영상, 로그, 문서 등과 같은 비정형 데이터까지 함께 저장할 수 있는 대규모 저장소입니다. 데이터 레이크는 구조화되지 않은 데이터를 원본 그대로 저장해 두었다가, 필요 시 분석 도구를 통해 가공하여 사용하는 방식으로 유연한 데이터 분석 환경을 제공합니다. 대표적인 데이터 레이크 시스템으로는 AWS S3, Azure Data Lake, Hadoop HDFS 등이 있습니다.

그림 3 데이터 레이크와 데이터 웨어하우스의 관계(출처: https://medium.com/@xavierdev16/from-data-lake-to-data-warehouse-load-data-from-amazon-s3-into-amazon-redshift-68315f895f2a)

데이터 처리 Data Processing

데이터 플랫폼에서 데이터 처리 단계는 수집된 데이터를 정제하고 가공하여 분석과 활용이 가능하도록 만드는 단계입니다. 이 단계에서는 단순히 데이터 레이크나 원천 소스로부터 데이터를 불러오는 것을 넘어, 이를 원하는 형태로 변환하고 정리하며 통합하는 과정입니다. 이렇게 처리된 데이터는 향후 분석에 활용되거나, 의사결정 및 AI 모델 학습 등에 사용됩니다.

데이터 처리 과정에서는 데이터의 정확성과 일관성을 확보하는 것이 핵심입니다. 이를 위해 일반적으로 오류나 중복 값을 제거하고 누락된 데이터를 보완하는 데이터 정제 작업이 같이 수행됩니다. 이어서 분석 목적에 맞게 데이터 형식을 변환하거나, 새로운 변수와 컬럼을 생성하는 등의 데이터 변환 과정도 수행됩니다. 마지막으로, 원시 데이터를 보다 간결하게 만들기 위해 요약하고 집계하는 작업이 수행되는데, 이를 통틀어 데이터 전처리라고도 합니다.

데이터 처리 방식에는 크게 두 가지가 있습니다. 첫째는 일정한 간격으로 데이터를 모아서 한꺼번에 처리하는 배치 처리 방식이며, 둘째는 데이터가 유입되는 즉시 처리하는 스트리밍 처리 방식입니다. 이러한 일련의 처리 과정을 통틀어 데이터 파이프라인Data Pipeline이라고 부릅니다.

또한 데이터를 처리하는 순서에 따라 ETLExtract Transform Load과 ELTExtract Load Transform 방식으로 나뉘게 됩니다. ETL 방식은 데이터를 먼저 추출하고, 변환한 다음 저장하는 순서로 실행되지만, ELT는 데이터를 추출한 후 먼저 저장하고, 저장된 데이터를 필요에 따라 변환하는 방식입니다. 데이터 파이프라인을 구축할 때는 이러한 흐름을 고려하여 시스템을 설계하게 되며, 대표적인 도구로는 Apache Airflow, dbt, Azure Data Factory 등이 활용됩니다.

데이터 분석 Data Analytics

데이터 플랫폼에서 데이터 분석 단계는, 소스 데이터가 저장된 스토리지로부터 데이터 웨어하우스나 데이터 레이크로 추출되고 로딩된 데이터를 활용하여 정보를 분석하고, 비즈니스 인사이트를 도출하는 과정입니다 이 단계에서는 단순히 데이터를 조회하는 데 그치지 않고, 의미 있는 패턴을 찾아내고 이를 통해 의사결정에 활용할 수 있는 가치를 이끌어내는 것이 목표입니다.

탐색적 데이터 분석 과정을 통해 데이터를 조회하고 탐색하면서 데이터의 구조를 이해하는 작업이 이루어집니다. 이후 데이터를 보다 효과적으로 이해하고 전달하기 위해 다양한 시각화 기법이 사용되며, 이를 통해 데이터에 숨겨진 의미를 직관적으로 파악할 수 있습니다. 또한 통계적 방법이나 머신러닝 기법을 활용하여 데이터 분석을 수행하고, 숨겨진 패턴을 찾아내거나 미래를 예측하는 작업도 함께 진행됩니다.

이 과정에서는 다양한 도구들이 활용됩니다. 데이터 분석과 머신러닝을 위해 주로 파이썬이나 R과 같은 프로그래밍 언어가 사용되며, 시각화 및 대시보드 생성을 위해서는 Power BI, Tableau 등과 같은 비즈니스 인텔리전스(BI) 도구가 널리 활용됩니다. 이러한 도구들은 분석 결과를 보다 명확하고 설득력 있게 전달하는 데 중요한 역할을 합니다.

저작자표시 비영리 동일조건 (새창열림)

'데이터 사이언스 & 데이터 엔지니어링' 카테고리의 다른 글

마케팅 분석에서의 대수(Logarithms)의 실용 가이드 - part 2 (0)	2026.05.14
마케팅 분석에서의 대수(Logarithms)의 실용 가이드 - part 1 (0)	2026.05.14
데이터 레이크 vs. 데이터 웨어하우스(Data Lakes vs. Data Warehouses) (0)	2026.05.13
데이터베이스의 진화: 데이터 플랫폼 - Part 3 (0)	2026.05.09
데이터베이스의 진화: 데이터 플랫폼 - Part 2 (0)	2026.05.09

시계열, Plotly, 폴라스, DuckDB를 사용한 데이터 분석

데이터베이스의 진화: 데이터 플랫폼 - Part 1

데이터 플랫폼 구성

'데이터 사이언스 & 데이터 엔지니어링' 카테고리의 다른 글

댓글

티스토리툴바

데이터베이스의 진화: 데이터 플랫폼 - Part 1

데이터 플랫폼 구성

'데이터 사이언스 & 데이터 엔지니어링' 카테고리의 다른 글

관련글

댓글

티스토리툴바