본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬
EPL과 유튜브 데이터로 배우는 DuckDB

유튜브 재생수 히스토그램 분석

by 아참형인간 2026. 6. 17.

보다 상세한 내용은 EPL과 유튜브로 배우는 DuckDB 에 수록되어 있습니다.

 

LUVIT EPL과 유튜브 데이터로 배우는 DuckDB | 이기준 - 교보문고

LUVIT EPL과 유튜브 데이터로 배우는 DuckDB | 복잡한 데이터 분석 흐름을 더 단순하게 만드는 DuckDB 최근 주목받고 있는 DuckDB를 활용해 SQL 기반 데이터 분석과 실전 프로젝트를 학습할 수 있도록 구

product.kyobobook.co.kr

 

유튜브 재생수 히스토그램을 살펴보면 극단적인 쏠림 현상과 긴꼬리 분포를 보입니다. 왼쪽에 매우 높은 봉우리가 하나 존재하며, 대부분의 데이터가 매우 낮은 조회 수 구간에 몰려 있음을 나타내고, 오른쪽으로 갈수록 빈도는 급격히 감소하지만, 데이터가 매
우 넓게 분포하는 것에 비해 데이터의 수가 많지는 않습니다.

매우 오른쪽으로 치우쳐진 히스토그램은 x축이 선형 스케일이라서 낮은 조회 수 구간이 지나치게 강조되고, 높은 조회 수 영역은 거의 구분이 되지 않습니다. 따라서 이 데이터를 좀 더 균형 있게보기 위해서는 로그 스케일을 사용하는 것이 적합합니다. 로그 스케일로 변환하여 그리면 다음과 같습니다.

히스토그램의 형태는 종 모양에 가까운 비대칭 분포로, 전형적인 로그 정규분포log-normal distribution의 형태를 보입니다. 이 분포는 대부분의 영상이 비교적 낮은 조회 수를 가지고 있으며, 일부 극히소수의 영상만이 매우 높은 조회 수를 기록하고 있음을 의미합니다. 구체적으로 보면 히스토그램의 시작은 log값이 약 4, 즉 104부터입니다. 즉 50위권에 들어서기 위해서는 약 1만 회 정도의 재
생 회수가 필요합니다. 또 log값이 약 6, 즉 조회 수 약 10의 6승(100만)회 수준에 가장 많은 영상이 몰려 있습니다. 반면 log값이 8 또는 9 이상인 경우(10^8~10^9)는 영상의 수가 급격히 줄어들어 조회수가 수천만 회에서 1억 회를 넘는 영상은 극소수임 알 수 있습니다.

댓글