보다 상세한 내용은 EPL과 유튜브로 배우는 DuckDB 에 수록되어 있습니다.
LUVIT EPL과 유튜브 데이터로 배우는 DuckDB | 이기준 - 교보문고
LUVIT EPL과 유튜브 데이터로 배우는 DuckDB | 복잡한 데이터 분석 흐름을 더 단순하게 만드는 DuckDB 최근 주목받고 있는 DuckDB를 활용해 SQL 기반 데이터 분석과 실전 프로젝트를 학습할 수 있도록 구
product.kyobobook.co.kr
유튜브 재생수 히스토그램을 살펴보면 극단적인 쏠림 현상과 긴꼬리 분포를 보입니다. 왼쪽에 매우 높은 봉우리가 하나 존재하며, 대부분의 데이터가 매우 낮은 조회 수 구간에 몰려 있음을 나타내고, 오른쪽으로 갈수록 빈도는 급격히 감소하지만, 데이터가 매
우 넓게 분포하는 것에 비해 데이터의 수가 많지는 않습니다.

매우 오른쪽으로 치우쳐진 히스토그램은 x축이 선형 스케일이라서 낮은 조회 수 구간이 지나치게 강조되고, 높은 조회 수 영역은 거의 구분이 되지 않습니다. 따라서 이 데이터를 좀 더 균형 있게보기 위해서는 로그 스케일을 사용하는 것이 적합합니다. 로그 스케일로 변환하여 그리면 다음과 같습니다.

히스토그램의 형태는 종 모양에 가까운 비대칭 분포로, 전형적인 로그 정규분포log-normal distribution의 형태를 보입니다. 이 분포는 대부분의 영상이 비교적 낮은 조회 수를 가지고 있으며, 일부 극히소수의 영상만이 매우 높은 조회 수를 기록하고 있음을 의미합니다. 구체적으로 보면 히스토그램의 시작은 log값이 약 4, 즉 104부터입니다. 즉 50위권에 들어서기 위해서는 약 1만 회 정도의 재
생 회수가 필요합니다. 또 log값이 약 6, 즉 조회 수 약 10의 6승(100만)회 수준에 가장 많은 영상이 몰려 있습니다. 반면 log값이 8 또는 9 이상인 경우(10^8~10^9)는 영상의 수가 급격히 줄어들어 조회수가 수천만 회에서 1억 회를 넘는 영상은 극소수임 알 수 있습니다.
'EPL과 유튜브 데이터로 배우는 DuckDB' 카테고리의 다른 글
| 리버풀과 토트넘의 포지션별 공격 결과 (0) | 2026.06.17 |
|---|---|
| 리버풀과 토트넘의 공격 효율 비교 (0) | 2026.06.17 |
| 24-25 EPL 포지션별 파울 수 분포 (0) | 2026.06.17 |
| 맨체스터 시티와 토튼햄 홋스퍼 경기당 점유율 변화(24-25 EPL) (0) | 2026.06.17 |
| 엘링 홀란과 모하메드 살라의 득점맵 비교(24-25 EPL) (0) | 2026.06.17 |
댓글