통계에서 정규성을 검증하는 세 가지 방법

통계에서 정규성(normality) 은 어떤 통계 검정을 사용할지 판단하는 데 가장 중요한 개념 중 하나입니다. 정규성은 모수 검정(parametric test) (예: T-검정, ANOVA) 또는 비모수 검정(non-parametric test) (예: Mann–Whitney U 검정, Kruskal–Wallis H 검정) 중 어떤 방법을 사용해야 하는지를 알려줍니다.

정규성은 표본이 정규분포(normal distribution) 또는 가우시안 분포(Gaussian distribution) 를 따른다고 가정하는 통계적 전제입니다. 정규분포는 평균(μ) 과 표준편차(σ) 두 개의 매개변수로 구성됩니다.

가우시안 분포는 연속형 분포(continuous distribution) 이므로, 일반적인 형태는 확률밀도함수(probability density function, PDF) 로 표현됩니다.

통계학에서 이 분포는 중심극한정리(Central Limit Theorem) 때문에 매우 중요합니다. 중심극한정리는 통계적으로 독립적인 확률변수의 표본을 반복적으로 추출했을 때, 표본의 수가 증가할수록 그 평균의 분포가 정규분포에 수렴한다는 내용을 설명합니다.

예를 들어, 가상의 상황에서 어떤 집단의 평균 키가 약 170cm 라고 가정해 보겠습니다. 대부분의 사람들은 이 값 주변에 분포하게 됩니다. 하지만 평균에서 멀어질수록 더 작거나 더 큰 사람의 수는 점차 감소합니다. 결국 매우 키가 크거나 매우 키가 작은 사람은 극히 적어지게 됩니다.

그렇다면 정규성을 진단하기 위한 다양한 검정 방법들이 존재하며, 하나의 방법만 사용하는 것은 권장되지 않습니다. 이상적으로는 표본이 실제로 정규성을 만족하는지 보다 확실하게 판단하기 위해 두 가지 이상의 검정을 함께 사용하는 것이 가장 좋은 방법입니다.

이러한 정규성 검정 방법들은 크게 다음과 같은 기준에 기반합니다.

기술통계 지표(descriptive indices)
분포를 시각적으로 관찰하는 방법(visual observation)
공식적인 통계 검정(formal statistical test)

이 글에서는 이러한 모든 접근 방식을 포함할 수 있도록, 실제 분석 작업에서 활용할 수 있는 정규성을 검증하는 세 가지 방법을 살펴보겠습니다.

1. 왜도(Skewness)와 첨도(Kurtosis)

정규성을 확인하는 첫 번째이자 가장 쉬운 방법은 왜도(skewness) 와 첨도(kurtosis) 를 관찰하는 것입니다. 이들은 정규분포의 형태를 설명하는 기술통계 지표(descriptive indices) 입니다. 과학 연구 문헌에서도 정규성을 검토하기 위한 좋은 출발점으로 자주 활용됩니다.

왜도(skewness) 는 분포의 좌우 비대칭성(horizontal asymmetry) 을 측정합니다.

왜도가 왼쪽 방향으로 커질수록(음의 왜도, negative skewness) 평균보다 왼쪽에 위치한 데이터가 많아지며, 이에 따라 중앙값(median) 과 최빈값(mode) 역시 왼쪽으로 이동하게 됩니다. 이는 데이터가 해당 방향으로 더 많이 분포하기 때문입니다.

반대로 오른쪽으로 치우친 분포(right-skewed distribution) 를 가지면 분포 자체가 오른쪽으로 이동하며, 중앙값과 최빈값 역시 함께 이동하게 됩니다.

반면, 첨도(kurtosis) 는 분포가 얼마나 수직적으로 뾰족하거나 평평한지를 평가합니다.

데이터가 평균 주변에 더 밀집되어 있을수록 첨도 값은 높아지고, 분포는 더 높고 뾰족한 형태를 가지게 됩니다. 반대로 데이터가 평균으로부터 더 넓게 퍼져 있을수록 첨도 값은 낮아지며, 분포는 더 평평한 형태를 보이게 됩니다.

통계 소프트웨어에서는 일반적으로 분포를 시각화할 때 이러한 지표들을 함께 제공합니다. 경험적인 기준(rule of thumb)으로, 연구에서는 일반적으로 왜도(skewness) 와 첨도(kurtosis) 의 절댓값이 모두 1 이하이면 정규성을 만족하는 것으로 판단하는 경우가 많습니다.

두 값이 모두 0이라면 분포가 완벽한 정규분포라는 의미가 되지만, 실제 데이터에서는 거의 발생하지 않습니다. 따라서 어느 정도의 변동성은 자연스럽게 존재하며, 이러한 기준 이하의 편차는 일반적으로 허용됩니다.

다만, 왜도와 첨도는 정규성을 평가하기 위한 좋은 출발점이기는 하지만, 이 가정을 검증하는 데 가장 강력한 방법은 아닙니다. 보다 신뢰성 있게 정규성을 확인하기 위해 함께 사용할 수 있는 대표적인 방법이 Shapiro–Wilk 검정(Shapiro–Wilk test) 입니다.

2. Shapiro–Wilk 검정

Shapiro–Wilk 검정(Shapiro–Wilk test) 은 정규성을 검증하기 위해 매우 널리 사용되는 방법 중 하나입니다. 기본적으로 이 검정은 현재 표본과 완벽한 정규분포를 비교하여, 표본이 정규성을 만족하는지를 판단하는 W 통계량(W statistic) 과 p값(p-value) 을 계산합니다.

W 통계량은 정렬된 표본값의 가중합 제곱을 평균으로부터의 전체 편차 제곱합으로 나눈 값으로 계산됩니다.

여기서,

x_{(i)}: 표본에서 i번째로 작은 값 (정렬된 데이터)
(x_i): 원래의 i번째 관측값
(\bar{x}): 표본의 평균
(a_i): 정규분포를 따른다고 가정했을 때 순서통계량(order statistics)의 기대값과 공분산으로부터 계산되는 계수
(n): 표본의 크기

Shapiro–Wilk 검정의 핵심 아이디어는 표본 데이터가 정규분포와 얼마나 유사한 형태를 가지는지 수치적으로 측정하는 것입니다. 일반적으로 W 값이 1에 가까울수록 정규분포에 가깝다고 해석합니다. 또한 p값을 함께 확인하여 정규성 가정을 유지할지 판단하게 됩니다.

이 식에서 분자(numerator) 는 정렬된 표본값들((x_{(i)})부터 가장 큰 값까지)에 가중치를 적용한 합의 제곱을 의미합니다. 반면 분모(denominator) 는 평균으로부터의 편차 제곱합(sum of squared deviations) 으로, 본질적으로는 표본분산(sample variance)에 표본 크기 (n)을 곱한 값입니다.

Shapiro–Wilk 검정은 가설검정(hypothesis testing) 의 방식으로 동작하며, 다음과 같은 두 가지 가설을 설정합니다.

귀무가설(H0): 데이터는 정규분포를 따른다.
대립가설(H1): 데이터는 정규분포를 따르지 않는다.

p값이 0.05보다 크다면, 귀무가설(H0)을 기각할 수 없습니다. 이는 표본이 완벽한 정규분포와 유의미하게 다르지 않다는 의미이며, 결과적으로 정규성을 만족한다고 판단합니다.

반대로 p값이 0.05보다 작다면, 귀무가설(H0)을 기각합니다. 이는 표본의 분포가 이론적인 정규분포와 유의미하게 다르다는 의미이며, 따라서 정규성을 만족하지 않는다고 해석합니다.

이 해석은 일반적인 가설검정과 비교하면 다소 직관에 반할 수 있습니다. 보통 우리는 낮은 p값이 효과(effect)를 발견했다는 의미로 기대하지만, Shapiro–Wilk 검정에서는 반대입니다. 여기서는 검정 결과가 유의하지 않기를(p > 0.05) 기대합니다. 그래야 표본이 이론적인 정규분포와 다르지 않다는 결론을 내릴 수 있기 때문입니다.

지금까지 정규성을 평가하기 위해 기술통계 지표(왜도·첨도) 와 공식적인 통계 검정(Shapiro–Wilk 검정) 을 살펴보았습니다. 이제 마지막으로 소개할 방법은 Q–Q 플롯(Q–Q plot) 이라는 시각적 평가 방법입니다.

3. Q–Q 플롯

Q–Q 플롯(Q–Q plot, Quantile–Quantile plot) 은 표본의 정규성을 확인할 수 있는 대표적인 시각적 진단 방법입니다.

통계학에서 분위수(quantile) 란 분포 또는 데이터를 동일한 비율의 구간으로 나누는 기준값을 의미합니다. 보다 공식적으로는 다음과 같이 정의합니다.

분위수는 데이터의 일정 비율 (p) 가 해당 값 이하에 존재하는 값입니다.

예를 들어, 0.25 분위수(25번째 백분위수) 는 전체 관측값 중 25%가 그 값 이하에 위치하는 지점을 의미합니다.

Q–Q 플롯은 이러한 분위수를 이용해 그래프를 구성하며, 축은 다음과 같습니다.

x축: 정규분포의 이론적 분위수(theoretical quantile)
y축: 실제 표본 데이터의 분위수(sample quantile)

즉, Q–Q 플롯은 실제 데이터의 각 분위수를 정규분포의 분위수와 비교하는 시각화 방법입니다.

표본이 완벽한 정규분포를 따른다면, 모든 점들이 이론적 분위수와 거의 일치하게 되어 대각선 형태의 직선 위에 정렬된 모습으로 나타납니다.

(이상적인 경우의 Q–Q 플롯은 다음과 같은 형태를 보입니다.)

표본이 완벽한 정규분포를 따른다면, 표본의 분위수와 정규분포의 분위수가 정확히 일치하여 하나의 직선 형태를 이루게 됩니다. 이 직선을 헨리의 직선(Henry’s line) 이라고 부릅니다.

하지만 실제 데이터가 오른쪽 또는 왼쪽으로 치우친 분포(skewed distribution) 를 가진다면, 점들은 이 직선에서 벗어나게 됩니다. 이때 점들의 패턴은 일반적으로 쌍곡선(hyperbola) 형태의 곡선처럼 나타납니다.

즉,

데이터가 정규분포에 가까울수록 → 점들이 헨리의 직선을 따라 일직선에 가깝게 배열됨
데이터가 왜도를 가질수록 → 점들이 직선에서 체계적으로 벗어나며 곡선 형태를 나타냄

따라서 Q–Q 플롯에서는 점들이 직선에 얼마나 잘 맞는지를 시각적으로 확인하여 정규성을 판단할 수 있습니다.

결론

이 글에서는 통계에서 표본의 정규성을 검증하기 위해 가장 널리 사용되는 세 가지 방법의 기본 이론을 살펴보았습니다. 이제 여러분은 선호하는 통계 소프트웨어(R, SPSS, JASP 등)를 활용하여 직접 자신의 데이터에 적용해 볼 수 있습니다.

물론 이 방법들만이 정규성을 검정하는 유일한 방법이라고 말하는 것은 사실이 아닙니다. 실제로는 다른 기술통계 지표, 통계 검정(Kolmogorov–Smirnov 검정, Anderson–Darling 검정, Cramér–von Mises 검정 등), 그리고 시각적 방법(히스토그램, 박스플롯 등)도 널리 사용됩니다. 하지만 이 글에서 소개한 세 가지 방법은 가장 일반적으로 활용되는 접근법들입니다.

어떤 하나의 방법이 다른 방법보다 절대적으로 더 우수하다고 보기는 어렵습니다. 오히려 여러 방법을 함께 활용할 때, 여러분의 표본이 실제로 정규성을 만족하는지에 대해 훨씬 더 명확한 판단을 내릴 수 있습니다.

정규성 검증은 단순히 하나의 검정 결과에 의존하기보다, 기술통계 지표 + 통계 검정 + 시각적 평가를 함께 해석하는 습관을 가지는 것이 중요합니다.

<출처: https://medium.com/@sabourinleandre/three-different-methods-to-verify-normality-in-statistics-381f54108491>

저작자표시 비영리 동일조건 (새창열림)

'통계의 기초' 카테고리의 다른 글

Z-검정과 T-검정의 모든 것 (0)	2026.05.29
두 데이터 계열: 기술통계와 추론통계가 세상을 움직이는 방식 (0)	2026.05.26
경영 의사 결정을 위한 가설 검정 - Part 2 (0)	2026.05.17
확률(Probability) vs. 가능성(우도, Likelihood) (0)	2026.05.14
경영 의사 결정을 위한 가설 검정 - Part 1 (0)	2026.05.09

시계열, Plotly, 폴라스, DuckDB를 사용한 데이터 분석

통계에서 정규성을 검증하는 세 가지 방법

1. 왜도(Skewness)와 첨도(Kurtosis)

2. Shapiro–Wilk 검정

3. Q–Q 플롯

결론

'통계의 기초' 카테고리의 다른 글

댓글

티스토리툴바

통계에서 정규성을 검증하는 세 가지 방법

1. 왜도(Skewness)와 첨도(Kurtosis)

2. Shapiro–Wilk 검정

3. Q–Q 플롯

결론

'통계의 기초' 카테고리의 다른 글

관련글

댓글

티스토리툴바