평균의 종류
다량의 데이터가 주어진 경우 해당 데이터를 요약하여 표현하는 통계치로 가장 많이 사용되는 것이 평균이다. 평균은 Average 또는 Mean이라고 한다. Average는 수학적 의미로써 평균을 말하는데 균등분포(Uniform Distribution)하는 수치들의 합을 수치의 개수로 나눈 값을 의미한다. 일반적으로 우리가 생각하는 평균이 Average이다. Mean은 통계학에서 사용하는 평균으로 중심화 경향(Central Tendency)를 표현하는 하나의 방법으로 Average에서 말하는 평균을 포함한 여러가지 평균을 통칭하는 용어이다.
따라서 이 포스트에서는 당연히 Mean에 대해 알아보고 Mean의 종류에 따라 산출하는 방법과 응용을 살펴보도록 한다.
산술 평균(Arithmetic Mean)
산술 평균은 우리가 그동안 흔히 사용했던 평균값을 말한다. 전체 데이터의 합을 데이터의 개수만큼 나눈 값이다. 보통 동일한 스케일을 가지는 데이터의 관측치를 대표하는 값으로 사용된다.
\[\huge 산술평균 = \frac{(x_{1} + x_{2} + \cdots + x_{n})} {n}\]
이 값은 다량의 데이터를 표현하는 대표값으로 일반적으로 가장 많이 사용되는 값이고 많은 사람들이 이해할 수 있는 보편화된 중심과 경향 값이다. 특별한 설명없이 사용될 수 있다는 장점이 있다.
그러나 이 평균값은 이상치(Outlier)와 결측치에 매우 민감하게 반응한다. 전반적으로 유사한 분포를 가지는 데이터라하더라도 단 하나의 매우 큰 값의 이상치가 있다면 전체적인 평균이 왜곡되는 현상이 나타난다. 또 일부 데이터가 누락된 경우에도 전체 평균이 왜곡되는 현상이 나타난다.
R에서 평균을 구하는 것은 특별한 패키지가 필요하지 않고 R base에서
mean()
을 사용하면 간단히 구할 수 있다.
vec <- seq(from = 2, to = 100, by = 3)
hist(vec)
mean(vec)
## [1] 50
위에서는 2부터 100까지의 3의 배수가 들어있는 벡터에 대한 평균값을 구하여 보이고 있다.
만약 이 벡터에 이상치(10000)가 하나 포함되어 있다면 평균값은 다음과 같이 왜곡된다.
vec.outlier <- c(vec, 10000)
hist(vec.outlier)
mean(vec.outlier)
## [1] 342.6471
기하 평균(Geometric Mean) - psych::geometric.mean()
기하 평균은 비교적 소량의 데이터에 대한 평균으로 유용하게 사용된다. 기하 평균은 각 관측치들을 곱하고 이 관측치의 수만큼의 제곱근으로 구해진다.
\[\huge 기하평균 = \left(\prod _{i=1}^{n}x_{i}\right)^{\frac {1}{n}}={\sqrt[{n}]{x_{1}x_{2}\cdots x_{n}}}\]
기하 평균은 비율에 대한 평균을 구할 때 많이 사용된다. 예를 들어 n년도에 인구가 1000명인 어느 지방의 인구의 연평균 성장률이 n+1년에 5% 늘고, n+2년에 10% 늘었다고 가정한다면 이 지역의 3년 평균 성장률은 얼마일까?
n+1년에 1000명에서 5%가 늘었다면 1000명의 1.05배인 1050명(1000*1.05)이고, n+2년에 다시 20%가 늘었다면 1050명의 1.2배인 1260명(1050*1.2)이 된다.
(1000 * 1.05) * 1.2
## [1] 1260
만약 산술평균으로 연평균 성장률을 구하면 12.5%((5 + 20) / 2)인데 n+1년에는 1125명(1000 * 1.125), n+2년에는 1265.7명(1125*1.125)이 되어 약 5.7명정도 오차가 발생한다.
(1000 * 1.125) * 1.125
## [1] 1265.625
다음은 psych
패키지에 있는
geometric.mean()
으로 기하평균을 구한 값이다.
library(psych)
geometric.mean(c(1.05, 1.20))
## [1] 1.122497
기햐평균으로 5%, 20%의 평균 성장률은 12.25%로 나오는데 12.25%를 사용하여 n+2년 후 인구수는 다음과 같이 1260.006명으로 실제값인 1260명에 거의 근사치로 나온다.
(1000 * 1.1225) * 1.1225
## [1] 1260.006
조화 평균(Harmonic Mean) - psych::harmonic.mean()
조화 평균은 개별 데이터의 역수의 평균에 대한 역수이다. 조화 평균은 비율의 평균을 계산하는 데 자주 사용되는데, 각 데이터의 가중치가 동일하기 때문에 비율에 대한 가장 적절한 측정이다. 예를 들어, 산술 평균은 큰 데이터 에 높은 가중치를 부여되고 기하 평균은 작은 데이터 요소에 낮은 가중치를 부여되는데 비해 조화평균은 전체적으로 동일한 가중치가 부여된다.
\[\huge 조화평균 = \frac {1}{\frac {1} {x_{1}} + \frac {1} {x_{2}} + \cdots + \frac {1} {x_{n}}}\]
이 평균은 주로 속도의 평균, 주파수의 평균에 많이 사용된다. 속도는 주어진 시간에 대비하여 이동한 거리의 비율이기 때문에 비율에 사용되는 조화평균이 사용되는 것이다.
예를 들어 어떤 사람이 A부터 B지점까지 이동하는데 갈때는 시속 30Km, 올 때는 시속 60Km로 갔다왔다고 가정하자.
A부터 B지점까지 거리가 60Km라면 갈때는 2시간, 올떄는 1시간이 걸렸을 것이다. 따라서 총 120Km를 이동하는데 3시간이 걸렸으므로 전체 속도는 40Km일 것이다.
만약 산술 평균으로 속도를 구했다면 (30 + 60) / 2 = 45Km일 것이다.
하지만 다음과 같이 조화 평균으로 구하면 시속 40Km라는 것이 간단하게 구해진다.
harmonic.mean(c(30, 60))
## [1] 40
세 가지 평균의 기하학적 표현
사실 위의 세가지 평균은 피타고라스 평균(Pythagorean means)이라고 한다. 이는 고대 그리스의 피타고라스를 위주로한 학파에서 만들어낸 평균이기 때문이다. 이들간의 기하학적 표현은 다음의 그림과 같다.
'통계의 기초' 카테고리의 다른 글
ANOVA in R (0) | 2022.10.18 |
---|---|
T 검정(T test) in R (0) | 2022.10.15 |
데이터 분포의 수치화 - 첨도 (1) | 2022.10.08 |
데이터 분포의 수치화 - 왜도 (0) | 2022.10.06 |
댓글