본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

skewness2

데이터 분포의 수치화 - 왜도 데이터를 평가할 때 데이터 내 값의 분포를 설명하기 위해 가장 기본적으로 사용되는 통계치가 왜도와 첨도이다. 왜도 및 첨도는 이상치가 있는지를 검토하거나 데이터의 정규 분포 패턴을 확인하는데 유용하게 사용되는 통계치입니다. 일반적으로 왜도는 평균을 중심으로 대칭성(symmetry)을 나타내는 통계치이고 첨도는 꼬리의 두께 또는 두꺼움(heaviness of Tails)을 나타내는 통계치이다. 이번 포스트에서는 왜도에 대해 알아본다. 왜도를 설명하기 위해 사용하는 데이터는 ‘평균과 중간값 등 통계치의 시각화 in R’(https://2stndard.tistory.com/132) 포스트에서 사용했던 학업 중단자 데이터를 사용하도록 하겠다. df_dropout rename(c('연도' = ..... 2022. 10. 6.
대학 입학생별 학과수 - 축 변환 in R 축 변환 사용법 데이터를 시각화할 때 만나는 몇가지 문제점 중에 많이 만나는 문제는 한쪽으로 치우친(Skewed)된 데이터일 것이다. 특히 데이터를 전반적으로 표현하는 형태의 시각화, 그 중에서도 histogram에서 이런 경우를 접해 본 경험이 있을 것이다. 이럴 경우에는 데이터를 효과적으로 표현하기 위해 축을 수학적 변환 공식에 따라 변형해주는 방법을 소개해보고자 한다. 치우친 데이터(Skewed Data)란? 치우친 데이터는 아래의 그림과 같이 데이터의 분포가 한쪽으로 몰려있는 경우를 의미한다. 아래의 그림처럼 데이터가 왼쪽이나 오른쪽으로 치우쳐 있고 반대쪽으로 꼬리가 길게 늘어뜨려진 데이터의 형태이다. 이러한 치우친 데이터는 위에서 언급한 바와 같이 주로 데이터의 사례수를 표현하는 histogra.. 2021. 12. 4.