본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

통계의 기초5

ANOVA in R 본 포스트는 https://medium.com/%5C@hablo/a-beginner-guide-to-t-test-and-anova-analysis-of-variance-in-r-programming-d65944a97ce1 를 참조하여 작성되었음. ANOVA(ANalysis of VAriance) : 분산 분석 분산 분석(Analysis Of VAriance)은 둘 이상의 모집단 평균이 다른지 여부를 확인하기 위한 통계적 검정이다. 결국 둘 이상의 그룹을 비교하여 유의미한 차이가 있는지 확인하는 데 사용된다. 사실상, Student t-test 는 2개의 그룹간의 평균을 비교하는 것이고, ANOVA는 2개 이상의 그룹을 비교하는데 3개 이상의 그룹간의 평균의 비교에 많이 사용된다. https://mediu.. 2022. 10. 18.
T 검정(T test) in R 본 포스트는 https://medium.com/@hablo/a-beginner-guide-to-t-test-and-anova-analysis-of-variance-in-r-programming-d65944a97ce1 를 참조하여 작성되었음. t-test t-test는 검증하려는 표본이 서로 다른 모집단에서 추출된 독립 표본 집단의 경우와 하나의 모집단에서 반복적으로 추출된 대응표본집단의 경우 두가지로 나뉘는데, t-test는 거의 정규분포를 따르고 두 집단간의 분산이 동일하며 모집단에서 30개 이하의 샘플을 추출하는 경우에 사용된다. 서로 다른 모집단에서 추출된 독립 표본 집단의 경우에는 두 집단간의 평균의 차이가 통계적으로 유의미하게 차이가 있는지를 검증한다. 아래의 그림은 전체 학생 모집단에서 여학생.. 2022. 10. 15.
데이터 분포의 수치화 - 첨도 데이터를 평가할 때 데이터 내 값의 분포를 설명하기 위해 가장 기본적으로 사용되는 통계치가 왜도와 첨도이다. 왜도 및 첨도는 이상치가 있는지를 검토하거나 데이터의 정규 분포 패턴을 확인하는데 유용하게 사용되는 통계치이다. 일반적으로 첨도는 데이터가 가장 밀집되어 있는 구간의 범위가 얼마나 넓게 퍼져있는지를 측정하는 통계치이다. 이번 포스트에서는 첨도에 대해 알아본다. 첨도를 설명하기 위해 사용하는 데이터는 ‘평균과 중간값 등 통계치의 시각화 in R’(https://2stndard.tistory.com/132) 포스트에서 사용했던 학업 중단자 데이터를 사용하도록 하겠다. df_dropout rename(c('연도' = ...1, '시도' = ...2, '시군' .. 2022. 10. 8.
데이터 분포의 수치화 - 왜도 데이터를 평가할 때 데이터 내 값의 분포를 설명하기 위해 가장 기본적으로 사용되는 통계치가 왜도와 첨도이다. 왜도 및 첨도는 이상치가 있는지를 검토하거나 데이터의 정규 분포 패턴을 확인하는데 유용하게 사용되는 통계치입니다. 일반적으로 왜도는 평균을 중심으로 대칭성(symmetry)을 나타내는 통계치이고 첨도는 꼬리의 두께 또는 두꺼움(heaviness of Tails)을 나타내는 통계치이다. 이번 포스트에서는 왜도에 대해 알아본다. 왜도를 설명하기 위해 사용하는 데이터는 ‘평균과 중간값 등 통계치의 시각화 in R’(https://2stndard.tistory.com/132) 포스트에서 사용했던 학업 중단자 데이터를 사용하도록 하겠다. df_dropout rename(c('연도' = ..... 2022. 10. 6.