본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

table()2

빈도표(분할표, Contingency table)로 데이터 개수, 비율 구하기 in R 사용데이터 : https://2stndard.tistory.com/68 R을 사용하여 데이터를 전처리하기 위해서는 먼저 전체적으로 데이터의 형태를 살펴봐야한다. 이 때 사용하는 명령이 glimpse()나 str()을 사용하여 데이터의 전반적 기술통계치를 확인하거나 head()를 사용하여 실 데이터를 확인한다. 하지만 특정 컬럼의 변량에 따른 다양한 빈도표를 만들어서 데이터의 분포를 확인하거나 간단한 시각화를 해야할 때가 있다. 또 많은 수의 데이터를 간단하게 요약해야 하는 경우도 있다. 이럴때 사용하는 것이 빈도표, 분할표(contingency tables)이라고 한다. 빈도표는 변수의 이산형, 연속형에 따라 산출하는 방법이 다르고 산출되는 값이 사례수, 비율에 따라 산출하는 방법이 다르다. table(.. 2022. 6. 4.
데이터 개수 세기(도수분포)와 구간 나누기 데이터 개수(빈도) 세기 R에서 많이 사용하는 tidy한 데이터는 데이터의 특성을 열로 지정하고 관측 데이터는 행으로 저장하는 데이터를 말한다.(https://2stndard.tistory.com/16 참조) 따라서 조건에 적합한 행을 필터링하고 행의 갯수를 세면 조건에 맞는 관측치의 수를 알아낼 수 있다. 조건에 적합한 열을 필터링한 후 결과를 알아내기 위해서는 행의 수를 세야한다. 이 포스트에서는 행의 수를 세어 빈도를 산출하는 방법을 알아 본다. 본 포스트에서 사용하는 샘플 데이터는 교육통계 서비스 홈페이지(https://kess.kedi.re.kr)에서 제공하는 고등교육기관 시도별 기관 신입생 충원률 데이터을 사용하였다. 이 데이터를 로딩하는 코드는 다음과 같다. library(readxl) li.. 2021. 7. 1.