본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

데이터 전처리33

탐색적 데이터 분석(Exploratory Data Analysis)의 자동화 패키지 in R - Part 4 : DataExplorer DataExplorer 이번 포스트에서는 EDA 패키지인 DataExplorer 에 대해 소개한다. 학업 중단자 데이터 로딩 DataExplorer 패키지의 기능을 소개하기 위해 사용하는 데이터는 ‘평균과 중간값 등 통계치의 시각화 in R’(https://2stndard.tistory.com/132) 포스트에서 사용했던 학업 중단자 데이터를 사용하도록 하겠다. df_dropout rename(c('연도' = ...1, '시도' = ...2, '시군' = ...3, '학교급' = ...4, '전체학생수' = ...22, '학업중단자' = ...127, '유예' = ...130, '면제' = .. 2022. 9. 18.
탐색적 데이터 분석(Exploratory Data Analysis)의 자동화 패키지 in R - Part 2 : explore Explore 이번 포스트에서는 EDA 패키지인 explore 에 대해 소개한다. explore 패키지는 탐색적 데이터 분석(EDA)를 위한 다양한 기능을 제공하는데 제공하는 주요기능은 다음과 같다. 단변량, 이변량, 다변량 변수에 대한 대화형 데이터 탐색 자동화된 EDA 보고서의 생성 tidy한 함수를 사용한 수동 데이터 탐색 기능. 학업 중단자 데이터 로딩 explore 패키지의 기능을 소개하기 위해 사용하는 데이터는 ‘평균과 중간값 등 통계치의 시각화 in R’(https://2stndard.tistory.com/132) 포스트에서 사용했던 학업 중단자 데이터를 사용하도록 하겠다. df_dropout rename(c('연도' = ...1, '시도' = ...2, '.. 2022. 9. 15.
탐색적 데이터 분석(Exploratory Data Analysis)의 자동화 패키지 in R - Part 1 : SmartEDA 자동 탐색적 데이터 분석 데이터 분석을 하기 위해서 가장 먼저 해야하는 작업은 분석에 필요한 적절한 데이터를 찾고 얻어내는 것일 것이다. 자신이 분석하기 원하는 데이터를 찾았다면 먼저 데이터를 R로 불러들여야 한다. 이 작업이 끝나면 이제 본격적으로 데이터 분석을 시작해야 한다. 그렇다면 이제 무슨 작업을 해야하는 것일까? 우선은 자신이 불러들인 데이터가 어떻게 생겼고 어떤 특성을 지녔는지 전반적으로 확인해야 할 것이다. 이 작업을 탐색적 데이터 분석( Exploratory Data Analysis : EDA)이라고 한다. 대부분의 R 관련 입문 도서들에서는 탐색적 데이터 분석을 위해 head()와 tail()로 개략적인 데이터를 확인하고 str()과 glimpse()를 사용하여 데이터프레임의 전반적인 .. 2022. 9. 14.
연도별 시도별 비정규 교원 1인당 학생수 in R - rank() rank()를 사용한 순위 구하기 데이터 분석에서 자신이 원하는 데이터를 산출하고 나면 대부분 수행하는 것이 어떤 데이터가 가장 좋고 어떤 데이터가 가장 나쁜지를 확인하게 된다. 이 경우 가장 쉽게 사용되는 방법이 원하는 데이터로 정렬하는 방법이다. 하지만 경우에 따라 순위를 명기해야 할 때가 있다. 전체를 대상으로 순위를 산출한다면 전체 데이터를 정렬하고 처음부터 마지막까지 순번을 붙여주면 되지만 그룹화된 데이터에 대한 그룹별 순위를 산출해야 한다면 이 방법은 사용할 수 없다. 이런 경우 사용할 수 있는 함수가 rank()이다. rank()의 사용법을 알아보기 위해 전국 17개 시도의 비정규 교원 1인당 학생수 데이터를 만들어 보겠다. 데이터 import 17개 시도의 비정규 교원 1인당 학생수를 산출.. 2022. 7. 13.