데이터 전처리34 데이터 개수 세기(도수분포)와 구간 나누기 데이터 개수(빈도) 세기 R에서 많이 사용하는 tidy한 데이터는 데이터의 특성을 열로 지정하고 관측 데이터는 행으로 저장하는 데이터를 말한다.(https://2stndard.tistory.com/16 참조) 따라서 조건에 적합한 행을 필터링하고 행의 갯수를 세면 조건에 맞는 관측치의 수를 알아낼 수 있다. 조건에 적합한 열을 필터링한 후 결과를 알아내기 위해서는 행의 수를 세야한다. 이 포스트에서는 행의 수를 세어 빈도를 산출하는 방법을 알아 본다. 본 포스트에서 사용하는 샘플 데이터는 교육통계 서비스 홈페이지(https://kess.kedi.re.kr)에서 제공하는 고등교육기관 시도별 기관 신입생 충원률 데이터을 사용하였다. 이 데이터를 로딩하는 코드는 다음과 같다. library(readxl) li.. 2021. 7. 1. tidyverse를 사용한 열 선택 방법 tidyverse로 열 선택 R 사용자들은 데이터프레임을 다룰때 가장 많이 사용하는 패키지가 tidyverse 패키지일 것이다. tidyverse 패키지는 데이터프레임에 저장된 데이터를 다루는 순차적이고 쉬운 방법을 제공하기 때문에 많은 사용자가 사용하지만 tidyverse를 소개하는 많은 책에서는 가장 기초적인 함수인 select(), filter(), group_by(), summarise(), mutate()의 다섯가지 함수를 소개하는 경우가 대부분이다. 하지만 tidyverse는 더 많은 기능을 가진 패키지이다. 이번 포스트에서는 tidyverse의 select()를 사용하여 열을 선택하는 여러가지 방법을 설명한다. 이 포스트에서 사용하는 샘플 데이터는 교육통계 홈페이지에서 제공하는 시도별 행정구.. 2021. 6. 27. 파이프(%>%) in R magrittr tidyverse 생태계(echosystem)의 일부인 magrittr 패키지는 코드를 다음과 같은 방법을 통해 보다 읽기 쉽게 만들어주는 연산자(operator)를 제공하는 패키지이다. 왼쪽에서 오른쪽으로 데이터 작업이 이루어지는 구조화 시퀀스 중첩 함수 호출의 방지 로컬 변수와 함수 호출의 최소화 코드안의 어디서든 작업 시퀀스를 추가할 수 있는 쉬운 방법의 제공 파이프(%>%)란? magrittr 패키지에서 추구하는 짧은 코드, 읽기 쉬운 코드를 구현하기 위해 가장 핵심적으로 사용하는 기능이 바로 %>%로 표현되는 파이프 연산자이다. 이 파이프 연산자는 다음과 같은 기능을 통해 magrittr의 목표를 달성하게 한다. 파이프 연산자를 사용하기 위해서는 먼저 magrittr 패키지를 로.. 2021. 5. 31. 엑셀처럼 사용하는 R : DataEditR - 1 데이터 생성과 처리 with DataEditR - 1 R에서 데이터를 생성할 때는 주로 엑셀이나 DB에 저장된 데이터를 읽어들여서 사용하는 방법을 일반적으로 사용한다. 하지만 R에서 데이터를 직접 생성하거나 일부 데이터를 삽입, 변경, 삭제하는 경우에는 코드를 생성하여 실행하고 결과를 확인해야 하기 때문에 GUI(Graphic User Interface)에 익숙한 사용자에게는 불편하게 느껴지는 것이 사실이다. 데이터를 다루는 사람들은 엑셀과 같은 스프레드 쉬트를 사용할 수 있는 사람들이 대부분이고 스프레드 쉬트에 익숙해져 있기 때문에 이런 환경을 R에서도 사용할 수 있었으면 하는 사용자가 많이 있을 것이다. 이런 사용자의 요구를 지원해 주는 R 패키지가 몇 개 존재하는데 이 중 DataEditR을 소개한.. 2021. 5. 27. 이전 1 ··· 4 5 6 7 8 9 다음