본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

데이터 전처리33

행정구역별 연령별 학생 비율 구하기 in R - mutate_all, mutate_at, mutate_if mutate 파생 함수의 활용 tidyverse 생태계에서 사용자를 매료시키는 기능은 뭐니뭐니해도 dplyr를 사용한 데이터 전처리의 편리함일 것이다. dplyr에서 제공하는 각종 데이터 전처리 함수들은 SQL 언어를 사용하던 유저들은 바로 활용이 가능할 정도로 사용이 쉽다. SQL을 모르는 유저도 매우 쉽게 배우고 사용할 수 있다는 점에서 python에서도 dplyr를 유사하게 흉내 낸 패키지까지 등장할 정도로 사용이 쉽다. dplyr에서 제공하는 데이터 전처리 함수들 중에 새로운 데이터 열을 만들어내는 함수가 mutate()함수이다. 대부분의 R 입문서에서도 mutate()를 다루고 있지만 mutate()에서 파생된 함수들까지 다루는 입문서는 찾아보기 어렵다. 여기서는 mutate()의 파생 함수들의.. 2022. 7. 13.
누적합과 누적평균 in R 사용데이터 : https://2stndard.tistory.com/68 cumsum()과 seq_along()을 사용한 누적합과 누적평균 구하기 누적 합계는 데이터의 시간의 흐름에 따라 계속적으로 합산되는 데이터를 말한다. 따라서 누적 합계는 대부분 시간의 일정한 단위나 시간의 흐름에 따라 발생된 이벤트에 따라 발생되는 데이터의 합계이다. 이 누적 합계는 1954년에 캠브리지 대학에서 제안되었는데 통계적 프로세스 모니터링의 한 방법으로 광범위하게 사용되고 있다. 누적 평균은 지속적으로 발생되는 데이터들의 누적값에 대한 평균을 말한다. 평균을 구하는데에는 데이터의 합계에 대한 데이터의 빈도의 비율을 말하는데 누적 평균에서는 계속적으로 발생되는 누적합계를 지속적으로 증가되는 데이터 빈도로 나누어 산출된다. .. 2022. 6. 26.
열 이름 바꾸기 in R 사용데이터 : https://2stndard.tistory.com/68 데이터프레임 열 이름 변경 R에서 데이터를 담아 사용하는 데이터프레임은 R에서 데이터프레임과 데이터를 직접 입력하여 만들수 있지만 보통은 외부에서 생성된 데이터를 불러들여와 사용하는 것이 일반적이다. 이렇게 생성되는 데이터프레임의 가장 처음 만나는 어려움은 열 이름의 설정이 썩 마음에 들지 않는다는 것이다. 엑셀이나 csv에서 열 이름을 잘 설정한 후에 데이터프레임을 만드는 것이 가장 좋은 방법이지만 보통은 일단 불러들여와서 수정하는 경우가 더 많았을 것이다. 또 데이터프레임을 사용하다 보면 열 이름이 마음에 들지 않아 변경하기를 원할 때가 있을 것이다. 이런 경우에 어떠한 방법이 있는지 살펴본다. 샘플 데이터로 사용하는 데이터프레임.. 2022. 6. 21.
일별(일간) 데이터를 주별(주간) 데이터로 만들기 in R 사용데이터 : https://2stndard.tistory.com/68 lubridate와 tsibble를 사용하는 기간별 합계값 구하기 - 주별 데이터 이전 포스트에서는 lubridate와 zoo를 사용하여 일간 데이터를 월간 데이터로 변환하는 방법을 알아보았다. 앞서도 언급했지만 우리가 사용하는 데이터는 주로 숫자나 문자로 이루어져 있고 대량의 데이터가 저장되어 있는 DB나 다른 데이터 소스에서 데이터를 추출할 때는 csv 파일이나 엑셀 파일 등으로 추출하고 R에서 불러들이는 것이 일반적인데 이 경우 흔히 날짜 데이터를 문자열 형태로 불러 읽어들이는 경우도 많다. 앞선 포스트에서와 같이 월별 데이터로 변환할 때는 문자열 형태로 설정된 날짜 데이터도 이 문자열을 잘 다루면 연별, 월별로 그룹화하여 변환.. 2022. 6. 18.