본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

mutate()3

행정구역별 연령별 학생 비율 구하기 in R - mutate_all, mutate_at, mutate_if mutate 파생 함수의 활용 tidyverse 생태계에서 사용자를 매료시키는 기능은 뭐니뭐니해도 dplyr를 사용한 데이터 전처리의 편리함일 것이다. dplyr에서 제공하는 각종 데이터 전처리 함수들은 SQL 언어를 사용하던 유저들은 바로 활용이 가능할 정도로 사용이 쉽다. SQL을 모르는 유저도 매우 쉽게 배우고 사용할 수 있다는 점에서 python에서도 dplyr를 유사하게 흉내 낸 패키지까지 등장할 정도로 사용이 쉽다. dplyr에서 제공하는 데이터 전처리 함수들 중에 새로운 데이터 열을 만들어내는 함수가 mutate()함수이다. 대부분의 R 입문서에서도 mutate()를 다루고 있지만 mutate()에서 파생된 함수들까지 다루는 입문서는 찾아보기 어렵다. 여기서는 mutate()의 파생 함수들의.. 2022. 7. 13.
특정 조건 행의 데이터만 바꾸기 사용데이터 : https://2stndard.tistory.com/68 조건에 맞는 행의 데이터 변경하기 대량의 데이터 분석에 사용되는 툴은 여러 가지가 있다. 사실 빅데이터 시대가 도래하기 전인 2010년대 초반까지는 데이터의 요약값이나 기초 통계 값을 산출하고 간단한 그래프를 그리는데 가장 많이 사용된 툴은 MS-Excel일 것이다. MS-Excel은 그 시대 뿐아니라 지금까지도 기초적인 데이터 분석에 여전히 많이 사용되고 있는 툴이다. 스프레드 시트 프로그램의 대표적인 프로램인 MS-Excel은 위지윅(WYSIWYG: What You See Is What You Get) 형태로 데이터를 직접 눈으로 보면서 다룰 수 있기 때문에 데이터 분석에 익숙치 않은 사용자들도 비교적 손쉽게 사용할 수 있다는 장.. 2022. 6. 11.
summarise와 mutate group_by() 후 summarise()와 mutate() 데이터를 다루다 보면 데이터들을 특정한 기준에 따라 구분하여 그루핑해서 연산해야할 경우가 많다. 예를 들어 성적 데이터를 다룰때 학년별로 혹은 반별로 남여별로 그루핑하여 연산을 해야하는 경우이다. 위에서 불러들인 예에서도 연도별로 그루핑을 할 수 있고 지역별로 그루핑을 할수도 있을 것이다. 보통 group_by()후에는 그룹별로 요약값을 내는 경우가 일반적이다. 하지만 일부 응영에서는 그룹별로 연산을 수행해야 하는 겅우도 있을 것이다. 이러한 경우를 어떻게 처리해야 하는지 알아보자. 이번 포스트에서 사용할 데이터는 한국교육개발원 교육통계서비스 홈페이지의 고등교육기관 연도별 입학자수를 활용하였다. df_입학자 ...1 ## * `` -> ..... 2022. 1. 6.