본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

ggplot244

회귀방정식이 표기된 ggplot2 in R 회귀 방정식을 ggplot에 넣기 회귀 모델을 사용하면 그 그래프를 직선으로 그리고 회귀 방정식을 그래프에 표현하는 것은 거의 당연한 시각화이다. 하지만 이렇게 당연한 시각화가 ggplot2에서는 너무도 당연하게 지원되지 않는다. 이를 위해서는 broom 패키지를 사용하여 회귀 방정식 표현에 사용할 회귀 계수를 알아내야 하고 방정식을 만들어 적절한 위치에 표기해 주어야 한다. 이 방법에 대해 알아본다. 먼저 데이터를 불러들이고 전처리하겠다. 사용하는 데이터는 교육통계 서비스 홈페이지에서 제공하는 2020년 취업통계 데이터 셋 을 사용하겠다. 2020년 취업통계 데이터 셋을 불러 들이는 코드는 다음과 같다. library(readxl) library(tidyverse) library(patchwork) l.. 2022. 2. 19.
대학 과정의 계열별 취업률 비교 - 원형 막대 그래프(circlular bar graph) in R 원형 막대 그래프 원형 막대 그래프는 막대 그래프를 둥글게 표현한 그래프이다. 사실 둥글게 데이터를 표현하는 시각화 방식은 데이터가 원의 중심으로 고르게 표현되다 보니 한 눈에 데이터를 살펴보기가 좋지만 최근 선호되지는 않는 방식이다. 특히 파이 차트의 경우 그 내부의 구성 비율을 나타내기 위해 많이 사용되지만 사람의 눈으로 그 비율을 정확하게 비교하기란 쉬운 일이 아니어서 데이터를 정확히 파악할 수 없다는 단점이 이다. 그래서 파이 차트는 내부에 표시되는 데이터를 가급적 줄여서 중요한 몇 개의 데이터의 비율을 표현하는데 사용된다. 반면 막대 그래프의 경우 가로로 배열된 수평형 막대 그래프는 대부분 공간의 제약으로 많은 막대를 표현하지 못한다. 그래서 세로로 배열된 수직형 막대 그래프를 사용하는데 이 경.. 2022. 2. 16.
대학 입학생별 학과수 - 축 변환 in R 축 변환 사용법 데이터를 시각화할 때 만나는 몇가지 문제점 중에 많이 만나는 문제는 한쪽으로 치우친(Skewed)된 데이터일 것이다. 특히 데이터를 전반적으로 표현하는 형태의 시각화, 그 중에서도 histogram에서 이런 경우를 접해 본 경험이 있을 것이다. 이럴 경우에는 데이터를 효과적으로 표현하기 위해 축을 수학적 변환 공식에 따라 변형해주는 방법을 소개해보고자 한다. 치우친 데이터(Skewed Data)란? 치우친 데이터는 아래의 그림과 같이 데이터의 분포가 한쪽으로 몰려있는 경우를 의미한다. 아래의 그림처럼 데이터가 왼쪽이나 오른쪽으로 치우쳐 있고 반대쪽으로 꼬리가 길게 늘어뜨려진 데이터의 형태이다. 이러한 치우친 데이터는 위에서 언급한 바와 같이 주로 데이터의 사례수를 표현하는 histogra.. 2021. 12. 4.
대학 입학생별 학과수 - ggplot2로 그리는 histogram in R histogram으로 데이터 설명하기 데이터의 도수분포를 시각화할 때 많이 사용되는 시각화가 histogram을 사용하는 것이다. histogram은 변수의 변화에 따라 데이터의 사례수가 몇 개인지를 표현하는데 사용된다. 유사한 방법으로 확률 분포를 표현할 수도 있고 최대값을 1로 두고 상대적 비율을 표현하는 방식으로도 사용이 가능하다. 그런데 사용하다보면 histogram을 설명하기가 어려운 경우가 있을 것이다. 이 경우가 어떤 경우인지 알아보고 이 경우 어떻게 해결할 지에 대해 살펴보자. Data Import 이번 포스트에서는 한국교육개발원 교육통계서비스 홈페이지에서 제공하는 대학의 전체 학과 데이터 셋학교/학과별 데이터셋 - 대학 - 학과별(상반기) - 2021을 활용하겠다. library(read.. 2021. 12. 2.