본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

ggplot244

ggplot2의 기초 - 기본 개념 ggplot2 란 ggplot2 패키지는 R에서 데이터 시각화를 위해 가장 널리 사용되는 패키지이다. 이 패키지는 R-Studio의 수석 데이터 사이언티스트인 Hadley Wickham이 주도적으로 개발한 패키지로 2005년 발간된 Leland Wilkinson의 The Grammar of Graphics을 기본으로 작성되었다. The Grammar of Graphics는 데이터를 효과적으로 요소를 시각화 할 수 있도록 다음의 7가지 요소로 구분하였다. ggplot2에서는 이 7가지 요소를 사용하여 데이터를 시각화하도록 각종 함수들을 제공하고 있다. data(데이터) 시각화 대상의 데이터를 지정한다. 하나의 ggplot2 시각화에는 최소 하나 이상의 데이터가 필수적으로 포함되어야 한다. ggplot2에서.. 2023. 2. 9.
facet 제목 바꾸기 in R 데이터의 시각화에서는 비교가 필요한 여러 데이터를 동시에 비교할 수 있도록 시각화하는 방법을 많이 사용한다. 가장 쉬운 방법은 하나의 그래프안에 비교가 필요한 데이터를 시각화하되 색이나 도형 타입을 다르게 하여 비교하는 방법이다. 하지만 이 방법은 비교해야할 데이터가 3~4개 이상이 되면 데이터들이 서로 겹쳐서 제대로 알아보기 어려워진다. 이런 경우를 해결하기 위해 ggplot2에서 제공하는 방법은 facet_*()이다. ’facet’은 ’여러 부분을 가지는 주제, 상황 중 하나의 부분(one part of a subject, situation, etc. that has many parts)’이라는 의미를 가지는 단어이다. facet_*()에는 여러가지 기능과 설정이 필요한데 이번 포스트에서는 이 중에서.. 2022. 10. 9.
X, Y축 범위의 변경 in R 사용데이터 : https://2stndard.tistory.com/68 축 범위 설정 ggplot2로 그린 그래프의 세부 조정 과정중에 많이 사용하는 방법이 축의 범위를 설정하는 것이다. 일반적으로 축의 범위는 ggplot2에서 자동적으로 설정하는데 이 범위는 ggplot2에서 설정된 기하요소(geom_*())들이 가장 잘 표현될 수 있는 여백을 설정한다. 아래의 그림은 ggplot2의 그래프에서 데이터가 표시되는 영역과 여백 영역을 보여준다. https://stackoverflow.com/questions/48049027/extend-ggplot2-geom-to-change-default-padding-of-x-and-y-axes 이 영역은 X축과 Y축의 범위를 조절함으로써 늘릴 수도 줄일 수도 있는데.. 2022. 10. 8.
평균과 중간값 등 통계치의 시각화 in R(표준편차, 백분위, 사분위) 산점도는 데이터 시각화에 흔히 사용되는 방법이다. 산점도에는 많은 데이터가 점으로 표현되기 때문에 데이터의 분포나 통계값을 같이 시각화하여야 하는 경우가 있다. 가장 많이 사용되는 통계값이 평균이나 중간값이다. 이렇게 산점도에 평균이나 중간값과 같은 데이터 특성을 나타내는 통계값을 표기하는 방법을 알아보고자 한다. 데이터 산점도를 그리기 위해 교육통계 서비스 홈페이지(https://kess.kedi.re.kr)에서 제공하는 ‘지역규모별 (대도시/중소도시/읍면지역/도서지역) 학교수 학생수 교원수’(https://kess.kedi.re.kr/post/6731898?itemCode=04&menuId=m_02_04_03_01) 데이터를 사용하겠다. 이 데이터 중 전체학생수 대비 학업중단자에 대한 데이터를 활용하.. 2022. 9. 12.