본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬
ggplot2/ggplot2의 기초

ggplot2의 기하요소 - geom_point()

by 아참형인간 2023. 2. 26.
geom_point.knit

사용데이터 : https://2stndard.tistory.com/161

이변수(Two Variable) 데이터 시각화

앞서 언급한 바와 같이 ggplot 객체는 보통 X, Y 두 개의 축으로 표현되는 2차원 시각화를 기본으로 한다. 따라서 ggplot 객체는 X축과 Y축에 매핑되는 변수 두 개를 가 필요하다. 변수 두 개를 사용한 데이터 시각화도 일변수 데이터 시각화와 마찬가지로 시각화해야할 데이터가 연속형 수치 데이터인지 이산형 데이터인지에 따라 사용하는 기하 요소의 종류가 달라진다.

2개의 연속형 수치 데이터

X축과 Y축에 매핑되어 시각화해야 하는 두 개의 변수가 모두 연속형 수치 변수인 경우에는 X축과 Y축에 따라 데이터를 좌표계 상에 표현하는 시각화가 일반적이다. 보통 데이터의 분포를 확인해야 하는 경우와 데이터의 수치값이나 텍스트를 표현해야 할 때 많이 사용된다.

geom_point()

데이터의 전반적 분포를 확인할 때 가장 많이 사용되는 기하 요소가 점을 사용한 데이터 시각화이다. 이렇게 X, Y축에 따라 데이터를 점으로 표현한 시각화를 산점도(Scatter Plot)라고 한다. 산점도는 X축과 Y축의 좌표값에 따라 점을 표시함으로서 데이터의 전반적인 분포를 살펴보고 X, Y축의 증감에 따른 데이터의 상관관계를 살펴보는데 효과적인 시각화 방법이다. 따라서 시각화 과정에서 데이터 값을 통계처리 하지 않고 사용되기 때문에 기본 통계 요소가 ‘identity’(데이터 자체값)로 설정된다.

geom_point(mapping = NULL, data = NULL, stat = "identity", position = "identity", ..., na.rm = FALSE, show.legend = NA, inherit.aes = TRUE)\
- mapping : aes()를 사용하여 매핑할 미적 요소, 생략되면 ggplot()에 정의된 미적매핑 사용\
- data : 시각화를 위해 사용될 데이터, 생략되면 ggplot()에 정의된 데이터 사용\
- stat : 시각화에 적용될 통계요소, 기본값은 'identity'\
- position : 시각화에 적용될 위치요소, 기본값은 'identity'\
- ... : 미적 요소의 설정\
- na.rm : NA 값을 생략할 것인지를 설정하는 논리값\
- show.legend : 범례를 사용할 것인지를 설정하는 논리값\
- inherit.aes : ggplot()에서 설정한 매핑값을 상속받을지 결정하는 논리값

geom_point()에서 사용이 가능한 미적 요소는 x, y, alpha, color, fill, group, shape, size, stroke 등이다.

##  df_취업통계 데이터 중 졸업자가 500명 이하인 학과를 필터링하여 ggplot 객체로 생성하고 p_point에 저장
p_point <- df_취업통계 |> filter(졸업자_계 < 500) |>
  ggplot()

’X, Y축이 매핑된 geom_point()를 그리는 코드는 다음과 같다.

##  p_point객체에x축은 졸업자_계, y축은 취업자_합계_계로 매핑한  geom_point 레이어를 생성
p_point +
  geom_point(aes(x = 졸업자_계, y = 취업자_합계_계))

미적 요소가 매핑된 geom_point()를 그리는 코드는 다음과 같다.

##  p_point객체에 x축은 졸업자_계, y축은 취업자_합계_계, color를 대계열로 매핑하고 투명도를 설정한 geom_point 레이어를 생성
p_point +
  geom_point(aes(x = 졸업자_계, y = 취업자_합계_계, color = 대계열), alpha = 0.5)

댓글