ggplot244 백분률 히스토그램의 데이터 라벨과 정렬 in R 사용데이터 : https://2stndard.tistory.com/68 앞선 포스트(https://2stndard.tistory.com/75)에서는 백분률을 사용한 히스토그램을 어떻게 그리는지 살펴보았다. 하지만 이 포스트에서 만들어낸 결과는 두가지 점에서 바로 사용하기가 좀 어려울 것이다. 첫 번째는 막대로 백분률을 표시는 했지만 그 정확한 값을 알수가 없다는 것이다. 막대간의 비교는 가능해 어떤 변수값이 가장 많이 분포하는 지는 알수 있지만 이는 빈도수로 표현된 히스토그램으로도 알수 있다. 따라서 정확한 백분률을 표시해 주는 것이 효과적일 것이다. 두 번째는 막대 그래프는 오름차순이나 내림차순으로 막대를 배치할 때 그 활용도가 커진다. 하지만 앞선 포스팅에서 그려진 막대 그래프의 막대는 들쭉 날쭉하다.. 2022. 4. 24. 비율(백분률)로 표현하는 히스토그램 in R 사용데이터 : https://2stndard.tistory.com/68 geom_histogram()을 사용하여 생성되는 히스토그램은 단변량 시각화이다. 즉 X, Y축으로 표현되는 2차원 좌표 중 X축은 변수로 매핑되고 Y축은 자동적으로 X축에 매핑된 변수의 binning에 따른 구간의 데이터 사례수를 산출하여 막대로 표현한다. 하지만 일선 업무에서 히스토그램을 사용할 때는 사례수를 사용하는 경우도 있지만 많은 경우 백분률을 사용하는 경우가 많다. 이렇게 백분률을 사용한 히스토그램을 만드는 방법은 다음과 같다. 히스토그램에 백분률을 사용하기 위해서는 먼저 X축에 매핑되는 변수의 타입이 무엇인지 파악해야 한다. X축에 매핑되는 변수가 연속형 변수라면 geom_histogram()을 사용하는 것이 효과적이고.. 2022. 4. 22. geom_histogram의 bins와 binwidth geom_histogram()의 bins와 binwidth geom_histogram 은 도수 분포표를 그리는 기하 요소 함수이다. 도수 분포는 초등학교때 배우는 가장 기본적인 막대 그래프로 각각의 변수 변량에 따른 데이터의 개수를 표현하는 시각화 방법이다. 변수 변량에 따른 데이터의 개수를 표현하기 때문에 X축 데이터만 설정하면 데이터를 자동적으로 데이터를 분석하여 X축에 매핑된 변수의 변량별로 데이터 개수를 산출하고 이 개수를 시각화 한다. 도수 분포표에 사용하는 방법은 막대 그래프이다. 하지만 막대로 표현된 도수 분포표는 막대 그래프에 속하는 종류 중 하나이지만 그 성질은 막대 그래프와는 다소 차이가 있다. geom_histogram() 은 연속된 수치값을 X축에 매핑한다. 하지만 내부적으로 적절한.. 2022. 4. 21. 벤다이어그램 in R 벤 다이어그램 in R 벤다이어그램은 아마도 중학교 시절 한번식은 그려본 차트일 것이다. 벤다이어그램은 데이터의 시각화와는 좀 다른 형태의 시각화로 시각화되는 요소들이 데이터의 양에 직접적인 관계가 없고 데이터의 성질에 관계가 있다. R에서 벤다이어그램을 만들 수 있도록 제공되는 패키지는 ggVennDiagram 패키지이다. 이 패키지외에 VennDiagram 패키지도 있지만 VennDiagram 패키지에서는 한글을 지원하지 못한다는 결정적 단점이 있다. ggVennDiagram 패키지에서 제공하는 ggVennDiagram()을 이용해서 벤다이어그램을 만들 수 있다. 벤다이어그램은 보통 3개의 원으로 표현되는 것이 효율적이다. 그 이상의 원으로 표현은 가능하겠지만 오히려 데이터의 특징을 전반적으로 확인하.. 2022. 2. 19. 이전 1 ··· 5 6 7 8 9 10 11 다음