분류 전체보기178 빈도표(분할표, Contingency table)로 데이터 개수, 비율 구하기 in R 사용데이터 : https://2stndard.tistory.com/68 R을 사용하여 데이터를 전처리하기 위해서는 먼저 전체적으로 데이터의 형태를 살펴봐야한다. 이 때 사용하는 명령이 glimpse()나 str()을 사용하여 데이터의 전반적 기술통계치를 확인하거나 head()를 사용하여 실 데이터를 확인한다. 하지만 특정 컬럼의 변량에 따른 다양한 빈도표를 만들어서 데이터의 분포를 확인하거나 간단한 시각화를 해야할 때가 있다. 또 많은 수의 데이터를 간단하게 요약해야 하는 경우도 있다. 이럴때 사용하는 것이 빈도표, 분할표(contingency tables)이라고 한다. 빈도표는 변수의 이산형, 연속형에 따라 산출하는 방법이 다르고 산출되는 값이 사례수, 비율에 따라 산출하는 방법이 다르다. table(.. 2022. 6. 4. 와플차트(Waffle) in R 사용데이터 : https://2stndard.tistory.com/68 와플 차트 와플은 아마도 한번 정도는 먹어본 음식일 것이다. 아이스크림이나 달콤한 시럽이 얹혀진 이 파이인듯, 빵인듯, 케이크인 둣한 음식의 표면은 작은 네모들로 가득하다. 여기에서 영감을 얻은 것같은 와플 차트는 작은 사각형으로 전체 영역을 나누고 각 변량이 차지하는 비율만큼 사각형을 각 변량에 포함시킴으로써 데이터를 시각화한다. 와플 차트는 구현하는 방법은 전체를 작은 사각형으로 나누어서 그 변량의 비율만큼 작은 사각형을 표현하는 방법과 막대그래프의 변형된 형태의 두 가지로 나눌 수 있다. 첫 번째 방법은 파이 차트의 변형으로 geom_tile()을 사용해서 구현하고, 두 번째 방법은 막대 그래프의 변형으로 waffle 패키지의 .. 2022. 6. 3. plotly 선 그래프의 끝에 범례 넣기 사용데이터 : https://2stndard.tistory.com/68 다음과 같이 주요 나라의 코로나 19 사망자 추세 그래프를 그려보자. total_deaths_5_nations_by_day filter((iso_code %in% c('KOR', 'USA', 'JPN', 'GBR', 'FRA'))) |> filter(!is.na(total_deaths_per_million)) total_deaths_5_nations_by_day |> ## plotly 객체 생성 plot_ly() |> add_trace(type = 'scatter', mode = 'lines', x = ~date, y = ~total_.. 2022. 5. 28. 산키(sankey) 다이어그램 in R Sankey DiagramSankey 다이어그램은 두개 혹은 두개 이상의 변수간의 데이터 흐름을 잘 보여주는 그래프이다. 각각의 변수 항목들은 네모 박스로 표현하고 데이터가 연관된 항목간의 데이터 량에 따라 굵기가 다른 선으로 이어지는 형태로 표현되는 그래프로 비교적 최근부터 사용되기 시작한 그래프 형태이다.아쉽게도 R에서 그래프를 그리는데 가장 많이 사용되는 ggplot2는 아직까지 Sankey Diagram을 지원하지 못한다. 따라서 Sankey 다이어그램을 생성하기 위해서는 plotly나 networkD3패키지를 사용할 수 있다.plotly와 networkD3패키지로 작성된 Sankey 다이어그램은 모두 대화형(interactive) 그래프로 Sankey 다이어그램이 생성되기 때문에 웹상에서는 마우.. 2022. 5. 15. 이전 1 ··· 22 23 24 25 26 27 28 ··· 45 다음