본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

데이터 전처리34

열 순서 변경 in R R의 데이터 프레임에서 작업 시에 데이터 프레임의 열의 순서가 구조 때문에 데이터의 전체적인 구조나 처리가 어려움을 겪는 때가 있다. 이런 경우 열의 순서를 바꾸어 새로운 데이터 프레임을 만들거나 기존의 데이터 프레임에 엎어 쓰고 작업한다. 열이 몇개 되지 않는 경우에는 dplyr의 select를 이용하여 간단히 열의 순서를 바꿀 수 있지만 열의 수가 많은 데이터 프레임의 경우에는 작업이 수월하지 않다. 이런 경우 사용할 수 있는 함수가 relocate이다. 샘플 데이터 셋은 우리나라 코로나 데이터를 사용하도록 하겠다. COVID19 패키지는 전세계 코로나 확진자, 사망자, 백신 접종자등 데이터를 제공하는 패키지이다. 사용 방법은 다음의 패키지 설명서를 참조하라.(https://cran.r-project.. 2021. 5. 11.
Factor 레벨 이름 바꾸기 in R factor는 R에서 범주형 데이터 구조를 표현하기 위해 사용하는 특별한 데이터 구조형이다. 범주형 데이터란 데이터가 미리 규정된 분류로만 정의되어야 하는 데이터이다. 예를 들어, 사람을 성별로 표현할 때 성별은 남자, 여자로만 정의되어야 한다.(예를 들기 위해 두가지 값으로 표현했다. 필자는 남녀 이외의 성에 대해 편견을 가지지는 않는다..) 이와 같이 사전에 정의되어 있는 변수의 목록을 레벨(level)이라고 한다. 가끔 factor형 변수에 미리 정의되어 있는 level의 값을 변경해야할 때가 있다. 아래의 예와 같이 남, 여를 표현하고 있는 factor형 dt는 중간에 결측치가 존재하여 레벨이 3개(’‘, ’M’, ‘F’)가 존재하게 된다. df 2021. 5. 9.
PDF 한글 깨짐 처리 in R showtext 벡터 이미지와 PDF에서 한글 폰트 사용하기 데이터 분석 보고서를 작성할 때는 R이나 R-Studio에서 작성한 플롯을 사용해야 하는 경우가 많다. R-Studio에서는 Plot 패널(일반적으로 오른쪽 하단)에 플롯이 표현된다. 플롯 패널에서는 Export 메뉴에 다음과 같이 Save as Image, Save as PDF, Copy to Clipboard의 세 가지 메뉴를 제공한다. 이 세가지 메뉴에서는 다양한 파일 포맷으로 플롯을 저장하여 활용할 수 있다. R-Studio에서 제공하는 파일 포맷은 크게 벡터(Vector) 타입 이미지 파일과 래스터(Raster) 타입 이미지 파일로 나눌 수 있다. 벡터 타입 이미지 파일 : 이미지의 내부 저장시에 수학 방정식을 기반으로 하는 점, 직선.. 2021. 5. 4.
p값 추출과 p값 표현법 in R p값 추출과 p값 표현법 p값이란? p값(p value)은 가설 검정에서 사용하는 값으로 유의 확률이라고 불리는 값이다. p 값은 귀무가설이 참이라는 가정하에 귀무가설이 발생할 확률이기 때문에 0에서 1사이의 값을 가진다. 보통 0.05를 임계치로 많이 활용하는데 사실 0.05라는 임계치의 과학적 근거는 없다고 알려져 있는데 가끔 0.1을 사용하는 경우도 있다. 0.05라는 수치는 p 값을 처음 제안한, 통계학의 아버지라고 일컬어지는 ‘로날드 피셔’(Ronald A. Fisher)가 0.05를 처음 사용했기 때문에 지금까지 관행적으로 사용되고 있는 임계치이다. 만약 피셔가 0.1을 사용했다면 지금까지 우리는 0.1을 임계치로 사용하고 있을지도 모른다. 최근 임계치인 0.05가 너무 크다고하여 0.005를.. 2021. 4. 7.