데이터 전처리34 여러 열의 천단위 구분자 없애기 in R 데이터프레임에서 천단위 구분자 삭제하기 엑셀이나 CSV파일에서 데이터를 읽어들을 떄 간혹 천단위 구분자때문에 수치형 변수를 문자로 읽어들이는 경우가 있다. 이렇게 불러들이면 수치 연산이 불가능하기 때문에 이 부분을 어떻게 해서든 수정해야 한다. 이번 포스트에서는 천단위 구분자를 없애고 숫자로 변환하는 과정을 세가지 방법으로 알아보겠다. Data Import 이번 포스트에서 사용할 데이터는 교육통게 서비스 홈페이지의 연도별 고등학교 졸업 후 상황 데이터를 사용하겠다. 이번에는 CTRL + C를 이용한 클립보드를 통해 데이터를 불러들이도록 하겠다. 다음의 그림과 같이 다운로드된 파일을 엑셀에서 열고 1, 2행의 헤더 부분을 제외한 나머지 부분을 선택하고 CRTL + C를 이용해서 클립보드로 복사한 후 다음의.. 2021. 12. 16. 데이터 비식별화 처리(가명화, 익명화, 암호화) in R factor를 이용해 식별값을 코드화하기 대량의 데이터를 사용할 때 가끔 개별 행(레코드)의 고유한 이름이 기록되어 있는 경우가 있을 것이다. 예를 들어 고객 이름이라던지 특정 지역명, 특정 지점명등과 같이 개별 이름이 코드화 되어 있지 않고 사람이 인식할 수 있는 문자 형태로 기록된 데이터를 사용하여 분석을 할 때는 이 이름들을 드러내지 않도록 처리해야 할 것이다. 필자는 교육통계 데이터를 주로 다루는데, 이 데이터에는 대부분 학교명이 들어 있는 경우가 많다. 하지만 이 학교명을 그대로 사용하여 분석하면 특정 학교가 드러나게 되므로 학교 이름을 보통 코드화하여 분석해야 한다. 따라서 분석을 시작하기 전에 데이터를 전체적으로 확인하여 데이터의 식별이 가능한 데이터가 포함되어 있는지 먼저 확인해야 하고 식.. 2021. 11. 16. 클립보드(clipboard) 데이터 읽고 쓰기 in R 클립보드 데이터 읽기, 쓰기 R에서 데이터를 분석하기 위해서 가장 먼저 해야할 일은 가지고 있는 데이터를 R로 불러들이는 작업이다. 또 많이 하는 작업은 R에서 분석한 데이터를 외부에서 사용할 수 있도록 파일로 정리하는 작업이다. 본 포스트에서는 R에서 데이터를 불러 읽어들이거나 외부 프로그램에서 사용할 수 있도록 클립보드(clipboard)로 데이터를 넣거나(ctrl+c) 클립보드의 데이터를 읽어오는(ctrl+v) 방법을 설명하고자 한다. 단 이 포스트에서는 windows 운영체제에서 사용하는 방법에 한한다.(필자는 iOS를 매우 매우 싫어한다.) 이 포스트에서 사용하는 데이터는 gapminder 패키지의 gapminder 데이터프레임을 사용한다. library(gapminder) 클립보드로 데이터 내.. 2021. 10. 16. 데이터프레임의 열을 벡터로 변환 pull() 데이터 프레임의 특정 열을 벡터로 변환해야 할 때가 있다. 보통 자료형 변환을 위해서 R 자체적으로 제공하는 as.* 함수를 제공한다. 벡터로 변환하기 위해서도 as.vector()를 제공한다. 하지만 as.vector()는 행렬(matrix)을 벡터로 변환하는 함수이다. R을 사용할 때 행렬도 많이 사용되지만 행렬보다 데이터프레임을 더 많이 사용한다. 사실 행렬로 표현할 수 있는 데이터도 데이터프레임을 사용하는 경우가 더 많은 것 같다. 이는 tidyverse 패밀리가 데이터 프레임에 적용이 되는 이유가 가장 큰 것같다. 데이터를 핸들링 하는 익숙한 방법을 사용자는 선호하기 때문이다. ## test.matrix를 생성 (test.matrix 2021. 8. 21. 이전 1 ··· 3 4 5 6 7 8 9 다음