본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

데이터 전처리33

일별 데이터를 월별 데이터로 만들기 사용데이터 : https://2stndard.tistory.com/68 lubridate와 zoo를 사용하는 기간별 합계값 구하기 - 월별 데이터 회사에서 전문 연구직이 아닌 직원들은 데이터 분석을 할 때 많이 사용하는 분석이 연별, 월별, 주별, 일별 데이터 변화량이다. 상사에게 보고하는 보고서에는 연별 매출액, 월별 판매량, 주별 평균 재고량 등과 같이 특정한 주기별로 통계치를 만들어 내거나 매월 말일 판매량, 일요일 가입자수와 같이 특정 일자의 데이터를 넣어야 할 때를 많이 겪었을 것이다. 하지만 대부분 우리들에게 주어진 데이터는 이러한 데이터 형태로 보기좋게 정제되어있지 않을 것이기 때문에 주어진 데이터를 가지고 기간별 통계치나 값을 구하는 방법을 잘 알아둘 필요가 있다. lubridate 패키지.. 2022. 6. 16.
데이터프레임 합치기(Merge) in R 데이터 결합 서로 다른 데이터프레임에 저장된 데이터를 합쳐서 하나의 데이터프레임으로 만들어 사용하는 것을 데이터 결합(Merge)이라고 한다. R에서 데이터를 결합하는 방법은 데이터 조인과 데이터 바인딩으로 구분된다. 데이터 조인 데이터 조인은 서로 다른 데이터프레임에서 같은 값을 가진 열의 데이터를 사용하여 두개의 데이터프레임을 하나로 묶어주는 방법이다. 조인의 기준을 어디에 두느냐에 따라 왼쪽 조인(left_join()), 오른쪽 조인(right_join()), 내부 조인(inner_join()), 전체 조인(full_Join())으로 구분된다. 왼쪽 조인 : 조인의 기준을 왼쪽 데이터프레임에 두고 왼쪽 데이터 프레임에 대응되는 오른쪽 데이터프레임의 값을 가져온다. 만약 왼쪽 데이터프레임에 대응되는 .. 2022. 6. 12.
특정 조건 행의 데이터만 바꾸기 사용데이터 : https://2stndard.tistory.com/68 조건에 맞는 행의 데이터 변경하기 대량의 데이터 분석에 사용되는 툴은 여러 가지가 있다. 사실 빅데이터 시대가 도래하기 전인 2010년대 초반까지는 데이터의 요약값이나 기초 통계 값을 산출하고 간단한 그래프를 그리는데 가장 많이 사용된 툴은 MS-Excel일 것이다. MS-Excel은 그 시대 뿐아니라 지금까지도 기초적인 데이터 분석에 여전히 많이 사용되고 있는 툴이다. 스프레드 시트 프로그램의 대표적인 프로램인 MS-Excel은 위지윅(WYSIWYG: What You See Is What You Get) 형태로 데이터를 직접 눈으로 보면서 다룰 수 있기 때문에 데이터 분석에 익숙치 않은 사용자들도 비교적 손쉽게 사용할 수 있다는 장.. 2022. 6. 11.
데이터 행의 제거 in R 사용데이터 : df filter(!is.na(col1), is.na(col2) == FALSE) ## col1 col2 col3 col4 ## 1 1 this TRUE 2.5 ## 2 3 is TRUE 3.2 ## 3 3 is TRUE 3.2 중복된 행의 제거 데이터프레임에서 전체 열에 동일한 값을 가지는 열이 존재하는 경우 이를 제거해야 할지 그냥 사용해야할 지 결정해야 한다. 이 값이 내용적으로 의미가 있을수도 있고 의미가 없을 수도 있기 때문에 이는 데이터를 잘 아는 전문가의 의견들 들어야 할 것이다. 만약 중복된 데이터가 내용적으로 의미가 없다면 이를 제거해야 한다. 중복된 데이터를 제거하는 방법은 distinct()를 사용한다. distinct()는 유일한 데이터 조합을 리턴하는 함수이기 때문에.. 2022. 6. 4.