본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R/못다한 이야기10

시계열 데이터의 결측치(Missing value) 처리 in R - part 4 이번 포스트에서는 tsibble 클래스의 결측치 처리 방법 중 특별한 방법을 살펴보도록 하겠다. tsibble : 그룹화된 결측치 처리 앞선 tsibble의 결측치 처리 포스트(https://2stndard.tistory.com/130)에서 fill_gaps()의 결과를 보면 특정 값으로 결측치를 대체하거나 함수의 결과값으로 결측치를 처리할 수 있다. 그런데 이 방법은 전체 결측치에 대해 처리되기 때문에 특정값을 설정하면 처음부터 끝까지 결측치를 동일한 값으로 처리하고 함수의 경우도 전체 데이터 대상의 함수 적용 결과값을 사용하기 때문에 전체적으로 같은 값이 결측치에 반영된다. 앞 포스트의 그래프를 보면 median() 함수가 적용되는 구간이 전체 데이터를 대상으로 하기 때문에 전체 데이터에 대한 중간값.. 2022. 9. 11.
시계열 데이터의 결측치(Missing value) 처리 in R - part 3 이번 포스트에서는 시계열 데이터의 결측치 처리 방법 중 tsibble 클래스에 따라 살펴보도록 하겠다. tsibble tsibble 클래스는 tidyverse 생태계에서 사용되는 대표적인 데이터 클래스인 tibble 클래스를 시계열 데이터에 맞게 확장한 데이터 클래스이다. 이 tsibble 클래스의 시계열 데이터는 tsibble 패키지에서 제공하는 함수를 사용하여 결측치를 처리할 수 있다. if (!require(tsibble)) { install.packages('tsibble') library(tsibble) } 데이터 Import 사용하는 데이터는 Part 1에서 사용한 ‘tsAirgap’ 데이터를 tsibble 클래스 변환하여 사용하도록 하겠다. 다만 앞선 ts, xts, zoo와는.. 2022. 9. 11.
시계열 데이터의 결측치(Missing value) 처리 in R - part 2 이번 포스트에서는 시계열 데이터의 결측치 처리 방법 중 xts 클래스에 따라 살펴보도록 하겠다. xts와 zoo xts 클래스와 zoo 클래스는 다른 시계열 클래스와는 달리 특수한 관계에 있다. xts 클래스는 zoo 클래스의 하위 클래스처럼 동작한다. 따라서 zoo 클래스는 부모 클래스, xts 클래스는 자식 클래스로 zoo 클래스에서 정의된 대부분의 기능을 xts클래스로 정의된 데이터에서 사용이 가능하다. 따라서 xts와 zoo 클래스에서 결측치 처리방법을 알아보겠다. 먼저 필요한 패키지를 로딩하겠다. 그리고 사용하는 데이터는 Part 1에서 사용한 ‘tsAirgap’ 데이터를 xts 클래스 변환하여 사용하도록 하겠다. 데이터 Import 결측치 처리를 위해 사용하는 데이터는 imputeTS 패키지에.. 2022. 9. 9.
시계열 데이터의 결측치(Missing value) 처리 in R - part 1 결측치란? 시계열 데이터는 일정한 시간적 간격으로 기록된 데이터를 말한다. 연도별 시계열 데이터나 분기별, 월별 시계열 데이터의 경우는 그 시간적 간격이 크기 때문에 측정치간의 결측치가 비교적 적지만 주별, 일별 데이터나 그보다 작은 시간간격의 시계열 데이터에는 중간 중간 측정값이 누락되어 있는 경우가 많다. 이렇게 일정한 간격으로 값이 있어야하는 시간 간격에 측정치가 누락된 것을 결측치(Missing Value)라고 한다. 사실 이러한 결측치는 시계열 데이터가 아닌 어떤 데이터 셋에서도 존재한다. 하지만 시계열 데이터에는 시간이라는 일정한 선형 변수를 지니기 때문에 다른 데이터 셋의 결측치와는 다소 다르게 처리된다. 이러한 결측치는 시계열 데이터의 시각화나 모델링에 영향을 미치기 때문에 적절히 처리해줄.. 2022. 9. 8.