본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R/못다한 이야기10

시계열 이상치 탐색 in R 이상치 탐색 이상치는 시계열 데이터 상의 추세나 계절성에 반하여 나타나는 특별한 데이터를 말하는데 영어로는 outlier 혹은 anomaly라고 한다. 이 이상치는 측정상의 오류나 데이터 자체의 오류일 수도 있지만 특정한 이유로 인해 일시적으로 발생된 데이터일 수도 있다. 시계열 데이터가 아닌 일반 관측치 데이터의 경우는 데이터의 분포에서 IQR 값이 1.5 IQR을 넘어가는 값을 이상치로 보기도 하고 회귀분석을 통해 이상치를 찾아낼 수 있다. 그러나 시계열 데이터는 추세와 계절성이라는 데이터 자체적인 특성이 있기 때문에 일반적 관측치 데이터에서는 측정되지 않는 이상치를 가진다. 이상치는 그 원인을 파악하지 않고 분석에서 제외하거나 다른 값으로 대체하는 것은 피해야한다. 이 이상치를 통해서 시계열 데이터.. 2022. 8. 24.
시계열 변화점 탐지 변화점(change point) 시계열 데이터는 시간에 따른 데이터 변화량을 기록하는 데이터로 다른 데이터와는 조금 다른 몇가지 특징을 가진다. 이 특징은 계절성, 자기상관성 등이 있지만 또 하나의 특징으로 말할 수 있는 것이 특정 시기에 발생한 외부적 요인에 따른 데이터의 급격한 변화 요인이다. 필자가 생각하는 변화점의 예로 가장 적절한 것은 미국의 9.11테러로 인한 증시에 변화량이라고 생각한다. https://en.wikipedia.org/wiki/Economic_effects_of_the_September_11_attacks 2001년 9월 11일 발생한 테러로 인해 뉴욕 증시 뿐만아니라 한국 증시도 패닉상태였다. 하루에 종합주가지수는 12%떨어졌는데 당시 개별 주식의 하한가가 -15%인 것을 감.. 2021. 7. 17.
ggplot2의 Y축 자르기 ggbreak 다변량을 표현하는 플롯을 그릴때 간혹 변량의 값 범위의 차이가 너무 커서 플롯이 효율적으로 그려지지 않는 경우가 있다. 단적인 예로 전체 취업자수와 교육서비스업 취업자를 하나의 플롯으로 표현하는 경우가 이에 해당하는데 이를 해결하기 위해 앞선 포스트에서는 이중축을 사용해 해결하였지만 세개 이상의 다변량을 표현할 때는 이중축으로는 해결이 어렵다. 이런 경우 간혹 축의 일부를 잘라서 표현하는 경우가 있다. 축의 일부 값을 잘라서 데이터가 표현되지 않는 부분을 최소화함으로써 플롯의 공간을 최대한 활용하는 방법이다. 이렇게 축을 잘라서 사용하는 플롯을 어떻게 만들것인가? 이에 대한 해답으로 ggbreak패키지를 소개한다. ggbreak 패키지는 축의 일부를 잘라서 플롯의 빈공간을 최소화함으로써 플.. 2021. 6. 26.
ggplot2로 다변량 선플롯 그리기 in R — R을 이용하여 플롯(그래프)를 그릴때 가장 마음대로 나오지 않는 플롯이 선 플롯이다. 보통 선 플롯은 일변량으로 그리는 경우보다는 다변량으로 그리는 경우가 많기 때문에 한 플롯내에서 여러 변량을 어떻게 다루는가가 매우 중요하다. 이 포스트에서는 ggplot2 패키지를 사용하여 다변량 선 플롯을 만드는 두가지 방법에 대해 살펴보고자 한다. ggplot2 패키지를 사용하여 다변량 선 플롯을 그리는 방법은 긴(long) 형태의 데이터프레임을 사용하는 방법과 geom_line()을 여러번 사용하여 그리는 두가지 방법이 있다. 먼저 실습에 사용할 데이터를 로딩하겠다. students.all % select(-지역규모) students$연도 % select(c('연도', '유치원',.. 2021. 6. 20.