본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬

실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R20

시계열 데이터의 결측치(Missing value) 처리 in R - part 1 결측치란? 시계열 데이터는 일정한 시간적 간격으로 기록된 데이터를 말한다. 연도별 시계열 데이터나 분기별, 월별 시계열 데이터의 경우는 그 시간적 간격이 크기 때문에 측정치간의 결측치가 비교적 적지만 주별, 일별 데이터나 그보다 작은 시간간격의 시계열 데이터에는 중간 중간 측정값이 누락되어 있는 경우가 많다. 이렇게 일정한 간격으로 값이 있어야하는 시간 간격에 측정치가 누락된 것을 결측치(Missing Value)라고 한다. 사실 이러한 결측치는 시계열 데이터가 아닌 어떤 데이터 셋에서도 존재한다. 하지만 시계열 데이터에는 시간이라는 일정한 선형 변수를 지니기 때문에 다른 데이터 셋의 결측치와는 다소 다르게 처리된다. 이러한 결측치는 시계열 데이터의 시각화나 모델링에 영향을 미치기 때문에 적절히 처리해줄.. 2022. 9. 8.
시계열 이상치 탐색 in R 이상치 탐색 이상치는 시계열 데이터 상의 추세나 계절성에 반하여 나타나는 특별한 데이터를 말하는데 영어로는 outlier 혹은 anomaly라고 한다. 이 이상치는 측정상의 오류나 데이터 자체의 오류일 수도 있지만 특정한 이유로 인해 일시적으로 발생된 데이터일 수도 있다. 시계열 데이터가 아닌 일반 관측치 데이터의 경우는 데이터의 분포에서 IQR 값이 1.5 IQR을 넘어가는 값을 이상치로 보기도 하고 회귀분석을 통해 이상치를 찾아낼 수 있다. 그러나 시계열 데이터는 추세와 계절성이라는 데이터 자체적인 특성이 있기 때문에 일반적 관측치 데이터에서는 측정되지 않는 이상치를 가진다. 이상치는 그 원인을 파악하지 않고 분석에서 제외하거나 다른 값으로 대체하는 것은 피해야한다. 이 이상치를 통해서 시계열 데이터.. 2022. 8. 24.
데이터홀릭 도서 증정 이벤트 은 최신 버전의 R과 패키지들을 활용해서 시계열 데이터 분석의 기초와 데이터 처리 방법, 프로젝트를 통한 활용까지 다루고 있는 실용서입니다. ● 책 자세히 살펴보기: yes24(https://bit.ly/2ZdARKy) 이벤트 참여 링크: https://www.facebook.com/dataholic4/posts/1303726270089446 (1) 페이스북의 본 도서 증정 이벤트 포스트를 공유해주세요. (2) 공유하시면서 책에 대해 기대하는 바를 함께 작성해주시면 좋습니다. 만약 페이스북 공유가 아니라 네이버 포스트, 인스타그램 등에 공유하셨다면 페이스북의 본 도서 증정 이벤트 포스트에 댓글로 링크를 남겨주세요. ● 참여 기간: 11월 7일 자정까지 ● 선정 방법: 추첨 ● 인원: 4명 ● 발표: 선정.. 2021. 10. 29.
실전에서 시계열 데이터 분석 하고 싶은 사람들 모여라 https://www.youtube.com/watch?v=eku-XmP-RxE&t=2441s https://www.podbbang.com/channels/1771386/episodes/24189568 Ep(132) 실전에서 시계열 데이터 분석 하고 싶은 사람들 모여라 로그 데이터가 시계열 데이터가 아니라구요?! 청취자이신 이기준님께서 '실전에서 바로 쓰는 시계열 데이터 처리와 분석 in R '를 출간해 주신 덕에 시계열 데이터 이야기를 나눌 수 있었습니다. www.podbbang.com 2021. 10. 25.