본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬
통계의 기초

상관관계에서 인과관계로

by 아참형인간 2026. 6. 20.

패턴을 찾는 것이 왜 일이 일어나는 이유를 이해하는 것과 같지 않은가 패턴을 찾는 것이 왜 일이 일어나는 이유를 이해하는 것과 같지 않은가 

 

현대 데이터 과학은 전례 없는 규모로 패턴을 찾아낼 수 있습니다. 모델은 유지 할인(retention discount)을 받은 고객이 구독을 유지할 가능성이 더 높다는 사실을 발견할 수 있습니다. 대시보드는 특정 사업 부문이 다른 부문보다 더 좋은 성과를 내고 있음을 보여줄 수 있습니다. 머신러닝 시스템은 특정 검색어가 공식 보건 통계에서 독감 유행을 보고하기 전에 먼저 증가한다는 사실을 식별할 수 있습니다.

하지만 패턴을 찾는 데는 한계가 있습니다. 패턴은 왜 어떤 일이 일어나는지를 자동으로 알려주지 않으며, 우리가 무엇인가를 바꾸려고 할 때 어떤 결과가 발생할지도 자동으로 알려주지 않습니다.

“상관관계는 인과관계가 아니다(correlation is not causation)”라는 익숙한 경고는 종종 통계학 수업에서 배우는 하나의 구호처럼 취급됩니다. 이 문장은 통계학 강의, 비즈니스 분석 교육, 머신러닝 토론에서 반복적으로 등장합니다. 그러나 이 단순한 문구 뒤에는 인간 사고에서 가장 오래되고도 깊은 문제 중 하나가 자리하고 있습니다. 어떻게 우리는 두 가지 현상이 함께 발생한다는 관찰에서 출발해, 한 현상이 다른 현상의 원인이라고 주장할 수 있을까요?

이것은 단순한 기술적 문제가 아닙니다. 이것은 지식에 대한 문제입니다. 우리가 관찰한 패턴으로부터 무엇을 믿을 수 있는가에 대한 질문입니다. AI와 대규모 데이터 시스템의 시대에 이 질문은 그 어느 때보다 중요해졌습니다.

이 글의 핵심 주제를 한 문장으로 표현하면 다음과 같습니다.

상관관계는 신호를 제공합니다. 인과관계는 레버를 제공합니다.

상관관계는 무언가가 일어나고 있다는 사실을 알려줄 수 있습니다. 인과관계는 우리가 무엇을 바꿀 수 있는지를 이해하게 해줍니다.

오래된 철학적 문제

인과성의 문제는 데이터 과학에서 시작된 것이 아닙니다.

데이비드 흄(David Hume)은 우리가 인과적 필연성을 직접 관찰한다는 생각에 의문을 제기했습니다. 당구공 하나가 다른 공을 치고, 그 결과 두 번째 공이 움직이는 장면을 생각해 봅시다. 우리는 실제로 무엇을 관찰할까요?

우리는 단지 한 사건 다음에 다른 사건이 발생하는 것을 볼 뿐입니다. 충돌이 일어나고, 그 다음 움직임이 발생합니다. 그러나 우리는 “인과력(causal power)”이라는 어떤 신비한 힘이 한 물체에서 다른 물체로 전달되는 모습을 실제로 보지는 못합니다. 흄에 따르면 인과성에 대한 우리의 믿음은 반복된 경험에서 비롯됩니다. 비슷한 사건의 연속을 반복해서 보다 보면, 첫 번째 사건이 발생할 때 두 번째 사건도 발생할 것이라고 기대하게 되는 것입니다.

흄의 전통에서 인과성은 종종 규칙성(regularity)을 통해 이해됩니다. 원인은 결과가 규칙적으로 뒤따르는 사건입니다. 원인과 결과 사이에 직접 관찰 가능한 힘이 존재하지 않더라도 반복적인 연속 패턴이 존재하면 그것을 인과관계로 해석하는 것입니다.

현대 머신러닝 역시 비슷한 방식으로 작동합니다. 머신러닝은 규칙성을 기록합니다. 이런 입력이 나타나면 저런 결과가 뒤따르는 경향이 있다는 것을 학습합니다. 이것은 강력한 능력이지만 동시에 머신러닝이 흄의 문제를 그대로 물려받는다는 의미이기도 합니다. 반복된 패턴은 기대를 형성할 수는 있지만 인과적 필연성을 자동으로 밝혀주지는 않습니다.

이것이 오래된 철학적 문제가 현대 데이터 과학 속에서도 여전히 살아 있는 이유입니다. 데이터셋은 관찰, 패턴, 통계적 연관성을 제공하지만 인과적 이해를 자동으로 제공하지는 않습니다.

존 스노의 지도: 상관관계가 인과적 증거가 된 순간

데이터를 통해 인과관계를 추론한 가장 유명한 사례 중 하나는 1854년 런던 소호(Soho) 지역에서 발생한 콜레라 유행에 대한 존 스노(John Snow)의 조사입니다.

 

당시 많은 사람들은 콜레라가 "나쁜 공기(bad air)", 즉 미아스마(miasma)를 통해 전파된다고 믿고 있었습니다. 하지만 스노는 오염된 물이 원인이라고 의심했습니다. 그는 콜레라 사망 사례를 지도에 표시했고, 현재의 브로드윅 스트리트(Broadwick Street)에 위치한 브로드 스트리트 펌프(Broad Street Pump) 주변에 사망자가 집중되어 있다는 사실을 발견했습니다. 이후 스노는 지방 당국을 설득하여 펌프 손잡이를 제거했고, 사람들은 해당 수원을 더 이상 사용할 수 없게 되었습니다.

 

이 사례가 강력한 이유는 스노가 단순히 상관관계를 발견한 것이 아니기 때문입니다. 그는 공간적 패턴(spatial pattern)을 도메인 지식, 현장 조사, 그리고 질병 전파에 대한 경쟁 이론과 결합했습니다. 지도 자체가 기계적으로 인과관계를 증명한 것은 아니었습니다. 그것이 더 넓은 인과적 논증의 일부였기 때문에 강력한 증거가 될 수 있었습니다.

이러한 차이는 데이터 과학에서도 매우 중요합니다. 시각화는 패턴을 보여줄 수 있지만, 해석은 단순히 점을 찍는 것 이상의 작업을 요구합니다. 스노의 지도는 단순한 차트가 아니었습니다. 그것은 증거, 맥락, 그리고 논리에 의해 뒷받침된 인과적 주장(causal claim)이었습니다.

 

현대적인 표현으로 말하면, 스노는 단순히 "사례가 어디에 발생했는가?"를 묻고 있었던 것이 아닙니다. 그는 "어떤 설명이 다른 설명들보다 이 패턴을 더 잘 설명할 수 있는가?"를 묻고 있었습니다. 이것이 바로 인과적 사고의 출발점입니다.

스노는 예외 사례에도 주목했습니다. 유행의 중심지 근처에 살거나 일하던 사람들 중 일부는 브로드 스트리트 펌프를 사용하지 않았기 때문에 상대적으로 영향을 덜 받았습니다. 예를 들어, 인근 양조장 노동자들은 대부분 피해를 입지 않았습니다. 그들은 맥아주(malt liquor)를 이용할 수 있었고 펌프 물에 의존하지 않았기 때문입니다.

 

이러한 예외 사례는 비공식적인 통제군(informal controls) 역할을 했기 때문에 중요했습니다. 인과적 논증은 단순히 어떤 패턴이 나타나는 곳만 살펴보지 않습니다. 그 패턴이 나타나야 했지만 실제로는 나타나지 않은 곳도 함께 살펴봅니다.

스노의 자연 실험: 펌프 손잡이 그 이상

브로드 스트리트 펌프 이야기는 가장 유명한 사례이지만, 스노의 인과적 추론은 그보다 훨씬 더 깊이 나아갔습니다.

그는 또한 서로 다른 런던 수도 회사로부터 물을 공급받는 가구들을 연구했습니다. Southwark and Vauxhall Company와 Lambeth Company는 서로 겹치는 지역에 물을 공급했지만, 템스강의 서로 다른 지점에서 물을 취수하고 있었습니다. Southwark and Vauxhall의 물을 공급받은 가구들은 훨씬 높은 콜레라 사망률을 보인 반면, Lambeth Company가 취수 지점을 상류로 옮긴 이후에는 Lambeth의 물을 공급받은 인접 가구들의 피해가 훨씬 적었습니다.

이 사례가 중요한 이유는 오늘날 우리가 자연 실험(natural experiment)이라고 부르는 형태에 더 가깝기 때문입니다. 스노는 단순히 콜레라 사망자가 특정 지역에 집중되어 있다는 사실만 관찰한 것이 아니었습니다. 그는 지리적 위치와 생활환경을 부분적으로 통제한 상태에서 서로 다른 노출(exposure)을 가진 집단을 비교했습니다. 이웃한 가구들이 서로 다른 수원을 사용하고 있었기 때문에, 이러한 비교는 단순한 지도 분석보다 훨씬 강력한 증거가 되었습니다.

현대 데이터 과학의 관점에서 보면, 스노는 그럴듯한 원인을 주변의 잡음(noise)으로부터 분리할 수 있는 변동성(variation)을 찾고 있었습니다. 이것은 인과 추론의 가장 핵심적인 과제 중 하나입니다.

데이터 과학이 상관관계를 사랑하는 이유

현대 데이터 과학은 자연스럽게 상관관계에서 시작합니다.

회귀 모델은 변수 간의 관계를 추정합니다. 분류 모델은 한 클래스를 다른 클래스와 구별하는 패턴을 학습합니다. 추천 시스템은 특정 항목을 좋아한 사용자가 다른 항목도 좋아할 것이라고 추론합니다. 시계열 모델은 과거의 규칙성을 이용해 미래 값을 예측합니다.

이것은 약점이 아닙니다. 상관관계는 유용합니다. 예측도 유용합니다. 세상을 완전히 설명하지는 못하더라도 미래를 예측하는 데 도움을 주는 모델들은 많은 실제 시스템을 개선합니다.

모델이 야간 배치 작업이 지연될 가능성이 높다고 예측한다면, 그 정보는 운영 측면에서 가치가 있습니다. 고객 이탈(churn)을 예측한다면 기업은 우선순위를 정해 대응할 수 있습니다. 수요를 예측한다면 재고, 인력, 설비 운영에 도움을 줄 수 있습니다.

하지만 예측의 실질적인 유용성은 우리를 철학적인 오류로 이끌 수 있습니다. 우리는 "이 변수는 결과를 예측하는 데 도움이 된다"라는 유용한 예측적 진술에서 출발해, 어느새 "이 변수가 결과를 발생시킨다"라는 인과적 주장으로 넘어갑니다.

이러한 전환은 위험합니다. 예측 변수는 실제 원인일 수도 있습니다. 그러나 그것은 단지 증상일 수도 있고, 대리 변수(proxy)일 수도 있으며, 과거의 산물, 측정 편향, 또는 전혀 다른 무엇인가의 결과일 수도 있습니다.

문제는 단 하나의 실수가 아닙니다. 상관관계는 선택 편향, 집계 방식, 불안정한 측정, 명확한 개입의 부재 등 여러 방식으로 우리를 오도할 수 있습니다. 다음 사례들은 동일한 문제의 서로 다른 모습을 보여줍니다.

유지 할인 함정(Retention Discount Trap)

구독 비즈니스에서 흔히 볼 수 있는 문제를 생각해 봅시다. 어떤 기업이 고객 데이터를 분석한 결과, 유지 할인을 받은 고객들이 구독을 계속 유지할 가능성이 더 높다는 사실을 발견했습니다.

비즈니스 관점에서 결론은 명확해 보입니다. 할인은 이탈을 줄인다. 실제로 그럴 수도 있습니다. 하지만 데이터는 아직 그것을 보여주지 않았습니다.

할인을 받은 고객들은 무작위 집단이 아닐 수 있습니다. 이들은 해지 전에 고객센터에 연락한 고객일 수도 있고, 유지 전담팀과 상담한 고객일 수도 있으며, 단순히 떠나지 않고 협상할 만큼 관심을 보인 고객일 수도 있습니다. 다시 말해 원래부터 붙잡기 쉬운 고객이었을 수 있습니다.

이 차이는 매우 중요합니다. 할인 자체가 고객 유지의 원인이라면 더 많은 할인을 제공하는 것이 좋은 전략일 수 있습니다. 하지만 원래 남을 가능성이 높았던 고객들에게만 할인이 제공된 것이라면, 할인 프로그램을 확대해도 이탈은 줄지 않고 수익만 감소할 수 있습니다.

더 나쁜 경우에는 고객들이 더 좋은 가격을 받기 위해 해지를 위협하는 행동을 학습할 수도 있습니다.

모델은 "할인을 받은 고객이 더 오래 남는다"는 유용한 패턴을 발견했습니다. 그러나 인과적 질문은 다릅니다.

"할인을 받았기 때문에 남은 고객은 누구인가?"

이 질문은 훨씬 어렵습니다. 예측은 누가 떠날지, 누가 남을지를 알려줍니다. 인과성은 어떤 개입이 결과를 바꿀 수 있는지를 알려줍니다. 데이터 과학을 활용하는 조직에서 이것은 단순한 철학적 사치가 아닙니다. 누가 남았는지를 아는 것과 무엇이 그들을 남게 만들었는지를 아는 것의 차이입니다.

예측은 위험을 식별합니다.

인과성은 가능한 행동을 식별합니다.

이탈 예측에서 업리프트 모델링(Uplift Modeling)으로

이것이 업리프트 모델링이 중요한 이유입니다. 이탈 모델은 누가 떠날 가능성이 높은지를 묻습니다. 업리프트 모델은 우리의 개입 때문에 누가 남게 될지를 묻습니다. 이 차이는 매우 중요합니다.

어떤 고객은 원래 남습니다. 어떤 고객은 우리가 무엇을 하든 떠납니다. 어떤 고객은 적절한 제안에 의해 설득될 수 있습니다. 그리고 어떤 고객은 불필요한 개입으로 인해 오히려 부정적인 반응을 보일 수도 있습니다.

업리프트 모델링에서는 이들을 다음과 같이 부르기도 합니다.

  • Sure Things
  • Lost Causes
  • Persuadables
  • Sleeping Dogs(Do-Not-Disturbs)

Sleeping Dog는 원래 조용히 갱신할 예정이었지만, 불필요한 이메일을 받고 오히려 제품이 정말 필요한지 고민하기 시작하는 고객을 의미할 수 있습니다.

가치 있는 집단은 단순히 "고위험 고객"이 아닙니다. 실제로 행동을 변화시킬 수 있는 고객입니다. 예측 모델은 위험을 식별하지만, 인과 모델은 레버리지를 식별하려고 합니다. 이것이 바로 상관관계는 신호를 제공하고 인과관계는 레버를 제공한다는 의미입니다.

심슨의 역설: 정확한 숫자가 우리를 속일 때

버클리 대학원 입학 사례는 집계 데이터가 어떻게 오해를 불러올 수 있는지를 보여주는 대표적인 사례입니다.

1970년대 캘리포니아 대학교 버클리의 입학 데이터는 전체적으로 보면 남성과 여성 지원자 간의 입학률 차이가 존재하는 것처럼 보였습니다. 그러나 연구자들이 데이터를 학과 수준에서 분석하자 해석은 달라졌습니다. 원래 Science 논문은 이 집계 결과가 분명해 보이지만 오해를 불러일으킨다고 설명했습니다.

이 사례는 흔히 심슨의 역설(Simpson’s Paradox)의 예로 소개됩니다. 심슨의 역설이란 집계된 데이터에서는 보이던 추세가 의미 있는 하위 집단으로 데이터를 나누면 사라지거나 반대로 뒤집히는 현상을 말합니다. 버클리 입학 데이터는 이 문제를 설명하기 위한 대표적인 사례로 널리 사용됩니다.

데이터 과학자에게 이 사례가 주는 교훈은 불편하지만 중요합니다. 대시보드는 수학적으로 완벽하게 정확할 수 있지만, 인식론적으로는 오해를 불러일으킬 수 있습니다. 문제는 항상 나쁜 데이터가 아닙니다. 때로는 좋은 데이터가 잘못된 수준으로 집계된 것이 문제입니다.

이것이 공정성, 편향, 제도적 의사결정에 관한 질문이 중요하지 않다는 의미는 아닙니다. 단지 집계 데이터만으로는 인과적 질문에 답할 수 없다는 의미입니다.

버클리 사례에서 패턴을 이해하려면 지원자들이 서로 다른 입학률을 가진 학과에 어떻게 분포되어 있었는지를 살펴봐야 했습니다. 핵심 질문은 단순히 "전체 입학률이 얼마인가?"가 아니라 "우리가 묻고 있는 질문에 적절한 비교는 무엇인가?"였습니다.

이 문제는 비즈니스 인텔리전스, 운영 보고, 제품 분석, 경영 대시보드에서도 동일하게 중요합니다. 그룹을 비교하거나 성과를 평가하고 추세를 분석할 때마다 우리는 집계 수준이 인과적 질문과 일치하는지 확인해야 합니다. 그렇지 않으면 잘못된 지표를 최적화하거나, 잘못된 원인을 진단하거나, 잘못된 비교를 바탕으로 자신감을 갖게 될 수 있습니다.

흡연과 폐암: 단순한 실험 없이도 가능한 인과 추론

흡연과 폐암의 관계는 인과 추론이 반드시 깔끔한 무작위 실험을 필요로 하지 않는다는 점을 보여주는 중요한 사례입니다.

암 발생을 관찰하기 위해 사람들을 수십 년 동안 흡연하도록 무작위 배정하는 것은 비윤리적입니다. 그럼에도 불구하고 과학자들은 강력한 인과적 근거를 구축했습니다. 오스틴 브래드포드 힐(Austin Bradford Hill)은 1965년 논문 「The Environment and Disease: Association or Causation?」에서 관찰된 연관성으로부터 인과적 판단에 도달하는 방법을 설명했습니다. 여기에는 연관성의 강도, 일관성, 시간적 선후관계, 생물학적 기울기, 개연성, 정합성, 실험, 유추 등의 기준이 포함됩니다.

이 사례는 지나치게 단순한 사고방식에 대한 좋은 교정입니다. 단순히 "상관관계는 인과관계가 아니다"라고 말하고 끝낼 수는 없습니다. 진짜 질문은 다음과 같습니다.

관찰된 연관성이 어떤 조건에서 인과적 결론을 뒷받침할 수 있는가?

실무에서 조직은 종종 정확도, 회귀계수, p-value, Lift 같은 단일 수치를 원합니다. 그러나 인과적 지식은 하나의 숫자만으로 만들어지지 않습니다. 그것은 여러 증거, 도메인 지식, 그리고 대안적 설명에 대한 신중한 검토를 통해 형성됩니다.

이것이 인과 추론에 계산뿐 아니라 판단력이 필요한 이유입니다.

Google Flu Trends: 빅데이터 상관관계가 무너질 때

Google Flu Trends는 현대 데이터 과학에서 가장 교훈적인 사례 중 하나입니다.

아이디어는 매우 우아했습니다. 많은 사람들이 독감 관련 검색어를 검색한다면, 이러한 검색 패턴을 활용하여 전통적인 보고 시스템보다 더 빠르게 독감 유사 질환의 확산을 추정할 수 있다는 것이었습니다. 2009년 Nature 논문은 대규모 Google 검색 데이터를 활용하여 독감 유행을 추적하는 방법을 제시했습니다.

처음에는 이것이 빅데이터의 승리처럼 보였습니다. 그러나 이후 분석에서는 심각한 문제가 발견되었습니다. David Lazer와 동료들은 Google Flu Trends가 "빅데이터의 오만(Big Data Hubris)"과 "알고리즘 동역학(Algorithm Dynamics)"을 보여주는 사례라고 지적했습니다. 즉, 빅데이터가 전통적인 데이터 수집과 분석을 대체할 수 있다는 착각과 플랫폼, 알고리즘, 사용자 행동이 변화하면서 발생하는 불안정성을 보여준 것입니다.

후속 연구에서는 Google Flu Trends가 2011~2013년을 포함한 여러 기간 동안 독감 유병률을 크게 과대 추정했다는 사실이 밝혀졌습니다.

더 깊은 실패는 예측이 틀렸다는 것이 아니었습니다. 측정 시스템 자체가 변했다는 것이었습니다. 검색 행동이 변했고, 언론 보도가 변했으며, 자동완성 기능과 검색 알고리즘도 변했습니다. 데이터 생성 과정 자체가 안정적이지 않았던 것입니다. 모델은 검색어를 질병을 보여주는 안정적인 창으로 취급했지만, 실제로 검색어는 끊임없이 변화하는 플랫폼의 산물이기도 했습니다.

데이터 과학자에게 이 교훈은 명확합니다. 예측 패턴은 자연법칙이 아닙니다. 특히 모델이 실제 환경에 배포되는 경우 더욱 그렇습니다. 어제의 행동을 기반으로 학습한 모델은 내일 무용지물이 될 수 있습니다. 수학이 틀렸기 때문이 아니라 세상이 변했기 때문입니다.

관찰, 개입, 그리고 do-질문

이 교훈은 인과관계가 불가능하다는 뜻이 아닙니다.

현대 인과 추론은 보다 신중하게 사고할 수 있는 다양한 도구를 제공합니다. 무작위 실험(randomized experiments), 자연 실험(natural experiments), 도구 변수(instrumental variables), 인과 그래프(causal graphs), 반사실적(counterfactual) 프레임워크, 그리고 타깃 트라이얼(target trial) 사고방식 등이 그것입니다.

Hernán과 Robins의 『Causal Inference: What If』는 이러한 접근을 중심으로 구성되어 있으며, 서로 다른 개입이 이루어졌을 때 어떤 결과가 발생했을지를 묻는 반사실적 질문을 포함하여 명확하게 정의된 인과적 질문을 제기하는 것의 중요성을 강조합니다.

Judea Pearl과 그의 공동 연구자들은 관찰(observation)과 개입(intervention)을 구분함으로써 이 차이를 더욱 명확하게 설명합니다. 예측 모델은 일반적으로 X가 관찰되었을 때 Y가 발생할 확률을 추정합니다. 하지만 인과적 질문은 더 강력합니다. 우리가 X를 바꾸는 개입을 했을 때 Y는 어떻게 변할 것인가를 묻습니다.

Pearl의 표기법으로는 이것이 P(Y | X)를 관찰하는 것과 P(Y | do(X))를 묻는 것의 차이입니다. do 연산자는 단순한 관찰이 아니라 개입을 의미합니다.

쉽게 말하면 do(X)는 X가 자연스럽게 발생한 것을 관찰하는 것이 아니라, X의 값을 강제로 특정 값으로 설정하는 것을 의미합니다. 즉, X가 우연히 달랐던 사례들을 비교하는 것이 아니라 외부에서 X를 변화시켰을 때 어떤 일이 일어나는지를 묻는 것입니다.

이 차이는 예측과 행동 사이의 실질적인 간극을 보여줍니다. 기업은 단순히 할인을 받은 고객이 더 오래 남는지를 알고 싶은 것이 아닙니다. 특정 고객에게 할인을 제공했을 때 그 고객이 실제로 남게 될지를 알고 싶어합니다. 첫 번째 질문은 관찰적 질문이고, 두 번째 질문은 인과적 질문입니다.

A/B 테스트: 설계된 인과 추론

기술 기업에서 A/B 테스트는 상관관계에서 인과 추론으로 나아가는 가장 실용적인 방법 중 하나입니다.

사용자를 무작위로 A 버전과 B 버전에 배정하고 두 그룹이 그 외에는 비교 가능한 상태라면, 결과의 차이는 보다 설득력 있게 개입의 효과로 설명될 수 있습니다. Kohavi, Tang, Xu의 온라인 통제 실험 연구는 디지털 제품에서 A/B 테스트가 얼마나 핵심적인 위치를 차지하고 있는지를 보여줍니다.

그러나 실험 역시 주의가 필요합니다. 잘못 선택된 지표는 잘못된 행동을 보상할 수 있습니다. 무작위 배정이 제대로 이루어지지 않으면 그룹 간 비교가 불가능해질 수 있습니다. 또한 사용자들은 서로 영향을 줄 수도 있습니다.

예를 들어 제품 변경이 가격, 추천 시스템, 검색 순위 또는 공유 콘텐츠에 영향을 준다면 한 그룹의 사용자가 다른 그룹의 사용자에게 간접적인 영향을 미칠 수 있습니다.

실험이 강력한 이유는 의도적으로 설계된 비교이기 때문입니다. 하지만 여전히 여러 가정에 의존합니다. 무엇을 성공으로 정의할 것인가, 그룹들이 정말로 비교 가능한가, 개입 효과가 실험군에만 영향을 미치는가, 그리고 결과가 실험 외 환경에도 일반화될 수 있는가와 같은 가정들입니다.

인과 추론은 불확실성으로부터 마법처럼 벗어나게 해주는 도구가 아닙니다. 그것은 가정을 명확하게 드러내는 체계적인 방법입니다. 어쩌면 이것이 인과 추론의 가장 큰 가치일지도 모릅니다.

레버로서의 인과성

철학자 James Woodward는 인과성이 왜 중요한지 이해할 수 있는 유용한 관점을 제시합니다.

개입주의(interventionist) 관점에서 인과적 지식은 조작 가능성과 연결됩니다. 적절한 조건에서 X를 변화시켰을 때 Y도 변화한다면, X는 단순히 Y와 연관된 것이 아니라 Y를 변화시키기 위한 손잡이(handle)가 됩니다.

Woodward의 개입주의 이론은 인과 설명이 우연한 상관관계가 아니라 적절한 개입 하에서도 안정적으로 유지되는 관계에 기반해야 한다고 강조합니다.

이 개념은 데이터 과학과 매우 잘 맞아떨어집니다. 조직은 단순히 패턴 자체를 원하는 것이 아닙니다. 그들은 레버를 원합니다.

어떤 제품 변경이 전환율을 높일 것인가, 어떤 운영 조치가 지연을 줄일 것인가, 어떤 고객 개입이 이탈을 방지할 것인가, 어떤 프로세스 변화가 실패율을 낮출 것인가를 알고 싶어합니다.

이것들은 단순한 예측 질문이 아닙니다. 개입에 관한 질문입니다. 그리고 개입에 관한 질문은 곧 인과적 질문입니다.

데이터 과학자가 철학에서 배워야 할 것

철학은 데이터 과학의 엄밀성을 약화시키지 않습니다. 오히려 더 정직하게 만듭니다.

철학은 데이터가 스스로 말하지 않는다는 사실을 상기시켜 줍니다. 데이터셋은 현실을 그대로 비추는 거울이 아닙니다. 그것은 정의, 시스템, 측정 도구, 비즈니스 프로세스, 인센티브, 역사적 맥락에 의해 만들어집니다.

모델이 데이터를 학습하기 전에 이미 누군가는 무엇을 기록으로 볼 것인지, 무엇을 사건으로 볼 것인지, 무엇을 성공과 실패로 정의할 것인지, 무엇을 무시할 것인지를 결정했습니다. 그리고 이러한 선택은 인과적 주장에 직접적인 영향을 미칩니다.

비즈니스 대시보드에서 "위험 고객"의 의미는 비즈니스 정의에 달려 있습니다. 머신러닝 모델에서 피처의 의미는 그것이 어떻게 수집되었는지에 달려 있습니다. 예측 시스템에서 오차의 의미는 모델이 무엇을 최적화하도록 설계되었는지에 달려 있습니다.

모델은 현실을 단순히 드러내는 것이 아닙니다. 무엇을 측정할지, 무엇을 제외할지, 무엇을 집계할지, 무엇을 최적화할지, 무엇을 비교 가능한 것으로 간주할지에 대한 가정을 통해 현실을 표현합니다.

이것이 인과적 사고에 알고리즘만으로는 충분하지 않은 이유입니다. 도메인 지식, 신중한 측정, 좋은 실험 설계, 그리고 지적 겸손함이 필요합니다.

상관관계의 세계에서 인과적으로 사고하는 방법

데이터로부터 인과적 결론을 내리기 전에 몇 가지 규율 있는 질문을 던져야 합니다.

"만약(What If)" 질문을 하십시오.

무엇이 무엇과 관련되어 있는지만 묻지 마십시오. 시스템의 나머지 조건이 동일하다면 특정 변수를 변화시켰을 때 어떤 일이 발생할지를 물어야 합니다.

데이터 생성 과정을 이해하십시오.

모델링에 앞서 데이터가 어떻게 만들어졌는지를 살펴보아야 합니다. 누가 데이터를 수집했는가? 어떤 정의가 사용되었는가? 어떤 행동, 시스템, 인센티브가 데이터 형성에 영향을 주었는가?

의미 있는 비교 집단을 찾으십시오.

존 스노의 수도 회사 비교가 강력했던 이유는 유사한 조건에서 서로 다른 노출 집단을 비교했기 때문입니다. 좋은 인과 추론은 적절한 비교 대상을 찾는 것에서 시작됩니다.

집계에 주의하십시오.

버클리 입학 사례는 정확한 숫자도 잘못된 수준에서 집계되면 오해를 불러올 수 있다는 사실을 보여줍니다.

위험과 레버리지를 구분하십시오.

이탈 예측 모델은 누가 떠날 가능성이 높은지를 알려줍니다. 업리프트 모델은 개입을 통해 실제 행동을 변화시킬 수 있는 사람이 누구인지를 묻습니다.

궁극적인 질문은 단순히 "데이터가 무엇을 보여주는가?"가 아닙니다.

"우리가 무엇인가를 바꾼다면 어떤 일이 일어날 것인가?"입니다.

결론: 오래된 문제가 현대의 책임이 되다

데이터 과학은 인과성이라는 오래된 문제를 해결하지 못했습니다. 오히려 그 문제를 더 크고, 더 빠르고, 더 중요한 문제로 만들었습니다.

우리는 이제 수십억 건의 관측치에서 패턴을 발견할 수 있는 도구를 가지고 있습니다. 행동을 예측하고, 위험을 분류하고, 행동을 추천하고, 의사결정을 자동화하는 모델도 구축할 수 있습니다.

하지만 이러한 시스템이 강력해질수록 예측(prediction)과 설명(explanation)을 구분하는 일은 더욱 중요해집니다.

현대 데이터 과학의 핵심 문제는 패턴이 부족하다는 것이 아닙니다. 오히려 패턴이 너무 많다는 것입니다.

진짜 문제는 어떤 패턴이 실제 세상을 설명하는지, 어떤 패턴이 데이터 수집 방식의 산물인지, 어떤 패턴이 집계 과정에서 생긴 인공물인지, 어떤 패턴이 시간이 지나며 사라질 것인지, 그리고 어떤 패턴이 실제 행동의 근거가 될 수 있는지를 구분하는 것입니다.

그래서 "상관관계는 인과관계가 아니다"라는 문장을 단순한 통계학적 상투구로 취급해서는 안 됩니다.

그것은 지식에 대한 경고이며, 책임에 대한 경고이며, 겸손함에 대한 경고입니다.

상관관계는 신호를 제공합니다.

인과관계는 레버를 제공합니다.

모델이 점점 더 많은 의사결정을 좌우하는 세상에서 인과성은 추상적인 철학적 사치가 아닙니다.

그것은 패턴을 보는 것과, 무엇을 해야 하는지를 아는 것 사이의 차이입니다.

 

<출처: https://medium.com/@ken.moriwaki/from-correlation-to-causation-d0a9eafdf84a>

댓글