본문 바로가기
  • plotly로 바로쓰는 동적시각화 in R & 파이썬
통계의 기초

확률(Probability) vs. 가능성(우도, Likelihood)

by 아참형인간 2026. 5. 14.
‘확률(probability)’과 ‘가능성(likelihood)’의 차이는 무엇일까요?

두 단어는 거의 똑같이 들립니다. 하지만 실제로는 서로 매우 다른 두 가지 질문에 답하는 개념입니다. 이 차이를 이해하게 되면, 데이터 과학의 많은 개념들이 훨씬 더 명확하게 다가옵니다.

 

 

The Intuition: 전향적 사고 대 후향적 사고

큰 틀에서 보면, 이 둘의 차이는 사고의 방향에 있습니다:

 

  • 확률은 전향적입니다

알려진 상황을 출발점으로 삼아 “어떤 결과가 발생할 가능성이 높을까?”라고 묻습니다.

 

  • 가능성은 후향적입니다

관찰된 결과를 출발점으로 삼아 “어떤 상황이 이를 가장 잘 설명할까?”라고 묻습니다.

 

  • 이를 기억하는 간단한 방법:

확률은 가정을 바탕으로 데이터를 예측하고, 가능성은 데이터를 바탕으로 가정을 평가합니다

 

간단한 예시: 32세까지의 약혼

구체적으로 살펴보겠습니다.

다음과 같은 사실을 알고 있다고 가정해 봅시다.

장기 연애(5년 이상) 중인 사람의 70%는 32세까지 약혼합니다.
단기 연애(2년 미만) 중인 사람의 30%는 32세까지 약혼합니다.

 

이제 두 가지 가능한 시나리오가 있습니다.

장기 연애
단기 연애

 

확률적 관점: 시나리오부터 시작하기

확률적 사고방식에서는 상황을 이미 알고 있다고 가정합니다.

예를 들어 만약 장기적인 연애 관계를 유지하고 있다면, 32세까지 약혼할 확률은 얼마일까요?

 

답:70%

 

즉, 관계의 유형(알려진 사실)부터 시작해서, 결과(약혼)를 예측합니다.

 

가능성 관점: 결과부터 시작하기

이제 관점을 바꿔 봅시다.

관찰 결과는 "나는 32세에 약혼했다" 입니다.


이 경우 미래를 예측하는 대신, 우리는 다음과 같이 묻습니다:

어떤 시나리오가 이 결과를 더 그럴듯하게 만드는가?

 

비교해 봅시다:

장기연애 → 70%
단기연애 → 30%

 

결론:

장기연애에서 약혼할 가능성이 더 높다

 

즉, 결과(알려진 사실)부터 시작하고, 어떤 가정이 이를 가장 잘 설명하는지 평가합니다

 

수학적 설명

 

언뜻 보기에, 확률과 가능도는 같은 공식을 사용합니다:

  • (X) = 관측된 데이터 (예: 약혼 결과)
  • (θ) = 매개변수 또는 가정 (예: 관계 유형)

확률 해석

 

  • (θ)는 고정되어 있습니다 (특정 시나리오를 가정함)
  • (X)는 변합니다 (결과를 예측함)

“연애 유형이 주어졌을 때, 약혼할 확률은 얼마인가?”

가능도 해석

  • (X)는 고정되어 있습니다(참여를 관측함)
  • (θ)는 변합니다(시나리오를 비교함)

“참여가 발생했다고 가정할 때, 어떤 시나리오가 가장 가능성이 높습니까?”

이것이 중요한 이유는 같은 공식이지만 다른 관점입니다. 
그 차이가 바로 이 개념의 핵심입니다.

 

 

데이터 과학과 어떤 관련이 있는지

 

바로 여기서 앞서 언급한 직관이 작용합니다.

1단계: 모델(구조) 선택

먼저 선형 회귀, 로지스틱 회귀, 시계열 모델 등과 같은 모델의 유형을 결정합니다:

이는 문제, 데이터, 분야에 대한 이해를 근거로 선택합니다. 

2단계: 우도 함수를 사용하여 모델 적합화

그런 다음 다음과 같이 묻습니다.

“어떤 매개변수가 관측된 데이터를 가장 잘 설명할까요?”

이를 최대우도추정(MLE)이라고 합니다.


데이터를 가장 잘 설명하는 매개변수를 찾습니다.
이것이 학습 단계입니다.

 

3단계: 모델을 활용한 예측 모델

모델을 학습시킨 후에는:

  • 매개변수를 학습된 값으로 간주하고
  • 모델을 사용하여 결과예측, 확률추정을 수행합니다:

이 단계에서 다시 확률적 사고방식으로 돌아갑니다.

 

중요한 뉘앙스

 

이렇게 말하고 싶은 유혹이 들기도 합니다:

“우리는 우도(likelihood)를 바탕으로 모델을 선택합니다”

더 정확하게는:

  • 우리는 도메인 지식, 검증기법을 사용하여 모델 유형을 선택합니다:
  • 그리고 우도 함수를 사용하여 매개변수를 추정합니다

이것이 중요한 이유:

  • 매우 복잡한 모델은 데이터에 아주 잘 맞을 수 있습니다(높은 우도)
  • 하지만 새로운 데이터에서는 성능이 떨어질 수 있습니다(즉, 훈련 데이터에 과적합됨)

따라서 실제로는 우도, 단순성, 일반화 능력들 간의 균형을 맞춥니다:

결론

한 마디로 표현하자면

 

  • 확률 → 특정 시나리오가 주어졌을 때, 어떤 일이 일어날까?
  • 가능성 → 일어난 일을 고려할 때, 어떤 시나리오가 타당할까?

그리고 실제 적용에서는:

  • 가능성 → 과거 데이터로부터 배우기
  • 확률 → 미래의 결과를 예측하기

 

<출처: https://medium.com/@masego_m/likelihood-vs-probability-explained-simply-with-a-real-life-example-93b898364f77>

댓글