‘확률(probability)’과 ‘가능성(likelihood)’의 차이는 무엇일까요?
두 단어는 거의 똑같이 들립니다. 하지만 실제로는 서로 매우 다른 두 가지 질문에 답하는 개념입니다. 이 차이를 이해하게 되면, 데이터 과학의 많은 개념들이 훨씬 더 명확하게 다가옵니다.
The Intuition: 전향적 사고 대 후향적 사고
큰 틀에서 보면, 이 둘의 차이는 사고의 방향에 있습니다:
- 확률은 전향적입니다
알려진 상황을 출발점으로 삼아 “어떤 결과가 발생할 가능성이 높을까?”라고 묻습니다.
- 가능성은 후향적입니다
관찰된 결과를 출발점으로 삼아 “어떤 상황이 이를 가장 잘 설명할까?”라고 묻습니다.
- 이를 기억하는 간단한 방법:
확률은 가정을 바탕으로 데이터를 예측하고, 가능성은 데이터를 바탕으로 가정을 평가합니다
간단한 예시: 32세까지의 약혼
구체적으로 살펴보겠습니다.
다음과 같은 사실을 알고 있다고 가정해 봅시다.
장기 연애(5년 이상) 중인 사람의 70%는 32세까지 약혼합니다.
단기 연애(2년 미만) 중인 사람의 30%는 32세까지 약혼합니다.
이제 두 가지 가능한 시나리오가 있습니다.
장기 연애
단기 연애
확률적 관점: 시나리오부터 시작하기
확률적 사고방식에서는 상황을 이미 알고 있다고 가정합니다.
예를 들어 만약 장기적인 연애 관계를 유지하고 있다면, 32세까지 약혼할 확률은 얼마일까요?
답:70%
즉, 관계의 유형(알려진 사실)부터 시작해서, 결과(약혼)를 예측합니다.
가능성 관점: 결과부터 시작하기
이제 관점을 바꿔 봅시다.
관찰 결과는 "나는 32세에 약혼했다" 입니다.
이 경우 미래를 예측하는 대신, 우리는 다음과 같이 묻습니다:
어떤 시나리오가 이 결과를 더 그럴듯하게 만드는가?
비교해 봅시다:
장기연애 → 70%
단기연애 → 30%
결론:
장기연애에서 약혼할 가능성이 더 높다
즉, 결과(알려진 사실)부터 시작하고, 어떤 가정이 이를 가장 잘 설명하는지 평가합니다
수학적 설명
언뜻 보기에, 확률과 가능도는 같은 공식을 사용합니다:

- (X) = 관측된 데이터 (예: 약혼 결과)
- (θ) = 매개변수 또는 가정 (예: 관계 유형)
확률 해석
- (θ)는 고정되어 있습니다 (특정 시나리오를 가정함)
- (X)는 변합니다 (결과를 예측함)
“연애 유형이 주어졌을 때, 약혼할 확률은 얼마인가?”
가능도 해석

- (X)는 고정되어 있습니다(참여를 관측함)
- (θ)는 변합니다(시나리오를 비교함)
“참여가 발생했다고 가정할 때, 어떤 시나리오가 가장 가능성이 높습니까?”
이것이 중요한 이유는 같은 공식이지만 다른 관점입니다.
그 차이가 바로 이 개념의 핵심입니다.
데이터 과학과 어떤 관련이 있는지
바로 여기서 앞서 언급한 직관이 작용합니다.
1단계: 모델(구조) 선택
먼저 선형 회귀, 로지스틱 회귀, 시계열 모델 등과 같은 모델의 유형을 결정합니다:
이는 문제, 데이터, 분야에 대한 이해를 근거로 선택합니다.
2단계: 우도 함수를 사용하여 모델 적합화
그런 다음 다음과 같이 묻습니다.
“어떤 매개변수가 관측된 데이터를 가장 잘 설명할까요?”
이를 최대우도추정(MLE)이라고 합니다.

데이터를 가장 잘 설명하는 매개변수를 찾습니다.
이것이 학습 단계입니다.
3단계: 모델을 활용한 예측 모델
모델을 학습시킨 후에는:
- 매개변수를 학습된 값으로 간주하고
- 모델을 사용하여 결과예측, 확률추정을 수행합니다:
이 단계에서 다시 확률적 사고방식으로 돌아갑니다.
중요한 뉘앙스
이렇게 말하고 싶은 유혹이 들기도 합니다:
“우리는 우도(likelihood)를 바탕으로 모델을 선택합니다”
더 정확하게는:
- 우리는 도메인 지식, 검증기법을 사용하여 모델 유형을 선택합니다:
- 그리고 우도 함수를 사용하여 매개변수를 추정합니다
이것이 중요한 이유:
- 매우 복잡한 모델은 데이터에 아주 잘 맞을 수 있습니다(높은 우도)
- 하지만 새로운 데이터에서는 성능이 떨어질 수 있습니다(즉, 훈련 데이터에 과적합됨)
따라서 실제로는 우도, 단순성, 일반화 능력들 간의 균형을 맞춥니다:
결론
한 마디로 표현하자면
- 확률 → 특정 시나리오가 주어졌을 때, 어떤 일이 일어날까?
- 가능성 → 일어난 일을 고려할 때, 어떤 시나리오가 타당할까?
그리고 실제 적용에서는:
- 가능성 → 과거 데이터로부터 배우기
- 확률 → 미래의 결과를 예측하기
'통계의 기초' 카테고리의 다른 글
| 통계에서 정규성을 검증하는 세 가지 방법 (0) | 2026.05.26 |
|---|---|
| 경영 의사 결정을 위한 가설 검정 - Part 2 (0) | 2026.05.17 |
| 경영 의사 결정을 위한 가설 검정 - Part 1 (0) | 2026.05.09 |
| ANOVA in R (0) | 2022.10.18 |
| T 검정(T test) in R (0) | 2022.10.15 |
댓글