기초통계학

대표적인 확률분포 알아보기

datasummary 2025. 8. 19. 14:36

통계를 배우다 보면 꼭 등장하는 단골손님들이 있습니다.

 

바로 확률분포들입니다.

 

이름은 조금 낯설 수 있지만, 사실 우리가 일상에서 경험하는 상황과 아주 밀접한 관계가 있습니다.

오늘은 그중에서도 가장 기본이 되는 몇 가지 분포를 소개해 보겠습니다.


1. 베르누이 분포 – 성공이냐 실패냐

가장 단순한 분포입니다.
동전을 던져 앞면이 나오면 성공(1), 뒷면이 나오면 실패(0)라고 합시다.

이처럼 결과가 두 가지(성공/실패)뿐일 때 사용하는 분포가 베르누이 분포입니다.

  • 예: 시험 문제를 맞힐 확률, 야구 타자가 안타를 칠 확률
  • 특징: 성공 확률 'p' 하나만 알면 됨

2. 이항분포 – 여러 번 반복했을 때

동전을 한 번만 던지지 않고 10번 던진다면, 앞면은 몇 번 나올까요?
한 번의 성공 확률이 p일 때, 이를 n번 반복했을 때 성공 횟수의 분포가 이항분포입니다.

  • 예: 20문제 시험에서 정답률이 70%일 때, 맞히는 문제 수
  • 기억하기: ‘반복된 베르누이 시행’이라고 생각하면 쉬움

이항분포 n=30, p=0.5의 그래프를 시각화 해보았다.

 


3. 포아송 분포 – 드문 사건 counting

포아송 분포는 조금 다른 느낌입니다.

일정한 시간이나 공간에서 드문 사건이 얼마나 일어나는지를 다룹니다.

  • 예:
    • 편의점에 1시간 동안 손님이 몇 명 들어오는가?
    • 하루 평균 2번 일어나는 지진이 오늘은 몇 번 발생하는가?
  • 특징: 평균 발생 횟수 'λ' 만 알면 예측 가능

평균이 4인 포아송분포를 시각화해보았다.


 

4. 정규분포 

가장 유명하고 중요한 분포가 바로 정규분포입니다.
평균을 중심으로 좌우 대칭인 부드러운 종 모양 곡선을 떠올리면 됩니다.

사람들의 키, 시험 점수처럼 자연스럽게 퍼지는 현상에서 자주 나타납니다.

  • 예: 키의 분포, 전국 수학 시험 점수
  • 특징: 평균과 분산(흩어진 정도)으로 모양이 결정됨
  • 정규분포가 중요한 이유: 많은 데이터의 분포가 결국 정규분포를 따른다는 중심극한정리(CLT) 때문

표준정규분포의 시각화. 위의 이항분포의 n이 커질수록 이 모양을 닮아간다.


5. 지수분포 – 기다리는 시간

포아송 분포가 ‘몇 번 발생했는가’를 다룬다면, 지수분포는 그 사건이 일어날 때까지 걸리는 시간을 다룹니다.

  • 예:
    • 버스를 기다리는 시간
    • 전구가 고장 나기까지 걸리는 시간
  • 특징: 평균 시간의 역수인 1/λ 가 핵심

마무리

오늘 살펴본 다섯 가지 분포는 통계의 기본이자, 실제 데이터 분석에서 자주 활용되는 도구입니다.

처음에는 이름이 낯설고 공식이 어렵게 보일 수 있지만, 일상적인 상황에 빗대어 생각하면 훨씬 이해하기 쉽습니다.

앞으로 통계 공부를 하면서 이 분포들이 계속 등장할 테니, 이번 기회에 친숙하게 느껴보면 좋겠습니다.

다음 시간에는 제일 중요하다고 언급했던 정규분포에 대하여 조금 자세히 설명해보겠습니다.