기초통계학

데이터가 많아질수록, 정규분포가 보인다. 중심극한정리

datasummary 2025. 8. 21. 15:45

1. 시작하며

“주사위를 던지면 어떤 숫자가 나올까?”
“시험 점수를 모으면 어떤 모양이 될까?”

이런 질문은 모두 ‘확률분포’와 관련 있습니다.

그런데 더 놀라운 사실은, 데이터가 많아질수록 평균이 일정한 모양(정규분포)을 띤다는 점입니다.

이를 설명하는 것이 바로 중심극한정리(Central Limit Theorem, CLT) 입니다.


2. 중심극한정리란 무엇인가?

정리의 핵심은 간단합니다.

  • 모집단 분포가 어떤 모양이든,
  • 표본 크기를 충분히 크게 하고,
  • 그 표본의 평균을 여러 번 구해보면,
  • 그 평균들의 분포는 정규분포에 가까워진다.

즉, “평균은 정규분포로 수렴한다”는 법칙입니다.


3. 구체적인 예시

(1) 주사위 한 번 던지기

  • 주사위는 1, 2, 3, 4, 5, 6이 모두 똑같은 확률로 나옵니다.
  • 이 분포는 ‘균등분포’로 불리며, 정규분포와는 전혀 다릅니다.

(2) 주사위 두 번 던지기

  • 두 번 던진 값을 합하면 2에서 12까지 나올 수 있습니다.
  • 그런데 2(1+1)나 12(6+6)는 나올 수 있는 경우가 한 가지뿐입니다.
  • 반대로 7은 (1+6), (2+5), (3+4), … (6+1)처럼 6가지 경우가 있습니다.
  • 따라서 7이 가장 자주 나오고, 양 끝(2나 12)은 드물게 나옵니다.
  • 이렇게 해서 분포가 종 모양의 흉내를 내기 시작합니다.

(3) 주사위 10번 던지고 평균 내기

  • 10번 던지면 값은 1과 6 사이에 머물겠지만, 평균은 대체로 3.5 근처에 몰립니다.
  • 예를 들어, (2,3,4,6,5,2,1,6,4,3)의 평균은 3.6입니다.
  • 이런 평균들을 여러 번 모으면, 3.5를 중심으로 한 종 모양 곡선이 나타납니다.

(4) 주사위 30번, 100번 던지면?

  • 횟수가 늘어날수록 평균은 더 안정적으로 3.5 근처에 모입니다.
  • 그래프를 그려보면, 정규분포와 거의 차이가 없어집니다.

이것이 바로 중심극한정리의 직관적 증거입니다.

주사위를 많이 던질수록, 정규분포에 가까운 모습을 한다.


4. 왜 중요한가?

현실에서 데이터는 제각각입니다. 사람 키는 정규분포와 비슷하지만, 소득 분포는 한쪽으로 긴 꼬리를 가진 모양입니다.
하지만 CLT 덕분에, 우리는 이렇게 말할 수 있습니다.

“개별 데이터가 어떻게 생겼든, 평균을 모으면 정규분포로 근사할 수 있다.

이 때문에

  • 신뢰구간
  • 가설검정
  • 회귀분석

같은 통계 기법들이 정규분포를 바탕으로 작동할 수 있습니다.


5. 정리

데이터는 다양해도, 평균은 질서를 만듭니다.
중심극한정리는 그 질서가 언제나 정규분포라는 사실을 알려줍니다.