- Central Limit Theorem (CLT) 이란
- 평균이 , 그리고 표준편차( )가 인 모든 종류의 모집단에서, 샘플 숫자를 으로 하여 샘플평균을 분포시키면, 그 분포는 정규분포(normal distribution)에 가까와지며, 그 분포의 평균(mean, )은 와 같은 값이 되고, 표준편차(stdev, )는 가 된다는 것이다.
정규분포에 가까와 진다고 표현한 것은 샘플의 숫자가 작을 경우에는 정규분포와 완전하게 일치하지 않기 때문이다. 그러나, n=30 정도만 되면 샘플평균들의 분포는 거의 완벽한 정규분포곡선을 만든다. 사실, 아래의 두 조건 중 어느 하나만을 만족하면, distribution of sample means은 완전한 normal distribution을 만든다.
- sample을 취하는 population이 normal distribution을 이룬다
- n이 비교적 클 때. 약 30 이상일 때.
"mean of sample means은 population의 mean값과 같다" 즉, 샘플평균들의 평균은 모집단의 평균값과 같다진다.
위의 문장이 의미하는 것은 수 많은 샘플을 취했을 때, 그 샘플들의 평균은 실제 population의 평균값에 근사하게 된다는 것을 의미한다. (위의 이유에서, the mean of the distribution of sample means를 expected value of
라고 부른다.)
Standard error:: standard deviation of the distribution of sample means를 특별히 standard error of
라고 부른다.
Standard error 또한 standard deviation 이므로 (즉, standard deviation of distribution of sample means), 각 샘플의 평균이 샘플들의 평균값(the mean of distribution of sample means)에서 얼마나 떨어져 있는 가를 나타내는 지표로 쓰인다. 다시 말하면, 이 특별한 standard deviation은 내가 샘플링을 했을 때, 그 샘플의 평균값이 population mean에서 얼마나 떨어져 있을 수 있는가의 가능성(확율)을 나타내는 값이다. 즉, standard error =
= standard deviation distance between
and
라고 할 수 있다. 이 standard error 값에 영향을 주는 것은 두 가지가 있다.
Standard error의 공식을 다시 써보면 아래와 같은데,
위의 standard error 값의 크기에 영향을 주는 것에는
- 샘플의 크기 (n)
- population의 standard deviation 가 있다.
위에서 첫번째를 살펴보면, 샘플의 크기가 커질 수록 분모의 숫자인
의 값은 커지고, 따라서 se의 값은 작아진다는 것을 의미한다. se가 작아진다는 것은 distribution of samples means 의 전체적인 분포곡선이 평균을 중심으로 좁게 분포되어 있다는 것을 의미하고, 이는 곧 n값이 크게 되면, 한 샘플의 평균이 원래 평균에서 크게 벗어나지 않게 된다는 것을 의미한다. 우리가 샘플의 크기를 적당히 크게 잡는 이유는 한 샘플의 평균이 원래의 모집단 평균에서 크게 벗어나지 않기를 바라기 때문이다.
만약에 샘플의 숫자(n)을 1로 가정한다면 (n=1), standard error of
의 값은 population의
값과 같아지게 된다.
to be finished. . . .