Population of SAT score (
) 이다.
의 샘플을 뽑는다고 가정을 하면, 그 샘플의 평균이 540보다 같거나 클 확율(probability)은 어떻게 되는가?
- 샘플(n=25)을 계속 취해서 그 평균값의 distribution을 보면, normal distribution
- Distribution의 평균은 500
- Distribution의 standard error 값은
일것이다.
[PNG image (55.09 KB)]
즉, 위의 그래프에서 stdev unit의 값은 20이고 540은 평균인 500에서 2 unit만큼 떨어져 있으므로 구해야 할 값은 p(s>2) = ?
위의 예가 의미하는 것은 population의 parameter가 위와 같고, n=25인 샘플을 뽑는다면, 그 샘플의 평균값이 나올 확률의 분포는 위의 그래프와 같다는 것이다. 즉 샘플을 한 번 뽑아서 그 평균이 540 이상일 확률은 약 2.5%이다 (5%의 반값).
(-2<z<2) 구간을 생각해보면, 이 구간은 약 95%이다. 이것이 의미하는 것은 n=25인 샘플을 뽑을 때, 그 샘플의 평균이 460에서 540이 될 확률은 약 95%라는 것이다. 즉, 다시 말하면, 100 중 95는 그 샘플의 평균값이 460-540일 것이라고 이야기 하는 것이 된다.
이렇게 population의 parameter를 알고 sample의 size를 알 때, 우리는 그 샘플의 평균이 어느 범위에 들지를 예측할 수 있다.
샘플사이즈가 중요한 이슈가 되는 이유는 샘플사이즈 변화에 따른 sampling error의 변화를 보면 알 수 있다.
Q: Population의 parameter: 일 때, 샘플 사이즈가 각각, 1, 4, 100의 sampling error of 를 구하보라.
우선 위에서, 우리는
- 샘플평균의 분포 (distribution of sample means)가 정상분포이고;
- 샘플평균들의 평균은 모집단의 평균값과 같을 것이라는 사실을 이전의 학습을 통해서 알 고 있다.
- 세 샘플 종류의 차이점은 variability에 있다.
for sample size = 1,
for sample size = 4,
for sample size = 100,
이 것을 그래프로 그려보면 다음과 같다.
[PNG image (39.15 KB)]
그림. n = 1, se = 20
[PNG image (38.19 KB)]
그림. n = 4, se = 10
[PNG image (35.09 KB)]
그림. n = 1, se = 2
여기서 반드시 이해해야 할 점은: population (
) 에서,
- 그림 1의 경우, 샘플의 숫자가 1인 샘플을 뽑았을 때, 그 샘플의 평균(여기서는 그 샘플의 값)은 95%의 확률을 가지고, 40 - 120 (80-40 - 80+40) 사이에서 발견될 것이라는 것.
- 그림 2의 경우는 같은 확률로 60 - 100;
- 그림 3의 경우에, 같은 활률로 76-84에서 발견될 것이라는 점이다.
즉, 만약에 연구자가 샘플의 숫자를 늘이면, 단 한번의 샘플이라도 원래 population의 평균값에 근사한 sample의 평균값을 얻을 수 있는 것이다. 즉, 마지막과 같이 샘플의 숫자를 100으로 하면, 하나의 샘플로 얻게 되는 평균이 76-84로 좁혀지게 된다는 점이다.
만약에 샘플의 숫자를 1600으로 하면 sampling error of sample means는 20/40, 즉, 1/2로 좁혀지고, 따라서, 현실적으로 샘플을 취하면(n=1600), 그 샘플의 평균값은 100중 95로 80 +- 1 로 좁혀지게 된다.
만약에 샘플의 숫자를 2500으로 하면 sampling error of sample means는 20/50, 즉, 4/10로 좁혀지고, 따라서, 현실적으로 샘플을 취하면(n=2500), 그 샘플의 평균값은 100중 95로 80 +- 0.8로 좁혀지게 된다.