For population:
모집단(population)이라 함은 연구자가 관심을 가지는 집단 전체를 의미한다. 가령, 한 연구자가 대한민국 청소년의 인터넷 게임과 부모와의 관계에 대한 연구문제를 가지고 있다면, 이 연구자가 관심을 가지는 모집단은 대한민국의 청소년 이다. 청소년 (juvenile)을 어떻게 정하는가는 연구자의 관점에 따라서 약간 다를 수도 있겠지만, 기존의 권위적인 연구 혹은 지침서가 있다면, 그를 따르는게 보통일 것이다 (왜냐하면, 이렇게 동일 나이 집단을 연구함으로써, 서로간의 연구를 비교할 수도 있다). 복습을 하자면, 대한민국 청소년이라는 모집단에서 실제 서베이나 실험에 참가하는 집단을 선출하는 것을 sampling이라고 하고, 이렇게 해서 뽑혀진 혹은 선발된 참가자들을 sample이라고 한다. Sampling을 위해서는 대한민국 청소년, 즉 모집단을 나열한 리스트가 필요한데, 이 때 사용되는 리스트를 sampling frame이라고 한다. 가령, 문광부가 중고등학교 학생의 명단을 모두 보유하고 있고 연구자가 이를 사용한다고 하면, 중고등학교 학생의 명단이 바로 sampling frame이다.
For sample:
위에서 언급한것과 같이 sample은 모집단을 대표하는 명단(sampling frame)에서 추출된 개인들의 합을 말한다. 모집단 전체를 조사하는 경우는 드물기 때문에 (census의 경우를 제외하고는 거의 없다. 이런 모집단 전체를 조사하는 것을 enumeration이라고 한다), 연구자는 sample의 특성(성격)을 알아내고, 이를 바탕으로 수학적인 기법을 이용하여, 모집단의 성격을 추론한다.
- 예, For a population of N = 4 scores, {3, 7, 4, 6}, the mean is:
평균값의 특성: 아래의 예에서 중요하게 보아야 할 점은 한 sample의 값이 다른 값들과는 다르게 훨씬 크거나 적을 경우에 이 값이 전체 평균에 미치는 영향이다. 이런 값을 가진 sample을 흔이
outlier 라고 하는데, outlier는 전체 평균에 상당한 영향을 미친다. 가령 첫 번째 예에서 평균은 6.00 이지만, 마지막 예는 12이다. 이렇게 평균값이 변한 이유는 sample 중 하나의 값이 1에서 31로 변했기 때문이다.
- {9, 8, 7 ,5, 1}일때,
- {9, 8, 7 ,5, 8}일때,
- {9, 8, 7 ,5, 31}일때,
위와 같은 평균(mean)의 성격때문에 연구자는 종종 Mean 외의 값(Median 혹은 Mode값)을 사용하기도 한다.