FrontPage Probability

1. probability

사건 A가 일어날 확율(probability)는 $ \text{probability A} = \frac{\text{number of outcome classified as A}}{\text{total number of possible outcomes}} $ 라고 표현할 수 있다. 따라서, 카드에서 spade가 나올 확율은 $$ p(spade) = \frac{13}{52} = \frac{1}{4} = .25 $$ 이고, 동전의 앞면(head)이 나올 확율은 $$ p(head) = \frac{1}{2} = .50 $$ 이다.


$G(X) = \{1, 1, 2, 3, 3, 4, 4, 4, 5, 6 \} $ 일때 $p(X > 4) = $ 의 값은?


$N = 10$ 이고, $(X > 4)$ 의 경우의 갯수는 2 이므로,
$p(X > 4) = \frac{2}{10}=.2$ 이다.

그렇다면, $p (X < 5) = ?$


probability_01.png
[PNG image (9.94 KB)]

probability_02.png
[PNG image (9.95 KB)]

1.1. Variance

1.2. Standard Deviation

1.3. Normal distribution

probability_normal_distrib.png
[PNG image (31.3 KB)]

Normal distribution의 특징:
  1. 그래프의 좌우가 대칭 (symmetry)
  2. (mean = median = mode) 이며, 오른쪽 반 = 전체의 50% (.5)
  3. 양극의 숫자는 가운데의 숫자에 비교하여 드물다.
Normal distribution curve를 z-score로 변환하여 놓고 보았을 때, z = -2, -1, 0, 1, 2에 해당하는 면적은 전체 면적의 약 34% (68%의 반), 13.5% (95%의 반값에서 34%를 제외한 값), 2% (99%의 반값에서 47.5% 를 제외한 값) 정도를 차지한다.

$\mu=68, \sigma=6$ 일때, $p(X > 80) = ?$

probability_normal_distrib_2.png
[PNG image (52.42 KB)]


$z=\frac{(X-\mu)}{\sigma}=\frac{80-68}{6}=\frac{12}{6}=2$

따라서, $p(z > 2) = 2.5$ % 이다. 이것이 의미하는 것은 이 분포에서 점수 80을 넘는 사람들의 퍼센티지는 약 2.5% 즉 100명 중 2.5명 꼴이라는 것이다.

z-table을 이용하면, 어떤 score에서라도 그 score 전후의 면적을 구하여, probability를 알 수 있다.

  • z-table에 의하면 z-score 0-2까지의 면적은: 0.4772
  • 따라서, 2에서 그 이상까지의 면적은 0.5-0.4772= ...


e.g., Normal distiribution에서 z=1.5 보다 작은 점수를 받은 샘플의 퍼센티지는?

z-score-probability.png
[PNG image (10.97 KB)]


  • p(z<0) = 0.5
  • p(0<z<1.5) = 0.4332

따라서 p(z<1.5) = 0.9332

SAT score: mean=500, stdev=100 일때, p(S>650) = ?

$z=\frac{(X-\mu)}{\sigma}=\frac{(650-500)}{100}=1.5$ 따라서, $p(z > 1.5) = 0.5 - 0.4332 = 0.0668$ or 6.68%

위에서 p(600<s<700) = ?

$z=\frac{(X-\mu)}{\sigma}=\frac{(600-500)}{100}=1.00$
$z=\frac{(X-\mu)}{\sigma}=\frac{(700-500)}{100}=2.00$

p(s>600)= 0.5-0.3413=0.1587
p(s>700)= 0.5-0.4772=0.0228

따라서, p(1 < z < 2) = 0.1587 - 0.0228 = 0.1359 or 13.59%

Q: 위의 예에서, 상위 16%에 들기 위한 최소의 점수는?

우리가 가진 table은 0-x.xx의 범위를 기준으로 하는 table이므로 상위 16%는 0에서 z-score 값이 약 34%일 경우의 zscore를 의미한다. 이 z-score는 약 1. 따라서, 필요한 최소의 점수는 평균값에 standard deviation값 하나를 더한 것, 즉, 600점이 된다.

1.4. Sampling distribution

1.5. Central Limit Theorem

1.6. check point


$\mu = 80,  \sigma = 20$ 의 모집단이 있을 때; 샘플숫자를 16 (n=16) 으로 하는 샘플들의 distirubtion 에 대해서 이야기 해보시오.
  1. the distribution of sample means는 normal distribution을 이룰 것이며,
  1. 그 평균은 모집단 평균( $\mu$ )인 80일 것이고,
  1. Standard deiviation 값은 $\frac{\sigma}{\sqrt{n}}=\frac{20}{\sqrt{16}}=5$ 일 것이다.
----

위의 예에서 밝힌 사실이 의미하는 것을 서술하시오.

----

샘플사이즈가 커질 수록 standard error값도 같이 커진다.

----

어떤 조건이 만족하여야, 샘플평균값들의 분포(distribution of sample means)가 정규분포를 이루는가?

1.7. Probability and distribution of smaple means

Population of SAT score ( $\mu = 500, \sigma = 100$ ) 이다. $n = 25$ 의 샘플을 뽑는다고 가정을 하면, 그 샘플의 평균이 540보다 같거나 클 확율(probability)은 어떻게 되는가?
  1. 샘플(n=25)을 계속 취해서 그 평균값의 distribution을 보면, normal distribution
  2. Distribution의 평균은 500
  3. Distribution의 standard error 값은 $\sigma_{\overline{X}}=20$
일것이다.

stderror-300-20.png
[PNG image (55.09 KB)]


즉, 위의 그래프에서 stdev unit의 값은 20이고 540은 평균인 500에서 2 unit만큼 떨어져 있으므로 구해야 할 값은 p(s>2) = ?

$$z=\frac{(\overline{X}-\mu)}{\sigma_{\overline{X}}} = \frac{540-500}{20}=2$$

위의 예가 의미하는 것은 population의 parameter가 위와 같고, n=25인 샘플을 뽑는다면, 그 샘플의 평균값이 나올 확률의 분포는 위의 그래프와 같다는 것이다. 즉 샘플을 한 번 뽑아서 그 평균이 540 이상일 확률은 약 2.5%이다 (5%의 반값).

(-2<z<2) 구간을 생각해보면, 이 구간은 약 95%이다. 이것이 의미하는 것은 n=25인 샘플을 뽑을 때, 그 샘플의 평균이 460에서 540이 될 확률은 약 95%라는 것이다. 즉, 다시 말하면, 100 중 95는 그 샘플의 평균값이 460-540일 것이라고 이야기 하는 것이 된다.

이렇게 population의 parameter를 알고 sample의 size를 알 때, 우리는 그 샘플의 평균이 어느 범위에 들지를 예측할 수 있다.

샘플사이즈가 중요한 이슈가 되는 이유는 샘플사이즈 변화에 따른 sampling error의 변화를 보면 알 수 있다.

Q: Population의 parameter: $\mu = 80, \sigma = 20$ 일 때, 샘플 사이즈가 각각, 1, 4, 100의 sampling error of $\overline{X}$ 를 구하보라.

우선 위에서, 우리는
  1. 샘플평균의 분포 (distribution of sample means)가 정상분포이고;
  2. 샘플평균들의 평균은 모집단의 평균값과 같을 것이라는 사실을 이전의 학습을 통해서 알 고 있다.

  3. 세 샘플 종류의 차이점은 variability에 있다.

for sample size = 1, $\;\;\;\sigma_{\overline{X}} = \frac{\sigma}{sqrt{n}} = \frac{20}{1}=20$
for sample size = 4, $\;\;\;\sigma_{\overline{X}} = \frac{\sigma}{sqrt{n}} = \frac{20}{2}=10$
for sample size = 100, $\;\;\;\sigma_{\overline{X}} = \frac{\sigma}{sqrt{n}} = \frac{20}{10}=2$

이 것을 그래프로 그려보면 다음과 같다.
1.png
[PNG image (39.15 KB)]

그림. n = 1, se = 20

2.png
[PNG image (38.19 KB)]

그림. n = 4, se = 10

3.png
[PNG image (35.09 KB)]

그림. n = 1, se = 2

여기서 반드시 이해해야 할 점은: population ( $\mu = 80, \sigma = 20$ ) 에서,

  1. 그림 1의 경우, 샘플의 숫자가 1인 샘플을 뽑았을 때, 그 샘플의 평균(여기서는 그 샘플의 값)은 95%의 확률을 가지고, 40 - 120 (80-40 - 80+40) 사이에서 발견될 것이라는 것.
  2. 그림 2의 경우는 같은 확률로 60 - 100;
  3. 그림 3의 경우에, 같은 활률로 76-84에서 발견될 것이라는 점이다.

즉, 만약에 연구자가 샘플의 숫자를 늘이면, 단 한번의 샘플이라도 원래 population의 평균값에 근사한 sample의 평균값을 얻을 수 있는 것이다. 즉, 마지막과 같이 샘플의 숫자를 100으로 하면, 하나의 샘플로 얻게 되는 평균이 76-84로 좁혀지게 된다는 점이다.

만약에 샘플의 숫자를 1600으로 하면 sampling error of sample means는 20/40, 즉, 1/2로 좁혀지고, 따라서, 현실적으로 샘플을 취하면(n=1600), 그 샘플의 평균값은 100중 95로 80 +- 1 로 좁혀지게 된다.

만약에 샘플의 숫자를 2500으로 하면 sampling error of sample means는 20/50, 즉, 4/10로 좁혀지고, 따라서, 현실적으로 샘플을 취하면(n=2500), 그 샘플의 평균값은 100중 95로 80 +- 0.8로 좁혀지게 된다.

2. Hypothesis testing

2.1. Errors in decision making

위에서 강사가 샘플의 statistics와 population parameter를 근거로 일종의 의사결정(decision-making)을 하였다. 잠시 이 procedure를 살펴 보면, 강사의 의사결정에는 일종의 틀릴 여지가 있음을 알 수 있다. 이는 두 가지로 나눠질 수 있는데, 이를 각각 TypeIErrorTypeIIError라고 부른다.

2.1.1. Type I Error

가령 case A의 경우, 샘플에서 얻은 z-score는 3이었고, 이는 z-score = 2 를 벗어나는 곳에 존재함으로, 강사는 이 샘플의 평균값은 보통 population에서 취해진 샘플의 평균값으로서는 unusual하다는 주장을 하였다. 그러나, 보통 population에서 취해지는 샘플이라도 그 z-score가 2를 넘어서는 것이 전무한 것은 아니다. z-score = 2 를 기준으로 하는 extreme 샘플의 경우, 약 5%가 이에 해당한다. 다시 말하면, 강사가 얻은 샘플의 z-score = 3이 바로 이 5%에 해당하는 경우라면, 강사의 null hypothesis의 rejection은 틀린 것이 되고만다. 이와 같은 error를 Type I error라고 한다. 사실은 wiki가 효과가 없는데, 있다는 결론을 내린 것이다.

2.1.2. Type II Error

case B의 경우는, 샘플에서 얻은 z-score는 1이었다. 이것이 의미하는 것은 wiki를 사용하지 않는 보통의 population에서 나오는 sample이라면 대개(95%) 가질 수 있는 샘플의 평균을 강사의 샘플이 가졌다는 의미이므로, 강사는 이를 근거로 wiki의 효과가 없었다는 결론을 내렸다. 하지만, Type I 에러와 마찬가지로 강사의 이런 주장이 오류에 근거할 여지가 있다. 흔한 예로, 샘플의 숫자가 적은 편이고, 효과가 눈에 뜨게 크지 않는 경우, 이런 오류가 나타난다. Type I 오류와는 다르게, Type II 오류가 치명적인 것은 아니다.

  • 가령 n=16인 샘플(SA)과 n=100인 샘플(SB)을 생각해보면, SA의 standard error 값은 SB의 그것보다 상대적으로 크다 (즉, SA의 95% region이 상대적으로 넓다). 따라서, 샘플의 평균값이 critical region이 아닌 region에 걸려 있을 확률이 많다.

2.2. Example of h-testing

2.3. z-test 가정

  • Random sampling
  • Independent observation
  • The value of sigma is unchanged by the treatment
  • Normal sampling distribution


Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2012-05-08 14:16:25
Processing time 0.0562 sec