Communication Research: Estimated Standard Deviation

Communication Research

Wikipage

FrontPage › CalendarMacro/2601-12 › WkPark/2603-09 › EstimatedStandardDeviation

Estimated Standard Deviation

Difference between r1.4 and the current

@@ -3,150 +3,209 @@

== Estimated value of SD ==
우선, Expected value (기대값)와 Variance (분산)의 연산은 아래와 같이 계산될 수 있다.

~~(Independent~~ ~~random~~ variables)

{{|

X,Y are Independent variables.

|}}

{{|

{{{#!latex

\begin{~~eqnarray~~}

E[aX] & = & a E[X] \~~nonumber~~ \\

E[X+Y] & = & E[X] + E[Y] ~~\nonumber~~ \\

Var[aX] & = & a^{\tiny{2}} Var[X] ~~\nonumber~~ \\

Var[X+Y] & = & Var[X] + Var[Y] ~~\nonumber~~

\end{~~eqnarray~~}

\begin{align*}

E[aX] = a E[X] \\

E[X+Y] = E[X] + E[Y] \\

Var[aX] = a^{\tiny{2}} Var[X] \\

Var[X+Y] = Var[X] + Var[Y]

\end{align*}

}}}

|}}

이때, 한 샘플의 평균값을 $X$ 라고 하면, 평균들의 합인 $S_k$ 는

$S_{k} = X_1 + X_2 + . . . + X_k$ 와 같다.

$ S_{k} = X_1 + X_2 + . . . + X_k $

와 같다.

이렇게 얻은 샘플들(k 개의)의 평균인 $A_k$ 는,

$A_k = \frac{(X_1 + X_2 + . . . + X_k)}{k}$ 라고 할 수 있다.

$A_k = \displaystyle \frac{(X_1 + X_2 + . . . + X_k)}{k} = \frac{S_{k}}{k}$

라고 할 수 있다.

이때,

{{{#!latex

\begin{~~eqnarray~~}

E[S_k] & = & E[X_1 + X_2 + . . . +X_k] ~~\nonumber~~ \\

& = & E[X_1] + E[X_2] + . . . + E[X_k] ~~\nonumber~~ \\

& = & \mu + \mu + . . . + \mu = k * \mu \~~nonumber~~ \\

Var[S_k] & = & Var[X_1 + X_2 + . . . +X_k] ~~\nonumber~~ \\

& = & Var[X_1] + Var[X_2] + \dots + Var[X_k] ~~\nonumber~~ \\

& = & k * \sigma^2 ~~\nonumber~~

\end{~~eqnarray~~}

\begin{align*}

E[S_k] & = E[X_1 + X_2 + . . . +X_k] \\

& = E[X_1] + E[X_2] + . . . + E[X_k] \\

& = \mu + \mu + . . . + \mu = k * \mu \\

\end{align*}

}}}

{{{#!latex

\begin{align*}

Var[S_k] & = Var[X_1 + X_2 + . . . +X_k] \\

& = Var[X_1] + Var[X_2] + \dots + Var[X_k] \\

& = k * \sigma^2

\end{align*}

}}}

이다.

그렇다면,

$A_k$ 에 관한 기대값과 분산값은:

그렇다면, $A_k$ 에 관한 기대값과 분산값은:

{{{#!latex

\begin{~~eqnarray~~}

E[A_k] & = & E[\frac{S_k}{k}] ~~\nonumber~~ \\

& = & \frac{1}{k}*E[S_k] ~~\nonumber~~ \\

& = & \frac{1}{k}*k*\mu = \mu ~~\nonumber~~

\end{~~eqnarray~~}

}}} 이고,

\begin{align*}

E[A_k] & = E[\frac{S_k}{k}] \\

& = \frac{1}{k}*E[S_k] \\

& = \frac{1}{k}*k*\mu = \mu

\end{align*}

}}}

이고,

{{{#!latex

\begin{~~eqnarray~~}

Var[A_k] & = & Var[\frac{S_k}{k}] ~~\nonumber~~ \\

& = & \frac{1}{k^2} Var[S_k] ~~\nonumber~~ \\

& = & \frac{1}{k^2}*k*\sigma^2 ~~\nonumber~~ \\

& = & \frac{\sigma^2}{k} \nonumber

\end{~~eqnarray~~}

\begin{align*}

Var[A_k] & = Var[\frac{S_k}{k}] \\

& = \frac{1}{k^2} Var[S_k] \\

& = \frac{1}{k^2}*k*\sigma^2 \\

& = \frac{\sigma^2}{k} \nonumber

\end{align*}

}}}

라고 할 수 있다.

한편, 분산값은

{{{#!latex

\begin{~~eqnarray~~}

Var[X] & = & E{(X-\mu)^2} ~~\nonumber~~ \\

& = & E[(X^2 - 2 X \mu + \mu^2)] ~~\nonumber~~ \\

& = & E[X^2] - 2 \mu E[X] + E[\mu^2] ~~\nonumber~~ \\

& = & E[X^2] - 2 \mu E[X] + E[\mu^2], \;\; \text{because E[X]=} \mu \text{, \; E[} \mu^2 \text{] = } \mu^2, ~~\nonumber \nonumber~~ \\

& = & E[X^2] - 2 \mu^2 + \mu^2 ~~\nonumber~~ \\

& = & E[X^2] - \mu^2

\end{~~eqnarray~~}

\begin{align*}

Var[X] & = {E{(X-\mu)^2}} \\

& = E[(X^2 - 2 X \mu + \mu^2)] \\

& = E[X^2] - 2 \mu E[X] + E[\mu^2] \\

& = E[X^2] - 2 \mu E[X] + E[\mu^2], \;\; \text{because E[X]=} \mu \text{, \; E[} \mu^2 \text{] = } \mu^2, \\

& = E[X^2] - 2 \mu^2 + \mu^2 \\

& = E[X^2] - \mu^2 \;\;\; \dots \dots \dots \dots \dots [1]

\end{align*}

}}}

~~{{|~~

$E[X~~]=a~~ ~~\;\;~~ E[Y]=b$ 라고 하면

라고 할때,

$ Var[X + Y] $ 를 구하고자 한다면, 우선

{{{#!latex

\begin{~~eqnarray~~}

~~Var~~[X+Y] & = ~~& E[(~~X~~+Y)^2]~~ - (a~~+b)^2~~ \~~nonumber~~ \\

~~& = &~~ E[~~(X^2 + 2XY +~~ Y~~^2)~~] - ~~(a^2 - 2ab -~~ b~~^2) \;\cdots\;\cdots\; [a] \nonumber~~

\end{~~eqnarray~~}

\begin{align}

\displaystyle E[X] = \mu_{X} = a \\

\displaystyle E[Y] = \mu_{Y} = b

\end{align}

}}}

~~그런데~~ ~~$E[XY]~~ ~~= E[X] E[Y]~~, ~~$ , $X$ 와 $Y$ 가 independent이므로~~

~~따라서 $ E[XY] = ab $ , 이에 따라 위의 [a]에서,~~

이라고 할 때,

{{{#!latex

\begin{~~eqnarray~~}

Var[X+Y] & = & E[(X^2 + 2XY + Y^2)] - (a^2 - 2ab - b^2) \~~nonumber~~ \\

& = & E[(X^2-a^2 + Y^2-b^2~~)] \nonumber~~ \\

& = & Var[X] + Var[Y] \~~nonumber~~

\end{~~eqnarray~~}

\begin{align*}

Var [X + Y] & = \displaystyle E[(X+Y)^2] - (a+b)^2 \\

& = E[(X^2 + 2XY + Y^2)] - (a^2 - 2ab - b^2) \;\cdots\;\cdots\; \cdots\; [a]

\end{align*}

}}}

그런데

$ E[XY] = E[X] E[Y], $ , $X$ 와 $Y$ 가 서로 독립적 (independent) 이므로

$ E[XY] = a b $

이에 따라 위의 $ [a] $ 에서,

{{{#!latex

\begin{align*}

Var [X + Y] & = E[(X^2 + 2XY + Y^2)] - (a^2 - 2ab - b^2) \\

& = E[X^2] - a^2 + E[Y^2] - b^2 \\

& = Var[X] + Var[Y]

\end{align*}

}}}

한편,

{{{#!latex

\begin{align*}

\overline{X} & = \frac { \displaystyle \sum_{i=1}^n (X_i)} {n} \\

s_{\overline{X}} & = \frac {\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2} {n-1}

\end{align*}

}}}

~~|}}~~

~~{{|~~

~~$\overline{X} = \frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} (X_i) \; ; \;\;\;\; s_{\overline{\tiny{X}}} = \frac{1}{n-1} \sum_{\tiny{i=1}}^{\tiny{n}} (X_i-\overline{X})^2 $~~

~~|}}~~

그리고 Sampling distribution of mean과 관련된 샘플 평균들에 대한 기대값 $E[\overline{X}]$ 과 $Var[\overline{X}]$ 는 각각

{{{#!latex

\begin{~~eqnarray~~}

E[\overline{X}] & = & E[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] ~~\nonumber~~ \\

& = & \frac{1}{n} n \mu ~~\nonumber~~ \\

& = & \mu \;\cdots\;\cdots\;\cdots\;\cdots \;[2] ~~\nonumber~~ \\

Var[\overline{X}] & = & Var[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] ~~\nonumber~~ \\

& = & \frac{1}{n^2} n \sigma^2 ~~\nonumber~~ \\

& = & \frac{\sigma^2}{n} \;\cdots\;\cdots\;\cdots\;\cdots \;[3] ~~\nonumber~~

\end{~~eqnarray~~}

\begin{align*}

E[\overline{X}] & = E[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] \\

& = \frac{1}{n} n \mu \\

& = \mu \;\cdots\;\cdots\;\cdots\;\cdots \;[2] \\

Var[\overline{X}] & = Var[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] \\

& = \frac{1}{n^2} n \sigma^2 \\

& = \frac{\sigma^2}{n} \;\cdots\;\cdots\;\cdots\;\cdots \;[3]

\end{align*}

}}}

같은 논리로 sampling distribution of ~~samle~~ variance를 구한다고 하면, 그리고 이를 구할 때 n을 사용한다고 하면,

같은 논리로 sampling distribution of sample variance를 구한다고 하면, 그리고 이를 구할 때 n을 사용한다고 하면,

{{{#!latex

\begin{~~eqnarray~~}

E[S^2] & = & E \left [ \frac{1}{\large n} \sum_{i=1}^n (X_i- \overline{X})^2 \right ] ~~\nonumber~~ \\

& = & \frac{1}{\large n} E \left [ \sum_{i=1}^n (X_i^2 - 2\overline{X}X_i + \overline{X}^2) \right ] ~~\nonumber~~ \\

& = & \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - \sum_{i=1}^n 2\overline{X}X_i + \sum_{i=1}^n \overline{X}^2 \right ] ~~\nonumber~~ \\

& = & \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - 2n\overline{X}^2 +n\overline{X}^2 \right ] ~~\nonumber~~ \\

& = & \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - n\overline{X}^2 \right ] ~~\nonumber~~ \\

& = & \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 \right ] - E \left [ \overline{X}^2 \right ] \;\cdots\;\cdots\; [4] ~~\nonumber~~

\end{~~eqnarray~~}

\begin{align*}

E[s^2] & = E \left [ \frac{1}{\large n} \sum_{i=1}^n (X_i- \overline{X})^2 \right ] \\

& = \frac{1}{\large n} E \left [ \sum_{i=1}^n (X_i^2 - 2\overline{X}X_i + \overline{X}^2) \right ] \\

& = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - \sum_{i=1}^n 2\overline{X}X_i + \sum_{i=1}^n \overline{X}^2 \right ] \\

& = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - 2n\overline{X}^2 +n\overline{X}^2 \right ] \\

& = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - n\overline{X}^2 \right ] \\

& = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 \right ] - E \left [ \overline{X}^2 \right ] \;\cdots\;\cdots\; [4]

\end{align*}

}}}

위에서

{{{#!latex

\begin{~~eqnarray~~}

\sum 2 X_i \overline{X} & = & 2 \overline{X} n \overline{X} \~~nonumber~~ \\

& = & 2n \overline{X}^2 ~~\nonumber~~

\end{~~eqnarray~~}

\begin{align*}

\sum 2 X_i \overline{X} & = 2 \sum X_i \overline{X} \\

& = 2 n \overline{X} * \overline{X} \;\; \text {because} \;\; \overline{X} = \frac {\sum X_i} {n} \;\;\\

& = 2 n \overline{X}^2

\end{align*}

}}}

~~{{|~~

여기서 [1]에서의 결과를 적용하면,

~~$E \left [ \sum_{i=1}^n X_i^2 \right ] = Var[X_i] + \mu = \sigma^2 + \mu$~~

$E \left [ \~~overline~~{X}^2 \right ] = Var \left [\overline{X}^2 \right ] + \mu = \frac{\sigma^2}{n} + \mu $ 이므로 [4]의 식은

~~|}}~~

$ E \left [ \displaystyle \sum_{i=1}^n X_i^2 \right ] = Var[X_i] + \mu = \sigma^2 + \mu$

$ E \left [ \displaystyle \overline{X}^2 \right ] = Var \left [\overline{X} \right ] + \mu = \frac{\sigma^2}{n} + \mu $ 이므로 [4]의 식은

{{{#!latex

\begin{~~eqnarray~~}

E[s^2] & = & \frac{1}{n} (\sigma^2+\mu) - ( \frac{\sigma^2}{n} + \mu) ~~\nonumber~~ \\

& = & \frac{1}{n} \left [n(\sigma^2+\mu) - n(\frac{\sigma^2}{n} + \mu) \right ] ~~\nonumber~~ \\

& = & \frac{1}{n} \left [n \sigma^2 - \sigma^2 \right ] ~~\nonumber~~ \\

& = & \frac{(n-1)\sigma^2}{n} \;\cdots\;\cdots\;\cdots\; [5] ~~\nonumber~~

\end{~~eqnarray~~}

\begin{align*}

E[s^2] & = \frac{1}{n} (\sigma^2+\mu) - ( \frac{\sigma^2}{n} + \mu) \\

& = \frac{1}{n} \left [n(\sigma^2+\mu) - n(\frac{\sigma^2}{n} + \mu) \right ] \\

& = \frac{1}{n} \left [n \sigma^2 - \sigma^2 \right ] \\

& = \frac{(n-1)\sigma^2}{n} \;\cdots\;\cdots\;\cdots\; [5]

\end{align*}

}}}

즉 sample에서 구하는 variance로 모집단의 variance를 구하는데 오차가 보인다. 이를 모집단의 variance와 근사하게 하기 위해서

~~$\frac{n}{n-1}$ 을 [5]에 곱하면,~~

$E[S^2] = \frac{(n-1)\sigma^2}{n} * \frac{n}{n-1} = \sigma^2 $

$ \displaystyle \frac{n}{n-1} $

을 [5]에 곱하면,

$ E[S^2] = \displaystyle \frac{(n-1)\sigma^2}{n} * \frac{n}{n-1} = \sigma^2 $

----
CategoryResearchMethods

See Also Variance

Estimated value of SD ¶

우선, Expected value (기대값)와 Variance (분산)의 연산은 아래와 같이 계산될 수 있다.

X,Y are Independent variables.

이때, 한 샘플의 평균값을 $X$ 라고 하면, 평균들의 합인 $S_k$ 는

$S_{k} = X_1 + X_2 + . . . + X_k$

와 같다.

이렇게 얻은 샘플들(k 개의)의 평균인 $A_k$ 는,

$A_k = \displaystyle \frac{(X_1 + X_2 + . . . + X_k)}{k} = \frac{S_{k}}{k}$

라고 할 수 있다.

이때,

$\begin{align*} E[S_k] & = E[X_1 + X_2 + . . . +X_k] \\ & = E[X_1] + E[X_2] + . . . + E[X_k] \\ & = \mu + \mu + . . . + \mu = k * \mu \\ \end{align*}$

$\begin{align*} Var[S_k] & = Var[X_1 + X_2 + . . . +X_k] \\ & = Var[X_1] + Var[X_2] + \dots + Var[X_k] \\ & = k * \sigma^2 \end{align*}$

이다.

그렇다면, $A_k$ 에 관한 기대값과 분산값은:

$\begin{align*} E[A_k] & = E[\frac{S_k}{k}] \\ & = \frac{1}{k}*E[S_k] \\ & = \frac{1}{k}*k*\mu = \mu \end{align*}$

이고,

$\begin{align*} Var[A_k] & = Var[\frac{S_k}{k}] \\ & = \frac{1}{k^2} Var[S_k] \\ & = \frac{1}{k^2}*k*\sigma^2 \\ & = \frac{\sigma^2}{k} \nonumber \end{align*}$

라고 할 수 있다.

한편, 분산값은

$\begin{align*} Var[X] & = {E{(X-\mu)^2}} \\ & = E[(X^2 - 2 X \mu + \mu^2)] \\ & = E[X^2] - 2 \mu E[X] + E[\mu^2] \\ & = E[X^2] - 2 \mu E[X] + E[\mu^2], \;\; \text{because E[X]=} \mu \text{, \; E[} \mu^2 \text{] = } \mu^2, \\ & = E[X^2] - 2 \mu^2 + \mu^2 \\ & = E[X^2] - \mu^2 \;\;\; \dots \dots \dots \dots \dots [1] \end{align*}$

라고 할때,

$Var[X + Y]$ 를 구하고자 한다면, 우선

$\begin{align} \displaystyle E[X] = \mu_{X} = a \\ \displaystyle E[Y] = \mu_{Y} = b \end{align}$

이라고 할 때,

$\begin{align*} Var [X + Y] & = \displaystyle E[(X+Y)^2] - (a+b)^2 \\ & = E[(X^2 + 2XY + Y^2)] - (a^2 - 2ab - b^2) \;\cdots\;\cdots\; \cdots\; [a] \end{align*}$

그런데

$E[XY] = E[X] E[Y],$ , $X$ 와 $Y$ 가 서로 독립적 (independent) 이므로
$E[XY] = a b$

이에 따라 위의 $[a]$ 에서,

$\begin{align*} Var [X + Y] & = E[(X^2 + 2XY + Y^2)] - (a^2 - 2ab - b^2) \\ & = E[X^2] - a^2 + E[Y^2] - b^2 \\ & = Var[X] + Var[Y] \end{align*}$

한편,

$\begin{align*} \overline{X} & = \frac { \displaystyle \sum_{i=1}^n (X_i)} {n} \\ s_{\overline{X}} & = \frac {\displaystyle \sum_{i=1}^n (X_i - \overline{X})^2} {n-1} \end{align*}$

그리고 Sampling distribution of mean과 관련된 샘플 평균들에 대한 기대값 $E[\overline{X}]$ 과 $Var[\overline{X}]$ 는 각각

$\begin{align*} E[\overline{X}] & = E[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] \\ & = \frac{1}{n} n \mu \\ & = \mu \;\cdots\;\cdots\;\cdots\;\cdots \;[2] \\ Var[\overline{X}] & = Var[\frac{1}{n} \sum_{\tiny{i=1}}^{\tiny{n}} \overline{X_i}] \\ & = \frac{1}{n^2} n \sigma^2 \\ & = \frac{\sigma^2}{n} \;\cdots\;\cdots\;\cdots\;\cdots \;[3] \end{align*}$

같은 논리로 sampling distribution of sample variance를 구한다고 하면, 그리고 이를 구할 때 n을 사용한다고 하면,

$\begin{align*} E[s^2] & = E \left [ \frac{1}{\large n} \sum_{i=1}^n (X_i- \overline{X})^2 \right ] \\ & = \frac{1}{\large n} E \left [ \sum_{i=1}^n (X_i^2 - 2\overline{X}X_i + \overline{X}^2) \right ] \\ & = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - \sum_{i=1}^n 2\overline{X}X_i + \sum_{i=1}^n \overline{X}^2 \right ] \\ & = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - 2n\overline{X}^2 +n\overline{X}^2 \right ] \\ & = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 - n\overline{X}^2 \right ] \\ & = \frac{1}{\large n} E \left [ \sum_{i=1}^n X_i^2 \right ] - E \left [ \overline{X}^2 \right ] \;\cdots\;\cdots\; [4] \end{align*}$

위에서

$\begin{align*} \sum 2 X_i \overline{X} & = 2 \sum X_i \overline{X} \\ & = 2 n \overline{X} * \overline{X} \;\; \text {because} \;\; \overline{X} = \frac {\sum X_i} {n} \;\;\\ & = 2 n \overline{X}^2 \end{align*}$

여기서 1에서의 결과를 적용하면,

$E \left [ \displaystyle \sum_{i=1}^n X_i^2 \right ] = Var[X_i] + \mu = \sigma^2 + \mu$
$E \left [ \displaystyle \overline{X}^2 \right ] = Var \left [\overline{X} \right ] + \mu = \frac{\sigma^2}{n} + \mu$ 이므로 4의 식은

$\begin{align*} E[s^2] & = \frac{1}{n} (\sigma^2+\mu) - ( \frac{\sigma^2}{n} + \mu) \\ & = \frac{1}{n} \left [n(\sigma^2+\mu) - n(\frac{\sigma^2}{n} + \mu) \right ] \\ & = \frac{1}{n} \left [n \sigma^2 - \sigma^2 \right ] \\ & = \frac{(n-1)\sigma^2}{n} \;\cdots\;\cdots\;\cdots\; [5] \end{align*}$

즉 sample에서 구하는 variance로 모집단의 variance를 구하는데 오차가 보인다. 이를 모집단의 variance와 근사하게 하기 위해서

$\displaystyle \frac{n}{n-1}$

을 5에 곱하면,

$E[S^2] = \displaystyle \frac{(n-1)\sigma^2}{n} * \frac{n}{n-1} = \sigma^2$

CategoryResearchMethods
CategoryStatistics