Correlation


1. r


상관관계 데이터
사람XY
r_eg.01.png
Figure 1. [PNG image (8.73 KB)]
A11
B13
C32
D45
E64
F75
G87

상관관계이란 (correlation) 두 변인 간의 관계를 측정하고 묘사하기 위한 통계학적 기법을 뜻한다. 상관관계 측정은 실험보다는 현상에 대한 관찰 기록에 많이 사용된다. 가령 11살 아동의 키와 몸무게의 관계에 관심을 갖는다는 것은, 라는 변인과 몸무게라는 변인[1] 간의 관계를 알아보려 하는 것이다. 흔히 두 변인은 X 와 Y 로 사용되며, 아래의 그림처럼, 표와 그래프가 데이터 표현에 이용된다.


1.1. 상관관계의 특징


상관관계는 아래 세 가지 특징을 갖는다.

관계의 방향성 ::
관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다.
r.Positive.png
Figure 1-1. [PNG image (15.95 KB)]
r.Negative.png
Figure 1-2. [PNG image (15.75 KB)]

관계의 형태 (form)

r.CurvePositive.png
Figure 2-1. [PNG image (17.08 KB)]
r.CurveNegative.png
Figure 2-2. [PNG image (17.21 KB)]

관계의 정도 (힘)

r.StrengthA.png
Figure_4-1. [PNG image (9.11 KB)]
r.StrengthB.png
Figure 4-2. [PNG image (9.6 KB)]
r.StrengthC.png
Figure_4-3. [PNG image (6.49 KB)]
r.StrengthD.png
Figure 4-4. [PNG image (11.4 KB)]


1.2. 상관관계가 사용될 때

  1. prediction 예측
    • 대학생활 만족도와 졸업 10년 후 행복지수에 대한 데이터를 지속적으로 모아서 관측, 분석을 하게 되면;
    • 만족도만을 아는 상태에서 . . .
  2. Validity 측정
    • Validity test: Comparing r to other verified methods in order to confirm (check) my method is valid.
    • 내가 고안한 IQ 테스트 방법은 비록 원 IQ 테스트 방법과 다르지만, 결과 값은 서로 상관관계가 높다.
  3. Theory backup
  4. Reliablity 측정
    • Half-and-half reliability test.

2. Pearson's r

Pearson's r
두 변인 간의 선형적 관계의 크기와 방향성을 측정하는 방법
 \begin{eqnarray}
 r & = & \frac{\text{degree to which X and Y vary together}}{\text{degree to which X and Y vary separately}} \nonumber \\
   & = & \frac{\text{covariablity of X and Y}}{\text{variability of X and Y separately}} \nonumber \\
   & = & \frac{Cov[X,Y]}{\sqrt{Var[X]Var[Y]}} \\
   & = & \frac{SP_{XY}}{\sqrt{SS_X SS_Y}} 
 \end{eqnarray}
위에서 (1), (2)는 동일하다. 왜냐하면 . . . . $Cov[X,Y]$ 와 VarX, Var[Y}에 공히 들어가는 분모는 n-1 (degrees of freedom)이기 때문이다.
이를 그림으로 나타내 보면 아래와 같다.

위에서 각각의 동그라미는 X 변인과 Y 변인의 variability, 즉 variance를 의미한다고 하면, 위의 그림은 X와 Y가 변하는 정도가 동그라미 정도의 크기를 가지며, 각각의 요소들이 서로 따로따로 논다는 것을 알 수 있다. 즉, Co-vary하지 않다는 것을 알 수 있다. 반면, 아래의 예는 X와 Y의 변하는 정도가 나타나면서 동시에, 각 변인이 서로 동시에 변하는 정도가 어느정도인지 가늠을 할 수 있게 해 준다. Y 입장에서 보면 Y가 변하는 정도 붉은 동그라미 크기 중에서 X와 겹치는 정도를 제외한 정도는 X와 함께 변하는 것이 아닌, Y 고유의 변화정도이다. 이를 residual variance라고 하고, 겹치는 정도는 regression variance라고 이야기 하는데, 이에 대해서는 다음에 설명하도록 한다. 또한 X와 겹치는 변량(X와 Y가 동시에 변화하는 것을 고려한 변량 = $Cov[X, Y]$ )과 Y 전체 변량(분산)의 비율을 $r^2$ 이라고 하는데 이는 r 값을 제곱하여 구한다. 반대로, X와 겹치지 않는 변량과 전체 변량의 비율은 ( $1 - r^2$ )으로 표현한다.

2.1. Sum of Products of Deviations


 \begin{eqnarray}
 SP & = & \displaystyle \sum (X-\overline{X})(Y-\overline{Y}) \nonumber \\
 & = & \displaystyle \sum XY - \displaystyle \frac{\sum X \small \sum Y}{n} \nonumber 
 \end{eqnarray}

Deviation score = $(X-\overline{X})$ 이라고 할 때, 우리가 관심이 있는 것은 어떤 한 케이스의 X가 변화할 때, 해당 케이스의 y값이 어떻게 (동시에) 변화하는가이므로, 이 상황에 맞는 deviation score는 $(X-\overline{X})(Y-\overline{Y})$ 라고 할 수 있다. 이에 degress of freedom에 해당하는 $n-1$ 로 나누어 준 값을 X,Y에 대한 Covariance라고 하며, $Cov[X,Y]$ 라고 표기한다. 즉, $ COV_{xy} = \frac{SP}{n}$

참고:

 \begin{eqnarray}
 SS & = & \Sigma(X-\overline{X})^2 \nonumber \\
 & = & \Sigma(X-\overline{X})(X-\overline{X}) \nonumber \\
 & = & \Sigma X^2 - \frac{(\sum X)^2}{n} \nonumber \\
 & = & \Sigma XX - \frac{\sum X \sum X}{n} \nonumber 
 \end{eqnarray}

2.2. e.g. 1,


Example
Scores Deviation score Products
X Y $(X-\overline{X})$ $(Y-\overline{Y})$ $(X-\overline{X})(Y-\overline{Y})$
1 3 -2 -2 +4
2 6 -1 +1 -1
4 4 +1 -1 -1
5 7 +2 +2 +4
         +6 = $SP$

X 평균 = 3
Y 평균 = 5


이 예는 $ SP = \Sigma (X-\overline{X})(Y-\overline{Y})$ 의 공식을 사용하여 구한 예이다. 반면에, $ SP = \Sigma XY - \frac{\sum X \sum Y}{n}$ 의 공식을 사용하면,

\begin{eqnarray}
 SP & = & \sum XY - \frac{\sum X \sum Y}{n} \nonumber \\
 & = & 66 - \frac{(12)\;(20)}{4} \nonumber \\
 & = & 66 - 60 \nonumber \\
 & = & 6 \nonumber 
\end{eqnarray}
으로 똑같은 결과를 갖는다. 위는 Sum of Products (SP) 의 값을 구한 것이고 $SS_X$$SS_Y$ 값을 구해 보면:

Example
X Y XY X2 Y2
1 3 3 1 9
2 6 12 4 36
4 4 16 16 16
5 7 35 25 49
$\textstyle \sum X = $ 12 $\textstyle \sum Y =$ 20 $\textstyle \sum XY = $ 66 $\textstyle \sum X^2 = $ 46 $\textstyle \sum Y^2 = $ 110


 \begin{eqnarray}
 SS_{\small X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\
 & = & 46 - \frac{(12)^2}{4} \nonumber \\
 & = & 46 - 36 \nonumber \\
 & = & 10 \nonumber 
 \end{eqnarray}

 \begin{eqnarray}
 SS_{\small Y} & = & \textstyle\sum Y^2 - \frac{(\sum Y)^2}{n} \nonumber \\
 & = & \textstyle 110 - \frac{(20)^2}{4} \nonumber \\
 & = & \textstyle 110 - 100 \nonumber \\
 & = & \textstyle 10 \nonumber 
 \end{eqnarray}

이제 r (correlation coefficient) 값은:


 \begin{eqnarray}
 r & = & \frac{SP}{\sqrt{SS_X SS_Y}} \nonumber \\
 & = & \textstyle \frac{6}{\sqrt{(10)(10)}} \nonumber \\
 & = & \textstyle .6 \nonumber 
 \end{eqnarray}

2.3. e.g. 2,


테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다.

Example 2
X Y
r_eg15.3.png
Figure 5. [PNG image (4.45 KB)]
0 1
10 3
4 1
8 2
8 3

Example 2
Scores Deviation score Deviation score2 Products
X Y X2 Y2 $(X-\overline{X})$ $(Y-\overline{Y})$ $(X-\overline{X})^2$ $ (Y-\overline{Y})^2 $ $(X-\overline{X})(Y-\overline{Y})$
0 1 0 1 -6 -1 36 1 6
10 3 100 9 4 1 16 1 4
4 1 16 2 -2 -1 4 1 2
8 2 64 4 2 0 4 0 0
8 3 64 9 2 1 4 1 2
t = 30 10 234 24 SSX = 64 SSY = 4 SP = 14
$\overline{X}$ = 6 2

위에서 구한 SSX, SSY, 그리고 SP 값을 대입해 보면,

\begin{eqnarray}
r & = & \frac{SP}{\sqrt{(SS_X) (SS_Y)}} \nonumber \\
& = & \frac{14}{\sqrt{(64) (4)}} \nonumber \\
& = & .875 \nonumber 
\end{eqnarray}
혹은,

 \begin{eqnarray}
 SS_{\tiny X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\
 & = & \textstyle 244 - \frac{(30)(30)}{5} \nonumber \\
 & = & 64 \nonumber 
 \end{eqnarray}
 \begin{eqnarray}
 SS_{\tiny Y} & = & \sum Y^2 - \frac{(\sum Y)^2}{n} \nonumber \\
 & = & 24 - \frac{(10)(10)}{5} \nonumber \\
 & = & 4 \nonumber 
 \end{eqnarray}

2.4. Pearson's r 의 의미

Relations, not cause-effect
r_eg15.6.png
Figure 6. Correlation And Causation [PNG image (19.69 KB)]

상관관계 계수는 단순히 두 변인 (x, y) 간의 관계가 있다는 것을 알려줄 뿐, 왜 그 관계가 있는지는 설명하지 않는다. 바꿔 말하면, 충분한 r 값을 구했다고 해서 이 값이 두 변인 간의 원인결과의 관계를 말한다고 이야기 하면 안된다. 예를 들면 아이스크림의 판매량과 성범죄가 서로 상관관계에 있다고 해서, 전자가 후자의 원인이라고 단정할 수 있는 근거는 없다. 이는 연구자의 논리적인 판단 혹은 이론적인 판단에 따른다.

Interpretation with limited range
r_eg.15.71.png
Figure_7._Correlation_And_Range [PNG image (26.84 KB)]
r_eg.15.7b1.png
Figure_7._Correlation_And_Range [PNG image (31.23 KB)]

데이터의 Range에 대한 판단에 신중해야 한다. 왜냐 하면, 데이터의 어느 곳을 자르느냐에 따라서 r 값이 심하게 변하기 때문이다.

Outliers
r_eg.15.8a.png
Figure_7._Correlation_And_Extreme_Data [PNG image (28.83 KB)]
r_eg.15.8b.png
Figure_7._Correlation_And_Extreme_Data [PNG image (32.24 KB)]

위의 설명과 관련하여, 만약에 아주 심한 Outlier가 존재한다면 두 변인 간의 상관관계에 심한 영향을 준다.

Interpretation of r value
r_eg.15.9a.png
Figure_8._Correlation_And_Strength [PNG image (16.75 KB)]
r_eg.15.9b.png
Figure_8._Correlation_And_Strength [PNG image (18.37 KB)]
r_eg.15.9c.png
Figure_8._Correlation_And_Strength [PNG image (16.55 KB)]

r 값으로 얻는 단위는 상관관계의 정도를 정확히 말해 주지 않는다. 예를 들면 r = +.5 은 0 - 1 까지의 반이므로 적당한 량의 상관관계를 보여주고 있다고 생각할 수 있으나, 이는 사실이 아니다. 정확한 양을 이야기 하려면, r 값에 제곱을 해준 값을 이야기 해야 한다. 따라서, r = +.5 인경우 .5^2 값인 .25 즉, 25%가 두 변인 간의 상관관계의 양이다.


2.5. Pearson's r을 이용한 가설 검증

기본적으로 두 변인 (보통 한 subject 혹은 participant의 두 변인 기록으로 이루어진 데이터) 간에 상관관계가 있는가에 대한 질문이 연구문제 혹은 가설로 만들어지며, 만약에 이 관계가 없다면, 이라는 질문의 영가설을 통해서 이를 검증한다. 즉,

\begin{eqnarray}
& H_0: & \;\; \rho = 0 \;\cdots\; \text{no population correlation} \nonumber \\
& H_1: & \;\; \rho \not= 0  \;\cdots\; \text{real correlation} \nonumber 
\end{eqnarray}

2.6. example


2.7. 학술논문 보고

데이터의 상관관계를 살펴본 결과 개인의 교육양과 (년도수) 연수입 (원) 간에는 통계학적으로 
유의미한 상관관계가 있다고 판단되었다 (r = +.65, n = 30, p < .01).

연수입, 교육량, 나이, 그리고 지능 간의 관계를 분석하였다 (n=30). 변인들 간의 상관관계를 정리한 결과를 요약한 표1에 나타냈었다. 통계적으로 유의미한 상관관계는 표에 정리되었다.

TABLE 1.
Correlation matrix for income, amount of education, age, and IQ
Education Age IQ
Income +.65** +.41** +.27
Education +.11 +.38*
Age -.02
n=30
* p < .05, two tails
** p < .01, twotails

2.8. exercise

  1. 연구자가 얻은 r = -.41 (n=25) 일때, 이 샘플이 모집단에서 나타나는 두 변인간의 상관관계가 통계적으로 유의미하다고 할 수 있는가?
  2. n=20 일때, r값은 어떤 값을 가져야 모집단의 두 변인 간의 상관관계가 의미가 있다고 하겠는가?
  3. 샘플사이즈가 작아질 수 록, 유의미한 상관관계를 갖기 위한 r값은 어떻게 되야 하는가? 왜 그런가?

3. Spearman Correlation


Scores
Person X Y
A 4 9
B 2 2
C 10 10
D 3 8
Pearson's r은 두 변인 간의 선형적인 관계를 측정하는 방법이다. 선형적이라 함은 해당되는 변인들의 측정수준이 (LevelOfMeasurement) 숫자 (Interval 혹은 ratio) 형태를 갖는다는 것을 의미한다. 그러나 Ordinal한 측정수준의 데이터 간의 상관관계 또한 구할 수 있다. 이는 Spearman's correlatin이라는 방법을 통해서 구한다. 이를 rank ordered correlation이라고도 한다. 이 데이터의 특징은 상관관계가 존재하되 비선형 관계라는 점이다. 이를 순위를 메겨서 다시 정리하면 아래의 표와 같은 결과를 얻는다.


Scores
Person X Y
A 3 3
B 1 1
C 4 4
D 2 2

r_eg.15.12a.png
Figure_4-1. [PNG image (12.47 KB)]
r_eg.15.12b.png
Figure_4-2. [PNG image (17.56 KB)]


따라서, Spearman rho는
  1. 순위측정 데이터에 사용 (ordinal measured).
  2. 상관관계의 지속성에 관심을 둘 때 사용. 즉, 계속 증가하는가, 감소하는 추세인가, 등등에 사용

3.1. Spearman's rho 값 구하기


원 데이터 순위
X Y X Y XY
3 12 1 5 5
4 5 2 3 6
5 6 3 4 12
10 4 4 2 8
13 3 5 1 5
| $36 = \Sigma XY$


\begin{eqnarray}
SS_{\tiny X} & = & \sum X^2 - \frac{(\sum X)^2}{n} \nonumber \\
& = & 55 - \frac{15^2}{5} \nonumber \\
& = & 55 - 45 \nonumber \\
& = & 10 \nonumber
\end{eqnarray}

$ SS_{\tiny Y} = 10 $

\begin{eqnarray}
 SP_{XY} & = & \sum XY - \frac{(\sum X \sum Y)}{n} \nonumber \\
 & = & 36 - \frac{(15)(15)}{5} \nonumber \\
 & = & 36-45 \nonumber \\
 & = & -9 \nonumber 
\end{eqnarray}
\begin{eqnarray}
r_{\tiny S} \textstyle & = & \frac{SP}{\sqrt{(SS_X)(SS_Y)}} \nonumber \\
& = & \frac{-9}{\sqrt{10(10)}} \nonumber \\
& = & -0.9 \nonumber
\end{eqnarray}

4. Regression

Regression은 이야기할 내용이 많으므로 Regression 참조.

5. Links

[http]correlation part 1(http://faculty.vassar.edu/lowry/ch3pt1.html)
[http]correlation part 2(http://faculty.vassar.edu/lowry/ch3pt2.html)
[http]correlation part 3(http://faculty.vassar.edu/lowry/ch3pt3.html)
[http]correlation, partial(http://faculty.vassar.edu/lowry/ch3a.html)
[http]correlation, rank ordered(http://faculty.vassar.edu/lowry/ch3b.html)

----
  • [1] 모두가 숫자임을 주의하라.




Retrieved from http://wiki.commres.org/wiki.php/Correlation
last modified 2014-11-04 13:08:16