CompositionTechniques › Conceptualization › ConditionalAccessSystem › ConfidenceInterval › ContactsInformation › Correlation
1 r ¶
| 상관관계 데이터 | |||
| 사람 | X | Y | ![]() Figure 1. |
| A | 1 | 1 | |
| B | 1 | 3 | |
| C | 3 | 2 | |
| D | 4 | 5 | |
| E | 6 | 4 | |
| F | 7 | 5 | |
| G | 8 | 7 | |
상관관계이란 (correlation) 두 변인 간의 관계를 측정하고 묘사하기 위한 통계학적 기법을 뜻한다. 상관관계 측정은 실험보다는 현상에 대한 관찰 기록에 많이 사용된다. 가령 11살 아동의 키와 몸무게의 관계에 관심을 갖는다는 것은, 키라는 변인과 몸무게라는 변인[1] 간의 관계를 알아보려 하는 것이다. 흔히 두 변인은 X 와 Y 로 사용되며, 아래의 그림처럼, 표와 그래프가 데이터 표현에 이용된다.
1.1 상관관계의 특징 ¶
상관관계는 아래 세 가지 특징을 갖는다.
관계의 방향성 ::
관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다.
관계의 형태 (form)
관계의 정도 (힘)
관계의 방향성에 대해서 알려준다. + 사인의 경우, 선형적인 관계가 양의 관계임을, - 사인인 경우에는 음의 관계를 나타내준다고 해석한다.
![]() Figure 1-1. | ![]() Figure 1-2. |
![]() Figure 2-1. | ![]() Figure 2-2. |
![]() Figure_4-1. | ![]() Figure 4-2. |
![]() Figure_4-3. | ![]() Figure 4-4. |
2 Pearson's r ¶
- Pearson's r
- 두 변인 간의 선형적 관계의 크기와 방향성을 측정하는 방법
2.1 Sum of Products of Deviations ¶
이라고 할 때, 우리가 관심이 있는 것은 어떤 한 케이스의 X가 변화할 때, 해당 케이스의 y값이 어떻게 (동시에) 변화하는가이므로, 이 상황에 맞는 deviation score는
라고 할 수 있다. 이에 degress of freedom에 해당하는
로 나누어 준 값을 X,Y에 대한 Covariance라고 하며,
라고 표기한다. 참고:
2.2 e.g. 1, ¶
| Example | ||||
| Scores | Deviation score | Products | ||
| X | Y | | | |
| 1 | 3 | -2 | -2 | +4 |
| 2 | 6 | -1 | +1 | -1 |
| 4 | 4 | +1 | -1 | -1 |
| 5 | 7 | +2 | +2 | +4 |
+6 = | ||||
이 예는
의 공식을 사용하여 구한 예이다. 반면에,
의 공식을 사용하면,
으로 똑같은 결과를 갖는다. 위는 Sum of Products (SP) 의 값을 구한 것이고
와
값을 구해 보면:
| Example | ||||
| X | Y | XY | X2 | Y2 |
| 1 | 3 | 3 | 1 | 9 |
| 2 | 6 | 12 | 4 | 36 |
| 4 | 4 | 16 | 16 | 16 |
| 5 | 7 | 35 | 25 | 49 |
12 | 20 | 66 | 46 | 110 |
2.3 e.g. 2, ¶
테이블의 데이터에 대한 scatterplot을 그려 보면 그림과 같다.
| Example 2 | ||
| X | Y | ![]() Figure 5. |
| 0 | 1 | |
| 10 | 3 | |
| 4 | 1 | |
| 8 | 2 | |
| 8 | 3 | |
| Example 2 | ||||||||
| Scores | Deviation score | Deviation score2 | Products | |||||
| X | Y | X2 | Y2 | | | | | |
| 0 | 1 | 0 | 1 | -6 | -1 | 36 | 1 | 6 |
| 10 | 3 | 100 | 9 | 4 | 1 | 16 | 1 | 4 |
| 4 | 1 | 16 | 2 | -2 | -1 | 4 | 1 | 2 |
| 8 | 2 | 64 | 4 | 2 | 0 | 4 | 0 | 0 |
| 8 | 3 | 64 | 9 | 2 | 1 | 4 | 1 | 2 |
| t = 30 | 10 | 234 | 24 | SSX = 64 | SSY = 4 | SP = 14 | ||
= 6 | 2 | |||||||
위에서 구한 SSX, SSY, 그리고 SP 값을 대입해 보면,
2.4 Pearson's r 의 의미 ¶
Relations, not cause-effect
Interpretation with limited range
Outliers
Interpretation of r value

Figure 6. Correlation And Causation
상관관계 계수는 단순히 두 변인 (x, y) 간의 관계가 있다는 것을 알려줄 뿐, 왜 그 관계가 있는지는 설명하지 않는다. 바꿔 말하면, 충분한 r 값을 구했다고 해서 이 값이 두 변인 간의 원인과 결과의 관계를 말한다고 이야기 하면 안된다. 예를 들면 아이스크림의 판매량과 성범죄가 서로 상관관계에 있다고 해서, 전자가 후자의 원인이라고 단정할 수 있는 근거는 없다. 이는 연구자의 논리적인 판단 혹은 이론적인 판단에 따른다.
Interpretation with limited range

Figure_7._Correlation_And_Range

Figure_7._Correlation_And_Range
데이터의 Range에 대한 판단에 신중해야 한다. 왜냐 하면, 데이터의 어느 곳을 자르느냐에 따라서 r 값이 심하게 변하기 때문이다.
Outliers

Figure_7._Correlation_And_Extreme_Data

Figure_7._Correlation_And_Extreme_Data
위의 설명과 관련하여, 만약에 아주 심한 Outlier가 존재한다면 두 변인 간의 상관관계에 심한 영향을 준다.
Interpretation of r value

Figure_8._Correlation_And_Strength

Figure_8._Correlation_And_Strength

Figure_8._Correlation_And_Strength
r 값으로 얻는 단위는 상관관계의 정도를 정확히 말해 주지 않는다. 예를 들면 r = +.5 은 0 - 1 까지의 반이므로 적당한 량의 상관관계를 보여주고 있다고 생각할 수 있으나, 이는 사실이 아니다. 정확한 양을 이야기 하려면, r 값에 제곱을 해준 값을 이야기 해야 한다. 따라서, r = +.5 인경우 .5^2 값인 .25 즉, 25%가 두 변인 간의 상관관계의 양이다.
2.5 Pearson's r을 이용한 가설 검증 ¶
기본적으로 두 변인 (보통 한 subject 혹은 participant의 두 변인 기록으로 이루어진 데이터) 간에 상관관계가 있는가에 대한 질문이 연구문제 혹은 가설로 만들어지며, 만약에 이 관계가 없다면, 이라는 질문의 영가설을 통해서 이를 검증한다. 즉,
2.7 학술논문 보고 ¶
데이터의 상관관계를 살펴본 결과 개인의 교육양과 (년도수) 연수입 (원) 간에는 통계학적으로 유의미한 상관관계가 있다고 판단되었다 (r = +.65, n = 30, p < .01).
연수입, 교육량, 나이, 그리고 지능 간의 관계를 분석하였다 (n=30). 변인들 간의 상관관계를 정리한 결과를 요약한 표1에 나타냈었다. 통계적으로 유의미한 상관관계는 표에 정리되었다.
| ||||||||||||||||||||||||||||
2.8 exercise ¶
- 연구자가 얻은 r = -.41 (n=25) 일때, 이 샘플이 모집단에서 나타나는 두 변인간의 상관관계가 통계적으로 유의미하다고 할 수 있는가?
- n=20 일때, r값은 어떤 값을 가져야 모집단의 두 변인 간의 상관관계가 의미가 있다고 하겠는가?
- 샘플사이즈가 작아질 수 록, 유의미한 상관관계를 갖기 위한 r값은 어떻게 되야 하는가? 왜 그런가?
3 Spearman Correlation ¶
| Scores | ||
| Person | X | Y |
| A | 4 | 9 |
| B | 2 | 2 |
| C | 10 | 10 |
| D | 3 | 8 |
| Scores | ||
| Person | X | Y |
| A | 3 | 3 |
| B | 1 | 1 |
| C | 4 | 4 |
| D | 2 | 2 |

Figure_4-1.

Figure_4-2.
따라서, Spearman rho는
- 순위측정 데이터에 사용 (ordinal measured).
- 상관관계의 지속성에 관심을 둘 때 사용. 즉, 계속 증가하는가, 감소하는 추세인가, 등등에 사용


















12
20
66
46
110 
= 6

![[http]](/imgs/http.png)
