Relations, not cause-effect
Figure 6. Correlation And Causation [PNG image (19.69 KB)]
상관관계 계수는 단순히 두 변인 (x, y) 간의 관계가 있다는 것을 알려줄 뿐, 왜 그 관계가 있는지는 설명하지 않는다. 바꿔 말하면, 충분한 r 값을 구했다고 해서 이 값이 두 변인 간의 원인과 결과의 관계를 말한다고 이야기 하면 안된다. 예를 들면 아이스크림의 판매량과 성범죄가 서로 상관관계에 있다고 해서, 전자가 후자의 원인이라고 단정할 수 있는 근거는 없다. 이는 연구자의 논리적인 판단 혹은 이론적인 판단에 따른다.
Interpretation with limited range
Figure_7._Correlation_And_Range [PNG image (26.84 KB)]
Figure_7._Correlation_And_Range [PNG image (31.23 KB)]
데이터의
Range에 대한 판단에 신중해야 한다. 왜냐 하면, 데이터의 어느 곳을 자르느냐에 따라서 r 값이 심하게 변하기 때문이다.
Outliers
Figure_7._Correlation_And_Extreme_Data [PNG image (28.83 KB)]
Figure_7._Correlation_And_Extreme_Data [PNG image (32.24 KB)]
위의 설명과 관련하여, 만약에 아주 심한 Outlier가 존재한다면 두 변인 간의 상관관계에 심한 영향을 준다.
Interpretation of r value
Figure_8._Correlation_And_Strength [PNG image (16.75 KB)]
Figure_8._Correlation_And_Strength [PNG image (18.37 KB)]
Figure_8._Correlation_And_Strength [PNG image (16.55 KB)]
r 값으로 얻는 단위는 상관관계의 정도를 정확히 말해 주지 않는다. 예를 들면 r = +.5 은 0 - 1 까지의 반이므로 적당한 량의 상관관계를 보여주고 있다고 생각할 수 있으나, 이는 사실이 아니다. 정확한 양을 이야기 하려면, r 값에 제곱을 해준 값을 이야기 해야 한다. 따라서, r = +.5 인경우 .5^2 값인 .25 즉, 25%가 두 변인 간의 상관관계의 양이다.