DeadlyPersuasion › DigitalCaricature › RecentChangesMacro › Music~CategoryMusic › TerrestrialBroadcast › Resources/CorrespondenceAnalysis
Correspondence analysis에 대해서 ¶
- 이 글은 아래의 페이퍼에 대한 질문에 답을 하기 위해서 작성되었습니다.
- 박한우, 한지은, 최경호, 김효동, Mirandilla, K.A. (2005, 10월 8일). 필리핀의 2004년 선거 웹사이트를 대상으로 한 웹 공간 분석. 한국언론학회 가을철 정기학술대회 발표집, pp. 441-471, 서울: 연세대학교.
- 박한우, 한지은, 최경호, 김효동, Mirandilla, K.A. (2005, 10월 8일). 필리핀의 2004년 선거 웹사이트를 대상으로 한 웹 공간 분석. 한국언론학회 가을철 정기학술대회 발표집, pp. 441-471, 서울: 연세대학교.
- 아래의 데이터는 어느 한 회사 직원의 직급과 흡연을 정리한 것입니다. 회사에서의 개인의 직급과 흡연정도를 측정한 것입니다. 가설은 "직급이 낮을 수록 스테레스로 인하여 흡연량이 많아 질 것"입니다.
- 직급: 1: 초급; 2: 중급; 3:숙련; 4:고급
- 흡연: 1: 안핀다; 2: 조금핀다; 3: 보통정도 핀다; 4: 많이 핀다; 5: 매우 많이 핀다
직급 | 흡연 | |
1 | 1 | 5 |
2 | 1 | 4 |
3 | 1 | 5 |
4 | 2 | 4 |
5 | 2 | 3 |
6 | 2 | 2 |
7 | 3 | 3 |
8 | 3 | 2 |
9 | 3 | 2 |
10 | 3 | 3 |
11 | 3 | 3 |
12 | 4 | 2 |
13 | 4 | 1 |
14 | 4 | 1 |
15 | 4 | 1 |
16 | 4 | 1 |
17 | 4 | 1 |
18 | 4 | 1 |
19 | 4 | 2 |
20 | 4 | 3 |
21 | 4 | 2 |
22 | 1 | 3 |
23 | 1 | 4 |
24 | 1 | 5 |
25 | 1 | 4 |
26 | 1 | 5 |
- 위의 데이터는 아래의 테이블과 같이 요약될 수 있습니다. 각 행,열의 Active Margin값은 해당행과 열의 합값을 나타내는 것으로 이것이 0이 된다면, 그것은 Active하지 않은 것으로 간주합니다. 그리고 이 active margin은 데이터의 CA에서 나타날 수 있는 차원(Dimension)을 구하는데 쓰입니다. 예를 들면, 위의 보기에서 데이터의 카테고리를 보면 4개, 5개의 카테고리입니다. 이 때, 모든 행과 열의 Active margin이 0이 아니면, 이 데이터의 최대 차원 수는 가장 작은 카테고리의 숫자에서 하나를 뺀 것이 됩니다(위의 경우, 3). 만약에 Active하지 않은 margin이 있다면, 그 숫자만큼 빼 주면 됩니다.
- 전체 빈도 수 (total)을 1로 단위화하여 다시 구한 숫자 (다음 표 참조)에서 각 Active margin의 숫자는 mass로 표현한다. 즉, mass는 contigency table을 전체적으로 단위화하는 것입니다.
- contigency table을 전체 case의 합을 1로 보는 비율로 환산한다는 이야기는 비율을 이용하여 CA를 행해도 큰 무리가 없다는 이야기입니다.
- 또한 각 셀에 0이 있어도 무리가 없습니다. 어느 한 행이나 열의 모든 셀이 0인 경우에는 예상가능한 전체 dimension의 숫자를 하나 빼주면 되는 것으로 알고 있습니다.
- intertia는 centroid 값에서의 제곱값의 거리와 mass값의 함수로 나타내는데, CA의 경우에는 주로 Pearson 의 Chisqure값을 전체 빈도수(26)로 나눈 값을 말합니다. CA는 전체적인 Chisquare 값을 구한 후, 이 값에서 각 intertia가 이에 부분적으로 얼마나 영향을 주는 지를 나타내 준다는 방법으로 원리는 factor analysis와 비슷합니다. 단지 FA는 ratio 측정에서 할 수 있으며, CA는 frequency 측정에서 할 수 있습니다 (적어도 바람직 합니다).
Correspondence Table | |||||||||
man | drink | ||||||||
안핀다 | 조금 핀타 | 보통이다 | 많이 핀다 | 매우 많이 핀다 | Active Margin | ||||
초급 | 0 | 0 | 1 | 3 | 4 | 8 | |||
중급 | 0 | 1 | 1 | 1 | 0 | 3 | |||
숙련 | 0 | 2 | 3 | 0 | 0 | 5 | |||
고급 | 6 | 3 | 1 | 0 | 0 | 10 | |||
Active Margin | 6 | 6 | 6 | 4 | 4 | 26 |
Correspondence Table | ||||||
man | drink | |||||
안핀다 | 조금핀다 | 보통이다 | 많이 핀다 | 매우 많이 핀다 | Active Margin | |
초급 | 0.000 | 0.000 | 0.038 | 0.115 | 0.154 | 0.308 |
중급 | 0.000 | 0.038 | 0.038 | 0.038 | 0.000 | 0.115 |
숙련 | 0.000 | 0.077 | 0.115 | 0.000 | 0.000 | 0.192 |
고급 | 0.231 | 0.115 | 0.038 | 0.000 | 0.000 | 0.385 |
Active Margin | 0.231 | 0.231 | 0.231 | 0.154 | 0.154 | 1.000 |
- 사실 위의 표는 row와 column을 한꺼번에 처리하였지만, 개개는 Row와 Column을 각기 처리하여 각각의 평균 mass와 intertia를 구하여 그 카테고리가 얼마나 다른지를 알아보게 됩니다. 즉, 위의 Active margin 값은 행과 열을 독립적으로 생각하고 구한 후에, 이에 대한 거리(eucledian distance) 혹은 Chi-square와 같이 expected value에서 얼마나 벗어나 있는지를 측정하여, 각 카테고리의 상대적인 위치를 구하게 됩니다. 이런 위치 차이의 중요도는 centroid에서 각각의 카테고리가 얼마나 벗어나 있는지를 재는 (integral (mass)/(distance(from centroid))^2, CA의 경우) inertia값에 의해서 판단하게 됩니다.
- 아래의 테이블은 row와 column profile에서 추출한 정보입니다.
Overview Row Points(a) | ||||||||||||||||||||
man | Mass | Score in Dimension | Inertia | Contribution | ||||||||||||||||
1 | 2 | Of Point to Inertia of Dimension | Of Dimension to Inertia of Point | |||||||||||||||||
1 | 2 | 1 | 2 | Total | ||||||||||||||||
초급 | 0.31 | 1.31 | -0.36 | 0.49 | 0.60 | 0.07 | 0.95 | 0.05 | 1.00 | |||||||||||
중급 | 0.12 | 0.17 | 0.76 | 0.08 | 0.00 | 0.11 | 0.04 | 0.51 | 0.54 | |||||||||||
숙련 | 0.19 | -0.34 | 1.35 | 0.24 | 0.03 | 0.58 | 0.08 | 0.88 | 0.96 | |||||||||||
고급 | 0.38 | -0.93 | -0.61 | 0.38 | 0.37 | 0.24 | 0.77 | 0.23 | 1.00 | |||||||||||
Active Total | 1 | 1.20 | 1 | 1 | ||||||||||||||||
a: Symmetrical normalization | Overview Row Points(a) | |||||||||||||||||||
smoke | Mass | Score in Dimension | Inertia | Contribution | ||||||||||||||||
1 | 2 | Of Point to Inertia of Dimension | Of Dimension to Inertia of Point | |||||||||||||||||
1 | 2 | 1 | 2 | Total | ||||||||||||||||
안핀다 | 0.23 | -1.05 | -1.02 | 0.37 | 0.29 | 0.40 | 0.61 | 0.39 | 1.00 | |||||||||||
조금핀다 | 0.23 | -0.62 | 0.45 | 0.11 | 0.10 | 0.08 | 0.73 | 0.26 | 0.99 | |||||||||||
보통이다 | 0.23 | -0.09 | 1.06 | 0.16 | 0.00 | 0.43 | 0.01 | 0.96 | 0.97 | |||||||||||
많이핀다 | 0.15 | 1.16 | -0.14 | 0.21 | 0.23 | 0.00 | 0.87 | 0.01 | 0.87 | |||||||||||
매우많이 | 0.15 | 1.48 | -0.60 | 0.35 | 0.38 | 0.09 | 0.86 | 0.10 | 0.96 | |||||||||||
Active Total | 1 | 1.20 | 1 | 1 | ||||||||||||||||
a: Symmetrical normalization |
- 각각의 scores in dimension에서 구한 정보를 2차원의 도표에 정리를 하면 총체적인 행과 열 각각의 위치를 도식화할 수 있습니다. 그러나, 대개는 2개 변수를 한 도표에 표시하여 도식화 합니다. 아래는 그 결과입니다.
[JPG image (36.27 KB)]
- CA의 assumption으로 첫 째는 이 방법이 expoloratory하다는 것입니다. Chi-square값을 보는 것은 단지 이를 기준으로 각 margin들이 거리를 두는가를 체크하기 위한 것입니다. 따라서 significance test는 없습니다. 꼭 significance test를 해야 한다면 다른 방법을 쓰는 것으로 알고 있습니다 (e.g., log-linear).
- 각 행과 열이 독립적인 것이 inertia를 읽는데 도움을 줍니다. 사실, 완전 독립성이라면, 각 profile의 mass value만으로도 각 셀의 값을 구할 수 있습니다 (논문에서 문제시가 되어야 한다면 이 부분입니다).
- Chi-square가 가지는 성격인 non-parametic 테스트입니다. normal distribution과 상관 없습니다. 또한 갯수를 세는 것이므로 셀값이 마이너스 여서는 안됩니다.
- CA는 보통 많은 category를 가진 두 세개의 variables을 가지고 합니다.