FrontPagerobots.txt MahalanobisDistance

1. Mahalanobis distance

마할라노비스 거리란 각각의 케이스가 여러가지 변인(variables) 중심값 (평균값, mean) 들로 이루어진 중심 (centroid) 에 대해서 갖는 거리를 말한다. 개념적으로 살펴보면, 여러변인을 동시에 이용하여 살펴보는 테스트 (multivariate) 경우에 각각의 중심값을 중앙에 교차시켜 케이스 값들을 나열해보면 일종의 군집을 이루게 되는데, Mahalanobis distance는 특정 케이스의 값이 여기서 심하게 벗어났는가를 보기 위한 거리값이다.

이렇게 얻은 각 case의 값을 데이터로 $\chi^2$ distribution 을 이용하여 극한 값을 가려낼 수 있는데, 데이터의 극한 값을 찾는데 쓰이기도 한다. 그 판단의 기준은 $\chi^2$ 값의 p 가치가 .001보다 작을 때 (즉, standard deviation 거리의 약 3-4배가 넘을 때) 이다.

2. Other measures for outlier detection

Leverage
Mahalanobis distance와 비슷한 기준으로 outlier를 찾기 위해서 사용되는 방법으로는 leverage, discrepancy, influence 값들이 있다. leverage는 흔히 $h_{ii}$ 로 표시하고, Mahalanobis distance 값과의 관계는:

$ \text{Mahalanobis distance} = (N-1)(\frac{h_{ii}-1}{N}) $ 따라서,
$ h_{ii} = \frac{\text{Mahalanobis distance}}{N-1} + \frac{1}{N} $

Discrepancy

Influence 혹은 Cook's distance
Influence 는 leverage와 discrepancy값을 곱한 값으로 흔히 Cook's distance 값이 쓰인다. 보통 케이스의 값이 1을 넘을 때, outlier가 아닌가를 살펴보게 된다.

3. Use with caution

Mahalanovis distance가 outlier를 확실하게 밝혀주는 방법은 아니다. Mahalanovis distance 값은 변인의 분산값이 클 경우나, 변인들 간의 상관관계 가 높을 경우에 과소평가되어 계산되므로, 이의 사용에 주의를 기울여야 한다. Mahalanovis distance와 비슷하게 쓰이는 leverage, discrepancy, Cook's distance 등의 값도 이와 같은 한계를 갖는다.



Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2012-05-08 14:46:19
Processing time 0.0065 sec