예를 들면, 성(gender, sex)는 두 가지의 attributes(속성)를 가지는데, 남성과 여성이다. 이 속성으로 인해서 성이란 변수는 남성과 여성 두 가지로 변한다(It varies). 고등학생의 학년이 변수라고 한다면, 1학년, 2학년, 3학년의 세가지 attributes(속성)이 존재한다. 따라서, 변하지 않는 것 (속성의 집합)이 없는 것은 변수가 아니다. 예를 들면, "서울 가 1234"라는 자동차의 번호판은 오직 하나밖에 없으므로 변수가 아니다. "801231-1194234"라는 주민등록 번호 또한 변수가 아니다. 이유는 오직 하나 밖에 없는 대한민국 주민임을 나타내는 번호이기 때문이다. 반대로 주민등록번호는 13자리 수의 조합으로 이루어지는 변수라고 하겠다. 이 경우 변수의 속성은 셀 수 없을 정도로 많다.
속성이 수치 혹은 가치로 나타날 경우도 많다. 신발의 크기는 우리나라에서는 보통 mm 단위로 나타내므로 0xx-3xxmm의 속성을 가지고 있다고 하겠다. 정확한 범주(혹은 범위)는 조사대상이 되는 사람들의 신발크기에 따라서 달라진다. 국어시험점수라는 변수는 보통 0점에서 100점이라는 속성을 가지는데, 이 경우의 속성은 수치 혹은 가치를 포함하고 있다.
다른 곳에서 이야기 되겠지만, 가치 혹은 수치의 속성을 가지는 변수는 ordinal, interval, 그리고 ratio variable라고 하고, 종류의 속성(예, 남성:여성)을 가지는 변수는 nominal variable이라고 한다 (참조:
Level of Variables).
요약과 나열:
종류의 속성을 가지는 변수들은 대개 Table의 형식을 빌어서 요약된다 (표 참조). 아래의 표에서 변수, Gender는 남성(male)과 여성(female)이라는 attributes를 가지며, 총 남성수는 45명 총 여성수는 50명, 총인원은 95명이다.
Gender | 남성(male) | 여성(female) |
Frequency | 45 | 50 |
종류와 속성을 가지는 변수의 데이터 수집과 나열은 아래와 같은 형식으로 한다. 여기서 0은 남성을, 1은 여성을 가르킨다. 많은 학생들이 이 방법에 수치 혹은 가치가 포함되어 있다고 착각하는 경우가 많은데, 아래에서 0과 1이라는 숫자는 가치와 무관한 분별을 위한 번호이다.
ID | Gender |
... | ... |
21 | 1 |
22 | 1 |
23 | 0 |
24 | 1 |
25 | 0 |
... | ... |
수치의 속성을 가지는 변수들은 대개 그 변수를 대표하는 하나의 가치값으로 환원되어 요약된다. 아래의 테이블에서 변수 수학점수는 평균과 표준편차의 대표값을 갖는다. 평균과 표준편차 등에 관해서는 나중에 다룬다.
수학점수 | 수치(value) |
평균 | 75.8 |
표준편차 | 6.97 |
수치의 속성을 가지는 변수의 데이터 나열은 아래와 같이 한다.
ID | mathe score |
... | ... |
21 | 76 |
22 | 90 |
23 | 86 |
24 | 90 |
25 | 58 |
... | ... |