분산
분산(Variance): 데이터의 퍼짐 정도를 나타내는 척도로, 각 데이터 포인트와 평균과의 차이를 제곱한 값들의 평균이다.
\[\text{Variance}(\sigma^2) = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2\]데이터가 넓게 퍼져 있을 때, 여타 관측값과 크게 다른 관측값에 대해 이상치(Outliers)라고 한다.
이상치는 데이터에서 발생할 수도, 혹은 측정 오류나 입력 미스 등의 다양한 원인에 의해 발생할 수 있다.
공분산
공분산은 두 변수 간의 관계를 나타내는 척도다. 단위에 따라 크게 달라지는 경향이 있기에, 수치에 대해서는 크게 연연하지 않는 것이 좋다.
\[\text{Covariance}(\sigma_{xy}) = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu_x)(y_i - \mu_y)\]- 피어슨 상관 계수(Pearson correlation coefficient) 밀도가 강한 양수일 경우 강한 양의 상관 관계, 밀도가 약한 양수일 경우 약한 양의 상관 관계라고 한다. 마찬가지로 밀도가 강한 음수는 강한 음의 상관 관계, 밀도가 약한 음수는 약한 음의 상관 관계다. 보통 0.7~1 사이면 강한 양의 상관 관계로 보고, -0.7~-1 사이면 강한 음의 상관 관계로 본다. 0과 0.3, 0과 -0.3은 약한 관계다.
Quiz 1
데이터 세트 A와 B가 있다. 세트 A의 분산은 20이고, 세트 B의 분산은 5다. 이 정보를 바탕으로 다음 중 어떤 결론이 가장 타당한가?
- 세트 A의 데이터 포인트들은 세트 B의 데이터 포인트들보다 평균으로부터 더 멀리 퍼져 있다.
- 세트 B의 데이터 포인트들은 세트 A보다 더 균일하게 분포되어 있다.
- 분산의 크기만으로는 데이터 세트의 분포 형태를 정확히 알 수 없다.
정답은 1과 2다.
Quiz 2
변수 X와 Y의 공분산이 -10이다. 이 정보를 바탕으로 다음 중 어떤 결론을 도출할 수 있나?
- X가 증가할 때 Y도 증가한다.
- X가 증가할 때 Y는 감소한다.
- X와 Y 사이에는 강한 음의 선형 관계가 있다.
정답은 2다. 이 공분산은 음의 상관 관계를 가지고 있다. 어느 한 쪽이 증가할 때 반대쪽이 감소하면 음의 상관 관계를 가지고 있다고 볼 수 있다.
Quiz 3
피어슨 상관 계수의 값이 0.85인 두 변수가 있다. 이 정보에 대한 올바른 해석은 무엇인가?
- 두 변수 사이에는 강한 양의 선형 관계가 있다.
- 한 변수가 증가할 때 다른 변수는 반드시 감소한다.
- 상관 계수가 1에 가까우므로, 한 변수의 변화는 항상 다른 변수의 변화를 정확히 예측할 수 있다.
정답은 1이다. 값이 0.7~1 사이의 상관 관계라면 두 변수 사이에 강한 양의 상관 관계가 있다고 볼 수 있다.