피어슨 상관계수
피어슨 상관계수(Pearson correlation coefficient)는 두 변수 사이의 선형 상관 관계를 측정하는 통계적 방법이다. 이 계수는 -1과 1 사이의 값을 가지며, 1에 가까울수록 두 변수 간의 양의 선형 관계가 강하다는 것을 의미하고, -1에 가까울수록 음의 선형 관계가 강하다는 것을 의미한다. 0에 가까운 값은 선형 관계가 거의 없음을 나타낸다.
피어슨 상관계수의 수식은 다음과 같다:
\[r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}}\]여기서 ( x_i )와 ( y_i )는 각각의 데이터 포인트이고, ( \bar{x} )와 ( \bar{y} )는 각각의 평균값이다.
- ( x_i ): ( x ) 변수의 i번째 데이터 포인트
- ( y_i ): ( y ) 변수의 i번째 데이터 포인트
- ( \bar{x} ): ( x ) 변수의 평균값
- ( \bar{y} ): ( y ) 변수의 평균값
- ( \sum ): 모든 데이터 포인트에 대한 합
피어슨 상관계수는 공분산을 각 변수의 표준 편차로 나누어 구한다. 이를 통해 두 변수의 단위에 영향을 받지 않고 상관 관계를 측정할 수 있다.
- ( r = 1 ): 두 변수 간에 완벽한 양의 선형 관계가 있음.
- ( r = -1 ): 두 변수 간에 완벽한 음의 선형 관계가 있음.
- ( r = 0 ): 두 변수 간에 선형 관계가 없음.
- ( 0 < r < 1 ): 두 변수 간에 양의 선형 관계가 있음.
- ( -1 < r < 0 ): 두 변수 간에 음의 선형 관계가 있음.
피어슨 상관계수는 두 변수 간의 선형 관계만을 측정하므로, 두 변수 간에 비선형 관계가 있을 경우에는 상관계수가 0에 가까운 값을 가질 수 있다. 이때, 두 변수 간의 관계가 없다고 해석해서는 안 된다.
스피어만 상관계수
스피어만 상관계수(Spearman’s rank correlation coefficient)는 두 변수 간의 순위 상관 관계를 측정하는 방법이다. 비모수적 방법으로, 변수 간의 단조(monotonic) 관계를 평가한다.
켄달의 타우
켄달의 타우(Kendall’s tau)는 두 변수 간의 순위 상관 관계를 측정하는 또 다른 비모수적 방법이다. 두 변수의 순위 쌍을 비교하여 순서가 일치하는 정도를 평가한다.
포인트 바이세리얼 상관계수
포인트 바이세리얼 상관계수(Point-biserial correlation coefficient)는 하나의 변수가 이분형(binary)일 때 사용하는 상관계수이다. 연속형 변수와 이분형 변수 간의 상관 관계를 측정한다.