상관관계 계수: 두 변수 간의 선형적 관계 탐구

통계학에서 상관관계 계수는 두 변수 간의 선형적 관계의 강도와 방향을 나타내는 수치적 척도입니다. 범위는 -1에서 1까지이며, 다음과 같은 해석이 있습니다.

목차 숨기기

상관관계 계수의 유형

가장 일반적으로 사용되는 상관관계 계수로, 연속적인 변수 두 개 간의 선형적 관계를 측정합니다. -1에서 1까지의 값을 가지며, 다음과 같이 계산됩니다.

r = (Σ(x - x̄)(y - ȳ)) / √(Σ(x - x̄)²) Σ(y - ȳ)²)

여기서 x와 y는 관측값, x̄와 ȳ는 각 변수의 평균입니다.

데이터가 순위형 또는 서수형일 때 사용됩니다. 관측값을 순위에 매기고, 두 순위 집합 간의 상관관계를 측정합니다. -1에서 1까지의 값을 가지며, 다음과 같이 계산됩니다.

r = 1 - 6Σd² / (n³ - n)

여기서 d는 두 순위 집합의 차이, n은 관측값의 수입니다.

스피어만 순위 상관계수와 유사하지만, 동일한 순위를 공유하는 관측값을 고려합니다. -1에서 1까지의 값을 가지며, 다음과 같이 계산됩니다.

τ = (P - Q) / (P + Q)

여기서 P는 동일한 순위를 공유하는 관측값의 쌍의 수, Q는 서로 다른 순위를 공유하는 관측값의 쌍의 수입니다.

상관관계 계수의 절대값이 클수록 두 변수 간의 선형적 관계가 강합니다. 그러나 상관관계가 강하더라도 반드시 인과 관계가 있는 것은 아닙니다. 상관관계는 단순히 공통 요인이나 잠재적 혼란 변수의 영향을 반영할 수 있습니다.

상관관계가 우연히 발생한 것이 아니라는 것을 확인하려면 유의성 검정을 수행할 수 있습니다. 이는 상관계수가 귀무 가설(상관관계가 없음)을 기각할 만큼 크게 나타날 확률을 계산합니다.

상관관계 계수는 두 변수 간의 선형적 관계를 정량화하는 강력한 통계적 도구입니다. 그러나 해석 시 조심해야 하며, 인과 관계를 추론하는 데에는 한계가 있습니다. 상관관계가 강하더라도 두 변수 간의 관계에는 다른 요인이 작용할 수 있음을 기억하는 것이 중요합니다.