결정 계수는 무엇입니까?
결정 계수는 모델이 미래의 결과를 얼마나 잘 설명하고 예측하는지 평가하는 통계 분석에 사용되는 측정 값입니다. 데이터 세트의 설명 된 변동성 수준을 나타냅니다. 일반적으로 "R 제곱"이라고도하는 측정 계수는 모델의 정확도를 측정하기위한 지침으로 사용됩니다.
이 그림을 해석하는 한 가지 방법은 주어진 모델에 포함 된 변수가 관측 된 변동의 약 x %를 설명한다고 말하는 것입니다. 따라서 R 2 = 0.50 인 경우 관측 된 변동의 대략 절반이 모형으로 설명 될 수 있습니다.
R- 제곱
주요 테이크 아웃
- 결정 계수는 미래의 데이터 모델에 대한 통계적 분석을 중심으로하는 복잡한 아이디어이며, 결정 계수는 한 요소의 변동성이 다른 요소와의 관계로 인해 발생할 수있는 정도를 설명하는 데 사용됩니다.
결정 계수 이해
결정 계수는 한 요인의 변동성이 다른 요인과의 관계로 인해 발생할 수있는 정도를 설명하는 데 사용됩니다. 경향 분석에 크게 의존하며 0과 1 사이의 값으로 표시됩니다.
값이 1에 가까울수록 두 요인 사이의 적합 또는 관계가 더 좋습니다. 결정 계수는 "R"이라고도하는 상관 계수의 제곱으로, 두 변수 사이의 선형 상관 정도를 표시 할 수 있습니다.
이 상관 관계를 "적합성"이라고합니다. 1.0 값은 완벽하게 적합 함을 나타내므로 향후 예측을위한 매우 신뢰할 수있는 모델이므로 모델에서 관측 된 모든 변동을 설명 합니다 . 반면에 0 값은 모델이 데이터를 정확하게 모델링하지 못했음을 나타냅니다. 다중 회귀 모델과 같은 여러 변수가있는 모형의 경우 조정 된 R 2 가 더 나은 결정 계수입니다. 경제학에서 0.60 이상의 R 2 값은 가치가있는 것으로 보입니다.
결정 계수 분석의 이점
결정 계수는 데이터 세트에서 예측 된 점수 대 실제 점수 세트 사이의 상관의 제곱입니다. 또한 X와 Y 점수 간의 상관의 제곱으로 표현할 수 있으며 X는 독립 변수이고 Y는 종속 변수입니다.
표현에 관계없이, 0과 같은 R 제곱은 독립 변수를 사용하여 종속 변수를 예측할 수 없음을 의미합니다. 반대로, 1과 같으면 변수의 종속이 항상 독립 변수에 의해 예측됨을 의미합니다.
이 범위에 속하는 결정 계수는 종속 변수가 독립 변수에 의해 예측되는 정도를 측정합니다. 예를 들어 0.20의 R- 제곱은 종속 변수의 20 %가 독립 변수에 의해 예측됨을 의미합니다.
적합도 또는 선형 상관 정도는 그래프의 적합 선과 그래프 주위에 흩어져있는 모든 데이터 점 사이의 거리를 측정합니다. 타이트한 데이터 세트는 점에 매우 가까운 회귀선을 가지므로 선과 데이터 사이의 거리가 매우 작다는 의미입니다. 적합도는 1에 가까운 R 제곱을 갖습니다.
그러나 R- 제곱은 데이터 포인트 또는 예측이 바이어스되는지 여부를 확인할 수 없습니다. 또한 결정 계수 값이 좋은지 분석 가나 사용자에게 알리지 않습니다. 예를 들어 낮은 R 제곱은 나쁘지 않으며 R 제곱 수를 기반으로 결정을 내리는 것은 사람의 몫입니다.
결정 계수는 순진하게 해석되어서는 안됩니다. 예를 들어 모형의 R- 제곱이 75 %로보고 된 경우 오차의 분산은 종속 변수의 분산보다 75 % 낮고 오차의 표준 편차는 종속의 표준 편차보다 50 % 낮습니다. 변하기 쉬운. 모형 오차의 표준 편차는 상수 전용 모형에서 발생하는 오차의 표준 편차 크기의 약 1/3입니다.
마지막으로, R- 제곱 값이 크더라도 모형에서 설명 변수의 통계적 유의성이 없거나 이러한 변수의 유효 크기가 실제적으로 매우 작을 수 있습니다.
