분산 인플레이션 계수 란 무엇입니까?
분산 인플레이션 fVIF (Variance Inflation Factor)는 여러 회귀 변수 집합에서 다중 공선 성 양을 측정 한 것입니다. 수학적으로, 회귀 모형 변수의 VIF는 전체 모형 분산과 단일 독립 변수 만 포함 된 모형 분산의 비율과 같습니다. 이 비율은 각 독립 변수에 대해 계산됩니다. 높은 VIF는 연관된 독립 변수가 모형의 다른 변수와 동일 선상에 있음을 나타냅니다.
주요 테이크 아웃
- 분산 인플레이션 팩터 (VIF)는 다중 회귀 모델에서 독립 변수 간의 다중 공선 성을 측정합니다. 다중 공선 성을 탐지하는 것은 모델의 설명력을 줄이지 않지만 독립 변수의 통계적 유의성을 감소시키기 때문에 중요합니다. 독립 변수의 큰 VIF는 모델 구조와 독립 변수 선택에서 고려하거나 조정해야하는 다른 변수와의 공존 관계가 높음을 나타냅니다.
분산 인플레이션 계수 이해
다중 회귀는 사람이 특정 결과에 대한 여러 변수의 영향을 테스트하려는 경우에 사용됩니다. 종속 변수는 모델에 대한 입력 인 독립 변수에 의해 수행되는 결과입니다. 다중 공선 성은 하나 이상의 독립 변수 또는 입력간에 선형 관계 또는 상관 관계가있을 때 존재합니다. 입력이 모두 서로 영향을 미치기 때문에 실제로는 독립적이지 않으며 회귀 모델 내에서 독립 변수의 조합이 종속 변수 또는 결과에 얼마나 영향을 미치는지 테스트하기 어렵 기 때문에 다중 공선 성은 다중 회귀 분석에서 문제를 일으 킵니다.. 통계적으로, 다중 공선 성이 높은 다중 회귀 모델은 각 독립 변수와 종속 변수 사이의 관계를 추정하기가 더 어려워집니다. 사용 된 데이터 또는 모델 방정식 구조의 작은 변화는 독립 변수에 대한 추정 계수의 크고 불규칙한 변화를 생성 할 수 있습니다.
모델이 올바르게 지정되고 올바르게 작동하는지 확인하기 위해 다중 공선 성을 테스트 할 수 있습니다. 분산 팽창 계수는 그러한 측정 도구 중 하나입니다. 분산 인플레이션 계수를 사용하면 다중 공선 성 문제의 심각성을 식별하여 모델을 조정할 수 있습니다. 분산 팽창 계수는 다른 독립 변수와의 상호 작용 / 상관 관계에 의해 독립 변수의 동작 (분산)이 영향을 받거나 팽창되는 정도를 측정합니다. 분산 인플레이션 계수를 사용하면 회귀 분석에서 변수가 표준 오차에 얼마나 기여하는지 신속하게 측정 할 수 있습니다. 중요한 다중 공선 성 문제가 존재하는 경우 분산 인플레이션 계수는 관련된 변수에 대해 매우 클 것입니다. 이러한 변수가 식별 된 후 공선 변수를 제거하거나 결합하여 다중 공선 성 문제를 해결하기 위해 여러 가지 접근 방식을 사용할 수 있습니다.
다중 공선 성은 모델의 전체 예측 검정력을 감소시키지 않지만 통계적으로 유의하지 않은 회귀 계수의 추정치를 생성 할 수 있습니다. 어떤 의미에서는 모델에서 일종의 이중 계산으로 생각할 수 있습니다. 둘 이상의 독립 변수가 밀접하게 관련되어 있거나 거의 같은 것을 측정 할 때, 측정하는 기본 효과가 변수에서 두 번 이상 (또는 그 이상) 설명되고 있으며 어떤 변수가 실제로 영향을 미치는지 말하기는 어렵거나 불가능합니다. 독립 변수. 많은 계량 모델의 목표는 독립 변수와 종속 변수 간의 이러한 통계적 관계를 정확하게 테스트하는 것이기 때문에 문제가됩니다.
예를 들어, 경제학자가 실업률 (독립 변수)과 인플레이션 율 (종속 변수) 사이에 통계적으로 유의 한 관계가 있는지 여부를 테스트하려는 경우. 실업률과 관련된 추가 독립 변수 (예: 새로운 초기 실업 수당 청구 포함)를 포함하면 다중 공선 성이 모델에 도입 될 수 있습니다. 전체 모델은 강력하고 통계적으로 충분한 설명력을 보여 주지만 그 효과가 대부분 실업률 또는 새로운 초기 실업자 청구로 인한 것인지 확인할 수 없습니다. 이것이 VIF가 감지하는 것인데, 연구원이 어떤 시험에 관심을 갖고 있는지에 따라 모델에서 변수 중 하나를 제거하거나 결합 효과를 통합하기위한 방법을 찾는 것이 좋습니다.