분산 분석 (ANOVA)이란 무엇입니까?
분산 분석 (ANOVA)은 데이터 세트 내에서 발견 된 관측 된 총 변동성을 체계적 요인과 랜덤 요인으로 나눈 통계에 사용되는 분석 도구입니다. 체계적 요인은 주어진 데이터 세트에 통계적 영향을 미치지 만 무작위 요인은 그렇지 않습니다. 분석가는 분산 분석 테스트를 사용하여 회귀 연구에서 독립 변수가 종속 변수에 미치는 영향을 확인합니다.
20 세기에 개발 된 t- 및 z- 검정 방법은 1918 년까지 Ronald Fisher가 분산 법 분석을 만들 때까지 통계 분석에 사용되었습니다. 분산 분석은 Fisher의 분산 분석이라고도하며 t- 및 z- 검정의 확장입니다. 이 용어는 Fisher의 저서 "연구원을위한 통계적 방법"에 나타난 후 1925 년에 잘 알려지게되었습니다. 그것은 실험 심리학에 사용되었고 나중에 더 복잡한 주제로 확장되었습니다.
분산 분석 공식은 다음과 같습니다.
의 F = MSEMST 여기서: F = ANOVA 계수 MST = 처리로 인한 평균 제곱합 MSE = 오류로 인한 평균 제곱합
분산 분석은 무엇을 드러내는가?
분산 분석 테스트는 주어진 데이터 세트에 영향을 미치는 요인을 분석하는 초기 단계입니다. 테스트가 완료되면 분석가는 데이터 세트의 불일치에 기여할 수있는 방법 론적 요소에 대해 추가 테스트를 수행합니다. 분석가는 AN- 테스트 결과를 f- 검정으로 활용하여 제안 된 회귀 모형과 일치하는 추가 데이터를 생성합니다.
분산 분석 테스트를 통해 동시에 두 개 이상의 그룹을 비교하여 그룹간에 관계가 있는지 확인할 수 있습니다. F 통계량 (F 비율이라고도 함) 인 ANOVA 공식의 결과를 통해 여러 데이터 그룹을 분석하여 샘플 간 및 샘플 내에서 변동성을 결정할 수 있습니다.
귀무 가설이라고하는 검정 된 그룹간에 실제 차이가 없으면 ANOVA의 F- 비 통계량의 결과는 1에 가까워집니다. 샘플링 변동은 Fisher F 분포를 따릅니다. 이것은 실제로 분자 자유 도와 분모 자유 도로 불리는 두 개의 특징적인 숫자를 가진 분포 함수 그룹입니다.
주요 테이크 아웃
- 분산 분석 (ANOVA)은 관찰 된 분산 데이터를 추가 테스트에 사용하기 위해 여러 성분으로 분리하는 통계적 방법입니다. 일원 분산 분석은 세 개 이상의 데이터 그룹에 사용되며 종속 분석과 그룹간에 실제 분산이 존재하지 않으면 분산 분석의 F- 비는 1에 가까워 야합니다.
ANOVA 사용 방법의 예
예를 들어 한 연구원은 여러 대학의 학생을 테스트하여 한 대학의 학생이 다른 대학의 학생보다 지속적으로 우수한지 여부를 확인합니다. 비즈니스 응용 프로그램에서 R & D 연구원은 제품을 만드는 두 가지 다른 프로세스를 테스트하여 비용 효율성 측면에서 한 프로세스가 다른 프로세스보다 나은지 확인할 수 있습니다.
사용되는 ANOVA 테스트 유형은 여러 가지 요인에 따라 다릅니다. 데이터를 실험해야 할 때 적용됩니다. 통계 분석 소프트웨어에 액세스 할 수없는 경우 분산 분석을 사용하여 직접 ANOVA를 계산합니다. 사용이 간편하고 작은 샘플에 가장 적합합니다. 많은 실험 설계에서 다양한 요인 수준 조합에 대해 표본 크기가 동일해야합니다.
분산 분석은 세 개 이상의 변수를 테스트하는 데 도움이됩니다. 여러 개의 2- 표본 t- 검정과 유사합니다. 그러나 유형 I 오류가 줄어들고 다양한 문제에 적합합니다. 분산 분석은 각 그룹의 평균을 비교하여 차이를 그룹화하고 분산을 다양한 소스로 확산시키는 것을 포함합니다. 대상, 시험 그룹, 그룹 간 및 그룹 내에서 사용됩니다.
일원 분산 분석 대 일원 분산 분석
분산 분석에는 일방향 (또는 단방향)과 양방향의 두 가지 유형이 있습니다. 단방향 또는 양방향은 분산 검정 분석에서 독립 변수의 수를 나타냅니다. 일원 분산 분석은 단독 반응 변수에 대한 단독 요인의 영향을 평가합니다. 모든 샘플이 동일한 지 여부를 결정합니다. 일원 분산 분석은 세 개 이상의 독립적 (비 관련) 그룹의 평균간에 통계적으로 유의 한 차이가 있는지 여부를 확인하는 데 사용됩니다.
이원 분산 분석은 일원 분산 분석의 확장입니다. 단방향을 사용하면 종속 변수에 영향을주는 하나의 독립 변수가 있습니다. 양방향 분산 분석에는 두 개의 독립이 있습니다. 예를 들어, 양방향 분산 분석을 통해 회사는 급여 및 기술 세트와 같은 두 가지 독립 변수를 기반으로 작업자 생산성을 비교할 수 있습니다. 두 요인 간의 상호 작용을 관찰하고 동시에 두 요인의 영향을 테스트하는 데 사용됩니다.