단순 랜덤 대 계층화 된 랜덤 샘플: 개요
단순 랜덤 샘플과 계층화 된 랜덤 샘플은 모두 통계 측정 도구입니다. 간단한 무작위 샘플을 사용하여 전체 데이터 모집단을 나타냅니다. 계층화 된 무작위 표본은 모집단을 공유 특성에 따라 더 작은 그룹 또는 계층으로 나눕니다.
모집단은 총 관측치 또는 데이터 세트입니다. 표본은 모집단의 관측치입니다. 샘플링 방법은 모집단에서 샘플을 가져 오는 데 사용되는 프로세스입니다.
간단한 랜덤 샘플
단순 랜덤 샘플링은 데이터 모집단에서 가져온 매우 기본적인 샘플을 설명하는 데 사용되는 통계 도구입니다. 이 표본은 전체 모집단에 해당합니다.
단순 랜덤 표본은 데이터 모집단에 대한 정보가 거의 없거나, 데이터 모집단이 다양한 부분 집합으로 나누기에는 너무 많은 차이가 있거나, 데이터 모집단간에 하나의 뚜렷한 특성 만있는 경우에 종종 사용됩니다.
예를 들어, 사탕 회사는 제품 라인의 미래를 결정하기 위해 고객의 구매 습관을 연구하고자 할 수 있습니다. 고객이 10, 000 명인 경우 해당 고객 중 100 명을 무작위 샘플로 선택할 수 있습니다. 그런 다음 100 명의 고객으로부터 찾은 내용을 나머지베이스에 적용 할 수 있습니다.
통계학자는 데이터 모집단의 전체 목록을 고안 한 다음 해당 큰 그룹 내에서 무작위 표본을 선택합니다. 이 표본에서 모집단의 모든 구성원은 표본의 일부로 선택 될 기회가 동일합니다. 두 가지 방법으로 선택할 수 있습니다.
- 수동 추첨을 통해 인구의 각 구성원에게 번호가 부여됩니다. 그런 다음 샘플에 포함시킬 누군가가 임의로 숫자를 가져옵니다. 이것은 작은 그룹을 볼 때 가장 좋습니다. 컴퓨터 생성 샘플링. 이 방법은 컴퓨터 대신 사람이 아닌 샘플을 선택하여 더 큰 데이터 세트에 가장 적합합니다.
간단한 랜덤 샘플링을 사용하면 연구원이 특정 모집단에 대해 일반화하고 편견을 제거 할 수 있습니다. 이를 통해 향후 결정을 내리는 방법을 결정할 수 있습니다. 위의 예에서 사탕 회사는이 도구를 사용하여 100 명의 고객의 현재 취향을 기반으로 제조 할 새로운 사탕 맛을 개발할 수 있습니다. 그러나 이것들은 일반화이므로 오류의 여지가 있습니다. 결국, 그것은 간단한 샘플입니다. 이 100 명의 고객은 전체 인구의 취향을 정확하게 표현하지 못할 수 있습니다.
계층화 된 무작위 샘플링
단순한 랜덤 샘플과 달리 계층화 된 랜덤 샘플은 다른 하위 그룹이나 하위 집합으로 쉽게 나눌 수있는 모집단과 함께 사용됩니다. 이 그룹은 특정 기준을 기반으로 한 다음 그룹의 크기와 인구에 비례하여 각 요소를 임의로 선택합니다.
이 샘플링 방법은 각각의 다른 그룹에서 선택이 이루어짐을 의미합니다. 그 크기는 전체 인구에 대한 비율을 기반으로합니다. 그러나 연구원들은 지층이 겹치지 않도록해야합니다. 모집단의 각 점은 하나의 지층에만 속해야하므로 각 점은 상호 배타적입니다. 계층이 겹치면 일부 데이터가 포함되어 샘플이 왜곡 될 가능성이 높아집니다.
사탕 회사는 100 명의 고객을 다른 연령 그룹으로 나눠서 무작위 계층화 된 샘플링 방법을 사용하여 생산의 미래에 대한 결정을 내릴 수 있습니다.
포트폴리오 관리자는 계층화 된 랜덤 샘플링을 사용하여 채권 지수와 같은 지수를 복제하여 포트폴리오를 생성 할 수 있습니다.
계층화 된 샘플링은 단순한 랜덤 샘플링과 비교하여 몇 가지 장점과 단점을 제공합니다. 특정 특성을 사용하기 때문에 인구 집단을 다른 하위 집합으로 나누는 데 사용되는 것을 기반으로 인구를보다 정확하게 표현할 수 있습니다. 여기에는 종종 더 작은 샘플 크기가 필요하므로 리소스와 시간을 절약 할 수 있습니다. 또한 각 지층에서 충분한 샘플 포인트를 포함함으로써 연구원은 각 지층에 대해 별도의 분석을 수행 할 수 있습니다.
그러나 계층화 된 샘플을 무작위 샘플보다 당기려면 더 많은 작업이 필요합니다. 연구원은 포함하기 위해 각 지층의 데이터를 개별적으로 추적하고 확인해야하는데, 이는 무작위 표본 추출에 비해 시간이 더 오래 걸릴 수 있습니다.
주요 테이크 아웃
- 단순 랜덤 및 계층화 된 랜덤 샘플은 통계 측정 도구입니다. 단순 랜덤 샘플은 전체 모집단의 작은 기본 부분을 사용하여 전체 데이터 세트를 나타냅니다. 모집단은 유사한 특성을 공유하는 여러 그룹으로 분류되며 계층화 된 무작위 표본이 수집됩니다.
