1) 추출간격 k를 정하고, 2) 첫 번째 추출할 개체를 1~k번째 단위들 중 임의로 정한 후에, 3) 이후 추출한 개체로부터 k번째 나타나는 개체를 계속해서 표본에 포함시키는 방법
추출 간격 k : N/n (모집단의 크기/표본의 크기) 또는 정확도를 고려하여 결정
예) 모집단의 크기가 100이고 표본의 크기가 20인 경우, k = 5이다. 1~5 중에서 하나를 임의로(무작위로) 선택하고 나면 그 다음부터는 그 시작점으로부터 5(k)씩 더해서 나머지 19개를 추출한다. 다음은 2를 임의로 선택했을 때의 예시이다. => 2, 7, 12, 17 ... 97까지 총 20개를 추출했다.
모집단의 각 개체가 뽑힐 확률은 1/k= n/N
표본추출틀이 주기성(periodicity)을 가진다면 편향된 표본을 얻을 가능성이 있음
층화확률추출(Stratified Random Sampling)
모집단을 서로 중복되지 않는 몇 개의 층(strata)으로 나누어, 각 층에서 단순확률추출에 의해 표본을 추출하는 방법
각 층 내부는 동질적 속성, 각 층들 간에는 이질적인 배타적 속성
예) 한 고등학교의 학생 전체를 모집단으로 했을 때, 학년별 특성에 차이가 있다고 가정. 이때, 특정 학년이 추출된 표본의 높은 비율을 차지할 시에 특정 학년의 특성이 과도하게 반영되어 전체 결과를 왜곡할 수 있음. 따라서 1,2,3학년별로 나누어서 3개의 층을 구성하고 각 층 내에서 랜덤하게 정해진 양의 표본을 추출함. 이때, 층별로 모집단에서 차지하는 비율이 다르다면 그 비율을 고려해서 표본을 추출함. 1학년의 수가 다른 학년에 비해 많다면 1학년 층에서 좀 더 많은 표본을 추출하는 식.
군집/집락표본추출(Cluster Sampling)
모집단을 몇 개의 집락(cluster)로 나누어서 몇몇 집락을 무작위로 추출하여 조사하는 방법
층화확률추출에서는 층을 나누고 모든 층에서 일정한 비율로 단순확률추출에 의해 표본을 추출하지만, 군집표본추출에서는 집락 자체를 추출단위로써 임의로 추출한 후 그 집락내의 개체들을 조사함
예) 서울시 모든 고등학생들이 연구 대상이라고 했을 때, 단순확률추출을 이용하기 위해서는 서울시 모든 고등학생의 명단이 필요하고, 표본이 서울시 여기저기에 산재되어 있어 표본추출틀 마련과 조사에 많은 시간과 비용이 든다. 군집표본추출을 이용하면, 1차로 특정 '구'를 추출한 후 그 '구' 안에서 또 몇몇 '고등학교'를 추출하여 그 고등학교의 학생들을 조사할 수 있다.
장점
모든 개체에 대한 표본추출틀을 확보하는 것에 비해 집락에 대한 표본추출틀 확보는 상대적으로 쉽다.
추출된 집락에 표본이 집중되기 때문에 조사단위가 산재되어 있어 관측 비용이 증가하는 것을 막을 수 있다.
가중치
가중치를 적용하는 이유
가중치 : 한 표본이 몇 개의 개체를 대표하는지
표본이 모집단을 제대로 대표할 수 있도록 모집단의 구성정보를 반영하여 표본을 추출하기 위함 => 표본 조사 결과의 정확도를 높일 수 있음
모집단이 서로 다른 특성을 가진 부모집단(Subpopulation)들로 구성되어 있다면, 특정 부모집단에서 표본이 많게 또는 적게 추출되면 그러한 표본을 통해 추론한 모집단의 특성이 왜곡될 수 있음.
이러한 점을 표본 추출 설계시에 반영한다고 해도 실제 표본 획득 과정에서 문제가 발생할 수도 있음. => 가중치를 적용하여 최대한 모집단의 구성정보를 반영할 수 있도록!
추출확률에 따른 가중치 : w1
등확률 추출(단순확률추출, 계통표본추출)
표본으로 선택될 확률 : n/N(표본의 크기/모집단의 크기) => 등확률!
표본 크기 : 모집단 크기 = n : N = 1 : n/N => 표본 하나가 N/n을 대표!
등확률 추출이 아닐 때
추출확률이 상이함을 가중치로 조정해주어야 함
설계가중치, 표본추출 가중치, 기초 가중치 이용
설계가중치: 1/추출률(표본으로 선택될 확률)
예) 수도권 거주자 800명 지방 거주자 200명으로 구성된 모집단의 취업 현황을 알아보고자 할 때, 층화추출으로 수도권에서 50명 지방에서 50명의 표본을 추출했다고 하자. 이때, 수도권에서 표본으로 선택될 확률은 50/800 = 1/16, 지방에서 표본으로 선택될 확률은 50/200 = 1/4이다. 그러니 수도권 거주자 표본 한 명은 모집단의 수도권 거주자 약 16명을 대표하고 지방 거주자 표본 1명은 모집단의 지방 거주자 4명을 대표하므로 설계가중치는 각각 16, 4이다.
무응답에 따른 가중치 : w2
무응답에 따른 가중치 = 1/응답률
예) 수도권 응답률이 40%, 지방 응답률이 80%라고 하자. 이때, 수도권 응답자의 응답 가중치는 10/4이고, 지방 응답자의 응답 가중치는 10/8이다.
사후 층화를 위한 가중치 : w3
가중 표본 분포가 표본 추출 후에 파악된 모집단의 분포 특성을 반영할 수 있도록 한다.
예) 성별에 따라서 취업률에 차이가 있다고 가정(성별은 취업현황이라는 우리의 연구 주제와 관련이 있기 때문에 모집단의 성별 분포 특성이 표본에 잘 반영되어야 함). 수도권과 지방 거주자의 성별 구성은 비슷하다고 가정. 만약 모집단의 남녀 비율은 40%, 60%이지만, 표본의 남녀 비율은 60%, 40%라고 하자. 사후층화를 위한 가중치는 남자 40/60, 여자 60/40이다.
최종가중치
final weight(wf) = w1*w2*w3
예) 앞의 세가지를 모두 고려하면,
응답한 수도권 남자 = 16 * 10/4 * 40/60 = 약 26.6
응답한 수도권 여자 = 16 * 10/4 * 60/40 = 60
응답한 지방 남자 = 4 * 10/8 * 40/60 = 약 3.3
응답한 지방 여자 = 4 * 10/8 * 60/40 = 약 7.5
출처 : kmooc 통계학의 이해 I week 1-2, 1-3/기초통계학(송성주, 전명식)
댓글 영역