상세 컨텐츠

본문 제목

2. 자료 수집 - 표본 조사, 표본 추출 방법, 가중치 적용

Statistics/Basic Statistics

by groomi 2022. 3. 28. 02:58

본문


오차의 종류

* 오차 = 실제값 - 추정값

 

 표본오차(Sampling error)

  • 일부의 자료를 통해 모집단 전체의 특성을 추론함으로써 발생하는 오차
  • 표본 오차를 줄이기 위해 과학적인 표본 추출이 필요하다! (확률표본추출)

 비표본오차

  • 표본오차를 제외한 전체 조사과정에서 발생할 수 있는 모든 오차
  • 질문지 구성방식의 오류, 무응답이나 불성실한 응답, 처리오차(코딩의 오류) 등

확률표본추출 vs 비확률표본추출

 확률표본추출

  • 모집단의 각 개체가 표본으로 추출될 가능성(확률)을 알 수 있는 추출법
  • 표본추출틀(sampling frame)로부터 표본이 추출된다.
    • 표본추출틀 : 표본이 추출될 개체들의 목록.
    • 예) 특정 고등학교의 학생 전체가 모집단이라면 이 학생들의 전화번호를 기록한 전화번호부가 표본추출틀이 될 수 있다. 표본추츨틀에서 표본을 추출하지 않았다면, 예를 들어 교문 앞에서 만나는 학생들을 조사했다면, 확률표본추출이라고 하지 않는다.
  • 예) 모집단 {가,나,다,라,마,바,사}(표본추출틀)에서 3개의 표본을 뽑는다면, 어떤 개체가 표본으로 뽑힐 확률은 3/7
  • 표본의 대표성 정도를 정확히 파악 가능
  • 단순확률추출, 층화확률추출, 군집표본추출(집락표본추출), 계통표본추출

 비확률표본추출

  • 모집단의 각 개체가 선택될 확률을 알 수 없는 추출법
  • 표본추출틀이 없음
  • 추론 결과의 정확도를 알 수 없음. 오차에 대한 분석 불가능
  • 편의추출(자발적 참여, 길거리 조사 등), 유의추출(전문가 선택), 할당추출(층화 추출과 유사하지만 그룹 내 조사 대상 선택에서 랜덤화 과정 없음)
  • 간편하고 비용이 적게 들기에 사회조사에서 광범위하게 사용되나, 모집단을 대표할 수 없는 편향표본(biased sample) 추출 방법임. 

목표모집단 vs 조사모집단

 목표모집단(target population)

  • 관심 대상이 되는 전체 집합
  • 시공간상 명확하게 정의된 연구 대상 집단
    • 특정 조사 시점, 지리적인 경계, 연령 기준 등

 조사모집단(survey population)

  • 조사 가능 모집단
  • 현실적인 제약으로 인해 모집단 내의 모든 개체가 표본추출틀에 들어가지는 못할 수도 있음
  • 표본으로 추출이 가능한 대상의 집단(표본추출틀을 통해 추출될 수 있는 집단)
  • 예) 전화번호부(표본추출틀)에 등재된 성인

확률표본추출 방법

 단순확률추출(SRS, Simple Random Sampling)

  • N개의 개체로 이루어진 모집단에서 n개의 개체들을 무작위로 추출(N: 모집단의 크기, n: 표본의 크기)
  • 모든 개체들이 표본으로 뽑힐 확률이 n/N으로 동일
  • 난수표나 난수생성프로그램을 사용 : randomization
  • 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초이다

 계통표본추출(Systematic Sampling)

  • 1) 추출간격 k를 정하고, 2) 첫 번째 추출할 개체를 1~k번째 단위들 중 임의로 정한 후에, 3) 이후 추출한 개체로부터 k번째 나타나는 개체를 계속해서 표본에 포함시키는 방법
  •  추출 간격 k : N/n (모집단의 크기/표본의 크기) 또는 정확도를 고려하여 결정
  • 예) 모집단의 크기가 100이고 표본의 크기가 20인 경우, k = 5이다. 1~5 중에서 하나를 임의로(무작위로) 선택하고 나면 그 다음부터는 그 시작점으로부터 5(k)씩 더해서 나머지 19개를 추출한다. 다음은 2를 임의로 선택했을 때의 예시이다. => 2, 7, 12, 17 ... 97까지 총 20개를 추출했다.

  • 모집단의 각 개체가 뽑힐 확률은 1/k= n/N
  • 표본추출틀이 주기성(periodicity)을 가진다면 편향된 표본을 얻을 가능성이 있음

층화확률추출(Stratified Random Sampling)

  • 모집단을 서로 중복되지 않는 몇 개의 층(strata)으로 나누어, 각 층에서 단순확률추출에 의해 표본을 추출하는 방법
  • 각 층 내부는 동질적 속성, 각 층들 간에는 이질적인 배타적 속성
  • 예) 한 고등학교의 학생 전체를 모집단으로 했을 때, 학년별 특성에 차이가 있다고 가정. 이때, 특정 학년이 추출된 표본의 높은 비율을 차지할 시에 특정 학년의 특성이 과도하게 반영되어 전체 결과를 왜곡할 수 있음. 따라서 1,2,3학년별로 나누어서 3개의 층을 구성하고 각 층 내에서 랜덤하게 정해진 양의 표본을 추출함. 이때, 층별로 모집단에서 차지하는 비율이 다르다면 그 비율을 고려해서 표본을 추출함. 1학년의 수가 다른 학년에 비해 많다면 1학년 층에서 좀 더 많은 표본을 추출하는 식. 

군집/집락표본추출(Cluster Sampling)

  • 모집단을 몇 개의 집락(cluster)로 나누어서 몇몇 집락을 무작위로 추출하여 조사하는 방법
  • 층화확률추출에서는 층을 나누고 모든 층에서 일정한 비율로 단순확률추출에 의해 표본을 추출하지만, 군집표본추출에서는 집락 자체를 추출단위로써 임의로 추출한 후 그 집락내의 개체들을 조사함
  • 예) 서울시 모든 고등학생들이 연구 대상이라고 했을 때, 단순확률추출을 이용하기 위해서는 서울시 모든 고등학생의 명단이 필요하고, 표본이 서울시 여기저기에 산재되어 있어 표본추출틀 마련과 조사에 많은 시간과 비용이 든다. 군집표본추출을 이용하면, 1차로 특정 '구'를 추출한 후 그 '구' 안에서 또 몇몇 '고등학교'를 추출하여 그 고등학교의 학생들을 조사할 수 있다. 
  • 장점
    • 모든 개체에 대한 표본추출틀을 확보하는 것에 비해 집락에 대한 표본추출틀 확보는 상대적으로 쉽다.
    • 추출된 집락에 표본이 집중되기 때문에 조사단위가 산재되어 있어 관측 비용이 증가하는 것을 막을 수 있다.

가중치

 가중치를 적용하는 이유

  • 가중치 : 한 표본이 몇 개의 개체를 대표하는지
  • 표본이 모집단을 제대로 대표할 수 있도록 모집단의 구성정보를 반영하여 표본을 추출하기 위함 => 표본 조사 결과의 정확도를 높일 수 있음
  • 모집단이 서로 다른 특성을 가진 부모집단(Subpopulation)들로 구성되어 있다면, 특정 부모집단에서 표본이 많게 또는 적게 추출되면 그러한 표본을 통해 추론한 모집단의 특성이 왜곡될 수 있음.
    • 이러한 점을 표본 추출 설계시에 반영한다고 해도 실제 표본 획득 과정에서 문제가 발생할 수도 있음. => 가중치를 적용하여 최대한 모집단의 구성정보를 반영할 수 있도록! 

추출확률에 따른 가중치 : w1

  • 등확률 추출(단순확률추출, 계통표본추출)
    • 표본으로 선택될 확률 : n/N(표본의 크기/모집단의 크기) => 등확률!
    • 표본 크기 : 모집단 크기  =  n : N = 1 : n/N     => 표본 하나가 N/n을 대표!
  • 등확률 추출이 아닐 때
    • 추출확률이 상이함을 가중치로 조정해주어야 함
    • 설계가중치, 표본추출 가중치, 기초 가중치 이용
    • 설계가중치: 1/추출률(표본으로 선택될 확률)
      • 예) 수도권 거주자 800명 지방 거주자 200명으로 구성된 모집단의 취업 현황을 알아보고자 할 때, 층화추출으로 수도권에서 50명 지방에서 50명의 표본을 추출했다고 하자.  이때, 수도권에서 표본으로 선택될 확률은 50/800 = 1/16, 지방에서 표본으로 선택될 확률은 50/200 = 1/4이다. 그러니 수도권 거주자 표본 한 명은 모집단의 수도권 거주자 약 16명을 대표하고 지방 거주자 표본 1명은 모집단의 지방 거주자 4명을 대표하므로 설계가중치는 각각 16, 4이다. 

무응답에 따른 가중치 : w2

 

  • 무응답에 따른 가중치 = 1/응답률
  • 예) 수도권 응답률이 40%, 지방 응답률이 80%라고 하자. 이때, 수도권 응답자의 응답 가중치는 10/4이고, 지방 응답자의 응답 가중치는 10/8이다.

사후 층화를 위한 가중치 : w3

  • 가중 표본 분포가 표본 추출 후에 파악된 모집단의 분포 특성을 반영할 수 있도록 한다.
  • 예) 성별에 따라서 취업률에 차이가 있다고 가정(성별은 취업현황이라는 우리의 연구 주제와 관련이 있기 때문에 모집단의 성별 분포 특성이 표본에 잘 반영되어야 함). 수도권과 지방 거주자의 성별 구성은 비슷하다고 가정. 만약 모집단의 남녀 비율은 40%, 60%이지만, 표본의 남녀 비율은 60%, 40%라고 하자. 사후층화를 위한 가중치는 남자 40/60, 여자 60/40이다.

최종가중치

  • final weight(wf) = w1*w2*w3
  • 예) 앞의 세가지를 모두 고려하면,
    • 응답한 수도권 남자 = 16 * 10/4 * 40/60 = 약 26.6
    • 응답한 수도권 여자 = 16 * 10/4 * 60/40 = 60
    • 응답한 지방 남자 = 4 * 10/8 * 40/60 = 약 3.3
    • 응답한 지방 여자 = 4 * 10/8 * 60/40 = 약 7.5 

출처 : kmooc 통계학의 이해 I week 1-2, 1-3/기초통계학(송성주, 전명식)


<내가 만든 앱 광고>

속마음을 털어놓을 곳이 필요할 때 : "편지로 5길"

편지로 5길 미리보기 화면

 

'Statistics > Basic Statistics' 카테고리의 다른 글

1. 통계학이란?  (0) 2022.03.26

관련글 더보기

댓글 영역