search for




 

이중추출법에서 일반화 ratio-cum-product 방법을 이용한 이상점 가중치 보정법
An outlier weight adjustment using generalized ratio-cum-product method for two phase sampling
Korean J Appl Stat 2016;29(7):1185-1199
Published online December 31, 2016
© 2016 The Korean Statistical Society.

오정택a, 신기일a,1
Jung-Taek Oha, and Key-Il Shina,1

a한국외국어대학교 통계학과

aDepartment of Statistics, Hankuk University of Foreign Studies
교신저자: (17035) 경기도 용인시 처인구 모현면 외대로 81, 한국외국어대학교 통계학과. E-mail: keyshin@hufs.ac.kr
Corresponding author: Department of statistics, Hankuk University of Foreign Studies, 81, Oedae-ro, Mohyeon-myeon, Cheoin-gu, Yongin-si, Gyeonggi-do 17035, Korea. E-mail: keyshin@hufs.ac.kr
Received June 22, 2016; Revised August 9, 2016; Accepted September 11, 2016.
Abstract

이중추출법은 모집단 정보가 충분하지 않아 층화 추출법을 사용할 때 정확한 층화 정보가 없는 경우에 흔히 사용하는 표본추출법이다. 특히 최근에는 이중추출법을 위해 1차 조사에서 얻어진 보조 정보를 이용하여 추정의 정확성을 향상시키는 방법들이 제안되었다. 본 연구에서는 최근 제안된 일반화 ratio-cum-product 추정량에서 사용하는 가중치를 이상점 처리를 위한 가중치 보정에 맞도록 보정하여 추정의 정밀성을 향상시키는 방법을 제안하였다. 모의실험을 통하여 본 연구에서 제안한 방법과 기존의 이상점 가중치 보정법의 성능을 비교하였으며 사례 분석을 통하여 제안된 방법의 우수성을 확인하였다.

Two phase sampling (double sampling) is often used when there is inadequate population information for proper stratification. Many recent papers have been devoted to the estimation method to improve the precision of the estimator using first phase information. In this study we suggested outlier weight adjustment methods to improve estimation precision based on the weight of the generalized ratio-cum-product estimator. Small simulation studies are conducted to compare the suggested methods and the usual method. Real data analysis is also performed.

1. 서론

정확한 표본 조사를 위해 많은 이론과 방법이 개발되었다. 그러나 우수한 이론과 방법에 우선하는 것이 표본설계에 필요한 정보의 양이다. 기본적으로 정확한 표본 조사를 위해서는 표본 추출틀이 갖고 있는 정보의 양이 충분해야 한다. 최근 산업구조의 빠른 변화와 산업의 융합으로 인해 대표적인 모집단 층화 정보인 정확한 산업분류를 갖고 있는 표본틀을 사용하는 경우는 흔치 않다. 이러한 정보부족 문제를 해결하여 추정의 정확성을 향상시킬 수 있는 표본설계 기법이 이중추출법(이상추출법)이다. 이중추출법에 관한 내용은 Cochran (1977)을 살펴보기 바라며 이중추출법에서 사용하는 대표적인 용어인 first phase sampling을 1차 조사, second phase sampling을 2차 조사로 사용하였다.

본 논문에서는 이중추출법의 2차 조사에서 발생한 이상점 처리 방법에 대하여 연구하였다. 흔히 1차 조사에서 관심변수와 관계가 높은 보조 변수가, 2차 조사에서 관심변수를 조사하게 된다. 따라서 2차 조사에서 얻어진 관심변수에서 발생한 이상점 처리는 모수 추정의 정확성 향상을 위해 매우 중요하다.

이중추출법에 관한 많은 연구가 매우 활발히 진행되고 있다. 먼저 Fuller (2000)는 이중추출에서의 회귀 추정을 연구하였다. 또한Hidiroglou (2001)는 내포 이중추출법(nested two phase sampling)과 비내포 이중추출법(non-nested two phase sampling)에서의 회귀추정량을 연구하였다.

이와 같이 보조변수를 이용한 추정량의 정밀성 향상과 관련된 여러 연구가 진행되었다. Hidiroglou와 Sandal (1998)은 이중추출법에서 보조 변수를 이용하여 추정량의 정확성을 높이는 방법으로 일반화최소제곱거리를 이용한 캘리브레이션 방법을 제안하였다. 이 캘리브레이션 방법은 얻어진 보조정보를 이용하여 가중치를 보정함으로써 추정의 정밀성을 향상시키는 방법이다. 이후 Wu와 Sitter (2001)는 완전 보조정보를 이용하여 일반화회귀모형(generalized regressive model)을 기반으로 한 캘리브레이션 방법에 관하여 연구하였다. Wu와 Luan (2003)에서는 이중추출을 위한 최적 캘리브레이션 추정량이 연구되었고 이후 Koyuncu와 Kadilar (2009)에서는 두 개의 보조정보가 있을 때 비추정(ratio estimator), 곱추정(product estimator) 그리고 비추정과 곱추정의 곱으로 얻어지는 추정량을 제안하였으며 이 추정량의 특징을 연구하였다. 이후 Singh 등 (2010)은 이중추출법에서 사용할 수 있는 추정량을 제안하였으며 이 논문에서는 캘리브레이션 기법을 통하여 얻어지는 비추정과 회귀추정(regression estimator) 그리고 곱추정이 연구되었다. 이러한 비추정과 곱추정은 2차 조사에서 얻어진 보조변수의 총합 또는 평균이 되도록 만들어 주는 캘리브레이션 추정량(calibration estimator)이 된다. 최근 Tailor 등 (2014, 2015) 이중추출법에서 사용할 수 있는 비추정과 회귀추정 형태의 지수 추정량과 일반화 ratio-cum-product 형태의 추정량을 연구하였다.

이렇게 이중추출법에서 사용하는 추정량의 정확성 향상을 위한 많은 연구가 수행되었고 Singh와 Kumar (2010)Singh 등 (2010)은 이중추출법의 2차 표본조사에서 발생한 무응답 처리에 관한 연구를 수행했음에도 불구하고, 이중추출법에서 발생하는 이상점 처리에 관한 연구는 미미한 상태이다.

이에 본 연구에서는 이중추출법에 적용되는 이상점 처리에 관해 연구하였다. 이상점은 대부분의 표본 조사에서 발생하게 되며 이중추출법을 사용할 경우에도 이상점은 발생하게 된다. 이상점을 탐지하기 위해 사용되는 방법은 여러 가지가 있으나 그 성능을 좌우하는 것은 관심변수와 관련된 보조변수 정보의 양이다. 따라서 이중추출과 같이 1차 조사에서 다양한 보조변수가 구해지고 많은 양의 보조 정보가 얻어진 경우에는 이 정보를 사용하는 방법에 따라 그 성능이 달라질 수 있다. 이상점 처리에 관한 내용은 먼저 Chamber과 Ren (2004)은 이상점인 경우 이상점을 탐지한 후 이상점을 신뢰구간의 상한 또는 하한으로 대체하는 방법과 랜덤으로 대체하는 방법을 제안하였다. 이후 Kim과 Shin (2013)에서는 이상점을 외표준화잔차를 이용하여 탐지한 후 이상점의 가중치를 보정하는 방법을 제안하였다. 최근 이상점 탐지를 위해 She와 Owen (2011)은Θ-IPOD 방법을 제안하였으며 Kim과 Shin (2014)은 이 방법을 적용하여 이상점과 무응답이 동시에 있는 표본 조사에서의 무응답 대체법을 연구하였다. 본 연구에서는 이상점 탐지법을 연구하는 것이 아니라 탐지된 이상점을 처리하는 방법을 연구하는 것이 목적이므로 이 방법을 사용하지 않고 쉽게 사용할 수 있는 이상점 탐지법인 외표준화잔차법을 사용하여 이상점을 탐지하였다. 흔히 표본조사에서는 탐지된 이상점의 가중치를 “0” 또는 “1”로 주는데 본 연구에서는 이중추출법의 1차 조사에서 얻어진 정보를 캘리브레이션하여 가중치를 새롭게 보정하는 방법을 제안하였다. 결론적으로 본 연구에서는 이중추출법의 2차 조사에서 발생한 이상점 처리를 위해 2차 조사에서 탐지된 이상점의 가중치를 보정하여 ratio-cum-product 추정량의 성능을 향상시키는 방법을 제안하였다.

본 논문의 구성은 다음과 같다. 먼저 2절에서 이중추출법과 외표준화잔차를 이용한 이상점 탐지법에 대해 설명하였다. 다음으로 3절에서는 본 연구에서 제안한 이상점 처리법을 설명하였다. 4절에서는 모의실험이 수행되었으며 5절에서는 실제 자료 분석이 수행되었다. 6절에 결론이 있다.

2. 이중추출법과 이상점 탐지법

2.1. 이중추출법

조사 목적에 따른 관심변수 Y를 직접 조사하는 것은 비용이 많이 들지만 관심변수 Y와 상관이 높은 보조변수 X를 조사하는 것은 비용이 적게 드는 경우, 1차로 큰 규모의 표본을 추출하여 보조변수 X를 조사하고, 얻어진 보조변수의 정보를 기초로 층화한 후에 2차로 1차 자료의 각 층에서 표본을 추출하여 관심변수 Y를 조사하는 것을 이중추출법(two phase sampling, double sampling)이라 한다. 이에 관한 내용은 Cochran (1977), Fuller (2000) 그리고 Hidiroglou (2001)을 살펴보기 바란다. 최근 이중추출법과 관련된 논문은 1차 조사에서 얻어진 정보를 이용하여 추정의 정확성을 향상시키는데 초점을 맞추고 있다. 먼저 Hidiroglou와 Sandal (1998)은 이중추출법에서 보조정보를 사용하여 캘리브레이션 방법으로 가중치를 보정하는 방법을 제안하였다. 이후 보조 정보를 활용하여 모형-캘리브레이션 방법을 사용하는 방법이 Wu와 Sitter (2001)에서 연구되었으며 이 방법은 이후 Wu와 Luan (2003)에서 이중추출법에 적용되었다. 최근 Singh 등 (2010), Tailor 등 (2014, 2015)은 이중 추출법에서 사용 가능한 방법인 비추정량과 곱추정량 그리고 이를 결합하여 만든 일반화 ratio-cum-product 추정량을 연구하였으며 ratio-cum-product 추정량의 정의는 다음과 같다.

Y¯^ds(α,β)=y¯2(x¯1x¯2)α(z¯2z¯1)β,

여기서x¯1=(1/n1h)i=1n1hx1hi,z¯1h=(1/n1h)i=1n1hz1hi는 1차 조사 보조 변수들의 평균 추정값이며x¯2=(1/n2h)i=1n2hx2hi,z¯2h=(1/n2h)i=1n2hz2hi는 2차 조사 보조 변수들의 평균 추정값이다.

이 추정량의 편향과 분산은 Tailor 등 (2015)를 참조하기 바란다. 이제 \alpha = 1, \beta = 0인 경우, 즉Y¯^ds(1,0)=y¯2(x¯1/x¯2)인 경우가 흔히 이중추출법에서 사용하는 비추정량이 되고, α = 0, β = 1인Y¯^ds(0,1)=y¯2(z¯2/z¯1)인 경우가 곱추정량이 된다. 만약 두 독립변수가 모두 있고, 종속변수와 독립변수의 관계가 비추정과 곱추정 사용에 적합한 경우에는 위의 식을 사용할 수 있다.

2.2. 이상점탐지법

본 연구에서는 회귀모형에서 사용되는 이상점 탐지법 중에서 외표준화잔차(studentized deleted residual)를 기준으로 한 방법을 이상점 탐지법으로 사용하였다. Kim과 Shin (2014)은 무응답 대체를 위해Θ-IPOD 방법을 사용한 이상점 탐지법을 사용하였지만 본 연구는 이상점을 탐지하는 것이 주된 목적이 아니라 탐지된 이상점을 적절히 처리하는 것이 목적이므로 SAS에서 쉽게 사용할 수 있는 방법인 외표준화잔차를 이용하였다. 다음이 외표준화잔차(externally studentized residual, studentized deleted residual)의 정의이다.

ti=ris(di)=ris(i)(1hii),

여기서ri=yiy^(i), yi는 관측값이고y^(i)i번째 관측값을 제거한 후에 얻어진 예측값을 의미한다. 또한 hii는 지렛값 또는 레버리지이다. ti의 분포는 우리가 잘 알고 있는 자유도 (n - p - 1)인 t-분포를 따르는 것으로 알려져 있다. 또한 외표준화잔차는 SAS/Proc REG의 출력결과(Rstudent)에서 쉽게 얻을 수 있는 결과이다.

3. 제안된 가중치 보정법

가중치 보정방법은 무응답과 이상점의 영향력을 줄이고 벤치마킹을 이용하기 위해 흔히 사용된다. 일반적인 방법은 표본설계 시에 정해진 설계 가중치에 각각의 요인에 해당되는 보정인자를 구한 후 이 보정 인자를 곱하여 최종 가중치를 얻는다. 본 연구에서는 무응답 보정과 벤치마킹 보정을 고려하지 않고 다만 이상점 보정만을 고려한다. 따라서 최종 가중치 wf는 설계 가중치를 w라 하고 이상점 보정인자를 f라 하였을 때 wf = w × f로 정해진다. 이제 n개의 자료에서 k개의 이상점이 존재할 경우에 흔히 사용하는 가중치 보정방법을 설명하면 다음과 같다. 먼저 이상점인 경우 이상점 보정인자 f = 0으로 한다. 따라서 이상점의 최종 가중치 wf = 0이 된다. 결국 이상점인 경우 wf = 0이고 정상자료인 경우wf=w(n/(nk))이 된다. 또한 이와 유사한 방법으로 이상점인 경우에는 wf = 1을 사용하고 정상자료인 경우에는wf=w(1+{k(w1)}/{w(nk)})을 사용한다. 이 방법들은 이미 여러 논문에서 사용되고 있다.

본 연구에서는 비추정 캘리브레이션을 이용한 이상점 처리 방법을 제안하였다. 먼저 Kim과 Shin (2014)에서는 이상점으로 탐지된 경우, 이상점을 제거하는 대신 이상점의 가중치를 “1”로 보정하여 사용할 것을 제안하였다. 본 연구에서는 이중추출법이 사용되기 때문에 이 방법을 확장할 수 있다. 1차 조사에서 두 보조변수의 평균11이 구해지고, 2차 조사에서 22가 구해지면 ratio-cum-product 추정량은 이중추출 추정량을 1차 조사 추정값으로 캘리브레이션 해주는 방법이다. 따라서 ratio-cum-product 추정량의 가중치를 기본으로 이상점인 경우에는 가중치를 “1”로 하고 정상 자료인 경우에는 이상점이 갖고 있는 나머지 가중치를 분배하는 방법을 이용하여 가중치를 보정할 수 있다. 본 연구에서는 실제 표본설계에서 사용하는 층화이중추출법을 고려하였고 따라서 가중치 보정도 층별로 이루어진다.

3.1. 이상점 처리전 가중치

이상점을 처리하지 않고, 기존의 방법인 ratio-cum-product 추정량의 가중치를 사용한다.

방법 0:

다음의 층별 가중치는 ratio-cum-product 추정량의 가중치이다.

whf(0)=w1hw2h(x¯1hx¯2h)α(z¯2hz¯1h)β,

여기서w1h=N1h/n1h,w2h=N1h/n2hh층의 1차 설계 가중치와 2차 설계 가중치이며x¯1h,x¯2h,z¯1h,z¯2h는 각각 1차 조사와 2차 조사의 h층의 평균 추정량이다. 따라서 ratio-cum-product 추정량은Y¯^dsα,β(0)=(1/N1h)i=1n2hwhf(0)y2hi이 된다. 모의실험에서는 이 결과를 M0로 표시하였다.

3.2. 제안된 보정 가중치

다음의 방법 1에서 방법 4는 본 연구에서 제안한 방법이다. 이 방법은 이중추출에서 얻을 수 있는 보조정보를 이용하여 가중치를 캘리브레이션 방법으로 보정하는 방법이다.

방법 1:

2차 조사 자료에서 탐지된 이상점의 가중치를 “1”로 한다. 이상점의 나머지 가중치는 정상 자료에 나누어 주는 보정 가중치를 사용한다.

● 이상점인 경우:

whf(1)=w1h×w2h×1w2h=w1h.

● 정상자료인 경우:

whf(1)=w1h×w2h(1+k2h(wh1)wh(n2hk2h))(x¯1hx¯2h)α(z¯2hz¯1h)β.

따라서 ratio-cum-product 추정량은Y¯^dsα,β(1)=(1/N1h)i=1n2hwhf(1)y2hi이 된다. 모의실험에서는 이 결과를 M1로 표시하였다.

방법 2:

2차 조사 자료에서 탐지된 이상점의 가중치를 “1”로 하면서 캘리브레이션 방법을 적용한다. 이상점의 나머지 가중치는 정상 자료에 나누어 주는 보정 가중치를 사용한다.

● 이상점인 경우:

whf(2)=w1h×w2h×1w2h×(x¯1hx¯2h)α(z¯2hz¯1h)β=w1h×(x¯1hx¯2h)α(z¯2hz¯1h)β.

● 정상자료인 경우:

whf(2)=w1h×w2h(1+k2h(wh1)wh(n2hk2h))(x¯1hx¯2h)α(z¯2hz¯1h)β.

따라서 ratio-cum-product 추정량은Y¯^dsα,β(2)=(1/N1h)i=1n2hwhf(2)y2hi이 된다. 모의실험에서는 이 결과를 M2로 표시하였다.

방법 3:

2차 조사 자료에서 탐지된 이상점의 가중치를 “1”로 한다. 이상점의 나머지 가중치는 정상 자료에 나누어 주는 보정 가중치를 사용한다. 다만 이상점으로 탐지된 자료인 x2hiout, z2hiout을 평균 추정에서 제외시킨다.

● 이상점인 경우:

whf(3)=w1h×w2h×1w2h=w1h.

● 정상자료인 경우:

whf(3)=w1h×w2h(1+k2h(wh1)wh(n2hk2h))(x¯1h*x¯2h*)α(z¯2h*z¯1h*)β,

여기서x¯1h*=(i=1n1hx1hii=1k2hx2hiout)/(n1hk2h),x¯2h*=(i=1n2hx2hii=1k2hx2hiout)/(n2hk2h)이고x2hiout은 2차 조사에서 이상점으로 탐지된 자료이다. 같은 방법으로z¯1h*=(i=1n1hz1hii=1k2hz2hiout)/(n1hk2h),z¯2h*=(i=1n2hz2hii=1k2hz2hiout)/(n2hk2h)이다. 따라서 ratio-cum-product 추정량은Y¯^dsα,β(3)=(1/N1h)i=1n2hwhf(3)y2hi이 된다. 모의실험에서는 이 결과를 M3로 표시하였다.

방법 4:

2차 조사 자료에서 탐지된 이상점의 가중치를 “1”로 하면서 캘리브레이션 방법을 적용한다. 이상점의 나머지 가중치는 정상 자료에 나누어 주는 보정 가중치를 사용한다.

● 이상점인 경우:

whf(4)=w1h×(x¯1h*x¯2h*)α(z¯2h*z¯1h*)β.

● 정상자료인 경우:

whf(4)=w1h×w2h(1+k2h(wh1)wh(n2hk2h))(x¯1h*x¯2h*)α(z¯2h*z¯1h*)β,

여기서x¯1h*,x¯2h*,z¯1h*,z¯2h*은 방법 3과 같은 값을 사용한다. 따라서 ratio-cum-product 추정량은Y¯^dsα,β(4)=(1/N1h)i=1n2hwhf(4)y2hi이 된다. 모의실험에서는 이 결과를 {M_4}로 표시하였다.

4. 모의실험

4.1. 모의실험 세팅

이상점의 영향력을 줄이기 위한 가중치 보정법의 성능을 살펴보기 위해 모의실험이 수행되었다. 모의실험을 위한 자료의 생성과정은 Lee 등 (1995)에서 사용한 방법과 유사한 방법을 사용하였다. 먼저 크기 N = 100,000인 모집단을 다음과 같이 생성하였다. 종속변수와 독립변수 간에 선형 및 비선형 관계를 만들기 위해 다음의 모형이 사용되었다.

yi=a+bxi+czi+εi,εi~iid(0,xidσ2),

여기서 보조자료 xi는 Gamma(α**), (α* = 2,β* = 10)에서,zi는 Gamma(α**), (α* = 2,β* = 2)에서 생성하였다. 이는 현실 자료에서는 꼬리가 오른쪽으로 긴 분포에서 생성된 자료가 많기 때문이다. 다음으로 오차 εi 의 경우에는 감마분포(α* = 1,β* = 1)와 표준정규분포를 이용하여 난수를 발생한 후 발생된 수에 xd/2를 곱하여 오차를 생성하였다. Table 4.1은 선택된 상수 a,b,c,d의 값을 나타낸다. 상수 a,b,dLee 등 (1995)에서 사용한 숫자이고 c는 곱추정을 위해 선택하였다. 첫 번째로 생성된 자료는 관심변수와 보조변수의 관계가 원점을 지나는 비례적 형태(ratio)이고, 두 번째 자료는 양의 절편 값을 갖는 선형관계(regression)를 갖도록 하였다.

Coefficients for the simulation

 Population type abcd
Ratio 0  1.50  −2.00  0.25 
01.50−2.000.50

Linear201.50−2.000.25
201.50−2.000.50

이제 1차 조사의 표본수, n1을 20,000, 30,000으로 하고, 2차 조사의 표본 수, n2를 300, 500, 700으로 하였다. 층화추출의 특성상 하나의 층에서 우수한 결과가 나오면 이를 전체 모집단 결과로 확장할 수 있기 때문에 모의실험을 간단히 하기 위하여 하나의 층만 있는 경우를 살펴보았다. 본 연구에서 사용한 비교 통계량은 편향(bias)와 절대편향(absolute bias; AB), 제곱근평균제곱오차(root mean squared error; RMSE)이고 다음과 같이 정의한다.

Bias=1Rr=1R(Y^rYr),AB=1Rr=1R|Y^rYr|,RMSE=(1Rr=1R(Y^rYr)2)12,

여기서 반복수 R = 2,000을 사용하였다. 또한 외표준화잔차의 절대값이 “3”이상인 경우를 이상점으로 탐지하였다.

4.2. 모의실험 결과

모의실험 결과는 비추정량을 사용하면서 오차의 분포가 정규분포 그리고 감마분포인 경우를 정리하였으며 다음으로 ratio-cum-product 추정량을 사용하면서 오차의 분포가 정규분포 그리고 감마분포인 경우를 정리하였다.

4.2.1. 오차가 정규분포를 따르고, 비추정량을 사용한 결과

Tables 4.24.9에 비추정량(α = 1,β = 0)을 사용하면서 오차가 정규분포인 결과를 수록하였다. 여기서 1차 조사의 표본 수 n1은 30,000이고 2차 조사의 표본 수 n2는 300, 500, 700이다.

Ratio estimator results for bias with n1 = 30,000, d = 0.25 (Normal dist)

n2 Pop type Bias

M0M1M2M3M4
300Ratio74773962396477617765
Linear 14278  10783  10787  17102  17107 

500Ratio78544424442881028108
Linear12376896489701509915107

700Ratio86775276528289258933
Linear1362610181101891636816380

Ratio estimator results for absolute bias (AB) with n1 = 30,000, d = 0.25 (Normal dist)

n2 Pop type AB

M0M1M2M3M4
300Ratio75144082408577977801
Linear 14910  11826  11830  17593  17599 

500Ratio78584438444281068112
Linear12710966096671531415323

700Ratio86775277528389258933
Linear1372110430104391642716438

Ratio estimator results for root mean squared error (RMSE) with n1 = 30,000, d = 0.25 (Normal dist)

n2 Pop type RMSE

M0M1M2M3M4
300Ratio85154734473788748879
Linear 17568  14200  14206  20608  20616 

500Ratio84724883488787628769
Linear1481611618116271761317624

700Ratio91135612561893909399
Linear1521711889119001803018044

Ratio estimator results for bias with n1 = 30,000, d = 0.5 (Normal dist)

n2 Pop type Bias

M0M1M2M3M4
300Ratio15366765176581621216224
Linear 25088  17245  17255  31875  31891 

500Ratio13709601960311453114551
Linear2406316337163533069630721

700Ratio13601595259691437814405
Linear2427216640166623081930854

Ratio estimator results for absolute bias (AB) with n1 = 30,000, d = 0.5 (Normal dist)

n2 Pop type AB

M0M1M2M3M4
300Ratio15370768076871621616229
Linear 25168  17502  17512  31926  31943 

500Ratio13709604660581453114551
Linear2407416419164353069830723

700Ratio13601596759831437814405
Linear2427316668166903081930854

Ratio estimator results for root mean squared error (RMSE) with n1 = 30,000, d = 0.5 (Normal dist)

n2 Pop type RMSE

M0M1M2M3M4
300Ratio16352848084881733517348
Linear 27754  19998  20012  34942  34962 

500Ratio14411672167331532415345
Linear2583918207182273272232752

700Ratio14126650265191496814996
Linear2556117995180213227332312

Ratio estimator results for bias with n1 = 30,000, d = 0.25 (Gamma dist)

n2 Pop type Bias

M0M1M2M3M4
300Ratio13421845184571179611804
Linear 21295  16199  16208  21863  21874 

500Ratio13600864186601198311995
Linear2044215497155112091020928

700Ratio13003813281461138111397
Linear1943314515145341989719921

Ratio estimator results for absolute bias (AB) with n1 = 30,000, d = 0.25 (Gamma dist)

n2 Pop type AB

M0M1M2M3M4
300Ratio13421845184571179611804
Linear 21452  16564  16573  22069  22081 

500Ratio13600865186601198311995
Linear2046715580155942094020957

700Ratio13003813281461138111397
Linear1943814566145861990619930

결과를 살펴보면 M3,M4의 경우는 이상점을 처리하지 않은 M0에 비해 성능이 떨어지는 것을 확인 할 수 있다. 반면 M1,M2의 경우는 M0에 비해 우수한 결과를 주고 있다. 특히 본 추정량이 비추정량이기 때문에 모집단 형태가 Ratio 형태인 경우에 매우 우수한 결과를 주고 있다. M1M2를 비교하면 미미하지만 M1이 모든 통계량을 기준으로 우수한 것을 확인할 수 있다. 이러한 결과는 d = 0.25,0.5에서 모두 확인된다.

4.2.2. 오차가 감마분포를 따르고, 비추정량을 사용한 결과

다음으로 오차가 감마분포를 따르고, 비추정량(α = 1,β = 0)을 사용한 결과를 Tables 4.84.13에 수록하였다. Tables 4.84.13의 결과를 살펴보면 정규분포를 사용한 결과인 Tables 4.24.7의 결과와 매우 유사하다. 따라서 종속변수의 분포가 정규분포 또는 감마분포를 따르더라도 M1방법이 가장 우수한 것을 확인할 수 있다.

Ratio estimator results for root mean squared error (RMSE) with n1 = 30,000, d = 0.25 (Gamma dist)

n2 Pop type RMSE

M0M1M2M3M4
300Ratio13976880788141243412443
Linear 23910  18997  19009  24816  24830 

500Ratio13971889889091240612419
Linear2207417284173012274322764

700Ratio13294835983731171311731
Linear2075315964159872138621414

Ratio estimator results for bias with n1 = 30,000, d = 0.5 (Gamma dist)

n2 Pop type Bias

M0M1M2M3M4
300Ratio16009551355231209112105
Linear 26810  16139  16152  27001  27020 

500Ratio15294490349191136211384
Linear2378813384134052377223801

700Ratio15827544954711191511947
Linear2408113762137902407224112

Ratio estimator results for absolute bias (AB) with n1 = 30,000, d = 0.5 (Gamma dist)

n2 Pop type AB

M0M1M2M3M4
300Ratio16009564456541210512119
Linear 26847  16575  16589  27090  27109 

500Ratio15294495749721136211384
Linear2383613686137072383923869

700Ratio15827546754891191511947
Linear2408613873139012408124121

Ratio estimator results for root mean squared error (RMSE) with n1 = 30,000, d = 0.5 (Gamma dist)

n2 Pop type RMSE

M0M1M2M3M4
300Ratio16909642664371323313249
Linear 29530  19329  19347  30348  30371 

500Ratio15885558956051211912143
Linear2560515728157542594925983

700Ratio16283595759791249712530
Linear2537215367154002565125695

4.2.3. 오차가 정규분포를 따르고, ratio-cum-product 추정량을 사용한 결과

오차가 정규분포를 따르고, ratio-cum-product 추정량을 사용한 결과를 Tables 4.144.19에 수록하였다. 여기서 M1M2 결과는 이상점 처리를 하지 않은 M0에 비해 매우 나쁜 결과를 주기 때문에 결과표에 수록하지 않았다. 반면 M3M4의 결과에서는 α = 1과 α = 0.5를 사용하였다. 아직 α 의 추정에 관한 연구가 실시되지 않았기 때문에 여기서 여러 α 값을 사용하여 얻은 결과 중에서 α = 0.5인 결과를 수록하였다. 표에서 M3 - (1), M4 - (1)이 α = 1을 사용한 결과이며 M3 - (0.5), M4 - (0.5)는 α = 0.5를 사용한 결과이다.

Simulation results for bias with n1 = 30,000, d = 0.25 (Normal dist)

n2 Pop type Bias

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio 2169  −703  −702  1313  1314 
Linear45791148114913131314

500Ratio2248−671−67014411443
Linear54492067206954895493

700Ratio2027−881−87912431246
Linear413581181442064211

Simulation results for absolute bias (AB) with n1 = 30,000, d = 0.25 (Normal dist)

n2 Pop type AB

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio68406502650333823382
Linear 12394  11567  11571  6860  6864 

500Ratio54945106510728342834
Linear104909299930467116716

700Ratio47264365436624732473
Linear84897645765253695376

Simulation results for root mean squared error (RMSE) n1 = 30,000, d = 0.25 (Normal dist)

n2 Pop type RMSE

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio86318117811942674267
Linear 15624  14494  14499  8638  8643 

500Ratio69656429643035533552
Linear13043116181162581898195

700Ratio59325492549431003099
Linear106949556956465976605

Simulation results for bias with n1 = 30,000, d = 0.5 (Normal dist)

n2 Pop type Bias

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio 3460  −3280  −3277  −56  −52 
Linear117854120412688398846

500Ratio3723−2869−28658491
Linear98932388239673717382

700Ratio5002−1599−159415961604
Linear108463540355084728487

Simulation results for absolute bias (AB) with n1 = 30,000, d = 0.5 (Normal dist)

n2 Pop type AB

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio 7845  7383  7384  3850  3849 
Linear15818123701237898949903

500Ratio67236111611231843183
Linear126379313932380668078

700Ratio64114859486029722974
Linear125238509852287898804

Simulation results for root mean squared error (RMSE) with n1 = 30,000, d = 0.5 (Normal dist)

n2 Pop type RMSE

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio97779219922147854784
Linear 19888  15700  15709  12070  12080 

500Ratio83147601760239653964
Linear15731117331174697199733

700Ratio79136023602537193721
Linear1516210625106411016610184

먼저 bias를 기준으로 결과를 살펴보면 제안된 방법인 M3 - (1),M3 - (0.5),M4 - (1),M4 - (0.5)M0보다 우수한 것을 확인할 수 있다. 이에 추가하여 α = 1을 사용한 경우인 M3 - (1),M4 - (1)가 약간 우수한 것을 확인할 수 있다. 그러나 d = 0.5이고 비례형인 경우에는 α = 0.5인 결과가 우수하다. 다음으로 AbsolutebiasRMSE를 기준으로 하면 α = 0.5인 M3 - (0.5),M4 - (0.5)결과가 매우 우수한 것을 확인할 수 있다. 이를 종합해 보면 미미한 차이이기는 하지만 M3 - (0.5)가 가장 우수한 결과를 준다고 판단된다.

4.2.4. 오차가 감마분포를 따르고, ratio-cum-product 추정량을 사용한 결과

마지막으로 오차가 감마분포를 따르고 ratio-cum-product 추정량을 사용한 결과를 Tables 4.204.25에 수록하였다. 결과를 살펴보면 정규분포 결과와 같이 감마분포에서도 ABRMSE를 기준으로 하면 M3 - (0.5)M4 - (0.5)가 가장 우수한 결과를 준다. 그러나 bias를 기준으로 하면 선형이고 d = 0.25인 경우 오히려 M0에 비해 성능이 떨어지는 경우도 발생할 수 있음을 확인할 수 있다. 결과를 종합해 보면 ratio-cum-product 추정량에서는 M3 - (0.5)가 매우 우수한 결과를 주고 있다.

Simulation results for bias with n1 = 30,000, d = 0.25 (Gamma dist)

n2 Pop type Bias

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio882−3535−3534469472
Linear3187−1691−168950095013

500Ratio1999−2389−238718691873
Linear 2319  −2526  −2523  3973  3980 

700Ratio594−3747−3745477483
Linear3567−1141−113753485358

Simulation results for absolute bias (AB) with n1 = 30,000, d = 0.25 (Gamma dist)

n2 Pop type AB

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio 7153  7395  7397  3196  3195 
Linear13225125741258277337740

500Ratio56735589559129202921
Linear102219944995361226132

700Ratio47225575557722402239
Linear87957994800462946306

Simulation results for root mean squared error (RMSE) with n1 = 30,000, d = 0.25 (Gamma dist)

n2 Pop type RMSE

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio 9011  9268  9270  4015  4014 
Linear16486156701567996569665

500Ratio71546985698836483649
Linear12860124501246276567668

700Ratio59106810681228202819
Linear10939100431005675667581

Simulation results for bias with n1 = 30,000, d = 0.5 (Gamma dist)

n2 Pop type Bias

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio4138 −5664  −5662  −1142  −1136 
Linear7804−2413−240945024510

500Ratio2381−7261−7257−2739−2731
Linear9178−968−96157225735

700Ratio4481−4978−4973−805−793
Linear7436−2523−251443094327

Simulation results for absolute bias (AB) with n1 = 30,000, d = 0.5 (Gamma dist)

n2 Pop type AB

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio85938828883037973795
Linear 15255  13484  13493  8081  8091 

500Ratio65738439843936473641
Linear13098100821009372157229

700Ratio64566529653025932589
Linear108408829884258805898

Simulation results for root mean squared error (RMSE) with n1 = 30,000, d = 0.5 (Gamma dist)

n2 Pop type RMSE

M0M3-(1)M4-(1)M3-(0.5)M4-(0.5)
300Ratio 10732  10882  10885  4711  4709 
Linear1939716897169091015510167

500Ratio8128101941019545454539
Linear16292126771269289108928

700Ratio80087996799832393235
Linear13542109121092872807303

5. 실제 자료 분석

2012년 연탄소비실태조사의 건별 판매량 자료 중 각 배달업자의 판매건수 및 판매량 자료 1,857개가 분석에 사용되었으며 이때 관심변수는 판매량이고 보조변수는 판매건수이다. 유사모집단을 생성하기 위해 20번의 복원추출이 사용되었다. 이렇게 만들어진 유사모집단에서 1차 조사를 위해 2,000개의 표본을 추출하고 2차 조사에서는 각각 200, 400, 600개의 표본을 추출하였다. 3.1절에서 설명한 외표준화잔차를 이용하여 이상점을 탐지하였으며 이상점 탐지 기준으로 외표준화잔차의 절대값이 2.54 이상을 사용하였다. 여기서 사용한 반복수는 R = 2,000이다. 독립변수가 하나뿐이고 양의 관계가 있기 때문에 비추정량이 사용되었다. 실제 자료 분석 결과를 Tables 5.15.3에 수록하였다. 이때 2차 표본 수 200, 400 그리고 600에 해당되는 이상점은 평균적으로 각각 9.7개, 13.4개 그리고 20.1개로 나타났으며 비율로 보면 각각 0.048%, 0.033% 그리고 0.033%가 된다.

Bias results for real data analysis

n1n2Bias

M0M1M2M3M4
2000 200  106935  65784  67395  77098  76244 
4005710550736508695429254490
60020656444655282161923715

Absolute bias (AB) results for real data analysis

n1n2AB

M0M1M2M3M4
2000200 107490  71102  71511  153223  162179 
4005857352205523375576155959
6004850636863377235118253000

Root mean squared error (RMSE) results for real data analysis

n1n2RMSE

M0M1M2M3M4
2000200 120550  84283  84981  471337  528501 
4007402865998661827158171888
6005757041039421756108064147

Tables 5.15.3의 실제 자료 분석 결과를 살펴보면 모의실험 결과와 일치하는 것을 알 수 있다. 즉 M3, M4의 경우 비추정량에서는 이상점 처리를 하지 않은 M0에 비해 우수한 결과를 주지 못하고 있다. 반면 M1M2는 모든 통계량을 기준으로 하였을 때 매우 우수한 결과를 주고 있다.

6. 결론

본 논문에서는 원할한 모의실험을 위해 이상점 탐지법으로 외표준화잔차를 이용하였다. 그러나 모의실험이 아닌 실제 자료 분석에서는 Θ -IPOD를 사용하면 더욱 우수한 이상점 탐지 결과를 얻을 수 있을 것으로 판단되며 현재 Θ -IPOD는 R-code로 되어있어 R에 익숙한 사람은 쉽게 사용할 수 있다.

흔히 이상점에 가중치를 “1”로 주는 이상점 가중치 보정 방법이 표본 조사에서 사용된다. 본 논문에 결과를 수록하지 않았지만 이중추출의 경우 이상점으로 식별된 자료에 단순히 가중치를 “1”로 주는 방법은 매우 좋지 않은 결과를 주기 때문에 1차 조사 정보를 반드시 사용해야 한다. 이 방법이 M1M3이다.

이상점 탐지 방법의 선택은 매우 중요하다. 방법에 따라 탐지된 이상점 수가 달라지게 되고, 이상점이 아님에도 이상점이라 판단하게 되면 그 결과는 추정의 정밀성에 매우 큰 영향을 미치게 된다. 같은 이유로 이상점 판단 기준점도 이상점 탐지에 중요한 요인이 될 수 있다. 본 연구에서의 모의실험에서는 잔차의 크기가 3 이상인 경우 이상점이라 판단하였으며 실제자료 분석에서는 2.54 이상인 경우를 이상점이라 판단하였다.

ratio-cum-product 추정량의 경우 α 값을 결정하는 것이 매우 중요하다. 흔히 α = 1,α = 1을 사용하고 있는데, 본 모의실험 결과 α = 0.5인 경우의 결과가 매우 우수한 것을 확인하였다. 따라서 향후 α 와 α 를 적절히 추정하여 사용한다면 더욱 좋은 결과를 얻을 수 있을 것으로 판단된다.

References
  1. Chamber R. L, and Ren R. (2004) Outlier robust imputation of survey data. ASA Section on Survey Research Methods .
  2. Cochran W. G. (1977). Sampling Techniques , New York.
    KoreaMed
  3. Fuller W. A., Two-phase sampling, SSC Annual meeting (2000). In Proceedings of the Survey Methods Section , pp.23-30, Ottawa, Canada.
  4. Hidiroglou M. A. (2001) Double sampling. Survey Methodology 27, 143-154.
  5. Hidiroglou M. A, and Sandal C. E. (1998) Use of auxiliary information for two-phase sampling. Survey Methodology. Amstat proceeding .
  6. Kim J.-Y, and Shin K.-I. (2013) Multiple imputation reducing outlier effect using weight adjustment methods. .
  7. Kim M.-K, and Shin K.-I. (2014) A multiple imputation for reducing outlier effect. The Korean Journal of Applied statistics 27, 1229-1241.
  8. Koyuncu N, and Kadilar C. (2009) Family of estimators of population mean using two auxiliary variable in stratified random sampling. Communications in Statistics-Theory and Methods 38, 2938-2417.
    CrossRef
  9. Lee H, Rancourt E, and Sarndal C.-E. (1995) Experiment with variance estimation from survey data with imputed value. Journal of Official Statistics 10, 231-243.
  10. She Y, and Owen A. B. (2011) Outlier detection using nonconvex penalized regression. Journal of the American Statistical Association 106, 626-639.
    CrossRef
  11. Singh H. P, and Kumar S. (2010) Estimation of mean in presence of non-response using two phase sampling scheme. Statistical Papers 51, 559-582.
    CrossRef
  12. Singh H. P, Kumar S, and Kozak M. (2010) Improved estimation of finite-population mean using sub-sampling to deal with non response in two-phase sampling scheme. Communications in Statistics-Theory and Methods 39, 7911-802.
    CrossRef
  13. Tailor R, Chouhan S, and Kim J.-M. (2014) Ratio and product type exponential estimators of population mean in double sampling for stratification. Communications for Statistical Application and Methods 21, 1-9.
    CrossRef
  14. Tailor R, Lone H. A, and Pandey R. (2015) Generalized ratio-cum-product type estimator of finite population mean in double sampling for stratification. Communications for Statistical Application and Methods 22, 255-264.
    CrossRef
  15. Wu C, and Luan Y. (2003) Optimal calibration estimator under two-phase sampling. Journal of Official Statistics 19, 119-131.
  16. Wu C, and Sitter R. R. (2001) A Model-calibration approach to using complete auxiliary information from survey data. Journal of the American Statistical Association 96, 185-193.
    CrossRef