search for




 

사영에 의한 혼합효과모형
Mixed-effects model by projections
Korean J Appl Stat 2016;29(7):1155-1163
Published online December 31, 2016
© 2016 The Korean Statistical Society.

최재성a,1
Jaesung Choia,1

a계명대학교 통계학과

aDepartment of statistics, Keimyung University
(42601) 대구광역시 달서구 딜구벌대로 1095, 계명대학교 통계학과. E-mail: jschoi@kmu.ac.kr
Department of Statistics, Keimyung University, 1095 Dalgubeoldaero, Dalseogu, Daegu 42601, Korea. E-mail: jschoi@kmu.ac.kr
Received March 2, 2016; Revised May 13, 2016; Accepted July 7, 2016.
Abstract

본 논문은 혼합효과의 선형모형에서 분산성분들의 추정방법으로 사영을 다루고 있다. 상수적합법에서 이용되는 제곱합에서의 감소(reductions in sums of squares) 대신에 사영을 이용하여 구하는 방법을 제시하고 있다. 단계별 방법에 의한 잔차모형으로부터 각 분산성분의 추정과 관련된 사영행렬을 구성하는 방법을 제공하고 있다. 사영행렬로 표현되는 이차형식의 기댓값을 이용하여 선형방정식계를 구성하고 적률법으로 분산성분을 추정하게 된다. 고정효과는 가중최소제곱법으로 추정되고 분산성분의 신뢰구간추정에 Satterthwaite의 근사과정으로 자유도를 계산하는 방법을 설명하고 있다.

This paper deals with an estimation procedure of variance components in a mixed effects model by projections. Projections are used to obtain sums of squares instead of using reductions in sums of squares due to fitting both the assumed model and sub-models in the fitting constants method. A projection matrix can be obtained for the residual model at each step by a stepwise procedure to test the hypotheses. A weighted least squares method is used for the estimation of fixed effects. Satterthwaite’s approximation is done for the confidence intervals for variance components.

1. 서론

실험단위의 반응에 영향을 주는 요인들로 고정요인과 확률요인이 포함되어 있을 때 실험자료를 분석하기 위한 모형으로 혼합효과의 선형모형을 가정하게 된다. 혼합모형의 가정에서 행해지는 분석은 고정효과의 분석과 확률효과의 분석으로 이루어진다. 혼합모형의 분석에 관한 연구는 Milliken과 Johnson (1984) 그리고 Searle (1971) 등의 많은 문헌에서 다루어지고 있다. 혼합모형의 분석방법으로 적률법, 최대우도법, MINQUE 방법 등을 이용할 수 있다.

실험자료의 분석모형으로 혼합모형을 가정할 수 있을 때 실험단위의 반응벡터를 -라 두면 의 벡터공간에서 사영에 의한 분석이 가능하다. Choi (2011, 2012)는 자료분석을 위한 다양한 모형의 가정하에 벡터공간에서 정의되는 사영의 관점에서 분석하는 방법을 논의하고 있다. 사영에 의한 혼합모형의 분석을 위해 기존의 자료분석 방법 중 적률법이 이용될 때 적률법에 의한 분석과정에서 사영이 어떻게 활용될 수 있는가를 논의하고 그 결과가 동일함을 입증해 보이고자 한다. 이는 사영에 의한 분석이 자료분석의 다양한 선형모형하에서 효율적으로 이용될 수 있음을 보여주며 자료분석의 또 다른 측면에서 접근할 수 있는 방법을 제공하게 된다.

혼합모형의 가정하에 적률법으로 자료분석을 하는 경우에 확률성분의 추론을 위해 일반적으로 상수적합법(fitting constants method) 또는 Henderson (1953) 방법 III(Henderson’s Method III)에 의해서 변동요인들의 제곱합을 구하게 된다. 그러나 고정효과 부분의 추론에는 다양한 모형비교방식을 이용할 수 있게 된다. 분산성분의 추정을 위한 제곱합의 계산에 이용되는 상수적합법은 제곱합에서의 감소(reduction in sum of squares)로 주어지고 R(·|·)로 표시된다. 사영에 의한 제곱합의 계산도 동일하게 구해짐을 다루게 된다. 혼합효과의 고정효과 부분에 대한 분석에도 사영이 어떻게 활용되는가를 논의하게 된다.

본 논문은 혼합모형을 이루는 두 유형의 효과를 추론하기 위한 분석과정에 벡터공간에서 정의되는 사영을 자료분석에 활용하는 방법을 제시하고 사영과 관련된 성질들을 이용한 자료분석의 효율성을 논의하는 데 초점을 두고 있다. 사영과 관련된 자세한 논의는 Johnson과 Wichern (1988) 그리고 Graybill (1983) 등에서 볼 수 있다.

2. 모형의 가정

실험자료의 분석을 위한 일반적인 혼합모형의 행렬표현식은 다음과 같다.

y=X1β1+X2δ2+X3δ3++Xkδk+ε.

단, yn×1인 관측벡터이고 X1은 원소가 0 또는 1로 구성되며 크기가 n×p인 고정효과벡터의 계 수행렬로 계수(rank)가 q (< p)이다. β1p×1 인 모수벡터이다. Xi, i = 2, 3, …, k는 확률효과벡 터 δi의 계수행렬로 0 또는 1로 구성되며 크기가 n×ci인 완전계수행렬(full rank matrix)이다. δiN(0,σi2Ici)인 분포를 따르며 δi, i = 2, 3, …, k는 상호 독립이라고 가정한다. ϵn×1인 오차벡터 이며N(0,σε2In)인 분포를 따른다고 가정한다. 오차벡터와 확률효과벡터들은 서로 독립으로 가정한다. 식 (2.1)은 X1β1으로 주어지는 고정효과부분과 X2δ2 + …+ Xkδk + ϵ인 확률효과부분의 두 성분으 로 구성되므로 분석도 고정성분과 확률성분의 두 부분으로 나누어 행해진다. 혼합모형의 전체적 분석은 확률성분의 분석후에 고정효과의 분석이 가능하므로 확률성분의 분석을 위해

y=X1β1+ε1

인 고정효과모형으로 표현한다. 단, ϵ1 = X2δ2+ … +Xkδk + ϵ이다. Var(ϵ1) = Σ라 두면Σ는

Σ=σ22X2X2'+σ32X3X3'++σk2XkXk'+σε2In

이다. 고정효과모형으로 변환된 식 (2.2)을 최소제곱법을 이용하여 자료에 적합시켜 잔차를 구한다. 잔차를 r1이라 두자. Moore-Penrose의 일반화된 역행렬을 이용한 정규방정식의 해벡터 β^1β^1=X1y 로 구해지므로

r1=(IX1X1)y=(IX1X1)X2δ2++(IX1X1)Xkδk+(IX1X1)ε

이다. 식 (2.4)의 잔차모형은 혼합모형의 고정효과부분인 X1β1에 종속되지 않는 확률모형이다. 상수적합법으로 불리우는 Henderson 방법 III은 잔차의 확률모형에서 분산성분을 구하는 방법을 제공하나 본 논문에서는 사영을 이용하여 분산성분을 구하는 방법을 살펴보기로 한다. 분산성분에 관련된 논의는 Searle 등 (1992)에서 보여진다.

3. 잔차의 확률모형에 대한 사영

잔차모형에 대해 사영을 정의해 보기로 한다. 식 (2.4)의 잔차확률모형으로부터 잔차벡터 r1은 (nq)차원의 벡터부분공간에 속하는 n개 성분의 열벡터이다. 잔차벡터가 k개 성분벡터들의 합으로 구성되므로 r1의 벡터공간을 k개 분산성분별 벡터공간으로 분할하는 방법을 이용한다. 분할하는 방법으로 모형의 적합방식 중 제1종 제곱합을 구하는 단계별 방법(stepwise procedure)을 가정한다. 단계별 방법에 의한 δ2의 계수행렬 (IX1X1)X2 로의 사영을 구하기 위한 모형은

r1=(IX1X1)X2δ2+ε2

이다. 확률벡터 δ2의 추정을 위한 계수행렬 (IX1X1)X2 로의 사영은 [(IX1X1)X2][(IX1X1)X2]r1이다. r1에서 (IX1X1)X2 로의 사영을 뺀 잔차를 r2라 두면

r2=r1[(IX1X1)X2][(IX1X1)X2]r1=(IX1X1[(IX1X1)X2][(IX1X1)X2])y=(IX1X1X2pX2p)y

로 표현된다. 단, X2p=(IX1X1)X2이다. 식 (3.2)에서(IX1X1X2pX2p)X1X2와의 곱이 영행렬이므로 δ3에 대한 모형은

r2=(IX1X1X2pX2p)X3δ3+ε3

이다. δ3를 추정하기 위한 공간으로의 사영은[(IX1X1X2pX2p)X3][(IX1X1X2pX2p)X3]r2이다. X3p[(IX1X1X2pX2p)X3] 라 두면 X3p로의 사영행렬은 X3pX3p 이다. 잔차벡터를 r3라 두면

r3=r2X3pX3pr2=(IX1X1X2pX2pX3pX3p(IX1X1X2pX2p))y

이다. δ4에 대한 모형은

r3=(IX1X1X2pX2pX3pX3p)X4δ4+ε4

이다. δ4를 추정하기 위한 공간으로의 사영은 [(IX1X1X2pX2pX3pX3p)X4][(IX1X1X2pX2pX3pX3p)X4]r3 이다. X4p[(IX1X1X2pX2pX3pX3p)X4] 라 두면 X4p로의 사영행렬은 X4pX4p 이다. δk를 추정하기 위한 사영행렬은 단계별 방법에 의한 잔차벡터 rk–1의 모형으로부터 구해진다. 모형은

rk1=(IX1X1X2pX2pX3pX3pX(k1)pX(k1)p)Xkδk+εk

이다. Xkp를 δk의 추정과 관련된 계수행렬이라 두자.Xkp=(IX1X1X2pX2pX3pX3pX(k1)pX(k1)p)Xk 로 주어지고 Xkp로의 사영행렬은 XkpXkp 로 표시된다. 확률벡터의 분산성분 추정에 필요한 제곱합은 단계별 방법으로 주어지는 부분공간으로의 사영을 아용할 수 있다. 단계별 방법에 의한 부분공간으로의 사영을 나타내는 사영행렬들은 직교한다. 따라서 고정효과부분이 제외된 확률효과와 관련된 이차형식의 제곱합은

y'(IX1X1)y=y'X2pX2py+y'X3pX3py++y'XkpXkpy

로 분할된다. 식 (3.7)은 상호직교하는 부분공간으로의 사영과 관련된 사영행렬의 이차형식을 나타내고 있다. 이는 Henderson의 방법 III라 불리우는 상수적합법의 적용에서 제곱합에서의 감소를 나타내는 R( )대신에 단계별 방법의 적용으로부터 사영행렬을 이용하여 분산성분과 관련된 제곱합을 구하는 방법을 제공하고 있다. 식 (3.7)에서y'XipXipy,i=2,3,,k의 기댓값은

E(y'XipXipy)=tr(XipXipΣ)+β1'X1'XipXipX1β1=tr(XipXipΣ)

이다. 식 (3.8)에서

=tr(XipXipΣ)tr(XipXipΣ)=tr[(XipXip)(σ22X2X2'+σ32X3X3'++σk2XkXk'+ε)]=u=2kσi2tr[(Xu'XipXipXu)]+σε2tr(XipXip)

이다. 분산성분들의 벡터를σδ2라 두면σδ2=(σ22,σ32,,σk2,σε2)'이다. y의 이차형식들로 구성되는 벡터를 w로 두면 w=(y'X2pX2py,y'X3pX3py,,y'XkpXkpy,y'(IXX)y)'이다. 단, X = (X1,X2,…,Xk)이다. 각 이차형식의 기댓값을 나타내는 방정식으로부터 구해지는 σδ2의 계수행렬을 A라 두면 다음의 선형방정식계

Aσδ2=w

로 부터 분산성분의 추정치인 해를 얻게 된다.

4. 자료분석의 예

다음은 어떤 부품의 제조에 이용되는 기계의 교체를 위한 실험자료이다. 자료는 세 종류의 기계 1, 2, 3 중 하나를 선정하기 위한 실험으로부터의 생산성점수를 나타낸다. 실험은 회사의 자체직원 중 임의로 선정된 6명이 각 기계를 세번 작동하여 평가한 점수로 주어진 Milliken과 Johnson (1984)의 자료이다.

혼합모형의 사례연구(case study)로 제공된 실험자료를 나타내는 Table 4.1의 분석모형을 생각해 보자. 효능의 비교에 이용되는 기계는 세종류의 1, 2, 3으로 고정되어 있으므로 1, 2, 3은 고정요인의 세 수준을나타낸다. 이들 효과를 각기 βi, i = 1,2,3이라 두면 βi, i = 1,2,3은 고정효과이다. 실험에 참여하는 직원은 회사직원 중 임의로 선정되므로 확률요인이고 이들이 기계의 생산성에 미치는 효과는 확률효과로 간주된다. 확률효과를 δj, j = 1,2,…,6으로 두면 δjN(0,σδ2)를 따르는 서로 독립인 확률변수로 가정된다. 고정효과와 확률효과의 교호작용은 확률효과이므로 교호작용을 γk, k = 1,2,…,18로 두면 γkN(0,σγ2)을 따르는 서로 독립인 확률변수로 가정된다. 모형의 행렬표현식은 식 (2.1)로부터

Productivity sores data for Machine-Person

 Machine  Person  Score 

123
11 52.0  52.8  53.1 
1251.852.853.1
1360.060.258.4
1451.152.350.3
1550.951.851.4
1646.444.849.2
2162.162.664.0
2259.760.059.0
2368.665.869.7
2463.262.862.2
2564.865.065.4
2643.744.243.0
3167.567.266.9
3261.561.762.3
3370.870.671.0
3464.166.264.0
2572.172.071.1
2662.061.460.5

y=jμ+X1β+X2δ+X3γ+ε

로 표현된다. 단, j 모든 원소가 1인 54×1인 열벡터이고 μ는 전체평균을 나타낸다. X1은 고정효과벡터 β의 계수행렬로 크기가 54×3인 불완전계수의 행렬이다. β는 크기가 3×1인 열벡터이다. X2는 확률벡터 δ의 계수행렬로 크기가 54×6이다. δ는 크기가 6×1인 열벡터이며N(0,σδ2I6)인 분포를 따른다고 가정한다. X3는 확률벡터 γ의 계수행렬로 크기가 54×18이다. γ는 크기가 18× 1인 열벡터이며N(0,σγ2I18)인 분포를 따른다고 가정한다. ϵ에 대한 가정은 E(ϵ) = 0이고 var(ε)=σ2I54인 정규분포를 따른다고 가정한다. 확률성분을 추정하기 위해 식 (4.1)의 고정효과부분을 적합시킨 잔차벡터를 r1으로 두고 r1을 구한다. 즉,

y=(j,X1)(μβ)+ε1

의 적합으로부터 r1을 구한다. (j,X1)으로의 사영을 (j,X1)(j,X1)-로 두면

r1=(I(j,X1)(j,X1))y

로 구해진다. 잔차벡터 r1에 단계별 방법을 적용하여 δ의 추정을 위한 모형으로

r1=X2δ+ε2

를 가정한다. 여기서r1=IjjX1X1로 구해진다. 식 (4.4)로부터 X2로의 사영행렬을X2pX2p로 나타내면X2p=(IjjX1X1)X2이다. y'X2pX2py=1241.89이다. r2=(IjjX1X1X2pX2p)r1으로 주어진다. 잔차벡터 r2를 이용하여 γ 의 추정을 위한 모형으로

r2=X3γ+ε3

를 가정한다. 모형으로부터 X3로의 사영을 얻기위한 사영행렬은X3pX3p로 표시되고X3p=(IjjX1X1X2pX2p)X3이다. y'X3pX3py=426.53이다. 분산성분σε2과 관련된 제곱합의 계산은 X = (j,X1,X2,X3)라 둘 때 yX로의 사영으로부터 구한다. X로의 사영을 나타내는 사영행렬은 XX-이므로 사영까지의 거리제곱합은 y’XX-y이다. 따라서 y’(I-XX-)yσε2을 추정하기 위한 잔차제곱합이다. 자료로부터 계산된 y(I-XX-)y = 33.29이다. 분산성분들을 구하기 위한 선형방정식을 구성하기 위해 각 제곱합의 기댓값을 구한다.

E(y'X2pX2py)=tr(X2pX2pΣ)=σδ2tr[X2'(X2pX2p)X2]+σγ2tr[X3'(X2pX2p)X3]+σε2tr(X2pX2p)=45σδ2+15σγ2+5σε2

를 얻게 된다.

E(y'X3pX3py)=tr(X3pX3pΣ)=σδ2tr[X2'(X3pX3p)X2]+σγ2tr[X3'(X3pX3p)X3]+σε2tr(X3pX3p)=30σγ2+10σε2

를 얻게 된다.

E[y'(IXX)y]=tr[(IXX)Σ]=σδ2tr[X2'(IXX)X2]+σγ2tr[X3'(IXX)X3]+σε2tr(IXX)=36σε2

를 얻게 된다. 제곱합의 기댓값을 나타내는 식으로부터 분산성분을 얻기 위한 다음의 선형방정식계를 구성한다.

Qζ=(45155030100036)(σδ2σγ2σε2)=(1241.89 426.53 33.29).

식 (4.9)로부터 해 벡터ζ^=(22.858,13.909,0.925)'를 구할 수 있다. 제한가능도함수(REML)를 이용한 분산성분들의 추정벡터는 (23.168,17.891,0.925)’로 구해진다. 이는 추정방법에 따라 분산성분의 추정에 있어 다소의 차이가 있으나 상당히 유사한 결과를 보여주고 있음을 나타낸다.σ^δ2에 대한 추정으로 식 (4.6)과 (4.7)을 이용할 때σ^δ2=(2/90)y'(X2pX2py)(1/90)y'(X3pX3py)이다. Satterthwaite (1946)의 근사과정을 이용하여 χ2 분포의 자유도 r을 구하면

r=(σ^δ2)2(290y'(X2pX2py)2)/5+(190y'(X3pX3py)2)/10=3.38

으로 구해진다. 95% 신뢰구간을 구하기 위한 자유도 3.38에 해당하는 χ2값은 각기 χ2(0.025,3.43) = 0.307과 χ2(0.975,3.43) = 10.046으로 주어진다. 따라서,σδ2에 대한 95% 신뢰구간은

7.688=3.38σ^δ2χ2(0.975,3.43)<σδ2<3.38σ^δ2χ2(0.025,3.43)=251.573

으로 구해진다.σγ2에 대한 구간추정도 동일한 방법으로 구해진다. 식 (4.7)과 (4.8)로부터 σ^γ2=(36/10)y'X3pX3pyy'(IXX)y이다. Satterthwaite의 근사과정을 이용하여 χ2 분포의 자유도 r′을 구하면

r'=(σ^γ2)2(3610y'X3pX3py)/10+(y'(IXX)y)/36=1.13

로 구해진다. 95% 신뢰구간을 구하기 위한 자유도 1.13에 해당하는 χ2값은 각기 χ2(0.025,1.13) = 0.002

와 χ2(0.975,1.13) = 5.370으로 주어진다. 따라서,σγ2에 대한 95% 신뢰구간은

2.927=1.13σ^γ2χ2(0.975,1.13)<σγ2<1.13σ^γ2χ2(0.025,1.13)=7858.585

로 구해진다. 고정효과벡터(μ,β)’ = (μ,β123)’의 추정으로 가중최소제곱법을 이용하게 된다. 가중최소제곱법에 의한 추정벡터는 (44.74,7.62,15.58,21.53)으로 구해진다. 모수벡터의 추정량에 대한 분산공분산행렬을 cov(μ^,β^)'라 두면,

cov(β^μ^)=(2.58730.86240.86240.86240.86240.86240.50240.50240.86240.50241.86720.50240.86240.50240.50241.8672)

로 구해진다. μ+α3는 추정가능함수이고 추정값은 60.32로 주어진다. Var(μ^+α^3)=6.1794로 구해진다. 혼합효과모형은

yijk=μi+δj+γij+εijk

로도 표현될 수 있다. 단, μi = μ+βi이다. 이때의 행렬표현식은

y=X1μ+X2δ+X3γ+ε

로 주어진다. 식 (4.15)의 평균벡터 μ 의 추정벡터를μ^이라 두면

μ^=(X1'Σ^1X1)1X1'Σ^1y

로 구해진다. μ^ 고정효과에 대한 추론방법은 자료가 균형인가 또는 불균형인가에 따라 다르다. 대부분의 균형혼합모형에서 μ의 추정벡터는 μ^ = (52.35, 60.32, 66.27)’ 이다. 추정평균벡터의 분산공분산행렬을 cov(μ^)라 두면

cov(μ^)=(6.17943.80973.80973.80976.17943.80973.80973.80976.1794)

로 구해진다.

5. 결론

본 논문은 혼합효과모형의 가정하에서 분산성분의 추정과 고정효과추론에 사영이 어떻게 이용되는가를 논의하고 있다. 분산성분의 추정방법인 고정상수적합법(fitting constans method)에서 제곱합의 감소를 이용하는 방식 대신에 벡터공간에서 정의되는 사영을 활용하는 방법을 제시하고 있다. 사영에 의한 제곱합의 계산에 고정효과에 영향받지 않는 확률효과들로 구성되는 잔차모형을 제시하고 있으며 잔차모형에 단계별 방법(stepwise procedure)을 적용하여 얻어지는 모형행렬로의 사영을 통하여 제곱합을 구하는 방식을 제공하고 있다. 이 방법은 잔차제곱합에서의 감소를 이용하는 방법보다 효율적이며 벡터공간에서의 사영과 관련된 여러 개념들을 구체화하는 이점들이 있다.

또 다른 한편으로는 혼합모형에 상수적합법을 적용하여 유도된 잔차모형으로부터 분산성분을 추정하기 위한 모형행렬로의 사영과 사영행렬을 구하기 위해 단계별 적합방식을 논의하고 있다. 각 부분공간에서 계산된 제곱합의 기댓값을 이용하여 분산성분의 계수를 구하고 선형방정식계를 구성하는 방법을 제공하고 있다. 또한, 혼합모형에서 고정효과는 가중최소제곱법으로 모수추정벡터를 얻게 된다. 분산성분의 신뢰구간추정에서 해당하는 자유도를 구하기 위한 Satterthwaite의 근사적 과정이 설명되고 있다.

References
  1. Choi J. S. (2011) Variance components in one-factor random model by projections. Journal of the Korean Data. Information Science Society 22, 381387.
  2. Choi J. S. (2012) Type II analysis by projections. Journal of the Korean Data. Information Science Society 23, 1551163.
  3. Graybill F. A. (1983). Matrices with Applications in Statistics . Wadsworth Publishing Company, Belmont.
    KoreaMed
  4. Henderson C. R. (1953) Estimation of variance and covariance components. Biometrics 9, 226252.
    CrossRef
  5. Johnson R. A, and Wichern D. W. (1988). Applied Multivariate Statistical Analysis .
  6. Milliken G. A, and Johnson D. E. (1984). Analysis of Messy Data .
  7. Satterthwaite F. E. (1946) An approximate distribution of estimates of variance components. Biometrics Bulletin 2, 110114.
    CrossRef
  8. Searle S. R. (1971). Linear Models .
    KoreaMed
  9. Searle S. R, Casella G, and McCulloch C. E. (1992). Variance Components .
    CrossRef