
본 논문은 혼합효과의 선형모형에서 분산성분들의 추정방법으로 사영을 다루고 있다. 상수적합법에서 이용되는 제곱합에서의 감소(reductions in sums of squares) 대신에 사영을 이용하여 구하는 방법을 제시하고 있다. 단계별 방법에 의한 잔차모형으로부터 각 분산성분의 추정과 관련된 사영행렬을 구성하는 방법을 제공하고 있다. 사영행렬로 표현되는 이차형식의 기댓값을 이용하여 선형방정식계를 구성하고 적률법으로 분산성분을 추정하게 된다. 고정효과는 가중최소제곱법으로 추정되고 분산성분의 신뢰구간추정에 Satterthwaite의 근사과정으로 자유도를 계산하는 방법을 설명하고 있다.
This paper deals with an estimation procedure of variance components in a mixed effects model by projections. Projections are used to obtain sums of squares instead of using reductions in sums of squares due to fitting both the assumed model and sub-models in the fitting constants method. A projection matrix can be obtained for the residual model at each step by a stepwise procedure to test the hypotheses. A weighted least squares method is used for the estimation of fixed effects. Satterthwaite’s approximation is done for the confidence intervals for variance components.
실험단위의 반응에 영향을 주는 요인들로 고정요인과 확률요인이 포함되어 있을 때 실험자료를 분석하기 위한 모형으로 혼합효과의 선형모형을 가정하게 된다. 혼합모형의 가정에서 행해지는 분석은 고정효과의 분석과 확률효과의 분석으로 이루어진다. 혼합모형의 분석에 관한 연구는 Milliken과 Johnson (1984) 그리고 Searle (1971) 등의 많은 문헌에서 다루어지고 있다. 혼합모형의 분석방법으로 적률법, 최대우도법, MINQUE 방법 등을 이용할 수 있다.
실험자료의 분석모형으로 혼합모형을 가정할 수 있을 때 실험단위의 반응벡터를 -라 두면 의 벡터공간에서 사영에 의한 분석이 가능하다. Choi (2011, 2012)는 자료분석을 위한 다양한 모형의 가정하에 벡터공간에서 정의되는 사영의 관점에서 분석하는 방법을 논의하고 있다. 사영에 의한 혼합모형의 분석을 위해 기존의 자료분석 방법 중 적률법이 이용될 때 적률법에 의한 분석과정에서 사영이 어떻게 활용될 수 있는가를 논의하고 그 결과가 동일함을 입증해 보이고자 한다. 이는 사영에 의한 분석이 자료분석의 다양한 선형모형하에서 효율적으로 이용될 수 있음을 보여주며 자료분석의 또 다른 측면에서 접근할 수 있는 방법을 제공하게 된다.
혼합모형의 가정하에 적률법으로 자료분석을 하는 경우에 확률성분의 추론을 위해 일반적으로 상수적합법(fitting constants method) 또는 Henderson (1953) 방법 III(Henderson’s Method III)에 의해서 변동요인들의 제곱합을 구하게 된다. 그러나 고정효과 부분의 추론에는 다양한 모형비교방식을 이용할 수 있게 된다. 분산성분의 추정을 위한 제곱합의 계산에 이용되는 상수적합법은 제곱합에서의 감소(reduction in sum of squares)로 주어지고 R(·|·)로 표시된다. 사영에 의한 제곱합의 계산도 동일하게 구해짐을 다루게 된다. 혼합효과의 고정효과 부분에 대한 분석에도 사영이 어떻게 활용되는가를 논의하게 된다.
본 논문은 혼합모형을 이루는 두 유형의 효과를 추론하기 위한 분석과정에 벡터공간에서 정의되는 사영을 자료분석에 활용하는 방법을 제시하고 사영과 관련된 성질들을 이용한 자료분석의 효율성을 논의하는 데 초점을 두고 있다. 사영과 관련된 자세한 논의는 Johnson과 Wichern (1988) 그리고 Graybill (1983) 등에서 볼 수 있다.
실험자료의 분석을 위한 일반적인 혼합모형의 행렬표현식은 다음과 같다.
단,
인 고정효과모형으로 표현한다. 단,
이다. 고정효과모형으로 변환된 식 (2.2)을 최소제곱법을 이용하여 자료에 적합시켜 잔차를 구한다. 잔차를 r1이라 두자. Moore-Penrose의 일반화된 역행렬을 이용한 정규방정식의 해벡터
이다. 식 (2.4)의 잔차모형은 혼합모형의 고정효과부분인
잔차모형에 대해 사영을 정의해 보기로 한다. 식 (2.4)의 잔차확률모형으로부터 잔차벡터
이다. 확률벡터 δ2의 추정을 위한 계수행렬
로 표현된다. 단,
이다. δ3를 추정하기 위한 공간으로의 사영은
이다. δ4에 대한 모형은
이다. δ4를 추정하기 위한 공간으로의 사영은
이다.
로 분할된다. 식 (3.7)은 상호직교하는 부분공간으로의 사영과 관련된 사영행렬의 이차형식을 나타내고 있다. 이는 Henderson의 방법 III라 불리우는 상수적합법의 적용에서 제곱합에서의 감소를 나타내는
이다. 식 (3.8)에서
이다. 분산성분들의 벡터를
로 부터 분산성분의 추정치인 해를 얻게 된다.
다음은 어떤 부품의 제조에 이용되는 기계의 교체를 위한 실험자료이다. 자료는 세 종류의 기계 1, 2, 3 중 하나를 선정하기 위한 실험으로부터의 생산성점수를 나타낸다. 실험은 회사의 자체직원 중 임의로 선정된 6명이 각 기계를 세번 작동하여 평가한 점수로 주어진 Milliken과 Johnson (1984)의 자료이다.
혼합모형의 사례연구(case study)로 제공된 실험자료를 나타내는 Table 4.1의 분석모형을 생각해 보자. 효능의 비교에 이용되는 기계는 세종류의 1, 2, 3으로 고정되어 있으므로 1, 2, 3은 고정요인의 세 수준을나타낸다. 이들 효과를 각기 β
Productivity sores data for Machine-Person
Machine | Person | Score | ||
---|---|---|---|---|
1 | 2 | 3 | ||
1 | 1 | 52.0 | 52.8 | 53.1 |
1 | 2 | 51.8 | 52.8 | 53.1 |
1 | 3 | 60.0 | 60.2 | 58.4 |
1 | 4 | 51.1 | 52.3 | 50.3 |
1 | 5 | 50.9 | 51.8 | 51.4 |
1 | 6 | 46.4 | 44.8 | 49.2 |
2 | 1 | 62.1 | 62.6 | 64.0 |
2 | 2 | 59.7 | 60.0 | 59.0 |
2 | 3 | 68.6 | 65.8 | 69.7 |
2 | 4 | 63.2 | 62.8 | 62.2 |
2 | 5 | 64.8 | 65.0 | 65.4 |
2 | 6 | 43.7 | 44.2 | 43.0 |
3 | 1 | 67.5 | 67.2 | 66.9 |
3 | 2 | 61.5 | 61.7 | 62.3 |
3 | 3 | 70.8 | 70.6 | 71.0 |
3 | 4 | 64.1 | 66.2 | 64.0 |
2 | 5 | 72.1 | 72.0 | 71.1 |
2 | 6 | 62.0 | 61.4 | 60.5 |
로 표현된다. 단,
의 적합으로부터
로 구해진다. 잔차벡터
를 가정한다. 여기서
를 가정한다. 모형으로부터
를 얻게 된다.
를 얻게 된다.
를 얻게 된다. 제곱합의 기댓값을 나타내는 식으로부터 분산성분을 얻기 위한 다음의 선형방정식계를 구성한다.
식 (4.9)로부터 해 벡터
으로 구해진다. 95% 신뢰구간을 구하기 위한 자유도 3.38에 해당하는 χ2값은 각기 χ2(0.025,3.43) = 0.307과 χ2(0.975,3.43) = 10.046으로 주어진다. 따라서,
으로 구해진다.
로 구해진다. 95% 신뢰구간을 구하기 위한 자유도 1.13에 해당하는 χ2값은 각기 χ2(0.025,1.13) = 0.002
와 χ2(0.975,1.13) = 5.370으로 주어진다. 따라서,
로 구해진다. 고정효과벡터(μ,β)’ = (μ,β1,β2,β3)’의 추정으로 가중최소제곱법을 이용하게 된다. 가중최소제곱법에 의한 추정벡터는 (44.74,7.62,15.58,21.53)으로 구해진다. 모수벡터의 추정량에 대한 분산공분산행렬을 cov
로 구해진다. μ+α3는 추정가능함수이고 추정값은 60.32로 주어진다. Var
로도 표현될 수 있다. 단, μ
로 주어진다. 식 (4.15)의 평균벡터 μ 의 추정벡터를
로 구해진다.
로 구해진다.
본 논문은 혼합효과모형의 가정하에서 분산성분의 추정과 고정효과추론에 사영이 어떻게 이용되는가를 논의하고 있다. 분산성분의 추정방법인 고정상수적합법(fitting constans method)에서 제곱합의 감소를 이용하는 방식 대신에 벡터공간에서 정의되는 사영을 활용하는 방법을 제시하고 있다. 사영에 의한 제곱합의 계산에 고정효과에 영향받지 않는 확률효과들로 구성되는 잔차모형을 제시하고 있으며 잔차모형에 단계별 방법(stepwise procedure)을 적용하여 얻어지는 모형행렬로의 사영을 통하여 제곱합을 구하는 방식을 제공하고 있다. 이 방법은 잔차제곱합에서의 감소를 이용하는 방법보다 효율적이며 벡터공간에서의 사영과 관련된 여러 개념들을 구체화하는 이점들이 있다.
또 다른 한편으로는 혼합모형에 상수적합법을 적용하여 유도된 잔차모형으로부터 분산성분을 추정하기 위한 모형행렬로의 사영과 사영행렬을 구하기 위해 단계별 적합방식을 논의하고 있다. 각 부분공간에서 계산된 제곱합의 기댓값을 이용하여 분산성분의 계수를 구하고 선형방정식계를 구성하는 방법을 제공하고 있다. 또한, 혼합모형에서 고정효과는 가중최소제곱법으로 모수추정벡터를 얻게 된다. 분산성분의 신뢰구간추정에서 해당하는 자유도를 구하기 위한 Satterthwaite의 근사적 과정이 설명되고 있다.