스켈레톤 데이터에 기반한 동작 분류: 고전적인 머신러닝과 딥러닝 모델 성능 비교
Classification of human actions using 3D skeleton data: A performance comparison between classical machine learning and deep learning models
Korean J Appl Stat 2024;37(5):643-661
Published online October 31, 2024
© 2024 The Korean Statistical Society.

김주환a, 김종찬a, 이성임1,b
Juhwan Kima, Jongchan Kima, Sungim Lee1,b

a단국대학교 응용통계학과; b단국대학교 통계데이터사이언스학과

aDepartment of Applied Statistics, Dankook University;
bDepartment of Statistics and Data Science, Dankook University
1Department of Statistics, 152 Jukjeon-ro, Suji-gu, Yongin-si, Gyeonggi-do 16890, Korea. E-mail:
This work was supported by the National Research Foundation of Korea (NRF) grant funded by the Korea govern- ment (MSIT) (No. 2019R1A2C1003257).
Received July 31, 2024; Revised August 24, 2024; Accepted August 29, 2024.
본 연구는 3D 스켈레톤 데이터를 활용하여 머신러닝 및 딥러닝 모델을 통해 동작 인식을 수행하고, 모델 간 분류 성능 차이를 비교 분석하였다. 데이터는 NTU RGB+D 데이터의 정면 촬영 데이터로 40명의 참가자가 수행한 60가지 동작을 분류하였다. 머신러닝 모델로는 선형판별분석(LDA), 다중 클래스 서포트 벡터 머신(SVM), 그리고 랜덤 포레스트(RF)가 있으며, 딥러닝 모델로는 RNN 기반의 HBRNN (hierarchical bidirectional RNN) 모델과 GCN 기반의 SGN (semantics-guided neural network) 모델을 적용하였다. 각 모델의 분류 성능을 평가하기 위해 40명의 참가자별로 교차 검증을 실시하였다. 분석 결과, 모델 간 성능 차이는 동작 유형에 크게 영향을 받았으며, 군집 분석을 통해 각 동작에 대한 분류 성능을 살펴본 결과, 인식이 비교적 쉬운 큰 동작에서는 머신러닝 모델과 딥러닝 모델 간의 성능 차이가 유의미하지 않았고, 비슷한 성능을 나타냈다. 반면, 손뼉치기나 손을 비비는 동작처럼 정면 촬영된 관절 좌표만으로 구별하기 어려운 동작의 경우, 딥러닝 모델이 머신러닝 모델보다 관절의 미세한 움직임을 인식하는 데 더 우수한 성능을 보였다.
This study investigates the effectiveness of 3D skeleton data for human action recognition by comparing the classification performance of machine learning and deep learning models. We use the subset of the NTU RGB+D dataset, containing only frontal-view recordings of 40 individuals performing 60 different actions. Our study uses linear discriminant analysis (LDA), support vector machine (SVM), and random forest (RF) as machine learning models, while the deep learning models are hierarchical bidirectional RNN (HBRNN) and semantics-guided neural network (SGN). To evaluate model performance, cross-subject cross-validation is conducted. Our analysis demonstrates that action type significantly impacts model performance. Cluster analysis by action category shows no significant difference in classification performance between machine learning and deep learning models for easily recognizable actions. However, for actions requiring precise differentiation based on frontal-view joint coordinates such as ‘clapping’ or ‘rubbing hands’, deep learning models show a higher performance in capturing subtle joint movements compared to machine learning models.
주요어 : 스켈레톤 데이터, 머신러닝 모델, 딥러닝 모델, 교차검증
Keywords : skeleton data, machine learning models, deep learning models, cross-subject cross-validation
