한국어 텍스트 분류 분석을 위한 데이터 증강 방법
Data augmentation methods for classifying Korean texts
Korean J Appl Stat 2024;37(5):599-613
Published online October 31, 2024
전지현a, 정윤서1,b
Jihyun Jeona, Yoonsuh Jung1,b

aNICE평가정보 CB부분 CB사업2본부 CB사업4실; b고려대학교 통계학과

a2nd Credit Bureau division, Nice Information Service; bDepartment of Statistics, Korea University
1Department of Statistics, Korea University, 145 Anam-ro, Seongbuk-Gu, Seoul 02841, Korea. E-mail:
Jung’s work has been partially supported by National Research Foundation of Korea (NRF) grants funded by the Korean government (MIST) 2022R1F1A1071126 and by a Korea University Grant (K2305251).
Received April 13, 2024; Revised July 15, 2024; Accepted July 17, 2024.
데이터 증강은 학습데이터의 변형을 통해 데이터의 크기 및 다양성을 늘리는 방법으로 과적합 규제화 수단으로 사용되고 있다. 활발한 연구가 이루어지고 있는 컴퓨터비전 영역과 달리 자연어처리 영역에서의 데이터 증강 관련 연구는 다소 제한적인 상황이다. 특히 한국어 데이터 관련 연구는 극히 적다. 본 논문에서는 소규모의 한국어 텍스트 데이터 분류 분석 성능 향상을 위한 증강 방법론을 제안한다. 1) 맞춤법 교정을 통한 데이터 증강(DA-SC), 2) 형태소 분석 기반의 쉬운 데이터 증강(EDA-POS), 3) 조건부 마스킹 언어모형 기반의 데이터 증강(DA-cMLM)의 총 세 가지 방안을 제안한다. 실제 데이터 분석을 통해 본 논문에서 제안하는 증강 방법의 적용을 통해 분류 성능을 향상시킬 수 있음을 보인다.
Data augmentation is widely adopted in computer vision. In contrast, research on data augmentation in the field of natural language processing has been limited. We propose several data augmentation methods to support the classification of Korean texts. We increase the size and diversity of text data which are specifically tailored to Korean. These methods adopt and adjust the existing data augmentation for English texts. We could improve the classification accuracy and sometimes regularize the natural language models to reduce the overfits. Our contribution to the data augmentation regarding Korean texts compose of three parts. 1) data augmentation with Spelling Correction, 2) Easy data augmentation based on part-of-speech tagging, and 3) Data augmentation with conditional Masked Language Modeling. Our experiments show that classification accuracy can be improved with the aids of our proposed methods. Due to the limit of computing facilities, we consider rather small-scale Korean texts only.
주요어 : 데이터 증강, 자연어처리, 한국어 분류, BERT
Keywords : data augmentation, Korean text classification, masked language modeling, BERT
