Publications

Detailed Information

약지도 방식을 활용한 한국어 텍스트 분류 : Korean Text Classification via Weak Supervision

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이수연

Advisor
조성준
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
텍스트 분류약지도데이터 증강Self-trainText ClassificationWeak SupervisionData Augmentation
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 산업공학과, 2023. 2. 조성준.
Abstract
텍스트 분류는 토픽 분류, 감정 분석 등의 다양한 과제 및 여러 영역에서 활용도가 높은 중요한 과제이다. 이를 해결하기 위한 많은 모델은 지도 학습 기반으로 대량의 레이블이 지정된 데이터를 활용해 분류기 (classifier)를 학습시키는 구조이다. 따라서 레이블이 지정된 데이터가 부족한 영역에의 적용은 제한적이다. 특히나 한국어 자연어 처리를 위한 레이블링 된 데이터는 매우 부족하므로 기존의 많은 모델을 활용하기 어렵다. 그러나 레이블이 지정되지 않은 데이터는 보다 쉽게 구축할 수 있으므로 이러한 데이터를 텍스트 분류에 효과적으로 활용하는 것은 중요한 문제이다. 본 논문에서는 이를 해결하기 위해 클래스 이름 등과 같이 매우 적은 정보만을 이용해 레이블이 지정되지 않은 데이터를 분류하고자 하는 약지도 방식 (Weakly-supervised)의 분류 모델을 선택했다. 이러한 약지도 분류 모델에 준지도 (Semi-supervised) 학습의 성능을 개선하고자 많이 활용되었던 데이터 증강 방법론 및 자체 학습 (Self-train)을 적용하여 한국어를 분류할 수 있는 구조를 제안한다. 본 논문에서는 실제 레이블 대신 pseudo label을 생성하는 기존의 모델을 선택하였다. 생성된 pseudo label을 ground truth로 가정하여 학습을 진행한 후, 업데이트된 모델을 이용해 증강된 레이블 되지 않은 데이터에 대해 자체 학습을 진행한다. 토픽 분류와 감정 분석 데이터셋을 이용해 실험을 진행한 결과 모든 데이터셋에 대해 데이터 증강 기법을 적용하지 않았을 때보다 성능이 개선됨을 확인할 수 있었다.
Text classification is a critical task with high utilization in various areas and tasks such as topic classification and sentiment analysis. Many models to solve this task are structured to learn classifiers using a large amount of labeled data based on supervised learning. Therefore, its application to areas where labeled data is scarce is limited. In particular, labeled data for Korean natural language processing is insufficient, making it challenging to utilize many existing models. However, since unlabeled data is easier to construct, using such data effectively for text classification is a significant problem. To tackle this problem, in this thesis, we take a weakly-supervised classification approach that classifies unlabeled data using very little information such as class names. We propose a structure that can classify Korean text by applying the widely used data augmentation methodology and self-train to improve the performance of semi-supervised learning to these weakly supervised classification models. In this thesis, we select existing models that generate pseudo labels instead of actual labels. After learning by assuming the generated pseudo labels as ground truth, self-learn is performed on the augmented unlabeled data using the updated model. As a result of conducting experiments using the topic classification and sentiment analysis datasets, we confirm that data augmentation and self-train methodology improved performance in all datasets compared to when they were not applied.
Language
kor
URI
https://hdl.handle.net/10371/193146

https://dcollection.snu.ac.kr/common/orgView/000000174894
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share