Publications

Detailed Information

단어 추출과 스트링 매치를 이용한 수기 입력 텍스트의 노이즈 처리 : Cleansing noisy text using corpus extraction and string match

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김현중

Advisor
조성준
Major
공과대학 산업·조선공학부
Issue Date
2013-02
Publisher
서울대학교 대학원
Keywords
노이즈 처리음절 단위의 콜로캐이션단어 추출스트링 매치
Description
학위논문 (석사)-- 서울대학교 대학원 : 산업공학과 데이터마이닝 전공, 2013. 2. 조성준.
Abstract
텍스트 데이터의 경우 사전에 등록이 되어 있지 않아 인식할 수 없는 단어 역시 노이즈(out-of-vocabulary)로 정의한다. 텍스트 데이터의 노이즈는 크게 두 종류로 나눌 수 있는데, 신조어나 약어, 전문용와와 같이 실제로 사용되지만 사전에 등록이 되어 있지 않는 경우와 오탈자와 같이 의도와 다르게 기술이 되어 인식하지 못하는 경우가 있다. 노이즈를 수작업으로 정제하는 것은 비용을 초래하고, 특정 도메인의 지식(background knowledge)을 필요로 하기도 한다. 텍스트 데이터의 노이즈 처리는 모든 분석의 사전 과정으로써, 이후 분석의 성능에 영향을 준다.
본 연구에서는 효율적으로 텍스트 데이터의 노이즈를 처리하는 방법에 대하여 제안한다. 연구에서 소개하는 방법은 네 단계로 이루어진다. 첫 단계에서 음절 단위의 콜로캐이션(collocation)을 이용하여 연관성이 있는 연속된 음절을 단어로 추출한다. 이를 위하여 전방향 점수(forward score), 후방향 점수(backwoard score), 확산보정 점수(dispersion point normalized score)의 세 가지 콜로캐이션 점수 계산 방법을 제안하였다. 두 번째 단계에서는 첫 단계에서 추출된 부분음절 중에서 단어의 후보를 선택한다. 세 번째 단계에서는 사용자가 추출된 단어의 후보들 중에서 사전에 추가할 단어를 선택한 뒤, 보완된 사전을 이용하여 사전에 등록되지 않은 표현인 노이즈를 판별한다. 네 번째 단계에서는 의도와 다른 형태로 기술된 텍스트 노이즈를 복원하기 위하여 보완된 사전을 이용하여 스트링 매치(string match)를 수행한다. 이를 통하여 의도와 다르게 기술된 텍스트 노이즈를 복원한다.
전자세금계산서에 입력된 업태 데이터의 노이즈를 제거하기 위하여 제안된 방법을 적용함으로써 본 연구가 실제로 유용함을 입증하였다. 사전을 보완하기 전과 비교하여 자동으로 추출된 단어를 이용하여 40.32% 의 노이즈를 처리하였다.
Language
Korean
URI
https://hdl.handle.net/10371/123632
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share