Publications

Detailed Information

태그 정보와 복사 방법론을 활용한 수치 텍스트의 문서 요약

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

송석민

Advisor
조성준
Major
공과대학 산업공학과
Issue Date
2018-02
Publisher
서울대학교 대학원
Keywords
수치 텍스트문서 요약생성형 요약Seq2Seq복사 방법론
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 2. 조성준.
Abstract
대용량 텍스트에서 중요한 부분을 빠르게 요약하는 기술의 필요성이 꾸준히 증가함에 따라 문서요약은 지속적으로 연구되는 분야이다. 최근에는 기계 번역에서 딥러닝을 적용한 모델들이 가시적인 성능을 보임에 따라 문서요약에도 딥러닝을 적용한 생성형 요약의 연구가 새로운 트렌드로 자리잡았다. 이러한 연구는 대부분 Recurrent Neural Network을 사용한 Sequence-to-Sequence 알고리즘을 사용하여 길이가 긴 뉴스 기사를 요약하고, 뉴스의 제목을 생성하는 방식으로 이루어진다. 그러나 이러한 방식은 정해진 단어 집합 내의 단어로만 문장을 생성하며, 텍스트 내부의 수치는 일괄적으로 ##로 변환하기에 수치형 텍스트에 대해서는 요약하지 못한다는 단점이 있다. 본 연구에서는 이러한 단점을 보완하기 위해 원문의 수치를 복사하여 요약문에 활용하는 방식을 제안한다. 복사 방법으로는 원문 시퀀스의 인코더 출력을 활용한 복사 방법론을 사용하며, 모델이 수치, 고유 명사 등의 문맥을 인식할 수 있도록 형태소 분석을 한 태그 정보를 추가적으로 입력 정보로 활용하였다. 그 결과 복사 방법론이 기존의 Seq2Seq 모형이 요약하지 못했던 수치 데이터를 요약하는데 성공하였으며, 이에 태그 정보를 덧붙인 제안하는 모형이 수치 텍스트를 더 잘 요약할 수 있음을 확인하였고, 인코더에 태그 정보를 입력하는 방식에 있어서 효과적인 방법을 제안한다.
Language
Korean
URI
https://hdl.handle.net/10371/141455
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share