Publications

Detailed Information

태그 정보와 복사 방법론을 활용한 수치 텍스트의 문서 요약

DC Field Value Language
dc.contributor.advisor조성준-
dc.contributor.author송석민-
dc.date.accessioned2018-05-29T03:22:11Z-
dc.date.available2018-05-29T03:22:11Z-
dc.date.issued2018-02-
dc.identifier.other000000149349-
dc.identifier.urihttps://hdl.handle.net/10371/141455-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 2. 조성준.-
dc.description.abstract대용량 텍스트에서 중요한 부분을 빠르게 요약하는 기술의 필요성이 꾸준히 증가함에 따라 문서요약은 지속적으로 연구되는 분야이다. 최근에는 기계 번역에서 딥러닝을 적용한 모델들이 가시적인 성능을 보임에 따라 문서요약에도 딥러닝을 적용한 생성형 요약의 연구가 새로운 트렌드로 자리잡았다. 이러한 연구는 대부분 Recurrent Neural Network을 사용한 Sequence-to-Sequence 알고리즘을 사용하여 길이가 긴 뉴스 기사를 요약하고, 뉴스의 제목을 생성하는 방식으로 이루어진다. 그러나 이러한 방식은 정해진 단어 집합 내의 단어로만 문장을 생성하며, 텍스트 내부의 수치는 일괄적으로 ##로 변환하기에 수치형 텍스트에 대해서는 요약하지 못한다는 단점이 있다. 본 연구에서는 이러한 단점을 보완하기 위해 원문의 수치를 복사하여 요약문에 활용하는 방식을 제안한다. 복사 방법으로는 원문 시퀀스의 인코더 출력을 활용한 복사 방법론을 사용하며, 모델이 수치, 고유 명사 등의 문맥을 인식할 수 있도록 형태소 분석을 한 태그 정보를 추가적으로 입력 정보로 활용하였다. 그 결과 복사 방법론이 기존의 Seq2Seq 모형이 요약하지 못했던 수치 데이터를 요약하는데 성공하였으며, 이에 태그 정보를 덧붙인 제안하는 모형이 수치 텍스트를 더 잘 요약할 수 있음을 확인하였고, 인코더에 태그 정보를 입력하는 방식에 있어서 효과적인 방법을 제안한다.-
dc.description.tableofcontents1 서론 1
2 관련 연구 4
2.1 신경망 기반 기계 번역 모델 4
2.2 문서요약의 정량적 평가 7
2.3 생성형 요약 8
2.4 한국어 문서요약 9
3 제안하는 방법 11
3.1 RNN 인코더 12
3.2 RNN 디코더 14
4 실험 결과 및 활용방안 16
4.1 데이터 설명 16
4.2 정량적 평가 18
4.3 정성적 평가 19
5 결론 23
참고문헌 25
Abstract 29
-
dc.formatapplication/pdf-
dc.format.extent4792492 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject수치 텍스트-
dc.subject문서 요약-
dc.subject생성형 요약-
dc.subjectSeq2Seq-
dc.subject복사 방법론-
dc.subject.ddc670.42-
dc.title태그 정보와 복사 방법론을 활용한 수치 텍스트의 문서 요약-
dc.typeThesis-
dc.description.degreeMaster-
dc.contributor.affiliation공과대학 산업공학과-
dc.date.awarded2018-02-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share