Publications

Detailed Information

키워드 추출을 이용한 대화 생성 요약 성능 향상 : Improvement of Dialogue Summarization Using Keyword Extractor

DC Field Value Language
dc.contributor.advisor정교민-
dc.contributor.author유총재-
dc.date.accessioned2023-06-29T02:05:09Z-
dc.date.available2023-06-29T02:05:09Z-
dc.date.issued2023-
dc.identifier.other000000174061-
dc.identifier.urihttps://hdl.handle.net/10371/193494-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000174061ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공학전문대학원 응용공학과, 2023. 2. 정교민.-
dc.description.abstract대화 생성 요약은 여러 화자가 말하는 대화에서 중요한 내용을 포함하는 요약문을 생성하는 것을 목표로 한다. 대화 생성 요약에서는 한번 언급된 단어에 대해서 대명사로 칭하거나, 특별히 지칭하지 않고 계속 해당 주제에 대해서 얘기하는 구어체적 특성으로 인하여 대화의 주제를 포착하기 어렵거나, 요약문을 생성하여도 핵심적인 정보를 담지 못하는 경우가 많다. 문서 요약 알고리즘은 대화 요약에서도 요약문을 생성할 수 있지만 대화의 특성을 살린 요약을 만드는 경우는 많지 않은 것이 실정이다.
따라서 본 연구에서는 키워드를 효율적으로 사용하여 의미적으로는 요약이 맞으나 실제 중요한 정보는 누락되는 문제를 개선하기 위하여 기존 알고리즘에 키워드를 추가하여 요약본만으로 대화의 주제를 쉽게 포착하는 모델을 제안한다. 이 모델은 사전 훈련된 키워드 추출기를 사용하여 대화의 키워드를 추출한다. 본 연구는 키워드를 이용하여 대화 생성 요약의 성능을 향상시킬 수 있는 시스템을 제안한다.
연구한 결과, 3개의 벤치마크 데이터셋에 대해서 수행된 다양한 실험들은 제안된 방법이 기존 대화 생성 요약 모델보다 성능이 우수함을 보여준다. 또한 제안된 모델은 훈련 데이터셋이 부족한 상황에서 성능을 더 향상시킬 수 있다. 또다른 중요한 특징 중 하나는 기존의 대화 생성 요약 모델의 변경 없이, 입력 데이터만을 수정하여 성능을 향상 시킬 수 있다.
-
dc.description.abstractAbstractive dialogue summarization aims to generate a short passage that contains important content for a particular dialogue spoken by multiple speakers. In abstractive dialogue summarization systems, capturing the subject in the dialogue is challenging owing to the properties of colloquial texts. Moreover, the system often generates uninformative summaries. In this paper, we propose a novel keyword-aware dialogue summarization system (KADS) that easily captures the subject in the dialogue to alleviate the problem mentioned above through the efficient usage of keywords. Specifically, we first extract the keywords from the input dialogue using a pre-trained keyword extractor. Subsequently, KADS efficiently leverages the keywords information of the dialogue to the transformer-based dialogue system by using the pre-trained keyword extractor. Extensive experiments performed on three benchmark datasets show that the proposed method outperforms the baseline system. Additionally, we demonstrate that the proposed keyword-aware dialogue summarization system exhibits a high-performance gain in low-resource conditions where the number of training examples is highly limited.-
dc.description.tableofcontentsI. 서론 1
1.1 연구 동기 1
1.2 연구의 개요 3
1.3 연구 보고서의 구성 5

II. 관련 연구 6
2.1 대화요약 6
2.2 대화 요약 데이터 8
2.2.1 DialogSum 9
2.2.2 SAMSum 10
2.2.3 TweetSumm 11
2.3 사전 학습 모델 12
2.3.1 Tranformer 12
2.3.2 BERT 14
2.3.3 BART 16
2.3.4 T5 18
2.4 키워드 추출기 19
2.4.1 RaKUn 19
2.4.2 RAKE 20
2.4.3 YAKE 22
2.4.4 PKE 23
2.4.5 KeyBERT 24
2.5 평가 지표 26
2.5.1 BLEU 26
2.5.2 ROUGE 26
2.5.3 BERTScore 28
2.6 키워드 기반 요약 28

III. 본론 30
3.1 기존 모델 분석 30
3.2 개선 모델 제안 31

IV. 실험 결과 및 평가 36
4.1 데이터셋 비교 36
4.2 실험 상세 37
4.2.1 키워드 추출기 선택 전략 38
4.2.2 키워드 순서 40
4.3 실험 결과 42
4.4 평가 42
4.4.1 다른 데이터셋에 대한 실험 43
4.4.2 시간 비용 비교 44
4.4.3 KADS에 대한 키워드 검증 44
4.4.4 적은 데이터에서의 성능 비교 45

V. 결론 47
5.1 요약 및 결과 47
5.2 의의 및 한계 48
5.3 향후 계획 48

참고 문헌 49
Abstract 55
-
dc.format.extent56-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject대화 요약-
dc.subject생성 요약-
dc.subject키워드 추출-
dc.subject.ddc620.004-
dc.title키워드 추출을 이용한 대화 생성 요약 성능 향상-
dc.title.alternativeImprovement of Dialogue Summarization Using Keyword Extractor-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorYOO CHONGJAE-
dc.contributor.department공학전문대학원 응용공학과-
dc.description.degree석사-
dc.date.awarded2023-02-
dc.identifier.uciI804:11032-000000174061-
dc.identifier.holdings000000000049▲000000000056▲000000174061▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share