Publications

Detailed Information

Classification of Place-related Questions for Enhanced GeoQA system : GeoQA 시스템 성능 향상을 위한 장소 관련 질문 분류

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이서형

Advisor
유기윤
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
GeoQAGeoQA DatasetClose-domain QA systemQuestion ClassificationMulti-class Question Classification
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 건설환경공학부, 2023. 8. 유기윤.
Abstract
Question classification (QC) plays a crucial role in delivering accurate and relevant answers to users by identifying the topic of a question. In Question Answering (QA) systems, accurate classification of questions is essential for providing precise responses that effectively address users' inquiries and ensure the retrieval of relevant answers from the information retrieval process.
While significant progress has been made in improving QC across various domains by categorizing questions into coarse and fine classes, the field of geography presents unique challenges when it comes to answering questions related to geographic entities or concepts that require spatial operations. Place-related questions encompass a diverse range of topics, making their classification particularly challenging. Although efforts have been made in the geographical domain to determine the geographical nature of questions, analyze structural patterns in geographical questions for query generation, and classify geographic questions based on latent topics, accurately identifying specific topics within place-related questions remains a gap in current research.
The distinct characteristics of the geography field, such as the multitude of possible topics and the interplay between geographic and non-geographic elements in questions, contribute to the complexity. This study focuses on place-related questions to address these challenges and bridge the existing gap in current studies.
Therefore, the objective of this research is to develop an approach that accurately classifies specific topics within place-related questions, aiming to enhance the effectiveness of question classification in Geographic QA systems (GeoQA). The findings from this study will provide valuable insights for improving question answering systems in the context of geography.
This thesis presents a methodology for classifying place-related questions in the domain of geography using predefined fine-grained topics. The goal is to accurately identify the specific topic of interest within place-related questions, which is crucial for providing relevant and informative responses to natural language queries about geographic locations. Accurately identifying the specific topic becomes essential in delivering precise information. For instance, consider the question "Henderson, TN zone." It is important to classify this question under the "Locator" topic, as it remains unclear whether the user is referring to the time zone or the hardiness zone of Henderson, TN.
By utilizing predefined fine-grained topics, this question classification model for place-related questions enhances the classification process and enables the system to capture the nuanced aspects of place-related questions. The findings from this research will contribute to the development of more accurate and effective question answering systems in the field of geography, facilitating better information retrieval.
To accomplish this objective, a total of 3,025 randomly selected place-related questions from the MS MARCO dataset were labeled according to 42 fine-grained topics. Subsequently, a BERT model was fine-tuned to classify place-related questions based on the relevant topics. The proposed QC model achieved an overall training accuracy of 87.9% and a test accuracy of 86.6%, demonstrating its effectiveness in classifying place-related questions. The proposed multi-class question classification model presented in this thesis provides an approach to question classification for place-related questions focusing on relevant topics. This work can enhance current GeoQA system by performing better retrieval of information from the external knowledge base.
질문 분류(Question Classification, QC)는 질문의 주제를 식별함으로써 사용자에게 정확하고 관련성 높은 답변을 제공하는 데 중요한 역할을 한다. 질문 응답(QA) 시스템에서 정확한 질문 분류는 사용자의 문의 사항에 정확히 대응하고 정보 검색 (Information Retrieval, IR) 과정에서 관련성 높은 답변을 가져오는 데 필수적이다. 이와 같이 질문을 세분화하여 분류함으로써 IR 과정에서 더 정확한 정보 검색이 이루어질 수 있도록 다양한 도메인에서 질문 분류를 개선하는 데 상당한 연구가 진행되고 있다. 그러나 GeoQA(지리 질의 응답) 시스템에서는 다양한 주제를 포괄하는 장소 관련 질문은 분류하는데 어려움이 있다.
GeoQA 관련 분야에서는 질문의 지리적 속성을 확인하고 질문 생성을 위해 지리적 질문의 구조적 패턴을 분석하며, 잠재적 주제에 기반한 지리적 질문을 분류하는 노력이 이루어졌지만, 장소 관련 질문 내에서 특정 주제를 식별하는 것에 대한 연구는 아직 공백이 남아있다. 본 연구는 이러한 공백을 메우기 위해 장소 관련 질문에서 특정 주제를 정확하게 분류하는 방법론을 개발함으로써 GeoQA 시스템에서의 질문 분류 성능 향상에 기여하고자 한다.
본 논문은 미리 세분화하여 정의한 주제를 활용하여 지리 분야에서 장소 관련 질문을 분류하기 위한 방법론을 제시한다. 목표는 장소 관련 질문 내에서 주제를 정확하게 식별하는 것으로, 이는 지리적 위치에 대한 자연어 질의에 관련성 높은 정보를 제공하는 데 중요하다. 예를 들어, Henderson, zone과 같은 질문이 GeoQA 시스템에 들어오게 되면 사용자가 Henderson, TN의 시간대에 대한 것인지 혹은 한계구역(hardiness zone)에 대한 것인지 알 수 없으므로 이 질문을 Locator 주제로 분류하는 것이 중요하다. 따라서, 본 연구에서는 세분화된 주제를 활용하여 GeoQA의 성능을 향상시킬 수 있는 장소 관련 질문 분류를 수행하고자 한다.
연구를 진행하기 위해, MS MARCO 데이터셋에서 임의로 선택된 3,025개의 장소 관련 질문을 42개의 세분화된 주제로 라벨링 작업을 진행했다. 그리고 BERT 모델을 활용하여 사용자 관심사 기반의 장소 관련 질문을 분류하기 위해 Fine-Tuning 작업을 수행했다. 본 연구에서 수행한 질문 분류 모델은 학습 정확도 87.9%와 테스트 정확도 86.6%를 달성하여 장소 관련 질문 분류에 효과를 입증하였다.
본 연구에서 제안한 다중 클래스 질문 분류 모델은 GeoQA 시스템에 중요한 기여를 하는데, MS MARCO 데이터셋에서 장소 관련 질문의 관련 주제에 대한 질문 분류 방법론을 제시한다. 본 연구는 장소 관련 질문에 관련한 공간 관련 질의 모델 (GeoQA) 시스템에서 정보 탐색이 이루어지기 전에 질문에 대한 분류가 이루어짐으로써 GeoQA의 성능 향상 대한 새로운 접근 방식을 제공하여 지리 공간 관련 자연어 처리 분야에 중요한 기여를 한다.
Language
eng
URI
https://hdl.handle.net/10371/196248

https://dcollection.snu.ac.kr/common/orgView/000000177321
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share