Publications

Detailed Information

다양한 문장형태로 표현된 지리공간질의에 대한 기계학습기반 지리공간분석절차 변환기법 개발 : Development of Machine Learning Based Geographic Analysis Workflow Transduction Technique for Geographic Questions with Various Sentence Type

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

채희진

Advisor
유기윤
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
지리공간 질의응답문장분류지리공간분석 질의응답지리공간 말뭉치지리공간분석저라문장 임베딩
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 건설환경공학부, 2023. 2. 유기윤.
Abstract
Despite the advance of the question answering(QA), which derives succinct and clear answers to questions from documents, there is a lack of a system to answer questions related to geospatial information, which increases by around 20% annually. The research field emerged to solve this problem is named geographic QA. Geo-analytical QA, a subfield of geographic QA, is a study to convert geographic question into geospatial analysis workflow and find the suitable tool and data to perform the analysis workflow. In order to perform realistic Geo-analytic QA, questions with various sentence type must be converted into geospatial analysis workflow. But it is difficult to perform realistic Geo-analytical QA through the method proposed in the previous study because it is rule based approach that fits into limited sentence type. Therefore, to perform realistic Geo-analytical QA, this study proposes a method to convert geospatial questions with various sentence type into geospatial analysis workflow. In addition, in order to perform geospatial analysis, it is important to understand the geospatial operators, so the derived geospatial analysis workflow was set to include the geospatial operators in order according to the analysis intention. In this study, sentence classification techniques were applied to convert geospatial questions into analysis workflow. To use sentence classification techniques, it is necessary to select corpus, label corpus to create datasets, embed questions in corpus to make datasets as input values for classification models, and to learn classification models. The GeoAnQu corpus, known to require various geospatial analysis workflow, was selected and analyzed as the target corpus to derive its own analysis workflow, and then a unique number was assigned to the analysis workflows. Based on the unique number, the questions appearing in the GeoAnQu corpus was labeled to secure a dataset, and then paraphrase was performed to generate various sentence types and increase the data size. After that, sentence embedding was performed using Glove (global vectors), BERT(bidirectional encoder presentations from transformers), RoBERTa(robustly optimized BERT pre-training approaches) and SBERT(sentence-BERT) and then those embeddings were used to learn random forest and linear support vector machine(SVM) respectively. Finally, it was confirmed that the model that trained with SBERT sentence embedding in linear SVM showed the highest performance, and the model was able to convert geospatial questions with various sentence type into geospatial analysis workflow. In addition, the limitations of the results were analyzed and future research directions were presented.
문서로부터 질문에 대한 답을 간결하고 명확하게 도출하는 질의응답(question answering, 이하 QA) 분야의 발전에도 불구하고 연간 20% 내외 증가하는 지리공간정보(geographic information)와 관련된 질의를 답하는 시스템은 부족한 상태다. 이를 해결하기 위해 등장한 연구 분야가 지리공간 질의응답(geographic QA)이고 이 중 지리공간분석 질의응답(geographic analysis question answering, 이하 Geo-analytical QA)은 지리공간질의(geographic question)를 지리공간분석절차로 변환하고 이를 수행하기 적합한 데이터와 도구를 탐색하는 연구 분야다. 현실적인 Geo-analytical QA를 수행하기 위해서는 다양한 문장 형태를 가진 질의를 지리공간분석절차로 변환할 수 있어야 하지만 기존 연구에서 제안한 방법은 제한된 문장형태에 대해 규칙 기반 방식을 통해 문장을 분석절차로 변환하기 때문에 현실적인 Geo-analytical QA를 수행하기 어렵다는 한계를 지닌다. 따라서 본 연구에서는 현실적인 Geo-analytical QA를 수행하기 위해 다양한 문장 형태를 가지는 지리공간질의를 지리공간분석절차로 변환하는 방안을 제시하고자 한다. 또한, 지리공간분석을 실제로 수행하기 위해서는 지리공간연산함수를 파악하는 것이 중요하기 때문에 도출한 지리공간분석절차가 지리공간연산함수를 분석 의도에 맞게 순서대로 포함하도록 설정했다. 지리공간질의를 분석절차로 변환하기 위해서 본 연구에서는 문장 분류(text classification)기법을 적용했고, 문장 분류 기법을 이용하기 위해서는 문서를 목적에 맞게 모아 놓은 말뭉치(corpus) 선정, 말뭉치를 라벨링 해 데이터셋 생성, 데이터셋을 분류모델(classification model)의 입력값으로 만들기 위해 말뭉치에 등장하는 질의를 임베딩(embedding)하는 과정, 그리고 각 임베딩과 라벨로 이루어진 데이터셋을 이용해 분류모델을 학습하는 과정이 필요하다. 질의를 답하기 위해 다양한 지리 공간 분석절차를 이용해야 하는 것으로 알려진 GeoAnQu 말뭉치를 대상 말뭉치로 선정하고 분석해서 고유한 분석절차를 도출한 후 해당 분석절차에 고유 번호를 부여했다. 해당 고유번호를 기준으로 GeoAnQu 말뭉치에 등장하는 질의에 대해 라벨링을 수행해 데이터셋을 확보한 후 다양한 문장형태 생성 및 데이터셋 증강을 위해 어휘변용(paraphrase)을 실시했다. 그 후 해당 데이터셋을 Glove(global vectors), BERT(bidirectional encoder representations from transformers), RoBERTa(robustly optimized BERT pre-training approach), SBERT(sentence-BERT)를 이용해 문장 임베딩을 수행하고 각각 임베딩을 linear SVM(support vector machine), 랜덤포레스트(random forest)을 이용해 학습시켰다. 최종적으로 SBERT 문장 임베딩을 linear SVM에 학습시킨 모델이 가장 높은 성능을 보이는 것을 확인할 수 있었고, 해당 모델을 통해 다양한 문장형태를 가지는 지리공간 질의를 지리공간분석절차로 변환할 수 있었다. 또한 해당 결과의 한계점을 분석해 향후 연구 방향을 제시했다.
Language
kor
URI
https://hdl.handle.net/10371/193034

https://dcollection.snu.ac.kr/common/orgView/000000175674
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share