Browse

어텐션 기반 딥러닝 모델을 활용한 확장된 장소정보 탐지 기법 연구
A Study on the Extended Place Information Detection using Attention-based Deep Learning Model

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
민경현
Advisor
유기윤
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :공과대학 건설환경공학부,2020. 2. 유기윤.
Abstract
최근 다양한 소셜미디어 플랫폼의 등장과 활용이 증가함에 따라 하루에도 수 억 건의 게시물들이 작성되며, 소셜 빅데이터는 다양한 방식으로 장소정보를 포함하고 있다. 다수의 플랫폼들은 장소정보를 입력하는 기능을 제공하고 있다. 하지만 지오태깅 된 게시물의 수가 적어 게시물의 지리정보 및 장소정보가 제대로 활용되지 못하고 있다. 이에 텍스트 데이터의 장소정보를 활용하기 위해 장소정보를 탐지 및 추출하는 방법에 대한 연구가 활발하게 진행되어져 왔다. 그러나 대부분의 연구는 개체명에 해당하는 고유명사로 된 장소정보 추출에 대해 진행되었다. 또한, 개체명인식의 경우 학습을 위한 데이터를 구축하는데 있어서 BIO태깅이 필요하며, 이는 상당한 시간과 인력이 필요하다. 따라서 본 연구에서는 자연어처리 분야에서 널리 사용되고 있는 순환신경망과 최신 딥러닝 기술인 어텐션 메커니즘을 활용하여 BIO태깅을 하지 않고, 기존 개체명인식으로는 탐지할 수 없었던 보통명사를 포함한 확장된 개념의 장소정보를 탐지하고자 하였다. 학습모델은 텍스트 내 장소 정보 포함여부를 약 88%의 정확도로 분류하였고, AUC 0.945의 성능을 보였다. 본 논문에서 제안하는 확장된 장소정보 탐지 기법은 학습데이터 셋 구축을 간소화 하였으며, 고유명사 뿐 아니라 보통 명사까지 포함하는 확장된 개념의 장소정보 탐지가 가능함을 확인하였다. 또한, 본 방법을 통해 사전 또는 학습데이터에 없는 장소정보를 텍스트 내에서 탐지할 수 있으므로, 기존 데이터베이스에 없는 신규 POI를 탐지할 수 있다는 점에서 의의가 있다.
Recently, as the emergence and utilization of various social media platforms increases, hundreds of millions of posts are created every day. And so-called “social big data” includes place-related information in various forms. Although such platforms provide a function of inputting place information, the number of geotagged posts is too small. As a result, the geographical information and place information in the posts are not practically used. Therefore, researches on a method of detecting and extracting place-related information to perform spatial analysis using text data have been actively conducted. However, most studies have been conducted on the extraction of place information with a proper noun, and the BIO tagging required for constructing dataset to train named entity recognizer takes considerable time and human resources. Therefore, in this study, we suggested a methodology to detect extended place information including common nouns that could not be detected by conventional named entity recognizer using the recurrent neural network widely used in the field of natural language processing with the attention mechanism which is one of the latest deep learning technology. The model's classification result was about 88% in accuracy, and showed AUC of 0.945. The extended place information detection method proposed in this paper not only simplified the construction of the data set but also showed the possibility of detecting extended place information including common nouns and proper nouns.
Also, the suggested methodology is significant in that this method can detect new POIs that are not in the existing dictionary since location information not in the dictionary or study data can be detected within the text.
Language
kor
URI
http://dcollection.snu.ac.kr/common/orgView/000000159749
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Civil & Environmental Engineering (건설환경공학부)Theses (Master's Degree_건설환경공학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse