Browse

어텐션 메커니즘을 활용한 특허 문서의 다중 레이블 분류
Multi-label Patent Classification with Attention Mechanism

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
박노일
Advisor
조성준
Major
공과대학 산업공학과
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2019. 2. 조성준.
Abstract
전 세계적으로 지적 재산권에 관한 특허 출원은 계속해서 증가하는 추세이다. 하지만 특허 심사는 여전히 소수의 전문적인 지식을 갖춘 심사관들에 의존하고 있기 때문에 특허청의 등록 승인을 받는데까지 긴 시간이 걸리고 있다. 따라서 방대한 양의 특허 정보를 기술적 분야에 따라 자동적으로 분류하는 방법에 대한 연구가 활발히 이루어져 왔다. 본 연구에서는 최근 컴퓨터 비전에 이어 자연어 처리에서도 널리 사용되고 있는 딥러닝 알고리즘을 통해 특허 문서의 다중 레이블 분류 문제에 접근하고자 한다. 구체적으로 GRU 기반의 문서 인코더와 어텐션 메커니즘을 활용하여 특허 문서의 국제특허분류(IPC) 코드를 예측하는 모델을 제안한다. 제안하는 모델의 학습과 평가를 위해 앞선 연구에서 사용한 특허 문서 데이터셋 USPTO-2M을 사용한다. 정밀도(Precision), 재현율(Recall), F 점수를 통해 평가한다. 또한 어텐션 메커니즘을 통해 특허 문서의 분류 결과에 대한 단어별 영향력을 분석하여 키워드를 탐색한다. 특히 특허 문서의 단어별 어텐션 스코어의 시각화를 통해 분류 결과에 대한 기여도를 단어 단위로 비교하고 비중이 높은 단어를 키워드로 선별할 수 있다. 이를 통해 향후 특허 분석이나 키워드 검색에서 활용할 수 있는 의의를 갖는다.
Recently, the growth of number of patent application is unprecedented globally. Meanwhile the patent examination is still strongly dependent on manual works by few patent experts, which slows the overall patent registration process. Therefore, an automatic patent classification algorithm is necessary. In this paper, we propose an effective multi-label patent classification algorithm based on the GRU encoder and attention mechanism. We use the USPTO-2M data set, which consists of about 2 million US patent documents, to train our patent classification model. Precision, recall, and F score are used to evaluate our model on multi-label patent classification task. By visualizing the attention scores, we could identify and analyze keywords from each patent document which determine the context and IPC codes for subclass level.
Language
kor
URI
http://hdl.handle.net/10371/150701
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Industrial Engineering (산업공학과)Theses (Master's Degree_산업공학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse