Publications

Detailed Information

Movie Genre Classification Based on Plot Description. : 영화 줄거리에 기반한 영화 장르 예측

DC Field Value Language
dc.contributor.advisor김용대-
dc.contributor.author이종진-
dc.date.accessioned2019-05-07T04:33:56Z-
dc.date.available2019-05-07T04:33:56Z-
dc.date.issued2019-02-
dc.identifier.other000000155463-
dc.identifier.urihttps://hdl.handle.net/10371/151614-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 자연과학대학 통계학과, 2019. 2. 김용대.-
dc.description.abstractMovies plot is designed to provide movie's information to audiences. it
means that movie genre information could be inherent in movie plot. Based
on this fact, we perform movie genre classication from plot description in
this study. To make a genre classifer from movie plot, we consider two re-
quirements for the classier. First, the classier has to be capable of extract-
ing features from document. Second, because not all of the sentences and
words are related with movie genre, the classier with attention mechanism
would be better. Considering these two aspects, we determined to use Hi-
erarchical Attention Network (HAN, Yang et al. (2016)) as a classier in
this study. It is the document classier using bidirection GRU, which has
attention mechanism. We use HAN architecture with a bidirectional LSTM
instead of bidirectional GRU and train it using Wikipedia Movie Plots as a
dataset. We evalute trained classier's performance using test set, and inves-
tigate which words are important to determine movie genre, using activation
value of attenttion of words and sentences.
-
dc.description.abstract영화 줄거리는 청중에게 영화에 대한 정보를 제공하기 위한 목적으로 만들어졌다. 그렇기 때문에, 영화 줄거리에는 영화의 장르에 대한 정보도 자연스럽게 포함되어 있을 것이며, 이를 이용해, 본 연구에서 우리는 영화 줄거리를 기반으로 영화 장르를 예측해보고자 한다. 줄거리를 기반으로 분류모형을 만들기 위해서, 분류모형의 두 가지 필요조건을 고려하였다. 첫 번째로 문서에 적용하여 정보를 추출할 수 있는 분류모형이 필요하다. 두 번째로, 영화줄거리의 모든 단어와 문장이 영화 장르와 관련된 것은 아니므로, 관련 단어에 집중할 수 있는 분류모형이 더 나을 것이다. 이 두 가지 측면을 고려하여 분류모형으로 Hierarchical Attention Network(HAN, (Yang:2016))을 분류모형으로 선택하였다. 그것은 Bidirectional GRU를 기반으로 한 분류모형으로 관련 단어 집중할 수 있는 Attention mechanism을 가지고 있다. 우리는 bidirectional GRU 대신 bidirectional LSTM을 사용한 HAN 모형을 이용하였고, Wikipedia Movie Plots을 이용해 모형을 적합해보았다. 그리고 훈련된 모형을 시험자료를 이용해 성능을 살펴보았고, 더 나아가서, Attention의 활성값을 통해 영화 장르 결정에 중요한 역할을 하는 단어와 문장을 본 연구에서 살펴보았다.-
dc.description.tableofcontents1 Introduction 1
2 Review of Word2Vec, LSTM 3
2.1 Word2Vec 3
2.2 LSTM 4
3 Data & Data Preprocessing 6
3.1 Data 6
3.2 Data Preprocessing 7
4 Methodology 9
4.1 Embedding 9
4.2 Method 10
5 Results 12
5.1 Performance of the classifier 12
5.2 Analysis of Attention values 13
6 Conclusion 17
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject.ddc519.5-
dc.titleMovie Genre Classification Based on Plot Description.-
dc.title.alternative영화 줄거리에 기반한 영화 장르 예측-
dc.typeThesis-
dc.typeDissertation-
dc.description.degreeMaster-
dc.contributor.affiliation자연과학대학 통계학과-
dc.date.awarded2019-02-
dc.identifier.uciI804:11032-000000155463-
dc.identifier.holdings000000000026▲000000000039▲000000155463▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share