Browse

Movie Genre Classification Based on Plot Description.
영화 줄거리에 기반한 영화 장르 예측

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
이종진
Advisor
김용대
Major
자연과학대학 통계학과
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 자연과학대학 통계학과, 2019. 2. 김용대.
Abstract
Movies plot is designed to provide movie's information to audiences. it
means that movie genre information could be inherent in movie plot. Based
on this fact, we perform movie genre classication from plot description in
this study. To make a genre classifer from movie plot, we consider two re-
quirements for the classier. First, the classier has to be capable of extract-
ing features from document. Second, because not all of the sentences and
words are related with movie genre, the classier with attention mechanism
would be better. Considering these two aspects, we determined to use Hi-
erarchical Attention Network (HAN, Yang et al. (2016)) as a classier in
this study. It is the document classier using bidirection GRU, which has
attention mechanism. We use HAN architecture with a bidirectional LSTM
instead of bidirectional GRU and train it using Wikipedia Movie Plots as a
dataset. We evalute trained classier's performance using test set, and inves-
tigate which words are important to determine movie genre, using activation
value of attenttion of words and sentences.
영화 줄거리는 청중에게 영화에 대한 정보를 제공하기 위한 목적으로 만들어졌다. 그렇기 때문에, 영화 줄거리에는 영화의 장르에 대한 정보도 자연스럽게 포함되어 있을 것이며, 이를 이용해, 본 연구에서 우리는 영화 줄거리를 기반으로 영화 장르를 예측해보고자 한다. 줄거리를 기반으로 분류모형을 만들기 위해서, 분류모형의 두 가지 필요조건을 고려하였다. 첫 번째로 문서에 적용하여 정보를 추출할 수 있는 분류모형이 필요하다. 두 번째로, 영화줄거리의 모든 단어와 문장이 영화 장르와 관련된 것은 아니므로, 관련 단어에 집중할 수 있는 분류모형이 더 나을 것이다. 이 두 가지 측면을 고려하여 분류모형으로 Hierarchical Attention Network(HAN, (Yang:2016))을 분류모형으로 선택하였다. 그것은 Bidirectional GRU를 기반으로 한 분류모형으로 관련 단어 집중할 수 있는 Attention mechanism을 가지고 있다. 우리는 bidirectional GRU 대신 bidirectional LSTM을 사용한 HAN 모형을 이용하였고, Wikipedia Movie Plots을 이용해 모형을 적합해보았다. 그리고 훈련된 모형을 시험자료를 이용해 성능을 살펴보았고, 더 나아가서, Attention의 활성값을 통해 영화 장르 결정에 중요한 역할을 하는 단어와 문장을 본 연구에서 살펴보았다.
Language
eng
URI
http://hdl.handle.net/10371/151614
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Statistics (통계학과)Theses (Master's Degree_통계학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse