Publications

Detailed Information

강화 학습을 이용한 단어 감정 값 및 진술문 상태 값 측정법 연구

DC Field Value Language
dc.contributor.advisor신효필, 장병탁-
dc.contributor.author김영삼-
dc.date.accessioned2018-11-12T01:01:57Z-
dc.date.available2018-11-12T01:01:57Z-
dc.date.issued2018-08-
dc.identifier.other000000152891-
dc.identifier.urihttps://hdl.handle.net/10371/143346-
dc.description학위논문 (박사)-- 서울대학교 대학원 : 인문대학 협동과정 인지과학전공, 2018. 8. 신효필, 장병탁.-
dc.description.abstract본 논문에서 강화 학습(reinforcement learning)이란 기계 학습 방법의 한 종류로 환경으로부터 주어지는 보상을 최대화하는 방식의 학습 모형을 가리킨다. 이 방법론이 기계 학습 방법의 주류인 지도 학습(supervised learning)과 원리적으로 다른 점은 이 방법론이 에이전트가 무엇을 할 지에 대한 구체적인 지도(supervision)를 하지 않고, 에이전트가 처한 환경 안에서 여러 시행을 통해 그것을 발견하도록 한다는 점에 있다. 이 과정에서 에이전트가 취하는 행위, 즉 행동은 바로 주어지는 보상 외에도 계속적으로 이어지는 상황들에 따른 보상들을 최대화하는 것을 목적으로 하게 된다.



본 연구의 주요 목적은 이 강화 학습 방법론을 통해 자연어 텍스트를 점진적(incremental), 연속적(continuous)으로 처리하는 방법을 연구하는 데 있다. 자연어 처리, 혹은 전산 언어학은 다양한 과제를 가지고 있는 방대한 분야이므로 본 논문에서는 크게 두 가지 종류의 과제, 상태 값 측정 과제와 상태 유형 예측 과제를 중점적으로 다룬다. 전자의 경우에는 어휘의 감정 극성 값을 강화 학습의 핵심적 알고리즘인 시간차(temporal difference) 알고리즘을 통해 측정하는 방법을 연구하고, 후자의 경우에는 의료 텍스트 문장의 연속적 상태 측정을 강화 학습 방법론을 통해 수행하는 방법을 살펴볼 것이다.



자연어 텍스트의 점진적, 혹은 연속적 처리 과정은 인간의 언어 심리학적 처리양상을 볼 때 인지 친화적인 접근법으로 보이는데, 왜냐하면 여러 심리학적, 신경학적 연구결과들을 통해 언어 처리의 과정이 기본적으로 자동적, 점진적 처리임이 알려져 있기 때문이다. 본 논문에는 그런 측면에서 강화 학습을 보다 인지 모형에 입각하여 활용하고자 하는 노력이 들어 있다. 마지막 논의 부분에서는 인지모형 기반 강화 학습에 대해 논의하고 이 방법을 자연어 처리에 어떻게 활용할 것인지에 대한 전망을 다루었다.
-
dc.description.tableofcontents1 서론 1

1.1 강화 학습의 짧은 역사 . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 연구 질문들 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 논문의 전체적 구성 . . . . . . . . . . . . . . . . . . . . . . . . . 5



I 연구 배경 7

2 언어 처리의 점진성 9

2.1 통사적 처리의 점진성 . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 의미적 처리의 점진성 . . . . . . . . . . . . . . . . . . . . . . . . 10

3 강화 학습 13

3.1 강화 학습 모형 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 마르코프 결정 과정 . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3 목적, 상태, 행위 그리고 보상 . . . . . . . . . . . . . . . . . . . . 16

3.4 강화 학습 알고리즘의 두 특징 . . . . . . . . . . . . . . . . . . . 17

4 가치 예측 문제에 대한 시간차 학습 19

4.1 마르코프 보상 과정 . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2 가치 함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.3 몬테 카를로 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.4 시간차 예측 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5 모형 기반 강화 학습과 함수 근사법 25

5.1 모형과 계획 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.2 함수 근사와 상태 표상 . . . . . . . . . . . . . . . . . . . . . . . 28

5.2.1 모수적 방법 . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.2.2 비모수적 방법 . . . . . . . . . . . . . . . . . . . . . . . . 30



II 실험 33

6 시간차 기반 단어 감정 극성 값 측정법 35

6.1 실험의 기본적 설계 . . . . . . . . . . . . . . . . . . . . . . . . . 35

6.1.1 상태 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6.1.2 보상 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6.2 실험 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.2.1 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.2.2 비교 조건 . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6.2.3 실험 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.2.4 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

6.3 실험 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6.3.1 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.3.2 비교 조건 . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.3.3 실험 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6.3.4 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6.4 실험 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6.4.1 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6.4.2 비교 조건 . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6.4.3 실험 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6.4.4 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

7 간호 진술문의 온라인 상태 값 측정법 49

7.1 실험 목적 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

7.2 데이터 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

7.3 실험 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

7.3.1 상태 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

7.3.2 보상 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7.3.3 절차 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7.3.4 비교 조건 . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7.4 실험 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

III 논의 및 결론 59

8 단어 감정 극성값 측정법 논의 61

8.1 TD 방법들 간의 분산의 차이 . . . . . . . . . . . . . . . . . . . . 61

8.2 TD 기반 측정치의 평탄성 . . . . . . . . . . . . . . . . . . . . . . 62

8.3 TD 방법의 점진성 . . . . . . . . . . . . . . . . . . . . . . . . . . 63

9 간호 진술문 상태 값 측정법 논의 65

9.1 문장에 대한 함수 근사법의 문제 . . . . . . . . . . . . . . . . . . 65

9.2 진술문 상태 값의 점진적 측정 . . . . . . . . . . . . . . . . . . . 68

9.3 진술문 상태들의 관계에 대한 TD 방법의 유연성 . . . . . . . . . 68

9.4 한계점 및 도메인 특정적 장점들 . . . . . . . . . . . . . . . . . . 70

10 전체 논의 및 결론 73

10.1 희소한 보상 값의 문제 . . . . . . . . . . . . . . . . . . . . . . . 73

10.2 모형 기반 강화학습과 자연어 처리의 문제 . . . . . . . . . . . . . 74

10.3 본 연구에서 밝힌 것 . . . . . . . . . . . . . . . . . . . . . . . . . 76

10.4 강화학습을 이용한 자연어 처리의 미래 . . . . . . . . . . . . . . . 76

참고문헌 79

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Abstract 87
-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject.ddc153-
dc.title강화 학습을 이용한 단어 감정 값 및 진술문 상태 값 측정법 연구-
dc.typeThesis-
dc.contributor.AlternativeAuthorYoungsam Kim-
dc.description.degreeDoctor-
dc.contributor.affiliation인문대학 협동과정 인지과학전공-
dc.date.awarded2018-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share