Publications

Detailed Information

Word Embedding-Based Semantic Analysis of English Loanwords in Japanese and Korean : 단어임베딩을 이용한 일본어와 한국어에서의 영어 외래어 의미분석

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

Yamada Akihiko

Advisor
신효필
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
Big data,Deep learningWord embeddingsLoanwordLexical competitionSemantic changeSociolinguisticsCultural trend change detection빅 데이터딥 러닝단어 임베딩외래어어휘 경쟁의미 적응사회언어학문화 경향 변화 감지
Description
학위논문 (박사) -- 서울대학교 대학원 : 인문대학 언어학과, 2021. 2. 신효필.
Abstract
전 세계적으로 활발한 문화 교류가 이루어짐에 따라 외래어가 일반적으로 자주 사용되는데, 외래어의 수용 과정에서 다양한 언어적 현상이 일어난다.
외래어가 수용됨에 따라 원래 차용주에 존재했던 단어가 사라지기도 하고, 차용어의 접미사와 단어가 차용주의 단어와 결합하여 새로운 단어를 생성하기도 하며, 차용어의 전치사가 외래어로서 그대로 사용되기도 한다. 또한, 외래어 자체는 차용주의 언어적 제약으로 인해 외래어의 정착 과정에서 형태, 음운 및 의미 변화를 겪는다. 이와 같이, 외래어의 수용 과정에서 차용주와 차용어의 다양한 변화가 일어나기 때문에 외래어는 역사언어학의 형태론, 음운론, 의미론과 같은 여러 분야에서 중요하게 연구되는 주제 중 하나이다.
외래어는 주로 차용주의 단어로는 표현할 수 없는 완전히 새로운 외국 제품명이나 개념을 나타내는 데 사용된다. 그런데 한편으로는 이미 고유어로 존재하는 단어를 좀 더 고급스럽고 학술적인 이미지로 바꾸기 위해 외래어를 사용하기도 하는데, 이러한 외래어의 사회언어학적 역할은 최근 특히 주목을 받고 있다.
대부분의 외래어 선행연구는 외래어의 많은 예를 수집하고 언어변화 패턴을 정리하는 방법으로 진행되었다. 최근 말뭉치 기반의 정량적 연구에서는 단어 길이와 같은 언어학적인 요인들이 외래어가 차용주에 성공적으로 정착하는 과정에 영향을 미치는지 통계적으로 연구하는 방법이 많이 사용되었다. 그러나 이러한 단어의 빈도기반 연구는 단어의 복잡한 의미 정보를 정량화하는 데에는 어려움이 있어 외래어 의미 현상에 대한 정량적 분석연구는 아직 진행되지 않았다.
본 연구는 외래어와 관련된 의미 현상을 정량적으로 분석하기 위한 단어임베딩(Word Embedding) 기반의 방법을 제안한다. 단어 임베딩 방법은 딥 러닝 방법과 언어 빅데이터를 사용하여 단어의 의미 문맥 정보를 벡터 값으로 효과적으로 변환할 수 있다. 이 방법을 활용하여 외래어와 관련된 의미 현상의 세 가지 주제, 어휘 경쟁, 의미적 적응, 사회적 의미 기능과 문화적 경향 변화에 초점을 맞추어 연구를 진행하였다.
첫 번째 연구는 외래어와 차용주의 동의어 간의 어휘경쟁에 중점을 둔다. 빈도기반의 방법으로는 어휘 경쟁의 유형(단어 대체 또는 의미 분화)을 구별할 수 없다. 어휘 경쟁의 유형을 판단하려면 외래어와 차용주 동의어 간의 문맥 공유 상태를 파악해야 한다. 문맥 공유 상태를 정량적으로 모델링하기 위해 본 연구는 기하학적 개념을 적용한다. 제안된 기하학적 단어 임베딩 기반 모델은 외래어와 수용언어의 동의어 사이에서 발생하는 어휘 경쟁을 정량적으로 판단함을 확인할 수 있었다.
두 번째 연구는 일본어와 한국어에서의 영어 외래어의 의미 적응에 중점을 둔다. 영어 외래어는 차용주에 정착하는 과정을 통해 의미 적응을 겪는다. 본 연구는 외래어와 영어 고유어와의 의미 차이를 비교하기 위해 변환 행렬 방법을 적용하여 영어 외래어의 일본어와 한국어에서의 의미 적응 차이를 분석하였다. 또한, 영어 단어의 다의성이 의미적응에 주는 영향을 통계적으로 분석하였다.
세 번째 연구는 일본과 한국의 최신 문화적 경향을 반영하는 외래어의 사회 의미적 역할에 초점을 맞춘다. 일본과 한국 사회의 미디어에서는 새로운 문화적인 경향이나 이슈가 생겼을 때 외래어를 자주 사용하므로, 외래어가 일본과 한국의 문화적 경향을 반영하는 역할을 가질 것이 예상된다. 본 연구는 이러한 외래어가 문화적 경향의 변화를 반영하는 지표로서의 역할을 한다는 가설을 제안한다. 이 가설을 검증하기 위해 사전 훈련된 문맥 임베딩 모델(BERT)을 사용하고 시간에 따른 외래어의 문맥 변화를 추적하는 방법을 제안한다. 실험 결과, 제안된 방법을 통해 외래어의 문맥 변화 추적을 통해 문화적 경향의 변화를 감지할 수 있었다.
본 연구에서는 기본적으로 일본어와 한국어 데이터를 사용하였다. 이것은 전산 다국어 대조 언어연구의 가능성을 보여준다. 이러한 단어 임베딩 기반의 의미 분석 방법은 다언어 계산의미론 및 계산사회언어학의 발전에 많은 기여를 할 수 있을 것으로 예상된다.
Through cultural exchanges with foreign countries, a lot of foreign words have entered another country with a foreign culture. These foreign words, loanwords, have broadly prevailed in languages all over the world.
Historical linguistics has actively studied the loanword because loanword can trigger the linguistic change within the recipient language. Loanwords affect existing words and grammar: native words become obsolete, foreign suffixes and words coin new words and phrases by combining with the native words in the recipient language, and foreign prepositions are used in the recipient language. Loanwords themselves also undergo language changes-morphological, phonological, and semantic changes-because of linguistic constraints of recipient languages through the process of integration and adaptation in the recipient language. Several fields of linguistics-morphology, phonology, and semantics-have studied these changes caused by the invasion of loanwords.
Mainly loanwords introduce to the recipient language a completely new foreign product or concept that can not be expressed by the recipient language words. However, people often use loanwords for giving prestigious, luxurious, and academic images. These sociolinguistic roles of loanwords have recently received particular attention in sociolinguistics and pragmatics.
Most previous works of loanwords have gathered many examples of loanwords and summarized the linguistic change patterns. Recently, corpus-based quantitative studies have started to statistically reveal several linguistic factors such as the word length influencing the successful integration and adaptation of loanwords in the recipient language. However, these frequency-based researches have difficulties quantifying the complex semantic information. Thus, the quantitative analysis of the loanword semantic phenomena has remained undeveloped.
This research sheds light on the quantitative analysis of the semantic phenomena of loanwords using the Word Embedding method. Word embedding can effectively convert semantic contextual information of words to vector values with deep learning methods and big language data. This study suggests several quantitative methods for analyzing the semantic phenomena related to the loanword. This dissertation focuses on three topics of semantic phenomena related to the loanword: Lexical competition, Semantic adaptation, and Social semantic function and the cultural trend change.
The first study focuses on the lexical competition between the loanword and the native synonym. Frequency can not distinguish the types of a lexical competition: Word replacement or Semantic differentiation. Judging the type of lexical competition requires to know the context sharing condition between loanwords and the native synonyms. We apply the geometrical concept to modeling the context sharing condition. This geometrical word embedding-based model quantitatively judges what lexical competitions happen between the loanwords and the native synonyms.
The second study focus on the semantic adaptation of English loanwords in Japanese and Korean. The original English loanwords undergo semantic change (semantic adaptation) through the process of integration and adaptation in the recipient language. This study applies the transformation matrix method to compare the semantic difference between the loanwords and the original English words. This study extends this transformation method for a contrastive study of the semantic adaptation of English loanwords in Japanese and Korean.
The third study focuses on the social semantic role of loanwords reflecting the current cultural trend in Japanese and Korean. Japanese and Korean society frequently use loanwords when new trends or issues happened. Loanwords seem to work as signals alarming the cultural trend in Japanese and Korean. Thus, we propose the hypothesis that loanwords have a role as an indicator of the cultural trend change. This study suggests the tracking method of the contextual change of loanwords through time with the pre-trained contextual embedding model (BERT) for verifying this hypothesis. This word embedding-based method can detect the cultural trend change through the contextual change of loanwords.
Throughout these studies, we used our methods in Japanese and Korean data. This shows the possibility for the computational multilingual contrastive linguistic study. These word embedding-based semantic analysis methods will contribute a lot to the development of computational semantics and computational sociolinguistics in various languages.
Language
eng
URI
https://hdl.handle.net/10371/175840

https://dcollection.snu.ac.kr/common/orgView/000000165133
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share