Publications

Detailed Information

한국어의 저지현상에 대한 계량언어학적 연구 : A Quantitative Linguistic Study on Blocking in Contemporary Korean

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

조성원

Advisor
이진호
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
저지파생경쟁생산성분석(parsing)빈도blockingderivationcompetitionproductivityparsingfrequency
Description
학위논문(석사) -- 서울대학교대학원 : 인문대학 국어국문학과, 2021.8. 이진호.
Abstract
This paper is about capturing the pattern of blocking of affixal derivation in Korean by introducing quantitative linguistic methodologies, and about seeking for explanations behind such pattern. Blocking is a phenomenon in which a certain morphologically complex form being not able to appear due to the mere existence of a synonymous rival. Unfortunately, there has been tendency among both Western and Korean researchers in the field of morphology to shun dealing with this concept because of its complexity. Unlike more popular subjects such as morphological productivity, one has to deal with multiple affixes(or derivational rules) simultaneously in order to find any regularities from blocking. So the concept of blocking has long been treated like a dustbin which contains all the non-occurrence leftovers that linguistic restrictions could not handle. It was of course for most of morphologists, even those who are familiar with quantitative approaches, to concentrate working with productivity. As for the Korean linguistics, It would be safe to say that there has not been any research in the field of quantitative linguistics that was exclusively on blocking.
However, as high-quality Korean corpus continue to be built and various statistical methods and software to process big data developed, dealing with intricate morphological topics is becoming unprecedentedly feasible. Since morphological phenomena such as derivation are closely related to frequency, it was considered golden opportunity to study the neglected subject of blocking in a quantitative perspective. Under this context, three general objectives were set for this paper. First, revise the existing quantitative methods, which resorted largely to intuitive analysis. Second, collect the latest frequency distribution data of derivatives for each affix and analyze them to obtain necessary indicators for exploring their linguistic implications. Third, identify the previously unknown type of blocking that occurs between affixes.
In chapter 2, new quantitative method for processing corpus into data table and visualizing them to be more suitable for the purpose of this discussion was devised. According to previous arguments, when a derivative is retrieved from the lexicon, it follows one of either paths: direct whole-access route or parsing route. This mechanism is related with frequency, since derivative words with high frequency tend to be stored as a whole, while infrequent ones are more likely to be composed when they are needed. It was natural that a lot of quantitative researches on productivity eventually endeavored to locate frequency threshold where the derived words start to be easier to be stored as a whole. The threshold was necessary for calculating productivity in the sense that words that did not follow the parsing route should be excluded from analysis beforehand. The new method for analyzing frequency distributions in chapter 2 was designed to locate this critical point of parsing.
In chapter 3, frequency distribution of derivatives of competing and non-competing affixes are analyzed, and then the results are used to estimate productivity and parsing/storage threshold of each affix. Analyzed data of frequency distribution works as an basic data for identifying how blocking realizes between word tokens. As former researchers asserted, frequency takes crucial part in accounting for blocking. This is because blocking is basically a deterrence in morphological occurrence, of which deterring power is a function of frequency of the pre-stored word.
What this paper tried to assert the most in chapter 4, though, is that the blocking between suffixes – which have long been disproved of its existence - does occur, when neologisms are coined. Correlation between productivity and threshold frequency of multiple affixes suggest that there is a systematic and general gap in productivity between competing affixes. This gap is caused by semantic specialization in producing new words between affixes. The specialized meanings were irrelevant to their typical usage. Then it could be said that blocking between affixes has occurred, since the mere presence of competing affix coerced each affix to specialize in certain meaning and usage, which in turn lead to the productivity gap between them.
Highly convoluted phenomenon like blocking reveal its true identity only if adequate means are introduced. By integrating linguistic theories and statistical achievements into more advanced quantitative linguistic methodology, this paper was able to capture the macroscopic structure inherent in natural language.
이 논문에서는 한국어의 접사에 의한 파생에서의 저지(blocking)가 일어나는 양상을 계량언어학적 방법론을 도입하여 포착하고 그러한 모습으로 나타난 이유에 대해 탐구하고자 했다. 저지란 어휘부에 존재하는 어떤 형태가 다른 동의적인 경쟁 형태의 출현을 방해하는 현상이다. 선행 연구에서는 서구의 연구자와 국내의 연구자를 가리지 않고 저지를 형태론적 현상의 변방에 두어 홀대한 경향이 있다. 고전적인 연구에서 저지현상은 언어적 제약으로 설명할 수 없는 단어의 출현 제약을 이름 짓는 역할에 머물렀고, 코퍼스와 빈도를 통한 최근의 연구에서도 기술이 비교적 간단한 생산성에 관한 논의가 대부분이었다. 특히 계량언어학적 측면에서 저지를 독립적으로 다룬 국내의 연구는 전무하다고 보아도 무방하다.
그러나 최근 품질이 높은 한국어 말뭉치가 수차례 구축되고 자료를 처리할 통계적인 방법론과 소프트웨어도 다양하게 개발되면서 앞선 연구에서 타협한 문제에도 도전할 수 있는 여건이 마련되었다. 파생과 같은 형태론적 현상은 빈도와 깊은 관련을 맺고 일어나기 때문에 이는 그동안 소홀했던 주제인 저지현상을 보다 나은 계량언어학적 방법으로 연구하기에 절호의 기회라고 여겨졌다. 이와 같은 인식 아래 본 논문에서는 크게 세 가지 목적을 정하여 논의를 전개하였다. 첫째, 직관적인 분석에 그쳤거나 기술적인 한계가 있어 부족한 점이 있었던 기존의 계량적 연구 방법을 종합하고 수정한다. 둘째, 접사별 파생어들의 최신화된 빈도 분포 자료를 수집하고 분석하여 필요한 지표를 구하고 언어학적 의미를 탐구한다. 셋째, 정리한 자료를 바탕으로 한국어 저지현상의 공시적인 모습과 기존에 알려지지 않은 발생 양상을 파악한다.
2장에서는 코퍼스에 나타난 언어의 상태를 논의의 목적에 알맞게 가공할 계량적 방법을 고안하였다. 선행 연구에 따르면 어떤 파생어가 어휘부에서 인출될 때는 단어 전체가 통째로 저장·인출되거나 접사+어근으로 분석(parsing)되어 새로 조합하는 두 가지의 경로 중 하나를 통한다. 이 현상은 단어의 빈도와 밀접하게 관계되어 있다. 빈도가 높은 파생어는 대체로 어휘부에 그대로 저장되는 경향이 강하지만 빈도가 낮은 파생어는 필요에 따라 조합해서 쓰는 경향이 강한 것이다. 생산성에 관한 계량적 연구에서는 이들 두 부류의 파생어 집합이 만나는 지점인 분석 임계점, 혹은 저장 임계점을 찾을 방법을 찾기 위해 부단히 노력해 왔다. 접사의 생산성을 계산하기 위해서는 분석 경로를 따르지 않은 파생어를 분석 대상에서 제외할 수 있어야 하기 때문이다. 이를 위해서는 낮은 빈도에서는 주로 분석 경로를 거치다가 빈도가 높아짐에 따라 저장되는 경향이 더 강해지기 시작하는 임계점을 특정하고 그 빈도를 구할 수 있어야 한다. 2장에서 기존 연구를 종합하여 고안한 빈도 분석 방법은 바로 이 지점을 찾기 위한 것이다.
3장에서는 경쟁 관계에 있다고 생각되는 접사들과 그렇지 않은 접사들을 묶어 파생어의 빈도 분포를 분석하고 각 접사의 생산성과 저장 임계 빈도를 추정하였다. 파생어의 빈도 정보는 4장에서 저지의 실현 양상을 확인하는 데에 필수적인 기초 자료가 된다. 기존의 연구 결과에서 주장한 바와 같이 저지는 어휘부에 미리 저장된 파생어가 다른 파생어의 출현을 막는 것이므로 저장 강도를 간접적으로 나타내는 지표인 빈도를 통해 분석할 수 있기 때문이다.
그런데 4장에서 무엇보다 새롭게 주장하고자 한 점은 신어 파생에서도 경쟁하는 접사들 사이에 저지가 일어난다는 것이다. 여러 접사의 생산성과 임계 빈도를 구해 보면 경쟁 접사의 그룹 내에서 생산성의 전반적인 격차가 규칙적으로 나타난다는 사실도 확인할 수 있다. 빈도와 접사의 의미에 따라 파생어들을 분류해보면, 이는 경쟁하는 접사들 사이의 의미별 분업에 의한 것으로 해석할 수 있다. 이러한 신어 파생에서의 분업은 접사의 전형적인 용법과는 관계없이 일어나는 것으로 나타났다. 그렇다면 의미적으로는 파생할 수 있으며 실제로 종종 파생이 일어나는 영역에서도 단지 경쟁하는 접사가 담당했다는 이유만으로 파생이 억제되고, 결과적으로 생산성의 격차가 발생한 것이므로 이를 신어 파생에서의 접사 간 저지로 볼 수 있다.
저지현상은 어휘부의 저장과 관련된 현상이므로 빈도를 통한 계량언어학적 연구에 적합하지만, 생산성과 같이 접사 내적인 빈도 구조를 살피는 것으로 충분한 개념들과 달리 여러 접사를 함께 비교해야 하므로 더 고차원적인 분석 방법이 필요했다. 즉, 파생어들을 빈도와 함께 단순히 나열하고 그 목록을 직접 해석하는 기존의 방식으로는 저지를 충분히 이해할 수 없다. 언어 자료가 갖는 통계적 특성을 적극적으로 활용함과 동시에 관련된 언어학적 개념을 도입했을 때에야 비로소 인지할 수 있는 거시적인 구조가 언어 내에 분명 존재하는 것이다. 이런 측면에서 볼 때, 형태론뿐 아니라 언어학의 다양한 분야에서 계량적 방법론이 새로운 시각을 제시할 수 있는 여지는 무궁무진하다고 할 수 있다.
Language
kor
URI
https://hdl.handle.net/10371/178409

https://dcollection.snu.ac.kr/common/orgView/000000168547
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share