Publications
Detailed Information
Extension of phonotactic constraints across morphological subdomains: Evidence from Korean : 형태론적 하위영역에 따른 음소배열제약의 확장: 한국어 현상에 대한 실증 연구
Cited 0 time in
Web of Science
Cited 0 time in Scopus
- Authors
- Advisor
- 전종호
- Issue Date
- 2025
- Publisher
- 서울대학교 대학원
- Keywords
- Grammatical leakage ; Lexical Phonology ; liquid-lax coronal avoidance (*LT) ; Maximum Entropy grammar ; phonological mislearning ; variation
- Description
- 학위논문(석사) -- 서울대학교 대학원 : 인문대학 언어학과, 2025. 2. 전종호.
- Abstract
- Martin (2011) points out that a phonotactic generalization that holds for monomorphemic words can also be active in heteromorphemic words over time. Martin attributes such an extension of a phonotactic generalization (leakage in his terminology) to a Maximum Entropy (MaxEnt) learning algorithm with structure-blind constraints and structure-sensitive constraints in the grammar.
Given that multiple heteromorphemic domains exist, it is unknown whether the amount of leakage differs across these domains. As suggested in the theory of Lexical Phonology (Kiparsky 1982 and many others), phonology may vary depending on the morphological subdomains, which are characterized by the type of morphological processes and the type of affixes attached to host stems. In the studies researching the relation between levels in Lexical Phonology and word-internal prosodic structure, affixes attached in earlier levels of the lexicon can be considered to be more affine to the host stems than affixes attached in later levels (Booij and Rubach 1984). Therefore, the affinity to host stems, which is reflected in the order of affixes, generally decreases from derivation through compounds to regular inflection. In this study, I explore whether and how the amount of grammatical leakage correlates with level distinction in Lexical Phonology, by conducting a corpus study on a phonotactic constraint prohibiting lax coronal obstruents after a liquid (*LT) in Korean.
To investigate the distribution of LT sequences in the lexicon of Korean, I conducted a corpus study using the lexicon created by Jun et al (in prep.) based on Sejong Corpus (National Institute of Korean Language 2007). I use two methods to verify the *LT effect in multiple subdomains of the Korean lexicon, which are monomorphemic, derivational, compound and inflectional domains. First, I measure the rate of tensing of post-liquid coronal obstruents in the heteromorphemic domain since this tensing is known as a repair strategy of *LT violations. Second, I conducted a learning simulation using UCLA Phonotactic Learner (Hayes and Wilson 2009), to check whether phonotactic constraints prohibiting LT sequences are active in each subdomain of the lexicon.
In the monomorphemic domain, among 35,179 native and Sino-Korean nouns, only five words contain LT sequences within a morpheme, suggesting that *LT is robust in the monomorphemic lexicon. Furthermore, in the learning simulation using UCLA Phonotactic Learner, markedness constraints banning LT sequences including the most general one, *LT, were learned, predicting the almost categorical absence of words with LT sequences.
In the derivational domain, LT sequences at the morpheme juncture are avoided by the tensing process, with a rate of 68.66%p. Also, the results of the learning simulation confirm that there is *LT effect in the derivational domain but in a weaker way than in the monomorphemic domain.
In the compound domain, *LT shows a weaker effect than the monomorphemic domain or derivational domain. Excluding the effect due to compound tensification, the tensing rate at the morpheme juncture in compounds is 36.94%p, which is lower than the tensing rate in derived words. Moreover, in the learning simulation, only a single constraint banning the sequences of a liquid and a lax alveolar stop was learned, and its weight is not as high as the weights of constraints with *LT effects learned in monomorphemic or derivational domains.
The effect of *LT dies out when the grammar reaches the inflectional domain, which belongs to the postlexical level (Anderson 1982, Kang 1993). Inflectional suffixes beginning with lax coronal obstruents can be freely combined with the stems ending with liquids as in tol+to stone-postposition and al-ta know-declarative. This suggests that *LT is not active among inflected words. As the Split Morphology Hypothesis (Anderson 1982, 1988) proposes that inflection belongs to the postlexical phonology and is located outside of the lexicon, the effect of *LT dies out in the syntactic domain.
The avoidance of LT is correlated with the levels of Lexical Phonology. Comparing the *LT effect in monomorphemic, derivational, compound, and inflectional domains based on tensing rates and constraint weights learned by MaxEnt simulation, we show that the earlier levels of the lexicon show stronger LT prohibition.
I compare two MaxEnt models. In the first model, four structure-sensitive constraints (*LT, *L-T, *L+T, *L#T) are employed. When liquid-lax coronal sequences are banned only among monomorphemic words in the input data, the phonological model with four structure-sensitive constraints does not cause grammatical leakage at all. In the second model, both specific structure-sensitive constraints and general constraints are included. General constraints are in the stringency relation, varying in the range of the phonological domains. The most general constraint (*L(#)T) covers all phonological subdomains, the second general constraint (*L(+)T) targets liquid-lax coronals in compounds and words from the lower levels, and the third general constraint (*L(-)T) targets liquid-lax coronals from derived words and monomorphemic words. This MaxEnt model underpredicts liquid-lax coronal sequences in heteromorphemic domains, even when liquid-lax coronal sequences are not underrepresented among heteromorphemic words in the input data. In addition, this MaxEnt model predicts that LT sequences are avoided categorically morpheme-internally. Such avoidance of LT sequences gets weaker when the grammar extends to the domains far from the monomorphemic lexicon, correctly capturing attested patterns of *LT in Korean.
본고는 Martin (2011)이 제시한 문법적 누출 (grammatical leakage)을 형태론적 하위 영역에 확대하여 적용해 보고자 한다. Martin의 문법적 누출 (grammatical leakage)란, 단일형태소 단어에서 나타나는 음소배열제약이 합성어에서도 관찰되는 현상을 말한다. Martin은 이러한 문법적 누출이 발생하는 원인으로 두 가지를 지적했다. 그 원인의 첫 번째는 음운론적 문법이 단어의 구조에 민감한 제약 (structure-sensitive constraint)와 단어 구조와 무관한 제약 (structure-blind constraint)를 모두 가지고 있기 때문이며, 두 번째는 음운론적 문법이 특정 음소배열과 관련된 제약 모두가 그 효과를 갖도록 제약 모두에 가중치를 부여하기 때문이다. Martin은 단일형태소 단어에서 복합어로의 문법 누출을 최대 엔트로피 조화 모형 (maximum entropy model)로 입증하였다.
이처럼 Martin은 형태음운론적 하위 영역을 단일형태소와 합성어로 이분화하여 문법적 누출이 존재함을 입증하였는데, 본고는 형태음운론적 문법에 하위 영역이 존재함을 고려하여 Martin의 문법적 누출을 확장하여 적용하고자 한다. 음운론의 다층적 구조를 제안하는 이론으로는 어휘음운론 (Lexical Phonology) (Kiparsky 1982)가 있는데, 어휘음운론은 형태론적 과정과 음운론적 현상의 적용 순서에 관련이 있음에 기초하여 음운론에 하위 영역이 존재함을 가정한 이론이다. 해당 이론에서는 접사에 연결 순서가 있으며, 어근에 더 먼저 연결되는 접사일수록 어근에 더 가까이 붙음을 보인 바 있다. 또한 어휘음운론의 접사 연결 순서와 Prosodic Phonology의 관련성을 지적한 연구에서는 복합어 내의 운율 구조를 바탕으로 어휘음운론에서 제안하는 문법의 다층 구조를 유추할 수 있음을 보고했는데 (Booij and Rubach 1984) 어근에 더 먼저 연결되는 접사가 은율 구조 상 어근과 더 친연성이 있음을 밝힌 바 있다. 이를 바탕으로, 어근에 더 먼저 연결되는 형태소, 즉 어휘음운론 상 더 이른 층위에 있는 형태소가 어근과 친연성이 높다고 할 수 있다.
어휘음운론에서 제안한 바와 같이 문법의 다층적 구조를 전제할 때, 문법적 누출이 서로 다른 하위 분야에서 일어나는 양상을 파악하기 위해 한국어의 유음 뒤 설정음 회피 (*LT) 현상에 대해 연구하고자 한다. 한국어의 Prosodic Phonology에 기초하여 (Kang 1993) 형태음운론적 하위 영역을 단일 형태소, 접미사에 의한 파생, 합성, 굴절 네 단계로 나누어 보았다. 세종 코퍼스 (국립국어원 2007)를 기반으로 한 한국어 어휘 자료 (Jun et al., in prep.)에서 네 개의 하위 영역에서 유음 뒤 설정 평장애음의 회피 현상을 파악하기 위해 유음 뒤 설정음의 경음화 비율과 UCLA Phonotactic Learner (Hayes & Wilson 2009)를 통해 학습된 제약의 가중치를 측정하였다. 그 결과, 단일형태소에서는 유음 뒤 설정 평장애음이 오는 단어가 코퍼스 상 다섯 개로 매우 적게 관찰되었다. 파생어의 경우 유음 뒤 경음화가 약 68.66%p로 일어났고, 합성어 영역에서는 경음화가 36.94%p로 일어나 그 비율이 더 낮았다. UCLA Phonotactic Learner의 학습 결과에서도 관련 제약의 수와 그 가중치를 통해 *LT 효과가 단일형태소 어휘부에서 가장 강하게 나타나고, 파생과 합성으로 갈수록 줄어드는 것을 확인할 수 있었다. 굴절어 영역에서는 *LT가 더 이상 활성화되지 않는 것으로 나타났다. 이처럼 문법의 유출은 어근과의 친연성에 의해 결정되는 Lexical Phonology 상 그 하위 영역이 더 나중 영역에 속할수록 더 적게 일어나는 건을 관찰할 수 있다.
형태음운론적 하위 영역에 따른 문법적 누출에 필요한 제약을 파악하기 위해, 구조에 민감한 제약만을 포함하는 문법 모형과 구조에 민감한 제약과 일반적 제약을 모두 포함하는 문법 모형을 세워, 두 모형에서의 문법의 유출 정도를 비교하였다. 그 결과, 구조에 민감한 제약만을 포함하는 모형에서는 문법적 누출이 전혀 발생하지 않았으나, 구조에 민감한 제약과 일반적 제약을 모두 포함하는 모형에서는 문법적 누출이 발생했으며, 그 정도가 파생어에서 가장 크고, 합성어가 그 뒤를 이었으며, 굴절어에서는 거의 발생하지 않았다. 이를 통해 *LT의 회피가 어휘음운론의 단계와 상관관계를 가지며, 단일 형태소 영역에서 관찰되는 *LT 제약은 파생어 영역에서 많은 문법적 누출을 보였으며 이후 영역에서는 점차 약화됨을 확인할 수 있었다.
- Language
- eng
- Files in This Item:
- Appears in Collections:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.