
Detailed Information

한국어 쓰기 평가에서 채점자 간 협의 과정이 채점자 신뢰도에 미치는 영향 연구 : A Study on the Effects of the Rater Negotiation on Rater Reliability in Korean Writing Assessment: application of the Discussion Model among non-native Korean teachers
비원어민 한국어 교수자의 토의 모델 적용을 중심으로

Cited 0 time in Web of Science Cited 0 time in Scopus


Issue Date
서울대학교 대학원
학위논문(석사) -- 서울대학교대학원 : 사범대학 국어교육과(한국어교육전공), 2022. 8. 김호정.
본 연구는 비원어민 교수자의 채점 전문성 신장을 위하여 토의 모델 기반 채점자 협의를 수행함으로써 신뢰도에 영향을 끼치는 원인을 분석하고 협의 전후 신뢰도 변화 양상을 비교하고자 한다. 이를 위하여 채점 기준 해석 및 점수 부여 근거를 중심으로 비원어민 교수자들 간 협의 작업을 진행하고, 협의 내용과 채점 결과를 분석하여 비원어민 교수자의 채점자 신뢰도 확보 방안을 제언하였다.
일반적으로 수행평가의 형태로 성취도 평가가 행해지는 국외 한국어교육 현장에서 비원어민 교사는 교수자뿐만 아니라 채점자의 역할을 동시에 수행하게 되면서 주관성을 배제하고 신뢰도가 높은 채점을 일관적으로 수행해야 한다는 필요성에 당면한다. 하지만 이들은 비원어민 채점자라는 점에서 평가 대상 언어에 대한 직관력의 부족으로 특정 구인에 대해 채점의 엄격성이나 관대성을 드러내거나 문법적 오류 판별 능력 부족 등의 양상을 보이기도 한다. 이러한 채점 특성은 학습자의 원어민 채점자 선호 현상과 비원어민 채점자의 낮은 자기효능감을 유발하여 비원어민 채점자의 채점 전문성에 의구심을 제기하는 원인을 제공하였다. 그렇지만 본 연구는 채점자의 채점 수행 능력은 단순히 원어민-비원어민의 구분에 유의미한 영향을 받지 않으며 채점자 간 점수 조정 과정을 통해 채점 편향을 소거하는 작업이 가능하다는 최신의 이론적 흐름을 토대로 비원어민 채점자 연구에 접근하였다.
비원어민 채점자 수요와 중요성의 증가에도 비원어민 채점자 대상 연구가 미흡하게 이루어진 가운데 본 연구는 형식 및 표현상 복잡성을 내재하고 있어 채점이 까다로운 쓰기 영역을 중심으로 비원어민 채점자의 채점 양상을 살펴보고자 하였다. 이를 위해 비원어민 채점자의 의사결정 과정과 점수 부여 근거를 보다 면밀히 해석하고, 채점 오류를 소거하는 과정을 분석하기 위하여 채점자 조정 과정 모델 중 토의 모델을 적용하여 채점자 간 협의를 수행하였다.
비원어민 채점자의 신뢰도 확보 방안을 탐구하기 위해 본 연구에서 설정한 연구 문제는 다음과 같다.
첫째, 비원어민 채점자에게서 나타나는 채점 특성은 무엇인가?
둘째, 비원어민 채점자 간 협의 과정에서 어떠한 논의가 이루어지는가?
셋째, 비원어민 채점자 간 협의는 채점 신뢰도 양상에 어떠한 변화를 나타내는가?
넷째, 채점자 신뢰도 향상에 유의미한 채점자 간 협의 모델을 도출하는 데 시사점은 무엇인가?
상술한 연구 문제를 살펴보기 위하여 본고의 내용을 다음과 같이 구성하였다.
1장에서는 연구의 목적 및 필요성을 다루고, 최신에 주목받고 있는 이론의 등장 배경을 살피기 위하여 한국어 쓰기 평가, 쓰기 평가에서 채점자 신뢰도 연구, 비원어민 채점자의 쓰기 채점 양상 연구에 관한 연구사를 순차적으로 살펴보았다.
2장에서는 실험 설계의 이론적 기반을 다지기 위하여 제2언어 쓰기 평가 신뢰도 제반 이론들을 다루었다. 1절에서는 쓰기 및 쓰기 평가의 개념을 토대로 제2언어 쓰기 평가의 원리와 방법을 살펴보았으며, 2절에서는 신뢰도의 하위 유형 중 채점자 내 신뢰도와 채점자 간 신뢰도의 개념과 측정 방법을 살펴보았다. 3절에서는 본 연구에서 수행한 실험의 이론적 틀을 제공하며, 기존 채점자 신뢰도 연구에서 빈번하게 제시된 채점자 교육의 한계를 보완해줄 수 있는 토의 모델의 등장 배경과 구체적인 내용 및 단계를 면밀히 다루어 실험 설계의 기초를 마련하였다.
3장에서는 한국어 쓰기 채점자의 신뢰도 확보를 위한 연구 방법을 제시하였다. 다른 변인의 영향력을 통제하고 수험자의 쓰기 수행 능력만을 살펴볼 수 있도록 쓰기 과제 문항을 설계하고 채점 수행의 틀을 제공하는 채점 기준표, 채점 기술어, 채점 척도 등 채점 도구를 구안하였으며 2절에서는 토의 모델 이론을 바탕으로 채점자 협의 단계를 구성하였다.
4장에서는 혼합연구 방식을 사용하여 본 연구에서 수행한 실험의 구체적인 내용과 결과를 기술하였다. 1절에서는 방대한 협의 내용을 명료하게 정리하여 점수 차이를 유발한 요소를 범주화하기 위해 주제 분석법을 적용하여 가시적 요인과 주관적 기준으로 발화 주제를 분류하였다. 각 주제를 구성하는 채점자 발화의 단위는 순서 교대의 차원에서 채점자 무브 개념을 활용하여 발화의 목적과 특성을 분석하였다. 2절에서는 다국면 라쉬 모형에서 제공하는 평가 국면별 도표와 채점자 측정치를 토대로 각 협의 이후 채점자 내 신뢰도와 채점자 간 신뢰도는 유의미하게 증가하였으며, 채점자-구인 간 편향 수치는 감소하는 양상을 보임을 확인하였다.
채점자 간 협의의 과정을 분석한 결과 기존 토의 모델이 단선적인 협의 단계, 협의가 수행되는 구체적인 맥락에 대한 이해 부족이라는 한계를 내포하고 있음을 알 수 있었다. 이에 5장에서는 채점자 신뢰도 확보를 위한 시사점을 제공하기 위해 채점자의 채점 편향성 소거 방안과 채점 기준 및 채점자 협의 단계의 유효화 전략을 제언하였다. 특히 본 연구에서 적용하였던 토의 모델의 한계를 정리하고 이를 보완할 수 있도록 수정된 토의 모델을 제시함으로써 쓰기 평가에서 비원어민 채점자들의 신뢰도 확보를 위하여 모델을 적용할 수 있는 방안을 제안하였다.
마지막 6장에서는 본 연구의 주제 및 실험 내용과 결과, 그리고 시사점을 요약적으로 정리하였다. 본 연구는 그간 채점자 연구에서 사용된 연구 방법들이 채점자의 점수 결정 과정 및 채점 편향 소거 과정을 상세하게 분석하지 못하였다는 문제점에서 출발하여 토의 모델을 적용해서 비원어민 채점자의 점수 결정 과정과 채점 오류 소거 과정을 상세하게 살펴보았다는 점에서 비원어민 채점자의 채점 전문성 및 신뢰도 확보 연구에 활용할 수 있는 시사점을 제공한다는 의의를 갖는다.
This study aims to analyze the factors influencing the raters reliability and compare the changes in rater reliability figure before and after the negotiation by conducting the Discussion model-based scorers' negotiation to improve the rating expertise of non-native Korean teachers . To this end, this study would like to propose a plan to secure the reliability of non-native teachers by conducting rater negotiation among non-native teachers based on the interpretation of scoring criteria and scoring grounds. In general, in the field of overseas Korean education, where evaluation is conducted in a performance assessment, non-native teachers play a role not only as instructors but also as scorers. In the context of emphasizing performance evaluation, scorers face the need to exclude subjectivity and consistently perform reliable scoring. However, the absence of mother tongue intuition, which is presented as the characteristic of non-native scorers, contributes to the severe or lenient scoring of certain criteria, and lack of grammatical error discovering ability. This rating characteristic had caused the phenomenon of preferring native rater and getting low self-esteem for the non-native rater. This study attempts to approach the non-native rater study based on the latest theoretical trend that the scoring ability is not significantly affected by the distinction between native and non-native speakers, and that the rating bias can be eliminated by rater negotiation. Amid insufficient research on non-native raters despite the increase in demand and importance of non-native raters, this study aims to examine the scoring patterns of non-native raters, focusing on writing which is difficult to conduct assessment. In order to interpret the decision-making process and the grounds for allocating scoring, and to analyze the process of eliminating rating errors, the Discussion model among the score norming models was applied to conduct the rater negotiation. The research questions set up in this study to explore ways to secure the reliability of non-native raters are as follows. First, which rating characteristics appear in non-native raters? Second, what kind of discussion takes place in the process of non-native rater negotiation? Third, what kind of change does the rater negotiation cause in the rating reliability pattern of each non-native rater? Fourth, what are the implications for deriving the Discussion model between raters that is meaningful in improving the reliability of raters? In order to examine above questions, the contents of this paper were organized as follows. Chapter 1 deals with the purpose and necessity of the study, and research on the reliability of raters in writing assessment at Korean language education, and research on the rating pattern of non-native raters in writing assessment to examine the background of the emergence of the latest theory. Chapter 2 deals with general theories of rater reliability in the second language writing assessment to lay the theoretical foundation for experimental design. Section 1 examined the principles and methods of second language writing assessment based on the concepts of writing and writing assessment, and Section 2 examined the concepts and methods of measuring intra-rater and inter-rater reliability. Section 3 provides a theoretical framework for the experiment conducted in this study, and provides the basis for the experimental design by closely dealing with the background, specific content, and steps of the Discussion model that can compensate for the limitations of the rater training, frequently suggested in the existing rating reliability study. Chapter 3 presents a research method to secure the reliability of KFL raters. In order to control the influence of other variables and examine only the writing ability of the examinee, scoring tools such as scoring criteria, scoring descriptors, and scoring scales were devised, and in Section 2, the rater negotiation stage was constructed based on the Discussion model theory. Chapter 4 describes the specific contents and results of the experiment conducted in this study using the mixed research method. In Section 1, in order to clearly organize the vast contents of rater negotiation and categorize the factors that caused the score difference, the topic analysis method was applied to classify the topics of negotiation based on visible factors and subjective criteria. The closing unit of the raters utterance constituting each topic was interpreted in the dimension of turn-taking, and each utterance unit was analyzed using the concept of 'rater move'. In Section 2, by analyzing the summary map and rater reliability figure provided by Many Facet Rasch Model, it was confirmed that after each negotiation, the reliability within the raters and among the raters has significantly increased, while the bias between the rater and criteria has decreased. As a result of analyzing the process and contents of rater negotiation, it was found that the existing discussion model has limitations such as a linear discussing stage and a lack of consideration of the rating-negotiating context. Accordingly, in Chapter 5, in order to provide implications for securing the reliability of the raters, a strategy for eliminating rater bias, validating the the stage of the rater negotiation, and elaborating the descriptor were proposed. In addition, this study proposes a revised Discussion model to clarify the limitations of the Discussion model applied in this study and to supplement it. In the last chapter 6, the contents and results of the experiment conducted in this study, and implications of the whole study are summarized. As such, this study is meaningful in that it provides implications for further research on securing rating expertise and reliability of non-native raters by applying the Discussion model and examining the rating and eliminating rating error process of non-native raters in specific ways.
Files in This Item:
Appears in Collections:


Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.
