
Detailed Information

한국어 말하기 평가의 채점 변인 연구 : An Analysis of the Rating Process for a Korean Speaking Assessment
채점 과정 분석을 중심으로

Cited 0 time in Web of Science Cited 0 time in Scopus


Issue Date
서울대학교 대학원
한국어말하기 평가채점 변인채점 과정채점자 영향채점 과 정채점 과정 보고채점 과정 기반 채점자 교육
학위논문(박사)--서울대학교 대학원 :사범대학 국어교육과(한국어교육전공),2019. 8. 민병곤.
본 연구의 목적은 채점자가 수험자의 말하기 평가 과제 응답에 대하여 점수를 부여하는 채점의 과정을 실증적으로 살펴보고, 이를 바탕으로 채점 과정 기반의 채점자 교육 방안을 제시하는 것이다.
말하기 평가에서 채점 과정에 개입할 수 있는 다양한 요인들은 채점의 진행에 영향을 미치며, 이는 채점자 사이의 상이한 평가 결과가 나타나게 하는 원인이 된다. 기존의 채점 과정에 관한 연구에서 주목하였던 변인인 채점자의 배경적 특징이 평가 결과에 영향을 주었을 것이라는 추정은 채점의 과정, 즉 채점자가 어떤 상황에서 어떤 채점 방식을 적용하였으며, 이를 바탕으로 도출한 점수를 어떻게 결정한 것인지에 관한 설명이 가능할 때 해석의 타당성을 확보할 수 있다. 이와 관련하여 본 연구에서는 말하기 평가의 채점에 관여하는 직접적인 변인으로서 채점 과정을 실증적으로 탐구하기 위한 통합방법연구를 설계하고, 채점자 영향과 채점 과정에 대한 분석을 통해 말하기 평가의 채점 과정을 규명하고자 하였다.
먼저 말하기 평가의 채점 과정을 설명할 수 있는 이론적인 모형을 구축하고자 하였다. 이는 채점 과정에 관여하는 여러 가지 변인들이 무엇이며, 어떤 경로를 통해 영향을 나타내는지에 관한 가설적인 모형으로서 채점 과정 분석을 위한 틀을 마련하고자 한 것이다. 이와 관련하여 본고에서는 채점 과정에 관한 언어 평가학과 인지 심리학의에서 제시한 추론과 추단의 관점을 바탕으로 채점자의 인지적인 접근을 설명하고자 하였다. 나아가 채점자의 외적·내적인 영향 요인으로 인하여 채점 과정의 변화가 나타날 수 있다는 점을 논의하고, 이를 종합하여 청취한 정보에 대한 지각과 판단, 점수 결정으로 이루어지는 말하기 평가 채점 과정 모형과 평가 맥락에 따른 채점 과정의 유형을 제시하였다.
다음으로 말하기 평가 채점 과정의 구체적인 특징과 양상을 알아보기 위하여 중·고급 학습자 대상의 컴퓨터 기반 한국어 말하기 평가인 한국어 말하기 능력 시험을 구안하였다. 평가의 문항은 국제통용한국어교육과정과 한국어 교재에 대한 검토를 바탕으로 구성하였다. 그리고 수험자 응답에 대한 채점을 위하여 선행 연구를 바탕으로 4개 평가 준거에 대한 혼합형 채점 척도를 구성하였다. 시험에는 총 18명의 수험자가 응시하였으며, 이 중에서 채점 연습 대상을 제외하고 12명의 응답을 본 채점 자료로 사용하였다. 연구에 참여한 채점자는 한국어교육 경력 5년 이상의 교사 13인이었으며, 이들로부터 평가 결과인 점수의 기록과 채점 과정 보고를 녹음한 자료를 수집하였다.
다음으로 평가 결과에 나타난 채점자 영향을 파악하기 위하여 통계 분석을 실시하였다. 먼저 고전검사이론에 따른 분석 결과, 평가 결과에서 채점자들 간에 높은 내적 일관성 신뢰도가 나타났으나, 상대적으로 낮은 상관을 나타내는 채점자가 있음을 확인하였다. 채점자 배경 변인에 관한 분산 분석에서는 채점자의 교육 경력, 평가 경험, 평가 관련 교육 경험, 구사 가능한 외국어 수에 대하여 집단 간에 유의한 차이가 나타나지 않았다. 다음으로 다국면라쉬모형에 따른 문항반응이론 분석 결과에서는 전체 채점자는 대체로 관대한 채점을 한 것으로 나타난 가운데, 특정 문항이나 평가 준거, 척도에 따라서 엄격하거나 관대한 채점을 한 채점자가 있음을 확인하였다. 집중 경향성 분석에서는 중앙값인 3점에 집중하는 채점자와 최댓값인 5점에 집중하는 채점자가 나타났으며, 무작위성과 후광성 분석에서는 적합도 분석과 점수열 비교를 통하여 해당하는 사례가 있었음을 확인할 수 있었다. 평가 요소와 채점자의 상호작용에 따른 채점자 편향 분석에서는 문항 및 준거별로 다국면라쉬모형의 예상을 벗어난 채점자가 나타났다.
다음으로 말하기 평가 채점 과정의 구성과 특징을 파악하기 위하여 채점 과정 분석을 실시하였다. 분석을 위해 먼저 채점 과정 보고를 전사한 다음 분절하고, 각 발화를 논증 요소로 코딩하였다. 분석 결과, 대부분의 문항에서 채점자들이 순차형 채점을 한 것으로 나타난 가운데 경험 말하기 문항에서 중·하위 수준 수험자에 대해 종합형 채점을 한 비율이 상대적으로 많이 나타나고 있었다. 순차형 채점에서는 채점 과정에서 응답의 전반적인 인상을 기준으로 전체적인 점수를 결정하는 경향이 나타났으며, 종합형 채점에서는 구체적인 응답 정보나 특징을 고려하여 점수를 결정하려는 경향이 나타났다. 또한 채점자별로 채점 과정에서 점수 결정을 위해 형성한 근거나 고려하는 가정의 양과 종류의 차이가 나타났는데, 이는 수험자 응답에 대한 지각 수준과 기억 체계 작동의 영향 때문인 것으로 해석하였다. 특히 중위 수준의 응답에 대한 채점 과정에서는 지각 정보를 바탕으로 계량적 접근을 하는 경우가 많이 나타났는데, 이러한 특징은 중위 수준의 응답이 최상위나 최하위 수준의 응답에 비하여 수준 판단과 점수 결정이 까다롭기 때문에 이를 극복하기 위한 방책으로 지각한 정보를 적극적으로 활용한 것으로 해석하였다. 자료를 활용하는 통합형 문항의 채점 과정에서는 응답의 담화 구성 수준에 대한 고려를 바탕으로 전체 평가 준거에 대한 점수를 결정하는 경향이 나타났다.
다음으로 채점자 영향이 나타난 사례에 대한 채점 과정을 분석하였다. 먼저 엄격한 채점 경향을 나타낸 사례의 채점 과정 분석에서는 전반적 수행을 먼저 채점하였을 때 나머지 준거들의 채점에도 같은 경향을 적용하면서 결과적으로 엄격한 경향이 가중된 것으로 판단된다. 채점 과정에서 응답에 대한 증거 수집이 잘 이루어지지 않은 경우에는 상대적으로 관대한 채점을 하거나 무작위적인 채점을 한 것으로 나타났다. 평가 척도를 제한적으로 사용하는 경향이 나타난 경우에는 채점 과정에서 인상 기반 접근과 평가적 가정을 고려하는 양상이 나타났으며, 이는 수험자의 응답 내용을 기존의 기억 체계에 통합하여 처리하려고 하면서 그 밖의 정보는 채점 과정에서 고려하지 않기 때문에 일어난 현상으로 판단된다. 무작위적인 채점 경향이 나타난 채점자의 채점 과정은 다른 채점자에 비해 간결한 구조로 나타난 점이 특징이었는데, 응답 내용에 관한 판단과 점수 결정을 위한 이론적·경험적 가정을 고려하지 않고 채점 척도에 대한 주관적인 해석에 의존하여 채점 과정이 진행되면서 무작위적인 결과가 나타난 것으로 해석하였다.
끝으로 본 연구에서는 연구 결과로부터 도출한 시사점을 바탕으로 채점 과정 기반의 한국어 말하기 평가 채점자 교육의 원리와 방안을 제시하였다. 채점 과정 기반 채점자 교육의 원리는 채점 척도의 내재화, 증거 타당성 확보, 내적 일관성 유지이며, 이와 관련하여 제시한 교육 방안은 채점자가 채점 과정에 대한 분석을 통해 자신의 채점 경향을 성찰하는 활동을 중심으로 구성하였다.
Various factors may intervene in the rating process of the speaking assessment that affects the progress of the rating and causes different test results among the raters. A variable noted in previous studies is the effect on the characteristics of the rater, which can be understood by explaining the rating process in regards to both how the rating method was applied in some situations and how the scores were determined based on the rating process. With this variable in mind, the present study uses a mixed method research design to empirically explore the rating process as a direct variable involved in rating speaking assessment. The study seeks to identify the rating process of a speaking assessment by analyzing the rater effect and the rating process.
To this end, we establish a theoretical model to explain the rating process of the speaking assessment, which is made up of perception, the judgment of information, and a score decision. This is a hypothetical model that entails what the various variables involved in the rating process are and how they influence the rating process. We explain that the rater's cognition is based on the inferencing and heuristics points, which are presented in the discussion of the language assessment and cognitive psychology field during the rating process. In addition, we discuss changes in the rating process that could occur due to external and internal factors concerned with the rater.
Next, to find out the specific features and patterns of the rating process for a speaking assessment, a computer-based, Korean-speaking achievement test collected the test-takers' responses. The speaking assessment consists of a mid- to high-level structured response item to specifically identify how the scorers perform. The writing of the tasks is based on the International Standard Curriculum of Korean Language and Korean language textbooks. In order to look at the combined rating patterns of the raters, the rating scale is based on the previous study for task perform, pronunciation, language use, and discourse organizing. After test-takers (N=18) applied for the test, twelve of their responses, which exclude the main material, were scored. Teachers (N=13) participated as raters and were asked the verbal report during their scoring process.
The test result data was collected from the raters, and it was first analyzed with the Classical Test Theory (CTT) and then in a Many-Facet Rasch Model (MFRM) to determine the rater effect. The specific analyses of the rater effect are based on subjective rating tendency, central tendency, randomness, halo effect, and interaction bias. The results of the CTT analysis show high internal consistency confidence among the raters in the rating, but the raters show a relatively low correlation. The ANOVA on variables of rater characteristics does not show significant differences among groups. The analysis of the MFRM shows some instances where the rating tendency is either not consistent or it is outside of the expectations of the analysis model. This factor depends on the test items, criteria, and scales.
Overall, the results of the analysis of the rater effect show that raters are generally lenient and that some raters score rigidly or leniently depending on specific items, criteria, and scale. The central tendency analysis shows a rater concentrating on the median of scale and another rater focusing on the maximum of scale. The randomness and halo effect analysis show corresponding cases with the analysis of the MFRM and the comparison of the score line. Rater bias analysis shows that interactions with the raters and tasks have the greatest probability of error with the highest frequency in the "experience speaking" item.
Next, to identify the flow and characteristics of the speaking assessment rating process, the raters themselves analyzed the rating process report. To analyze the overall aspects of the rating process, we selected examinees from the test results of the four item types at the median, the highest, and the lowest levels, and looked at the differences in reporting the rating process. The analysis shows that the raters score sequentially in most of the items and groups, while the ratio of comprehensive rating remains relatively high in the rating process for mid- and lower-level test-takers in the experience speaking item. The rating process report of a sequential scoring case shows that the rater tends to determine the score based on the overall impression of the response and in the case of a summative rating, the score is determined by considering the response information or characteristics. In addition, the differences in the amount and type of warrants or assumptions that were formed to determine scores in the rating process were seen by each rater because of the effect of perceptual level and memory system operation on the responses of the test-takers. In particular, reports of the rating process for median-level responses often show a quantitative approach based on perceptual information. This is interpreted as an active use of perceptual information to overcome the difficulty in determining the level and score compared to those at the highest or lowest levels. The report of the rating process of an integrated question using data shows a tendency to determine the overall assessment criteria score based on the consideration of a responses level of ability regarding discourse composition.
Next, we examine the rating process report for cases in which the rater effect is shown in the analysis of the rater effect. The rating process report analysis of cases showing strict scoring trends confirms that when total performance is first scored, the same trend applies to the scoring of the remaining criteria thereby present to the severity of the rating trend. Reports of rating processes with lenient rating trends indicate relatively lenient scoring or random grading in situations where evidence collection for responses is not well-performed. If there is a tendency to use the assessment scale on a limited basis, the rating process considers impression-based approaches and the assumptions, which are interpreted as a phenomenon. This is because information that is not aggregated by test-takers is not considered in the rating process while trying to integrate their responses into the existing memory system.
Finally, the rating process, which shows a random scoring tendency, is characterized by a simple structure compared to the other raters, which is considered random because the rating process relies on subjective interpretations of the rating scale without considering the judgment of the response and the theoretical and empirical assumptions for the scoring.
In order to utilize the research results in the training of raters for the Korean speaking assessment, the implications of the raters' education are derived from the results of the research and based on this, the principles and methods of a process-based approach are presented.
Files in This Item:
Appears in Collections:


Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.
