Browse

채점예시답안이 동료평가의 정확성에 미치는 영향
The Effect of Anchor papers on the Accuracy of Peer-Assessment.

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
이현정
Advisor
박주용
Major
사회과학대학 심리학과
Issue Date
2017-02
Publisher
서울대학교 대학원
Keywords
동료평가글쓰기 평가채점예시답안타당도평가자간 신뢰도
Description
학위논문 (석사)-- 서울대학교 대학원 : 심리학과, 2017. 2. 박주용.
Abstract
동료평가란 학생들이 서로의 학습 결과물을 채점하고 피드백을 제공하도록 하는 평가 방식이다. 동료평가는 글쓰기 교육을 위한 효과적인 도구로 주목받고 있다. 글쓰기 과제물은 평가에 많은 시간이 소요되는데, 동료평가를 활용하면 교사의 평가 부담을 줄이면서도 모든 학생들에게 과제물에 대한 피드백을 신속하게 제공할 수 있기 때문이다. 하지만 학생들은 채점 경험과 내용 지식이 부족하다는 점에서 동료평가 결과를 타당한 점수로 수용하기는 어렵다는 문제가 제기되어 왔다.
이에 본 논문은 동료평가 점수의 정확성을 제고할 수 있는 방법을 제안하고 그 방법의 효과를 실험을 통해 검증하고자 하였다. 본 논문에서 제안하는 방법은 학생들에게 채점예시답안을 제공하는 것이다. 채점예시답안은 채점 기준에 따라 채점된 답안 사례로서, 모범답안 혹은 평가 예시라 불리기도 한다. 채점예시답안은 채점 기준이 의미하는 바를 보다 구체적인 맥락에서 보여주기 때문에 채점 기준을 이해하는데 도움을 줄 수 있다. 또한 채점예시답안은 평가 경험과 내용 지식 측면에서 보다 상위 수준에 있는 평가자에 의해 채점된 것이라는 점에서, 평가 경험이 부족한 학생들이 이를 참고하면 보다 타당한 채점을 할 수 있을 것으로 예상된다. 하지만 지금까지 이러한 가능성을 실증적으로 확인한 연구는 없었다.
본 논문은 학생 평가자를 대상으로 두 차례 실험을 진행하여, 채점예시답안이 보다 정확한 평가를 이끌어내는지를 살펴보았다. 평가의 정확성을 나타내는 척도는 일련의 답안에 대해 (1) 학생이 부여한 점수와 교사가 부여한 점수 간의 유사한 정도, 그리고 (2) 학생 평가자들 간의 점수가 일치하는 정도였다.
첫 번째 실험에서는 채점예시답안을 참고하는 것이 그렇지 않은 경우에 비해 평가의 정확성을 높이는지 살펴보았다. 먼저 실험조건과 통제조건을 나누어 , 등 채점에 필요한 기본적인 자료들을 두 조건에 공통적으로 제공하고, 실험조건의 참여자들에게만 두 편의 채점예시답안을 추가로 제공하였다. 그 다음에 모든 실험 참여자로 하여금 논술 답안 20편을 7점 척도로 채점하도록 하였다. 그 결과, 실험 조건이 통제 조건에 비해 전문가 평가와의 유사도가 유의미하게 높았다. 평정자간 신뢰도 측면에서는 두 조건 간 유의미한 차이가 없었지만 신뢰도에 대한 해석 지침에 의거했을 때 실험 조건의 평정자간 신뢰도는 보통(fair) 수준인 반면 통제 조건의 신뢰도는 낮은(poor) 수준이었다.
두 번째 실험에서는 채점예시답안의 점수대에 따른 효과를 살펴보았다. 중간조건과 극단조건을 나누어 , 등 채점에 필요한 기본적인 자료들을 두 조건에 공통적으로 제공하였다. 그리고 중간조건에는 중간 점수대(5점, 3점)의 채점예시답안을, 극단조건에는 극단 점수대(7점, 1점)의 채점예시답안을 제공하였다. 그 후 두 조건은 동일한 논술 답안 20편을 7점 척도로 채점하였다. 그 결과, 중간조건이 극단조건에 비해 전문가 평가와의 유사도가 유의미하게 높았다. 평정자간 신뢰도 측면에서는 두 조건 모두 보통(fair) 수준이었으며 유의미한 차이는 없었다.
두 실험의 결과를 요약하면 다음과 같다. 채점예시답안은 동료평가 점수와 전문가 점수와의 유사도를 높여준다. 통상적인 교수-학습 장면에서 교사의 평가는 타당한 답으로 간주된다는 점에서, 채점예시답안은 학생들이 동료의 글을 보다 타당하게 평가할 수 있도록 도와줌을 알 수 있다. 그리고 이러한 효과는 채점 척도의 양극단 점수의 예시보다는 중간 점수대의 예시를 제공할 경우 더욱 향상된다.
종합 논의에서는 본 연구 결과가 실제 교수-학습 상황에 어떻게 기여할 수 있는지 논의되었으며, 본 발견을 일반화할 수 있는 후속 연구 방법 또한 검토되었다.
Peer-assessment is a process whereby students review and make evaluations of other students essays. The benefits of peer-assessing has been verified by many studies
promoting students' learning, and attitude and reducing the workload of instructors. However, the problem regarding the accuracy of peer-generated grades has remained unresolved. Unlike teachers, most students are inexperienced in assessing essays and lacking relevant content knowledge.
One solution to the problem is to use anchor papers. Anchor papers refer to sample essays graded by expert raters, used to provide a common standard for raters showing what the rubric stands for in a concrete way. The use of anchor papers has been recommended for a long time. Its effect, however, has so far been discussed only within the context of teachers or professional graders. This study aimed to verify the effect of anchor papers under peer-review settings. The accuracy of peer-generated scores was defined as followings
(1) the degree of similarity between peer-generated scores and teacher-generated scores & (2) the degree of similarity of peer-generated scores across peer-raters(i.e. inter-rater reliability).
In experiment 1, we tested whether anchor papers improve the accuracy of peer assessment scores. The experimental group was given a rating guideline and two anchor papers, while the control group was simply given the rating guideline. Then, both group rated the same 20 essays. In terms of similarity between peer-generated scores and teacher-generated scores, the experimental group was significantly higher than that of the control group. That is, the rating scores of the former group was more similar to the essay scores given by expert raters. The inter-rater reliability of the rating scores of the experimental group was higher than that of the control group, but the difference was not significant.
In experiment 2, we tested which score range is more effective between mid-range and end-range. The participants in mid-range condition was given a rating guideline and two anchor papers falling into 3 and 5 points out of 7 points, while the participants in end-range group was given the rating guideline and two anchor papers falling into 1 and 7 points out of 7 points. Then, both group rated the same 20 essays. In terms of similarity between peer-generated scores and teacher-generated scores, the mid-range condition was significantly higher than that of the end-range condition. The inter-rater reliability of the rating scores of the mid-range condition was higher than that of the end-range condition, but the difference was not significant.
These results showed followings
(1) anchor papers can be an effective scaffold that ensures high levels of accuracy of peer-assessment and (2) using the anchor papers of mid-range scores on a rating scale can lead to more accurate rating.
Language
Korean
URI
https://hdl.handle.net/10371/134413
Files in This Item:
Appears in Collections:
College of Social Sciences (사회과학대학)Dept. of Psychology (심리학과)Theses (Master's Degree_심리학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse