Publications

Detailed Information

수행평가의 효과에 대한 메타분석 : A Meta-Analysis of the Effects of Performance Assessment

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

양현경

Advisor
백순근
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
수행평가효과 크기메타분석학교급교과수행평가 유형학습 성과Performance AssessmentEffect SizeMeta-AnalysisSchoolSubjectPerformance Assessment TypeAchievemen
Abstract
선택형 문항 시험의 새로운 대안으로 1990년대부터 우리나라에 도입되기 시작한 수행평가(遂行評價: performance assessment)는 학생이 학습과제를 수행하는 과정이나 그 결과를 보고 교사가 그 학생의 지식이나 기능이나 태도 등에 대해 전문적으로 판단하는 평가 방식, 혹은 학생 스스로가 자신의 지식이나 기능이나 태도를 나타낼 수 있도록 답을 작성하거나, 발표하거나, 산출물을 만들거나, 행동으로 나타내도록 요구하는 평가 방식을 의미한다(백순근, 1994; 1995a; 2000). 지난 20여 년 동안, 다양한 수행평가 방법들이 초·중·고등학교 교육 현장에서 적용되고, 수행평가에 대해 수많은 연구들이 진행되어 온 만큼, 수행평가는 여전히 우리나라 교육의 주요 관심사 중 하나이다.
이러한 수행평가의 효과를 제대로 파악하는 것은 현재 초·중·고등학교 교육 현장에서 적용되고 있는 수행평가 방법이나 유형에 대해 진단하고, 그 개선 방안 등을 제언하기 위해 매우 중요한 일이다. 그러나 오랫동안 다양한 연구자들에 의해 수행되어 온 수행평가의 효과에 관한 연구 결과가 서로 일관되지 못하였기 때문에, 학교 교육 현장에서는 학생들의 학습 성과 향상을 위한 수행평가의 효과를 체계적으로 파악하기 어려운 실정이다. 따라서, 수행평가의 효과에 대한 선행연구 결과들을 종합·정리하기 위하여, 특정 주제에 대해 누적된 다양한 선행연구 결과들을 종합하여 그 주제의 효과 크기를 산출하는 통계 기법인 메타분석(meta-analysis)을 활용하여 수행평가의 효과를 체계적으로 분석하는 것이 필요하다.
이 연구는 메타분석을 활용하여 학습 성과 향상을 위한 수행평가의 효과에 대해 체계적으로 분석하고, 수행평가의 효과 크기에 대한 조절변인들을 탐색하여 수행평가의 효과적인 실시 방안 등에 대한 시사점을 제공하기 위한 것으로, 주요 연구 문제는 다음과 같다.

첫째, 수행평가의 효과의 크기는 어떠한가?
둘째, 조절변인(학교급, 교과, 수행평가 유형, 학습 성과 영역, 수행평가 시행 시기)에 따른 수행평가의 효과의 크기는 어떠한가?

분석 대상은 1994년 1월부터 2021년 4월까지 보고된 국내 학위논문 25,867편(초등학교 12,282편, 중학교 6,449편, 고등학교 7,136편), 국내학술논문 4,164편(초등학교 1,995편, 중학교 994편, 고등학교 1,175편), 총 30,031편이었다. 1차 자료는 학술연구정보서비스(RISS)에서 수집하였으며, PICOS 선정 기준(Wood & Mayo-Wilson, 2012)에 따라 최종 분석 대상을 선정하여 코딩하고, 출판편파(publication bias) 분석을 통해 극단치(outlier)를 제거한 후, 최종적으로 총 174편의 연구물(총 319개의 효과 크기)을 메타분석에 사용하였다. 이 연구에서는 CMA (Comprehensive Meta-Analysis) 3.0 프로그램(Biostat Inc., 2021)을 사용하여, 출판 편파 분석, 민감도 분석, 효과 크기 검증, 동질성 검증, 조절 변인의 조절효과검증 등을 실시하였다. 주요 연구 결과는 다음과 같다.
첫째, 수행평가의 효과 크기는 .583으로 나타나 중간 정도 수준이었으며, 연구 간의 이질성은 큰 것으로 나타났다(p<.001). 구체적으로, 메타분석을 통한 수행평가의 효과 크기를 산출한 결과 .583으로 나타났으며, 95% 신뢰구간은 하한값 .519, 상한값 .647로 나타났다. 아울러 동질성 검증 결과, Q값이 586.446으로 통계적으로 유의하여(p<.001) 최종 분석 대상의 효과 크기들이 동일한 모집단에 근거하지 않는 것으로 나타났다. 세부적으로 연구 간의 이질성 정도는 연구 간 분산인 이 .126, 전체 관찰 분산 중 연구 간 분산이 차지하는 비율인 이 70.5%로 이질성이 큰 것으로 나타났다.
둘째, 조절변인 중 하나인 학교급에 따라 수행평가의 효과 크기에 유의한 차이가 있는 것으로 나타났다(p<.01). 구체적으로, 학교급에 따른 수행평가의 효과 크기를 산출한 결과, 고등학교(.659), 초등학교(.638), 중학교(.412) 순으로 효과 크기가 큰 것으로 나타났다. 아울러, 메타회귀분석 결과, 초등학교 수행평가의 효과 크기와 고등학교 수행평가의 효과 크기가 중학교 수행평가의 효과 크기보다 통계적으로 유의하게 큰 것으로 나타났다.
셋째, 조절변인 중 하나인 교과에 따라 수행평가의 효과 크기에 유의한 차이가 있는 것으로 나타났다(p<.001). 구체적으로, 교과에 따른 수행평가의 효과 크기를 산출한 결과, 예체능(1.119), 기술·가정·컴퓨터(.894), 비교과(.760), 국어(.705), 전교과(초등)(.650), 사회(.622), 과학(.595), 영어(.462), 수학(.332) 순으로 효과 크기가 큰 것으로 나타났다. 아울러, 메타회귀분석 결과, 국어, 사회, 과학, 기술·가정·컴퓨터, 예체능, 비교과 수행평가의 효과 크기가 다른 교과 수행평가의 효과 크기보다 통계적으로 유의하게 큰 것으로 나타났으며, 영어, 전교과(초등) 수행평가의 효과 크기는 다른 교과 수행평가의 효과 크기와 유의한 차이가 없는 것으로 나타났다.
넷째, 조절변인 중 하나인 수행평가 유형에 따른 수행평가의 효과 크기에 유의한 차이가 없는 것으로 나타났다. 구체적으로, 수행평가 유형에 따른 수행평가의 효과 크기를 산출한 결과, 토의·토론(.683), 실험·실습·실기(.674), 일기·일지(.646), 프로젝트(.620), 포트폴리오(.618), 서술형·논술형(.561), 혼용(.517), 자기평가(.377) 순으로 효과 크기가 큰 것으로 나타났으나, 통계적으로 유의한 차이는 없었다.
다섯째, 조절변인 중 하나인 학습 성과 영역에 따른 수행평가의 효과 크기에 유의한 차이가 없는 것으로 나타났다. 구체적으로, 학습 성과 영역에 따른 수행평가의 효과 크기를 산출한 결과, 정의적 영역(.592)에 대한 수행평가의 효과 크기가 인지적 영역(.551)에 대한 수행평가의 효과 크기보다 큰 것으로 나타났으나, 통계적으로 유의한 차이는 없었다.
여섯째, 조절변인 중 하나인 수행평가 시행 시기에 따른 수행평가의 효과 크기에 유의한 차이가 없는 것으로 나타났다. 구체적으로, 수행평가 시행 시기에 따른 수행평가의 효과 크기를 산출한 결과, 2010년~2014년(.645), 2005년~2009년(.597), 2000년~2004년(.576), 2015년~2019년(.535), 2020년~(.440), ~1999년(.354) 순으로 효과 크기가 큰 것으로 나타났으나, 통계적으로 유의한 차이는 없었다.
이 연구는 메타분석을 활용하여 수행평가의 효과에 대해 체계적으로 분석하고, 수행평가의 효과 크기에 대한 조절변인들을 탐색함으로써 수행평가의 유용성을 경험적으로 확인하고, 학교 교육 현장의 교사들에게 수행평가의 효과적인 실시 방안 등에 대한 시사점을 제공하였다는 데 의의가 있다. 다만, 이 연구에서는 국내 학위논문 및 학술논문을 분석대상으로 삼았기 때문에, 후속연구에서는 시·도교육청이나 정책연구기관 등에서 수행한 수행평가 관련 연구보고서들의 결과들과 비교·분석하는 연구를 수행할 필요가 있으며, 학교급과 교과와 같은 조절변인 각각에 대한 심층적인 연구를 통해 학교급별 및 교과별 세부적인 수행평가 시행 방안을 마련하는 데 시사점을 제공할 필요가 있다.
Performance assessment, which was introduced in Korea in the 1990s as a new alternative to the multiple-choice item test, is an evaluation method in which the teacher professionally judges the student's knowledge, skills, attitude, etc. by looking at the process and results of the student's learning tasks. For the past 30 years, performance assessment is still one of the main concerns of education in Korea, because it has been implemented in elementary, middle and high schools in Korea, and treated as a research topic by many researchers.
It is very important to unravel the effects of performance assessment to diagnose the methods of performance assessment currently implemented in elementary, middle and high schools, and to suggest ways of improvement related to performance assessment. However, it is difficult to systematically identify the effects of performance assessment because the results of the previous studies on the effects of performance assessment, which have been conducted by various researchers for a long time, have been inconsistent with each other. Therefore, in order to comprehensively organize the results of previous studies on the effects of performance assessment, it is necessary to systematically analyze the effects of performance assessment using meta-analysis.
This study aims to collect and organize previous studies on the effects of performance assessment by analyzing the effects of performance assessment systematically and exploring moderators on the effect size of performance assessment using meta-analysis. Main research questions are as follows:

First, how large is the effect size of performance assessment?
Second, how different is the effect size of performance assessment according to moderators(school, subject, performance assessment type, achievement domain, publication date)?

30,031 papers (Korean Master's and Doctoral dissertations : 25,867, Korean academic articles : 4,164), reported from January 1994 to April 2021, were collected as primary analysis data. Primary analysis data were selected according to the PICOS selection criteria, and outliers were removed using publication bias analysis. Finally, 174 studies (319 effect sizes) were analyzed using meta-analysis. In this study, publication bias analysis, sensitivity analysis, effect size analysis, homogeneity analysis and analysis of moderators were performed using the CMA 3.0 program. The main research results are as follows.
First, the effect size of the performance assessment was .583, which is middle level, and the heterogeneity between studies was large. In the random effect model, the effect size of the performance assessment was .583, and its 95% confidence interval was .519 for the lower limit and .647 for the upper limit. In addition, in the homogeneity test, Q was 586.446, which was statistically significant (p<.001). In the heterogeneity test, , the variance between studies, was .126 and , the actual degree of variance, was 70.5%. It means that the heterogeneity between studies was large.
Second, there was a significant difference in the effect sizes of the performance assessment according to the school which is one of the moderators (p<.05). Specifically, the effect size of performance assessment according to school types was .659 in high school, .638 in elementary school, and .412 in middle school. In addition, in meta-regression analysis, the effect size of the performance assessment in elementary schools and the effect size of the performance assessment in high schools were statistically significantly larger than the effect size of the performance assessment in middle schools.
Third, there was a significant difference in the effect sizes of the performance assessment according to the subject which is one of the moderators (p<.05). Specifically, the effect size of performance assessment according to subject was 1.119 in Arts and Physical Education, .894 in Technology/Home Economics/Computer, .760 in non-cognitive subjects, .705 in Korean language, .650 in all subjects (elementary school), .622 in Social Studies, .595 in Science, .462 in English, and .332 in Mathematics.
Fourth, there was not a significant difference in the effect sizes of the performance assessment according to the performance assessment type which is one of the moderators. Specifically, the effect size of performance assessment according to performance assessment type was .683 in discussion, .674 in experiment/practice, .620 in diary, .618 in portfolio, .561 in narrative and essay, .517 in others, and .377 in self-assessment.
Fifth, there was not a significant difference in the effect size of the performance assessment according to the achievement domain which is one of the moderators. Specifically, the effect size of performance assessment according to the achievement domain was .592 in the affective domain and .551 in the cognitive domain.
Sixth, there was not a significant difference in the effect size of the performance assessment according to the publication date which is one of the moderators. Specifically, the effect size of performance assessment according to the publication date was .645 in 2010~2014, .597 in 2005~2009, .576 in 2000~2004, .535 in 2015~2019, .440 in 2020~ and .354 in ~1999.
This study systematically analyzed the effects of performance assessment using meta-analysis and explored the moderators related to the effects of performance assessment. These results are meaningful in that they empirically confirm the usefulness of performance assessment and provide implications for effective implementation of performance assessment to Korean teachers.
However, since this study analyzed only Master's and Doctoral dissertations and academic articles published in Korea, a follow-up study is needed that analyze research reports conducted by office of education or research institutions, and compare the results. In addition, it is necessary to conduct individual and in-depth research on moderators to devise detailed performance assessment implementation plans for each school-type goal and subject.
Language
kor
URI
https://hdl.handle.net/10371/178613

https://dcollection.snu.ac.kr/common/orgView/000000168526
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share