Publications

Detailed Information

차등배점 조건을 고려한 학력검사의 신뢰도 분석 : 일반화가능도 이론을 중심으로 : Generalizability Analysis of Student Achievement Tests with Various Item Weights

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이신혜

Advisor
박현정
Major
사범대학 교육학과
Issue Date
2016-08
Publisher
서울대학교 대학원
Keywords
신뢰도차등배점일반화가능도 이론모의실험
Description
학위논문 (석사)-- 서울대학교 대학원 : 교육학과 교육학전공, 2016. 8. 박현정.
Abstract
우리나라의 중․고등학교에서 주로 쓰이는 검사는 문항 유형과 배점의 다양화를 통해 검사의 변별력을 높이는 혼합형 검사이다. 이는 등급이 부여되거나 선발이 필요한 성적관리 체계에서 동점자가 생기는 것을 방지하고, 문항의 수준과 풀이 시간 등을 고려하여 검사의 타당성을 높이기 위함이다. 그러나 교육측정학적 측면에서, 검사의 구성 요소에 따라 그 검사의 신뢰도가 달라질 수 있음을 충분히 고려하지 않는다면 다양한 유형의 문항과 배점방식은 오히려 신뢰도를 떨어뜨려 검사의 타당성마저 위협할 수 있다.
검사의 신뢰도 및 타당도와 관련하여 차등배점에 대한 논의는 선행연구에서 지속적으로 언급되었다. 학교 현장에서 차등배점은 변별을 목적으로 사용되는 경우가 많은데, 문항에 매겨지는 이러한 가중치는 주로 교과 전문가의 선험적 지식과 관례 또는 전문가의 판단에 의한 문항의 난이도와 중요도에 따라 결정된다. 이러한 전문가 판단 방법은 전문가가 문항과 피험자의 특성을 충실히 파악하여 판단할 경우, 검사의 활용목적에 적합한 검사 결과를 제공하고 피험자의 능력을 보다 잘 변별할 수 있다는 장점이 있다. 그러나 판단의 준거가 명확하지 않을 경우 주관적이고 임의적이라는 비판을 받을 수 있으며, 이러한 이유로 측정학적으로 타당한지에 대하여 선행연구에서 논란이 제기되어 왔다.
이 연구에서는 동등배점과 차등배점의 여러 조건을 포함한 배점 조건을 비교하여 각 조건에 따라 검사의 신뢰도가 어떻게 달라지는지 알아보고, 피험자 분포나 문항 수의 변화에 따라서도 신뢰도를 비교하여 분석하고자 하였다. 이를 위해 일반화가능도 이론을 중심으로 모의자료를 생성하여 검사의 신뢰도를 분석하였다. 모의자료는 최근 8년간의 대학수학능력시험 수리영역의 문항 구성을 참고하였으며, 생성조건은 총 4가지로 구성하여 분석하였다. 우선, 동등배점 조건과 차등배점 조건 3가지를 고려하여 배점 조건을 구성하였고, 그 다음으로 개별 학교에서의 검사임을 감안하여 피험자 규모를 100명, 300명으로 설정하여 모의자료를 생성하였다. 피험자 분포가 정규분포를 따를 때와 부적편포를 따를 때로 나누어 피험자 분포를 생성하였고, 이후 이를 일반화가능도 이론을 적용하여 500번씩 반복하여 분석한 후, 그 분석 과정에서 문항 수가 30문항, 25문항, 20문항으로 변함에 따라 검사의 신뢰도는 어떻게 변하는지 또한 알아보았다.
연구 결과를 요약하면 다음과 같다. 첫째, 동등배점 조건에서 검사의 신뢰도는 차등배점 조건에서 검사의 신뢰도보다 일반적으로 높게 나타났다. 이는 차등배점을 적용할 특별한 이유와 근거가 없는 한 검사의 신뢰도 측면에서는 동등배점을 적용하는 것이 타당하다는 선행연구의 결과와 일치한다. 둘째, 차등배점 조건 내에서 배점 간 점수 차이가 커질수록 검사의 신뢰도는 감소하였다. 따라서 차등배점을 적용하여 검사 문항을 구성하더라도 배점 차이가 크지 않도록 조정하는 것이 검사의 신뢰도를 높이기 위한 측면에서 중요하다고 할 수 있다. 셋째, 문항의 수가 줄어들수록 신뢰도는 비교적 크게 감소하였다. 피험자 분포가 정규분포를 이루는 경우 문항의 수에 의해 신뢰도가 감소하더라도 적정한 수준의 신뢰도 .80을 만족하였지만, 피험자 분포가 부적편포일 경우에는 문항 수가 20문항일 때, 신뢰도가 .80이하로 감소하였다. 이는 부적편포가 있는 피험자 집단의 경우 검사의 신뢰도가 적정 수준 이상을 유지하기 위하여 적어도 25문항 이상을 만족하는 것이 필요하다는 것을 보여준다.
이 연구는 차등배점을 고려한 혼합형 검사에서 차등배점 조건과 피험자 분포, 검사 문항 수가 검사의 신뢰도에 어떤 영향을 미치는지를 일반화가능도 이론을 적용하여 분석하였다는 점에서 의의가 있다. 추가적으로, 이 연구에서 사용한 일반화가능도 설계는 교과별 검사의 안정적인 신뢰도를 확보하기 위하여 효율적인 문항 배점 방식, 문항 수 등을 예시하는데 활용할 수 있다. 또한 종합적인 평가 점수의 신뢰도를 높이기 위한 각 하위 검사의 가중치 부여 방식 등의 분석에도 적용할 수 있을 것으로 기대된다.
이 연구의 제한점은 실제 자료가 아닌 모의실험 자료를 생성하였기 때문에 실제 자료에서는 다르게 나타날 수 있는 피험자 분포 등의 오차 요인을 고려하지 못하였다는 것이다. 또 배점 방식을 선형적으로만 변화시켰기 때문에 다양한 배점 방식에 따른 신뢰도를 분석하지 못했다는 점에서 한계를 가진다. 따라서 후속 연구로 실제 자료를 바탕으로 조금 더 다양한 오차 요인과 차등배점 부여방식의 다양성을 고려하여 분석을 진행한다면 보다 의미 있는 연구가 될 것으로 생각된다.
Mixed format tests with various item weights are mainly used at middle and high schools in Korea to improve discrimination of students ability. This is to keep students from having equal scores when grading is necessary, and also to increase validity by considering item difficulty and given time to solve problems. In terms of educational measurement, however, tests with various item weights can intimidate tests reliability, thereby threatening test validity, especially because test reliability depends on the test components.
Research about item weights related to test reliability and validity has been conducted continuously. Item weights used in school fields are usually decided by the subject expert according to item difficulty and importance. Expert-generated item weights can be useful if experts judge the characteristics of examinee and items correctly, because they help discriminate the examinee and provide proper test results. However, when the criterion of judgement is not clear, the test can be criticized for subjectiveness and randomness. For these reasons, the appropriateness of item weights are controversial in many studies.
This study analyzed and compared test reliability according to several conditions including various item weights, examinee distribution, and the number of test items. For this study, simulation data is generated and analyzed using generalizability theory. Simulation data follows the form of College Scholastic Ability Test(CSAT) in Korea and has three generating conditions such as item weights, size of examinee, and distribution of examinee. After 500 times iteration, the average reliability could be calculated, and in the process, the reliability depending on the number of items could be also calculated.
The result of this study is as follows. First, test reliability using differential item weights is generally lower than the reliability of tests with equally weighted items. Similar to preceding research, this shows that differential item weights are no better than equal item weights unless there is definite reason to use various item weights. Second, the test reliability decreased as the range of item weights increased. This shows that it is important to use proper range of item weights for better reliability. Third, the test reliability decreased relatively as the number of items reduced. Especially, when the distribution of examinee was negatively skewed and the number of items was 20, the reliability was below than .80, which shows that when the examinee are distributed with skewness, the test items should consist of more than 25 items to keep appropriate reliability.
This study analyzed test reliability with various item weights, two examinee distributions, and different number of items using generalizability theory. In this regard, this study illustrates efficient item weights and the number of items for stable reliability. In addition, this study can be applied to analyze the reliability of assessment consisting of various sub-tests.
The limitation of this study is that because it analyzed simulation data, error factors such as different examinee distribution were beyond consideration. In this study, also, differential item weights are adjusted using only linear variation although the weight variation is not linear in school fields. For a follow-up study, therefore, it is suggested to analyze test reliability with differential item weights using real data as well as with consideration of additional error factors and variation of item weights.
Language
Korean
URI
https://hdl.handle.net/10371/127919
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share