Publications

Detailed Information

과학 학업성취도 관리를 위한 빅데이터 거버넌스 모델 개발 : Developing Big Data Governance Model for the Management of Science Academic Achievement

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김형욱

Advisor
송진웅
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
과학 학업성취도빅데이터 거버넌스 모델머신러닝 알고리즘국가수준 학업성취도 평가학교정보공시science academic achievementbig data governance modelmachine learning algorithmnational assessment of educational achievementpublicly disclosed school information
Description
학위논문(박사) -- 서울대학교대학원 : 사범대학 과학교육과(물리전공), 2021.8. 송진웅.
Abstract
Recent intelligent information technologies such as artificial intelligence, IoT, and Big Data are expected to have an impact on the structural changes of industry and on society at large. In particular, data that serves as the foundation for such technological advancements is drastically increasing in quantity with the advent of the smart digital era and improvements in information processing speeds for computers. Thus, we are nearly on the verge of the era of Big Data. Big Data is expected to be used as an engine of national growth by serving as an important resource capable of creating new opportunities, competitiveness, and wealth in transcendence of a single level of information.
Changes in data values are also occurring in the field of education. The introduction of an intelligent learning system based on smart education pursues innovations in education environment, methods, content, and evaluation, with efforts being made to apply Big Data analysis technologies to the field of education. However, a large amount of data is accumulating in real time while failing to function in organic combination, with the analysis and use of this data being passive as a result of issues related to the protection of personal information. This reveals the need for a new system of application and verification befitting the efficient management and circumstances of Big Data.
Meanwhile, academic improvement through the management of academic achievement is one goal for schools. In particular, the science subject is an object of attention as a subject included in the Programme for International Student Assessment(PISA) overseen by the OECD. However, recently the National Assessment of Educational Achievement in South Korea has revealed a lower level of achievement for the science subject in comparison with other curricula. Its role as a core curriculum in an era of cutting edge technology is being overshadowed due to the decline in academic performance resulting from the recent increase in online classes.
Thus, out of a sense of critical awareness as demonstrated above, the present study proposes a Big Data governance model for managing academic achievement in science. In particular, prior to designing a Big Data governance model, the study built a machine learning model that predicts academic achievement in science by using currently available Big Data. On this basis, the study then discusses the possibility of efficiently managing academic achievement in science and expanding its scope. The present study was conducted largely in the form of research 1 and research 2.
Research 1 predicted the rate of students falling under below basic academic proficiency for the science subject in the National Assessment of Educational Achievement by using publicly disclosed school data that contains key information regarding school levels. The algorithms used in the analysis were Random Forest and XGboost, with the preprocessing tasks of masking, factorization, regularization, and binarization conducted. Subsequently, the study conducted data integration and visualization by using a data warehouse and then established 53 variable that were capable of being used in the final analysis through variable selection.
The results of using Random Forest confirmed, in the early model, a high level of importance for variables related to dropout risk factors, after-school activities, and the outcomes of transitioning to upper-level educational institutions. Furthermore, these included variables such as the number of students entering science high schools and the number of expenditures for teaching aids and equipment related to science, which are variables related to science education. The task of optimizing parameters that were to be included in the final model made use of a grid search method, with the number of trees set at 1,000, node size at 5, and variable size at 5. As a result, variables related to science education appeared as having a higher level of importance than they did in the early model. The model also included variables related to science labs along with teaching aids and equipment for science, confirming how scientific experiment activities themselves and school infrastructure served as important factors for predicting academic achievement in science. Additionally, similar to the outcomes of the early model, the model invariably included variables related to the outcomes of transitioning to upper-level educational institutions. These may point to how conditions related to educational environment, as indicated by these outcomes, may serve as key variables.
Next, the results using XGboost revealed how variables related to after-school activities and libraries held a high level of importance in the early model. Although variables related to science education certainly maintained somewhat of a high level of importance, these were less emphasized than the prior Random Forest model. Nevertheless, the study determined that points where variables related to libraries held a high level of importance shared context, to a certain extent, with points where school infrastructure impacted academic achievement in science. The results of grid search set the number of iterations at 1,000, subsample rate at 0.7, learning rate at 0.15, gamma value at 3, and tree depth at 10 for the final model. However, there were few huge improvements in terms of importance over the early model, and the role of variables related to science education was not that crucial.
Furthermore, the prediction accuracy of the two models was only somewhat predictive with percentages of 76% and 67% respectively. As a result, the study determined there would be a limit with regard to managing academic achievement in science at school levels related to educational accountability within the data scope capable of currently being collected. However, as variables with a high level of importance were commonly observed in each of the models, the study determined it would be possible to omnidirectionally manage academic achievement in science through Big Data if the data was systematically collected on such a basis.
Research 2 attempted to propose a model capable of further expanding and systematically managing the key factors explored in research 1. To this end, the study examined the current status of Big Data infrastructure for domestic education and selected educational Big Data with significant outcomes for the management of academic achievement in science. During this process, the study divided categories according to school, teacher, and student levels and offered data capable of serving as input variables and dependent variables by distinguishing them. Major input variables include publicly-disclosed school information, EduFine, data provided by TIMSS(Trends in International Mathematics and Science Study) and PISA, the Korean Education and Employment Panel(KEEP), and the Korean Education Longitudinal Study(KELS), while dependent variables include the National Assessment of Educational Achievement, the College Scholastic Ability Test(CSAT), and science subject data from TIMSS and PISA. In addition, the research proposed smart science laboratory data and adaptive learning system data embedded with IoT technology which contains the need for real-time prescriptions and strengthens the educational characteristics of variables related to science experiments, which are none other than the results of research 1.
Based on the discussion above, a Big Data governance model for managing academic achievement in science derived a 3D cube model shape(model 2.0) consisting of educational Big Data patterns, levels of application, and governance issues through the review of availability and logic with regard to model 1.0. Subsequently, educational Big Data patterns were positioned on the x-axis of the model and constituted the assessment of academic achievement in science, school infrastructure, smart science laboratories, and adaptive learning system data. The levels of applying educational Big Data were positioned on the y-axis of the model and were divided into regional levels, school and class levels, and learner levels. Thus, the study proposed which method of applying each educational Big Data pattern, previously categorized, would be efficient and reasonable. Representing educational Big Data governance issues, the z-axis included institutions and infrastrucuture toward the systematic management of academic achievement in science in the Big Data era.
In order to verify the validity of model 2.0 proposed in the present study, 7 experts were selected, who assessed 8 items―validity, explanability, understandability, usefulness, universality, the logic of the development process, the representative nature of the terms, and the processability of the information. Model 3.0 was formed after content pointed out as weaknesses were improved based on the 1st assessment results, after which a 2nd assessment was performed. Consequently, scores for all items were assessed as high, with content validity index(CVI) and inter-rater agreement(IRA) also assessed as high, thereby revealing a high level of validity for the model. However, a portion of the model was revised to finalize model 4.0 in order to comprehensively apply the contents of the z-axis and contents that failed to be incorporated from governance issues. Furthermore, the possibility of developing the present research model was confirmed by exploring a plan for science learning cooperatives from a distributed cognitive perspective, by exploring the potential for adapted support and learning, and by exploring indicators for Korean Science Education Standards(KSES).
Lastly, implications for science education, offered through a Big Data governance model, are as follows. First, the main participants of education must engage in flexible thinking so that the potential for expanding scope, derived from the Big Data governance model, can be incorporated into science education. Second, it is necessary to establish a plan capable of activating data-based education policy design through the present research model. Third, the technological capacity of the main participants of education, who actually implement the Big Data-based science classes, must be taken into account. Fourth, the management of academic achievement in science must lead to the reduction of educational inequality and the implementation of accountability. Fifth, the present model must be used as a plan that can resolve the issue of decreased basic academic proficiency in the science subject.
최근 인공지능, IoT, 빅데이터 등의 지능정보기술이 산업의 구조적인 변화와 사회 전반에 걸쳐 영향을 미칠 것으로 전망되고 있다. 특히, 이러한 기술 발전의 기반이 되는 데이터는 스마트 디지털 시대가 도래하고 컴퓨터의 정보처리 속도가 향상되면서 그 양이 급격하게 늘어나는 상황이다. 바야흐로 빅데이터(Big Data)의 시대에 접어든 것이다. 빅데이터는 하나의 정보 수준을 초월하여 새로운 기회, 경쟁력, 부를 창출할 수 있는 중요 자원이 되어 국가 성장 동력에 활용될 것으로 예상된다.
데이터의 가치 변화는 교육 분야에서도 예외가 아니다. 스마트 교육에 기반한 지능형 학습체제의 도입으로 교육 환경, 방법, 내용 및 평가의 혁신을 추구하고 있으며, 빅데이터 분석 기술을 교육 분야에 접목하기 위해 노력하고 있다. 그러나 현재 많은 양의 데이터가 유기적으로 결합하여 작동하지 못하고 실시간으로 쌓이고만 있으며, 개인정보 보호와 관련된 문제 때문에 분석과 활용에도 소극적이다. 이는 빅데이터의 효율적인 관리와 상황에 맞는 적용 및 검증의 새로운 체계가 필요함을 보여준다.
한편, 학업성취도 관리를 통한 학력 향상은 학교가 달성해야 할 목표 중 하나이다. 특히, 과학 과목은 대표적으로 경제개발협력기구(OECD)에서 주관하는 국제학업성취도평가에 포함되는 과목으로서 주목의 대상이다. 하지만 근래에 우리나라 국가수준 학업성취도 평가에서 타 교과와 비교할 때 과학 과목은 낮은 성취수준을 보이고 있으며, 최근 비대면 수업 방식의 증가로 인한 학력저하로 첨단기술 시대의 핵심 교과목으로서의 역할이 무색해지고 있다.
위와 같은 문제의식으로부터, 본 연구는 과학 학업성취도 관리를 위한 빅데이터 거버넌스 모델을 제안하고자 하였다. 특히, 빅데이터 거버넌스 모델을 설계하기 전 현재 활용할 수 있는 빅데이터로 과학 학업성취도를 예측하는 기계학습 모형을 구축하고, 이를 기반으로 과학 학업성취도의 효과적인 관리 가능성과 외연 확장에 대하여 논의하였다. 본 연구는 크게 연구 1과 연구 2로 구성되어 진행되었다.
연구 1에서는 대표적인 학교 수준 정보를 담고 있는 학교정보공시 데이터를 활용하여 국가수준 학업성취도 평가의 과학 과목 기초학력 미달 비율을 예측하였다. 분석에 사용한 알고리즘은 Random Forest와 XGboost 였으며, 마스킹, 요인화, 정규화 및 이진화 과정의 전처리를 거쳤다. 그 후, 데이터 웨어 하우스를 활용한 데이터 통합과 시각화를 수행하였으며, 변수 선택을 통하여 최종 분석에 활용할 수 있는 53개의 변수를 선정하였다.
Random Forest 활용 결과, 초기 모형에서 학교 이탈 요인과 방과 후 활동, 상급학교 진학 결과와 관련된 변수들이 높은 중요도를 가지고 있음을 확인하였다. 또한, 과학교육과 관련된 변수인 과학고 진학 학생 수, 과학교구 기자재 구입 지출 건수와 같은 변수도 일부 포함되었다. 최종 모형에 포함될 파라미터 최적화 작업은 그리드 서치의 방법을 활용하였고 트리 개수 1000, 노드 크기 5, 변수 크기 5로 결정되었다. 그 결과, 초기 모형보다 과학교육과 관련된 변수들이 높은 중요도 값을 가진 것으로 나타났으며, 과학실 및 과학교구 기자재와 관련된 변수도 모두 포함되어 과학 실험활동 자체와 학교 인프라는 과학 학업성취도를 예측하는 데 중요한 요인임을 확인하였다. 아울러 초기 모형 결과와 유사하게 상급학교 진학 결과와 관련된 변수도 변함없이 포함되어 있었는데, 진학 결과가 말해주는 교육 환경과 관련된 여건도 주요 변수라는 의미로 볼 수 있다.
다음으로 XGboost 활용 결과, 초기 모형에서는 방과후 활동 및 도서관과 관련된 변수들이 높은 중요도를 가지고 있었다. 물론 과학교육과 관련된 변수들 또한 다소 높은 중요도를 가지고 있었으나 앞선 Random Forest 모형과 달리 덜 강조되었다. 하지만 도서관과 관련된 변수가 높은 중요도를 가지는 지점은 학교 인프라가 과학 학업성취도에 영향을 미치는 것과 어느 정도 맥락을 같이한다고 판단하였다. 그리드 서치 결과 최종 모형은 반복 횟수 1000, 하위샘플비율 0.7, 학습률 0.15, 감마 3, 트리깊이 10으로 결정되었다. 하지만 초기 모형보다 중요도 측면에서 크게 개선된 점이 많지 않았으며, 과학교육과 관련된 변수의 역할도 그리 결정적이지 못한 것으로 나타났다.
그리고 두 모형의 예측 정확도는 각각 76%, 67%로 어느 정도의 예측력만 있었고 이로 인하여 현재 수집 가능한 데이터 범위에서 교육의 책무성과 관련된 학교 수준의 과학 학업성취도 관리에는 한계가 있을 것으로 판단하였다. 그러나 각 모형별로 높은 중요도를 가지는 변수들이 공통적으로 관찰되었으므로 이를 기반으로 데이터를 체계적으로 수집한다면 빅데이터를 통한 과학 학업성취도의 전방위적 관리 가능성을 지니고 있다고 판단하였다.
연구 2에서는 연구 1에서 탐색한 주요 요인을 보다 확장하고 체계적으로 관리할 수 있는 모델을 제안하고자 하였다. 이를 위해, 국내의 교육 빅데이터 인프라 현황을 알아보았으며, 그중 과학 학업성취도 관리에 유의미한 결과를 가진 교육 빅데이터를 선별하였다. 이 과정에서 학교, 교사, 학생 수준으로 범주를 나누고 입력변수와 종속변수가 될 수 있는 데이터를 구분하여 제시하였다. 대표적으로 입력변수로는 학교정보공시, 에듀파인, TIMSS(Trends in International Mathematics and Science Study) 및 PISA(Programme for International Students Assessment) 제공 데이터, 한국고용패널, 한국교육종단연구 데이터를 활용할 수 있으며, 종속변수로는 국가수준 학업성취도 평가, 대학수학능력시험, TIMSS 및 PISA의 과학 과목 데이터를 활용할 수 있을 것으로 판단하였다. 이외에도 연구 1에서의 결과인 과학 실험과 관련된 변수의 교육적 특성을 강화하고 실시간 처방의 필요성이 담긴 IoT 기술이 내재된 스마트 과학 실험실 데이터와 적응형 학습 시스템 데이터를 추가로 제안하였다.
앞선 논의를 바탕으로 과학 학업성취도 관리를 위한 빅데이터 거버넌스 모델은 교육 빅데이터 유형, 적용수준, 거버넌스 이슈로 이루어진 3차원 큐브 모형 형태(모델 2.0)를 모델 1.0에 대한 활용성 및 논리성 검토로 도출하였다. 이후 교육 빅데이터 유형은 모델에서 x축에 위치하고 있으며, 이를 과학 학업성취도 평가, 학교 인프라, 스마트 과학 실험실, 적응형 학습 시스템 데이터로 구성하였다. 교육 빅데이터 적용수준은 모델의 y축에 위치하고 있으며, 지역 수준, 학교 및 학급 수준, 학습자 수준으로 나누어 기존에 분류한 각각의 교육 빅데이터 유형이 어떠한 방식으로 적용되는 것이 효율적이고 합리적인지를 제시하였다. z축은 교육 빅데이터 거버넌스 이슈로 빅데이터 시대 과학 학업성취도의 체계적인 관리를 위한 제도와 기반체계를 포함하도록 하였다.
본 연구에서 제안한 모델 2.0의 타당성을 검증받기 위해 선정한 7명의 전문가를 대상으로 타당성, 설명성, 이해성, 유용성, 보편성, 개발과정의 논리성, 용어의 대표성, 정보의 가공성의 8개 항목에 대한 평가를 받았다. 1차 평가 결과를 바탕으로 약점으로 지적된 내용을 개선하여 모델 3.0을 구성하였고 2차 평가를 수행하였다. 그 결과 모든 항목에서의 점수가 높게 평가되었으며, 내용타당도 지수(CVI)와 평가자 간 일치도 지수(IRA)도 높게 평가되어 모델의 높은 타당성을 보여주었다. 하지만 거버넌스 이슈에서 반영하지 못한 내용과 z축 내용의 포괄적인 적용을 위해 일부 모델을 수정하여 모델 4.0을 확정하였다. 또한 분산인지 관점에서의 과학 학습 협력체 방안과 맞춤형 지원 및 학습의 가능성 그리고 미래세대 과학교육표준 지표 탐색으로 본 연구 모델의 발전 가능성을 확인하였다.
마지막으로 빅데이터 거버넌스 모델을 통해 제시하는 과학교육에의 시사점은 다음과 같다. 첫째, 빅데이터 거버넌스 모델에서 파생된 외연 확장 가능성을 과학교육이 반영할 수 있도록 교육 주체들은 유연한 사고를 가져야 한다. 둘째, 본 연구 모델을 통하여 데이터 기반 교육정책 설계를 활성화할 수 있는 방안이 필요하다. 셋째, 빅데이터 기반 과학 수업을 실행하는 교육 주체들의 기술적 역량을 고려해야 한다. 넷째, 과학 학업성취도의 관리가 교육 불평등 해소와 책무성의 이행으로 이어져야 한다. 다섯째, 과학 과목 기초학력 저하의 문제를 해결할 수 있는 방안으로 본 모델이 활용되어야 한다.
Language
kor
URI
https://hdl.handle.net/10371/178803

https://dcollection.snu.ac.kr/common/orgView/000000167565
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share