Detailed Information

딥러닝 기반의 원격 수업 참여자 집중도 분석에 관한 연구 : Deep Learning-based Engagement Recognition for Remote Video Class

Cited 0 time in Web of Science Cited 0 time in Scopus


Issue Date
서울대학교 대학원
학위논문(석사) -- 서울대학교대학원 : 공학전문대학원 응용공학과, 2022.2. 이영기.
인터넷의 발전과 함께 스마트폰, 개인 컴퓨터 등의 단말 기기들이 보급됨에 따라 다양한 분야에서 사용자가 원하는 컨텐츠를 검색하여 소비하는 요구 중심(On-Demand) 컨텐츠의 시대가 도래하게 되었다. 이는 사용자가 이미 소비한 컨텐츠를 분석하여 관심 가질만한 다음 컨텐츠를 제공할 뿐 아니라, 사용자와의 실시간 인터렉션을 통하여 다음 컨텐츠를 예측하는 등의 서비스도 가능하게 되었다. 특히 2019년경 발생한 호흡기 감염 바이러스인, COVID-19의 확산을 방지하기 위해 전세계적으로 개인간 접촉을 제한함에 따라, 그간 다소 보수적이었던 교육/의료 등의 분야에서도 On-Demand 컨텐츠 뿐 아니라 이를 기반으로 한 양방향 인터렉션 서비스에 대한 요구가 강하게 발생하게 되었다.

특히 교육 분야의 경우 학습의 효율화를 위해 오프라인 환경과 비슷한 온라인 환경을 구성해야 하며, 이는 컨텐츠 제공자(교사)와 컨텐츠 소비자(학생)의 실시간 인터렉션 기술이 뒷받침 되어야 한다. 그러나 온라인 교육의 특성상 한 명인 컨텐츠 제공자(교사)가 모니터를 통하여 여러 명의 컨텐츠 소비자(학생)의 학습 참여도 여부를 실시간으로 파악 하는 것은 거의 불가능하다는 한계가 있다.

비단 일 대 다수 뿐 아니라 일대일의 비대면 서비스에서도 문제점이 존재한다. 의료 분야의 경우 전문 용어가 포함된 컨텐츠 제공자(의사)의 설명이나 처방을 컨텐츠 소비자(환자)가 잘 이해하고 있는지 일일히 파악하기 위해선, 제공자(의사)가 전체를 다시 설명하거나 여러 번의 확인 절차를 거쳐야 한다. 이 경우 원격 진료 시간이 길어지므로, offline대비 효율이 떨어질 수 밖에 없다.

본 연구는 딥러닝 기반 비전 기술로 컨텐츠 소비자의 얼굴 이미지를 실시간 분석하여 이상치(비참여, 비집중)를 탐지하고자 한다. 이렇게 탐지된 이상치는 컨텐츠 제공자(교사, 의사)에게 실시간으로 제공되어 비대면 서비스의 품질 향상에 이용될 수 있다.

본 연구에서는 비전 기반 집중도 분석을 위해 FER2013/AffectNet/AIHUB open dataset을 ResNet50으로 Transfer Learning하여 감정 분석 1차 모델을 생성하였다. 이 감정 분석 이미지 모델 학습시 좌우플립, 회전 등의 Data augmentation을 사용하였으며 이렇게 하여 80\%정도의 validation accuracy 모델을 얻게 되었다. 이렇게 얻어진 감정 분석 1차 모델을 backbone으로하여 집중도 분석 Deep-One class Classification 모델을 구성하였고, 이를 DAiSEE dataset로 학습하여 AUC 0.91의 모델을 완성하였다. 이러한 AUC 0.91 모델 결과는 얼굴의 특징점들을 이미 고려하고 있는 감정 분석 모델을 집중도 분석 모델의 backbone으로 사용하였기 때문에 얻을 수 있었다.
With the development of the Internet and the spread of terminal devices such as smartphones and personal computers, the era of on-demand content, in which users search for and consume content they want in various fields, has arrived. This makes it possible not only to provide the next content that may be of interest to the user by analyzing the content already consumed by the user, but also to predict the next content through real-time interaction with the user.

In particular, in order to prevent the spread of COVID-19, a respiratory infection virus that occurred around 2020, personal contact is restricted around the world and in fields such as education and medical care, which have been rather conservative, the demand for on-demand content as well as interactive service based on it has arisen.

Especially in the case of education, an online environment similar to an offline environment should be configured for the efficiency of learning, and this should be supported by real-time interaction technology between content providers (teachers) and content consumers (students). However, due to the nature of online education, there is a limit that it is almost impossible for one content provider (teacher) to check the learning participation level of several content consumers (students) in real time through the monitor.

Problems exist not only in one-to-many but also in one-to-one online services. In the case of the medical field, in order to understand whether the content consumer (patient) understands the content provider (doctor)s explanation or prescription that includes technical terms, the provider (doctor) must explain the whole thing again or repeat the verification process several times. Therefore the efficiency is inevitably reduced compared to offline services, since the time for remote medical treatment is long.

This study aims to detect outliers (non-participation, non-concentration) by analyzing the face images of content consumers in real time with deep learning-based vision technology. The detected outliers are provided to content providers (teachers, doctors) in real time and can be used to improve the quality of online services.

In this study, for vision-based concentration analysis, open dataset such as FER2013, AffectNet, AIHUB were transferred to ResNet50 to create a primary model for emotion analysis. When learning this emotion analysis image model, data augmentation such as left-right flip and rotation was used, and in this way, a model that generates about 80\% validation error was learned. Using the emotion analysis model thus obtained as a backbone, a concentration analysis Deep-One class classification model was constructed, and the DAiSEE dataset was trained to create a model of AUC 0.91.

This result can be said to have been obtained because the emotion analysis model that already considers facial features was used as the backbone of the concentration analysis model.
Files in This Item:
Appears in Collections:


Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.