Publications

Detailed Information

시스템 호출 함수 및 인자의 통합 시퀀스를 활용한 신경망 기반 이상 탐지 : Neural Network-Based Anomaly Detection Using Integrated Sequence of System Call Function and Argument

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김요한

Advisor
백윤흥
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
시스템 보안이상 탐지시스템 호출LSTMSystem SecurityAnomaly DetectionSystem Call
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 전기·정보공학부, 2021. 2. 백윤흥.
Abstract
시스템 호출 함수 시퀀스만을 데이터로 활용하여 시스템의 정상적인 행위를 학습하는 신경망 기반 이상 탐지 모델의 문제점 중 하나는 mimicry 공격에 취약하다는 것이다. 공격자는 데이터에 no-op 시스템 호출을 삽입하는 등의 방법으로 공격 행위를 정상적인 행위인 것처럼 모방하여 탐지를 피하고 원하는 공격을 수행할 수 있게 된다. 이런 mimicry 공격을 막기 위한 다양한 방법론이 제시되었으며 그 중 대표적인 것이 시스템 호출 함수 대신 branch 시퀀스를 데이터로 활용하는 것이다. 그러나 branch 시퀀스는 시스템 호출 함수에 비해 데이터의 양이 너무 많아 공격 탐지 소요 시간이 오래 걸리며 별도의 하드웨어 피쳐들을 활용해 추출해야 한다는 번거로움이 있어 실시간 온라인 탐지 시스템에 적용하기엔 적합하지 않다는 단점이 있다. 본 논문에서는 이런 단점들을 해소하는 동시에 mimicry 공격에 강건한 모델을 만들기 위해 기존에 사용하던 시스템 호출 함수 데이터와 시스템 호출 인자 데이터를 함께 통합시켜 활용하는 새로운 방법론을 제시한다. 시스템 호출 인자가 공격을 탐지하기 위한 시스템 행위 정보를 충분히 담고 있음을 보이는 통계 모델 기반 접근법에 기인하여 시스템 호출 인자 데이터를 딥러닝 모델의 입력 벡터로 변환시킨다. 이후 시스템 호출 함수의 입력 벡터와 통합하여 LSTM 모델을 통해 공격을 탐지하는 것이 본 연구에서 제안하는 기법이다. 제안된 모델의 성능을 측정하기 위해 branch 시퀀스를 데이터로 활용한 연구와 비교 실험을 진행하였다. 두 개의 실제 프로그램을 대상으로 공격을 수행하여 공격이 성공적으로 탐지되는 것을 확인하였으며, branch 시퀀스 모델과 비교하여 탐지 정확도와 탐지 소요 시간, 양쪽 지표 모두 성능이 향상되었음을 확인할 수 있었다.
One of the problems with neural network-based anomaly detection models that use only system call function sequences as data to learn the normal behavior of the system is that they are vulnerable to mimicry attacks. This allows the attacker can imitate an attack as if it were a normal behavior by inserting no-op system calls into the data to avoid detection and carry out the desired attack. Various methodologies have been presented to prevent these mimicry attacks, and one of them is to use branch sequences as data instead of system call functions. However, branch sequences have the disadvantage of being difficult to apply to real-time online detection system due to the fact that the amount of data is too large compared to system call functions, which takes much more time to detect attacks and the hassle of extracting them using separate hardware features. To solve these shortcomings and at the same time to create a robust model for mimicry attacks, this paper presents a new methodology for integrating system call function sequence data used previously and system call arguments data together. We converts system call arguments data to the input vector of the deep learning model, referring to the statistical model-based approach that shows that the system call arguments contain enough system behavior information to detect attacks. Then in our technique, we integrate system call function and argument input vectors to detect attacks through LSTM model. To measure the performance of the proposed model, comparative experiment was conducted with studies using the branch sequences as data. We confirmed that the attacks carried out on two real programs were successfully detected, and both detection accuracy and detection time were improved compared with the branch sequence model.
Language
kor
URI
https://hdl.handle.net/10371/175312

https://dcollection.snu.ac.kr/common/orgView/000000164883
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share