Publications

Detailed Information

CNN's microbiome feature extraction and utilization for host prediction : 합성곱 신경망 모델의 마이크로바이옴 특징 추출 및 호스트 예측에 대한 활용: Using small datasets to CNN models
Using small datasets to CNN models

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박종현

Advisor
천종식
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
MachinelearningSmalldatasetGutmicrobiomeHostpredictionConvolutionnetwork
Description
학위논문(석사) -- 서울대학교대학원 : 자연과학대학 협동과정 생물정보학전공, 2022. 8. 천종식.
Abstract
This study aimed to compare the performance, strengths, and weaknesses of machine learning models based on convolutional neural networks and models not based on it; and analyzed the performance of various machine learning models according to the type and purpose of the given data. As a large number of data can be used with the continuous development of hardware, the possibility of machine learning using large datasets has already been sufficiently verified. Therefore, this study confirmed that using a relatively small gut microbiome dataset, machine learning models that predict a host could be designed with significant accuracy with appropriate tuning and loss function setting. In this study, the operations of machine learning models were compared using a fecal microbiome dataset(4108 samples, 672 species). The training and validation dataset is a small subset of entire microbiome data(871 samples, 34 species). And it was shown that there was a difference in performance depending on the problem situation settings like the complexity of the data and the prediction purpose of ML models. As a result of the study, the convolutional neural network based models had the disadvantages of using more resources and taking a long time to learn. However, they maintained high accuracy compared to other discriminative models that were lumpy-labeled or more complex. Conversely, the models that did not use the convolutional neural network showed similar performance to the neural network-based model in discriminating simple data and accurately labeled data, with simple construction and learning. In addition, it was confirmed that the machine learning model could be used sufficiently even on a small dataset through appropriate design adjustments and function settings. Summarizing the results, machine learning methods can verify data labeling of large datasets using a relatively small number of accurately labeled data. This can be used to check the labeling accuracy of large datasets that have been published as open-source before use in research.
본 연구는 합성곱 신경망에 기반한 기계학습 모델들과 기반하지 않은 모델들의 성능과 장단점 비교를 목적으로 하며, 주어진 데이터의 종류와 목적에 따라 다양한 기계학습 모델들의 성능을 분석했다. 계속되는 하드웨어의 발달로 다수의 데이터를 활용할 수 있게 되면서 미생물 군집 분석에 매우 큰 데이터세트를 활용한 기계학습의 가능성은 이미 충분히 검증되고 있다. 분석결과에 의도치 않은 노이즈가 포함되지 않기 위해서는, 오픈소스 거대 데이터세트를 사용하기 전에 사용할 데이터세트가 정확히 라벨링이 되어있는지 확인하여야 한다. 본 연구는 상대적으로 작은 장내 미생물 군집 데이터 세트를 사용하여 호스트를 예측하는 기계 학습 모델이 적절한 조정 및 손실 기능 설정으로 상당한 정확도로 설계될 수 있음을 확인했다. 본 연구에서는 분변 미생물 군집 데이터세트(샘플 4108개, 672종)를 이용하여 머신 러닝 모델의 성능을 비교하였다. 훈련 및 검증 데이터 세트(871개 샘플, 34종)는 전체 미생물 군집 데이터세트의 작은 하위 집합으로 구성되었다. 그리고 데이터의 복잡도와 ML 모델의 예측 목적 등 문제 상황 설정에 따라 성능에 차이가 있는 것으로 나타났다. 연구 결과, 합성곱 신경망 기반 모델들은 사용하는 리소스가 많고 학습에 필요한 시간이 더 오래 걸린다는 단점들이 있었다. 그러나 데이터의 복잡도가 증가하고 레이블이 정확하게 지정되지 않은 데이터들을 판별함에 있어 다른 모델들에 비해 높은 정확도를 유지하였다. 반대로 합성곱 신경망을 사용하지 않은 모델들은 구성과 학습이 간단하고, 단순한 데이터들과 정확하게 레이블이 지정된 데이터들을 판별함에 있어 신경망 기반 모델과 비슷한 성능을 보였다. 또한 적절한 구조설계와 함수 설정을 통해 기계학습 모델이 작은 데이터셋을 기반으로도 충분히 사용될 수 있음을 확인하였다. 간단한 기계 학습 방법으로 적은 수의 정확하게 레이블이 지정된 데이터를 사용하여 대규모 데이터 세트의 데이터 레이블을 검증할 수 있다. 이는 연구에 사용하기 전에 오픈 소스로 게시된 대규모 데이터 세트의 레이블 지정 정확도를 확인하는 데 사용할 수 있다.
Language
eng
URI
https://hdl.handle.net/10371/188612

https://dcollection.snu.ac.kr/common/orgView/000000172825
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share