Publications

Detailed Information

MP3DU: Multi-Projection 3D U-Net for Automatic Segmentation of Temporal Bone Structures in CT images : MP3DU: CT 영상 내 자동적 측두골 구조물 영상분할을 위한 다중 투영 3차원 U-Net

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

전보성

Advisor
이원진
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
3DSegmentationofthetemporalbonestructuresCTimageDeepLearningNetworkMulti-projection
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 협동과정 바이오엔지니어링전공, 2022. 8. 이원진.
Abstract
Background: The inner ear surgery such as cochlea implantation and tumor removal requires accurate identification and comprehension of temporal bone structures to make appropriate preoperative planning. However, it is considered to be challenging locate and understand the critical temporal bone structures, facial nerve, cochlea, and ossicle, due to their small sizes and anatomical variations. In addition, the low contrast of temporal bone computed tomography (CT) causes blurry boundaries of anatomical structures so it causes confusion to distinguish anatomical structures. Though, it is required to the otologists to acquire segmentation of temporal bone structures manually. Therefore, a multi-projection 3-dimensional (3D) U-Net (MP3DU) was proposed for automatic segmentation of temporal bone structures in CT images.

Materials and Methods: In this study, 381 temporal bone CT of normal condition were collected from the 418 patients who were diagnosed inner ear diseases. The MP3DU was designed based on 3D U-Net that has 3D encoder-decoder architecture with multi-projection maps generated from 3D volume input. The 3D contextual information and structural shape information simultaneously complement and optimize the segmentation performance during training in end-to-end manner. The multi-projection maps of MP3DU minimizes the feature loss while passing through 3D encoder-decoder architecture.

Result: The MP3DU achieved 0.81 dice similarity coefficient score (DSC), 0.71 jaccard index (JI), 0.81 precision (PR), and 0.84 recall (RC) in 2-dimensional (2D) performance metrics, and 0.34 relative volume difference (RVD), and 0.43 volume of error (VOE) in 3D performance metrics for the whole temporal bone structures which outperformed than other popular deep learning networks. Also, fewer false positives and negatives were observed from segmentation results than in other networks. In particular, a tubular structure, facial nerve, had improved segmentation results maintaining its anatomical shape well and achieving the highest evaluation metric of all others.

Conclusion: The proposed network, MP3DU, could provide the automatic segmentation of temporal bone structures by improving the structural shape and 3D contextual information through multi-projection maps with 3D encoder-decoder architecture.
연구 배경: 인공와우 이식수술과 같은 내이 수술은 술중 발생할 수 있는 여러 크고 작은 부작용을 피하기 위해 정확한 술전 계획이 필요하다. 이를 위해 내이 속 측두골 구조물에 대한 해부적 정보, 위치 등에 대한 정보의 정확한 이해가 필수적이다. 여러 측두골 구조물 중에서도 중요하게 여겨지는 대표적인 것들로 얼굴신경, 달팽이관, 이소골이 있으며 해당 구조물들은 구조적 변형이 크고 크기가 작아 실질적인 이해가 어려운 것으로 여겨진다. 이러한 구조물들을 비교적 쉽게 파악하기 위해 내이 수술 전 측두골 CT영상을 취득하게 되지만 CT영상의 낮은 대비로 인해 구조물들 간의 경계가 모호해져 이비인후과 전문가도 구분이 어려운 문제가 있다. 그럼에도 불구하고 해당 구조물들에 대한 정확한 정보는 반드시 획득되어야 하기에 그 과정에서 이비인후과 전문가들의 수동적 영상분할은 무조건적으로 발생한다. 따라서 본 연구는 이러한 불편함을 줄이고자 측두골 구조물에 대한 자동 영상분할을 달성하고자 CT영상 다중 투영 3차원 U-Net을 제안하였다.
연구 방법: 연구를 위해 418명의 환자로부터 381개의 CT영상을 수집하였다. 해당 환자들은 내이 관련 질병으로 내원한 것으로 진단 과정에서 촬영된 CT영상 중 병변이 없는 정상 내이 영상만 사용하였다. 다중 투영 3차원 U-Net은 의료영상 영상분할에 많이 사용되는 3차원 U자형 신경망의 구조를 바탕으로 각 구조물에 대한 2차원의 다중 투영 영상을 접목하여 자동 영상분할을 달성하고자 하였다. 본 연구에서 제안하는 네트워크의 3차원 인코더-디코더 구조는 3차원 맥락 정보를 제공하며 그와 동시에 3차원 정보로부터 얻어진 2차원 다중 투영 영상이 전체적인 구조적 형태 정보를 딥러닝 학습 중 동시에 제공하며 상호보완적 결과를 얻고자 하였다.

연구 결과: 딥러닝을 이용한 측두골 영상분할 결과를 비교하기 위해 의료영상 영상분할에 많이 사용되는 2D U-Net, EfficientNet, 그리고 해당 네트워크의 기본 구조인 3D U-Net을 사용하였다. 본 연구가 제안한 네트워크인 다중 투영 3차원 U-Net이 전체 측두골 구조물 영상분할 결과로 2차원 성능 지표로 0.81의 DSC, 0.71의 JI, 0.81의 PR, 0.84의 RC를, 3차원 성능 지표로 0.34의 RVD와 0.43의 VOE를 달성하였으며 이는 다른 비교군 대비 높은 결과를 보였음을 관찰하였다. 또한 영상분할 결과의 3차원 모델링 비교 결과, 제안한 네트워크가 다른 비교 네트워크 대비 위양성과 위음성이 적게 관찰되었다.
결론: 본 연구는 CT영상에서 측두골 구조물 자동 영상분할을 수행하는 다중 투영 3차원 U-Net 제안하였으며 해당 네트워크는 3차원 맥락 정보와 각 구조물의 2차원 다중 투영 영상이 상호보완적으로 최적의 결과를 학습한 것을 확인할 수 있었으며 결과적으로 측두골 구조물 영상분할에 있어서 개선된 성능을 보였다.
Language
eng
URI
https://hdl.handle.net/10371/187818

https://dcollection.snu.ac.kr/common/orgView/000000172501
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share