Publications

Detailed Information

계층적 베이지언 학습에 의한 : Semantic Segmentation of Video Streams using Hierarchical Bayesian Learning

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이바도

Advisor
장병탁
Major
전기·컴퓨터공학부
Issue Date
2012-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2012. 2. 장병탁.
Abstract
통계기법을 이용한 기계학습 연구가 활발히 진행되면서 시간 정보가 포함된 동적 스트림(stream) 분석에 기계학습 기법을 적용하려는 시도가 주목 받고 있다. 특히 이미지, 텍스트, 음성 등 다양한 특성이 결합된 멀티모달 동영상을 지능적으로 분석하여 스토리 구간을 유추하려는 시도가 다양한 연구자에 의해 진행되어왔다. 그러나 기존 연구는 동일 이미지 반복이라는 사전 지식을 이용하여 이미지 구간을 분리하였으며 각 스토리 구간을 특정 짓는 이미지/텍스트의 분포가 뚜렷하게 구분되는 데이터를 대상으로 하였기에, 다양한 동영상 데이터에 적용하기에는 적합하지 않았다. 본 논문에서는 이미지 반복 등의 사전 지식을 이용하지 않고 비디오 스트림을 설명할 수 있는 생성 모델(Generative Model)을 구성한 후 구성된 모델이 관찰한 장면(scene)을 만들어 낼 수 있는 가능성(Likelihood)에 기반 하여 주어진 드라마의 스토리 구간을 추정할 수 있는 방법을 소개한다. 제안 방법은 드라마 스트림에 존재하는 스토리 구간의 은닉구조(Latent Structure)를 가정한 후 해당 구간의 이미지 및 텍스트 분포를 추정하는 방법으로 첫째, 기존 방법과 달리 스토리 구간 분포를 가정하지 않고도 여러 개의 스토리 구간을 구분할 수 있으며, 둘째, 분석 대상 드라마 스트림이 온라인으로 입력되는 상황을 처리할 수 있고, 셋째, 분석 대상 데이터에 대한 사전지식이 필요하지 않다는 장점이 있다.
With the advancement of statistical machine learning, various machine learning methods have been applied to dynamic analysis of multimodal streams. Especially, segmenting of multimodal streams has attracted much research due to its challenge and potential benefits. However, previous studies have limited capacity for tackling various real-world streams because they focus on utilizing very limited characteristics of certain domains such as repetition of fixed frames. In this paper, we introduce a generative model-based segmenting method in which a story segment of a video stream is estimated through the likelihood of a given model to explain incoming data. The proposed method assumes a latent structure for each story segment and this latent structure is used for modelling sound and image data for each corresponding story segment. Contrary to prior approaches, the proposed method has following advantages. Firstly, it is possible to estimate segments without assuming specific segment distribution in advance. Secondly, the proposed method has potential for analyzing incoming streams in online manner. Thirdly, it is capable of building a generative model without specific knowledge on target streams.
Language
kor
URI
https://hdl.handle.net/10371/155520

http://dcollection.snu.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000002287
Files in This Item:
There are no files associated with this item.
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share