Robust Semantic Visual Graphs for Navigation of Embodied Agents

Abstract: 지난 수십 년 동안 엄청난 수의 이미지 데이터를 기반으로 학습 기반의 컴퓨터 비전 방법론들, 예를 들어 이미지 분류, 물체 검출, 의미론적 분할 알고리즘과 같은 기술이 발전되어왔다. 이 기술들은 사람의 시각 지능을 모방하여 로봇이 사람과 같은 행동을 할 수 있게 만들자는 목표, 즉, 임바디드 비전을 구현하고자 하는 목표에서 시작되었다. 하지만 실제 환경과 유사한 이미지를 가져올 수 있는 시뮬레이터가 존재하지 않았으며, 실제 환경에서 학습시키기에는 로봇이 학습 중 벽을 인식하지 못해 부딪혀 부서지는 등의 상황이 발생할 수 있어서 리스크가 컸다. 그래서 먼저 리스크가 적은 이미지 기반의 방법들을 통해서 시각 지능을 발전시켜온 것이다. 최근 COVID-19 상황 때문에 비대면 문화가 생기며 사람 대신 로봇이 운전이나 배달, 그리고 음식 서빙을 하는 등 일상생활에 적용되고 있다. 또한 임바디드 에이전트의 비용을 낮추기 위해서 값싼 RGB 센서를 사용하고자 하는 수요가 늘고 있고, 이러한 이유로 시각 지능을 갖춘 로봇 시장이 커지고 있다. 다행히도 최근 실제 3차원 환경을 점 구름으로 수집하여 만든 시뮬레이터가 발달하면서, 실제 환경과 흡사한 이미지 데이터로 로봇을 학습시킬 수 있게 되며 낮은 리스크의 임바디드 비전 학습이 가능해졌다. 하지만 로봇이 인간과 비슷한 형태로 의사 결정을 내리기 위해서는 수많은 고도화된 컴퓨터 비전 방법론들만으로는 부족하다. 수동적 이미지 학습과 로봇이 하는 상호작용적 학습은 로봇이 공간적인 제약을 받는다는 점에서 근본적인 성질이 다르기 때문이다. 그렇기때문에 똑똑한 시각 지능을 갖춘 로봇을 구축하기 위해서는 그저 원시적 이미지를 통해 상황을 인지하는 것이 아니라, 이미지에 있는 의미론적 정보를 공간적으로 의미가 있도록 구축하고 이용하여 상황을 인지해야 한다. 본 박사 학위 논문에서는 임바디드 비전 기술을 발달시키고자 일차적으로는 임바디드 로봇에 필수적인 이미지 처리 문제인 물체 검출과 이미지 기반 장소 인식 문제를 풀었다. 물체 간의 연관성을 얻어내고자 디터미넌탈 포인트 프로세스, 그래프 뉴럴 네트워크, 가우시안 믹스쳐 모델과 같은 방법들을 사용하였다. 그리고 더 나아가, 물체 간의 연관성을 얻어내는 기술을 임바디드 비전 문제, 특히 목표 지향적 이미지 기반 주행 문제들에 적용해서, 물체 간의 연관성 및 의미론적 정보를 어떻게 로봇에게 유용하도록 사용할지에 관한 연구를 진행하였다. 우리는 첫 번째로 물체 간의 연관성을 통해서물 체의 개별성을 알아내고, 물체 검출 점수를 보정하여 물체들이 겹쳐져 가려진 상황에서도 강인한 물체 검출 알고리즘을 제안하였다. 물체 탐지 알고리즘은 일반적으로 수많은 후보 지역들을 뽑은 뒤 후처리 방법으로 그 중 물체일 가능성이 가장 큰 후보 지역을 뽑기 위해 비-최대 억제라는 휴리스틱한 알고리즘을 사용한다. 비-최대 억제 알고리즘은 점수가 높은 후보 지역을 선택한 뒤겹침이 높은 다른 후보들을 없애버리면서 다음으로 가장 점수가 높은 후보를 뽑는 방식으로 동작하는 알고리즘이다. 이때 겹침이 높지만, 물체임이 분명한 후보 또한 제거되곤 한다. 이러한 단점을 보완하고자 우리는 물체 간의 개별성을 구분하는 인스턴스 인식 탐지 네트워크를 제안하여 겹쳐있는 물체들을 구분하는 방법을 만들었다. 이는 디터미넌탈 포인트 프로세스라는 랜덤 프로세스를 통해 학습되었다. 디터미넌탈 포인트 프로세스는 물체 간의 유사성과 각 물체의 점수 값을 이용해서 커널 매트릭스를 만들고, 이 커널의 디터미넌트를 계산해서 부분집합의 확률을 정의한다. 디터미넌트는 대각 성분 값이 클수록 비대각 성분 값이 낮을수록 커지기 때문에, 독립적인 물체들로 이루어진 부분집합이 높은 확률을 갖게 된다. 또한, 물체의 검출 점수를 이용하기 때문에 물체들의 점수가 높을수록 부분집합의 확률이 높아진다. 우리는 이 특성을 이용해서 물체 평가 점수가 높으면서도 상호 유사성이 낮은 물체들을 뽑도록 학습시키고, 차 최적의 추론 알고리즘을 제안하여 물체들이 겹쳐져있는 상황에 강인한 추론을 할 수 있도록 하였다. 그 결과 제안한 알고리즘을 사용했을 때, 단일 카테고리인 사람만 겹쳐있는 데이터 세트에서 성능이 크게 향상되었고, 다중 카테고리 물체 탐지 데이터셋에서도 또한 경쟁력 있는 결과를 얻었다. 두 번째로 우리는 의미론적 기술자를 제안하여 환경이 변화하는 상황에서의 이미지 기반 장소 인식 문제를 풀었다. 우리는 환경이 극심하게 변화하는 상황을 위해 실내 상황을 가정하였다. 왜냐하면, 실내는 공간이 작아서 물체가 이미지상 차지하는 비중이 크고, 실외에 있는 랜드마크, 예를 들면 에펠 탑과 같은 랜드마크는 쉽게 위치가 변하지 않지만, 집에 있는 컵과 같은 물체들은 쉽게 위치가 바뀔 수 있기 때문이다. 이 연구에서는 물체들의 문맥을 생성하여 새로운 물체들이 생겨나는 등 환경 변화가 생겼을 때에도 문맥을 활용하여 강인하게 수 있게 하였다. 예를 들어서 거실에 컵이 생겼더라도 소파나 텔레비전과 같은 물체들을 통해 거실임을 인지할 수 있다. 이미지상에 존재하는 물체들을 이용하여 시각적 문맥을 만들고, 각 물체가 가우시안 믹스쳐 모델의 데이터 포인트로 사용되게 하였다. 이때 가우시안 믹스쳐 모델의 클러스터 중심점과 표준 편차가 같이 학습되게 된다. 즉, 각 가우시안 믹스쳐 모델의 클러스터중심점이, 비슷한 물체들을 묶어서 나타내는 프로토타입 값이 된다. 이미지를 인코딩은 피셔 벡터를 만드는 과정과 비슷하게, 이미지에서 검출된 물체들과 클러스터 사이의 차이 값을 그 클러스터의 표준 편차로 나눈 값을 사용한다. 환경 변화가 있는 상황에서 장소 인식을 잘 수행할 수 있도록 물체를 추가하거나 제거하면서 학습한 결과, 환경이 변화하는 상황에서 기존의 방법론보다 강인한 모습을 보여주었다. 두 가지 수동적인 인터넷 이미지 기반의 학습 문제에서 의미론적 정보를 효과적으로 뽑아내고 이용하는 방법론을 제시한 뒤, 더 나아가 환경과 상호작용하는 로봇에 이러한 의미론적 정보를 적용하는 방식을 제안하였다. 우리는 이미지 목표 주행 업무를 채택하였다. 먼저 의미론적 정보를 로봇에게 전달하기 위해 랜드마크 메모리를 증분적으로 수집하여 토폴로지컬 그래프 메모리를 만들고, 수집된 메모리를 이미지 목표 탐색에 적용하였다. 이 논문에서는 의미론적 정보를 생성하기 위해 두 가지 가정을 한다. 하나는 물체가 주변에 있는 다른 물체들을 통해서 그 용도가 더 정확히 정의될 수 있다는 가정이다. 예를 들어서 주변에 칫솔, 세면대가 있는 경우 그 옆에 있는 컵이 양치 컵임을 알 수 있고, 만약 주변에 과자 상자나 커피 원두가 있으면 커피 컵임을 알 수 있다. 두 번째는 물체와 장소 사이에는 깊은 연관성이 존재하고, 이 연관성을 이용하면 주행에 도움이 된다는 가정이다. 예를 들어서 식탁, 오븐, 냉장고가 있으면 그 장소가 부엌이라는 사실을 알 수 있고, 냉장고가 타겟 이미지에 보인다면, 그 위치를 찾기 위해서 부엌으로 향해야 한다는 사실을 유추하여 효율적으로 주행을 할 수 있다. 우리가 제안한 의미론적이며 위상학적인 그래프 메모리 방법론은 의미론적 메모리를 형성하기 위해 관찰된 이미지와 탐지된 물체들을 이용하여 그래프 메모리를 구성한다. 우리는 물체 검출 네트워크에서 물체의 개별성을 학습한 것에서 모티베이션을 얻어, 물체를 이용하여 그래프 메모리를 구성할 때 하나의 물체가 여러 각도에서 관측되더라도 같은 물체임을 알 수 있도록 학습을 시켰다. 물체들 사이의 연관성과 물체와 장소 사이의 연결성을 교차 그래프 믹서 모듈을 통해 전달된다. 현재 이미지와 목적지 이미지를 질의로 하여 주의 집중 방식을 통해 문맥적 메모리를 선택해오고, 이를 순환 신경망의 형태를 띠는 정책 함수의 입력으로 사용하여 목적지까지 가는 효율적인 행동을 찾아낸다. 실험 결과, 우리가 제안한 방법이 깁슨 데이터 세트에서 기존의 방법론들보다 성능이 우수하며, 효율적인 경로를 찾을 수 있음을 보였다. 마지막으로 물체 목표 주행 문제를 풀었다. 물체 목표 주행 문제는 목적이 물체의 카테고리로 주어지고, 이러한 물체를 찾을 수 있는 공간으로 이동하는 문제이다. 사람이 물체를 찾는 것과 유사한 방식으로 결정 프로세스를 만들기 위하여,물체 목표 주행 문제를 두 가지 하위 문제로 나누어서 풀었다. 두 가지 하위 문제는 물체가 있을 법한 장소를 알아내는 것, 그리고 그 장소까지 효율적으로 가는 경로를 장소들 사이의 연관성을 통해서 알아내는 것으로 구성된다. 두 문제를 풀기 위해 이전에 제안하였던 의미론적이며 위상학적인 그래프 메모리를 사용하였다. 먼저 각 이미지 노드마다 장소 정보를 추출하여 연결해놓음으로써, 실제로 어떤 장소에 어떤 물체들이 존재하는지 그 관계성을 알 수 있다. 그리고 이미지 노드 사이의 연결성을 통해 어떤 장소들끼리 서로 연결되어있는지를 알 수 있다. 즉, 장소 정보를 추가한 의미론적이며 위상학적인 그래프 메모리를 통해 에피소드 내에서의 장소 사이의 연결성을 추출하였다. 그리고서 이러한 에피소딕 메모리를 통합하는 방법을 제안하여,물체와 장소들 사이의 연관성을 추출하고 장소들 사이의 도달 가능성을 추출하였다. 이를 통해서 일반화된 의미론적 사전 그래프를 형성할 수 있다. 이 의미론적 사전 그래프는 장소를 정점으로, 그리고 장소들 사이의 도달 가능성을 간선으로 가진 장소 그래프와 물체와 장소들 사이의 연결로 구성된다. 의미론적 사전 그래프를 통해 현재 보이는 장소에서 목적장소까지 도달하는 최단 의미론적 경로를 계산할 수 있다. 최단경로가 최소화되는 서브 골을 뽑음으로써 도달할 수 있으면서 최적의 의미론적 경로를 형성하고 주행할 수 있다. 예를 들어서 오븐을 찾기 위해서 주방으로 먼저 주행해야 한다는 사실을 유추하고, 그리고 현재 위치에서 보이는 장소들, 예를 들어 복도, 침실, 그리고 화장실 중 주방까지 가는 최단 경로를 갖는 장소인 복도 방향으로 주행할 수 있다. 정리하자면, 본 박사 논문은 수동적인 인터넷 이미지를 사용한 지능을 구축하는 방법론을 제시한 뒤, 상호작용이 필요한 경우에도 적합하게 물체들 사이의 연관성을 통해 의미론적 상관관계를 학습하고 추출하였다. 그리고 이를 통해 최적의 주행을 할 수 있는 방법론을 제시하여 상호작용을 하는 상황에서도 의미론적 상관관계가 효과적으로 적용될 수 있음을 밝혔다. 우리가 제안한 의미론적 상관관계를 뽑아내는 학습 기법을 통해서 앞으로 실생활에 깊게 들어올 임바디드 로봇이 더 지능적으로 동작할 수 있게 되길 기대해본다.
Over the last few decades, computer vision approaches that utilize large amounts of internet images, such as image classification, object recognition, and semantic segmentation algorithms, have been developed to imitate human visual intelligence and enable robots to behave like humans. However, due to the lack of simulators that provide image data similar to the real world, and the challenges of learning in the actual environment, researchers initially began with low-risk, image-based methods to develop visual intelligence. With the recent advancement of simulators that utilize actual 3D environments as point clouds, it is now possible to train robots by interacting with a simulated environment that is comparable to the real world. As a result, embodied vision technology has gained popularity, with robots with visual intelligence increasingly being integrated into our daily lives as self-driving vehicles, restaurant robots serving meals, and delivery robots. Despite the advancements in vision technologies, they are not well-suited for robots, as they are trained with passive images collected from the internet, while robots navigate in a three-dimensional space. This thesis begins by introducing a simple end-to-end network for visual navigation. After demonstrating that this method is not suitable for complicated long-term navigation problems, a visual intelligence utilizing semantics and connectivity is developed. Methods such as the determinant point process, graph neural network, and Gaussian mixture model are employed to establish the correlation between objects. Before tackling complicated embodied agent tasks, passive image-based visual intelligence is developed through object detection and visual place recognition. A post-processing algorithm in object detectors, called an instance-aware detection algorithm, is introduced, which selects object candidates using the context of the objects and their identity. It is shown that learning identity and context improves the ability to select individual elements in an image, increasing detection results when there are many occluded instances in an image. Additionally, it is demonstrated that the connectivity of instances improves robust visual place recognition when there are environmental changes. Further research is conducted on how to effectively utilize the correlation between objects and semantic information for robots by applying the approach of establishing a correlation between object information to embodied vision challenges, particularly goal-oriented visual navigation problems. To encode semantic objectness knowledge, an object encoder is proposed that can find a similarity between a pair of objects, even when they are captured from different viewpoints. With the assumption that objects can be defined using nearby objects and places, a topological semantic graph memory is proposed, which integrates semantic information into a topological graph. The proposed memory contains object nodes to represent landmarks and image nodes to indicate places. In the cross-graph mixer of the network, semantic knowledge is created and given to the agent to efficiently reach the goal. The method is extended to apply to object goal navigation, which extracts place and object connectivity as prior knowledge and uses it to find an object goal. The problem is divided into two, similar to human decision-making processes: finding the target place based on the target goal, and making long-term plans to reach the target place with place reachability. Utilizing semantics and connectivity, an embodied agent with visual intelligence is developed for goal-conditioned visual navigation tasks. It is demonstrated that semantic correlation can be successfully applied to interactive embodied robots.

Language: eng

URI: https://hdl.handle.net/10371/193283

https://dcollection.snu.ac.kr/common/orgView/000000174537

Files in This Item:

000000174537.pdf 132.84 MB

Appears in Collections:

College of Engineering/Engineering Practice School (공과대학/대학원)
- Dept. of Electrical and Computer Engineering (전기·정보공학부)
  - Theses (Ph.D. / Sc.D._전기·정보공학부)

Altmetrics

Item View & Download Count

Show Full Item Record

Find it @ SNU

트윗하기

SNS Share