Publications

Detailed Information

Random Walk-based Large Graph Mining Exploiting Real-world Graph Properties : 실세계 그래프 특징을 활용한 랜덤 워크 기반 대규모 그래프 마이닝

DC Field Value Language
dc.contributor.advisor강유-
dc.contributor.author정진홍-
dc.date.accessioned2020-05-19T08:02:52Z-
dc.date.available2020-05-19T08:02:52Z-
dc.date.issued2020-
dc.identifier.other000000159451-
dc.identifier.urihttps://hdl.handle.net/10371/167991-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000159451ko_KR
dc.description학위논문(박사)--서울대학교 대학원 :공과대학 컴퓨터공학부,2020. 2. 강유.-
dc.description.abstractNumerous real-world relationships are represented as graphs such as social networks, hyperlink networks, and protein interaction networks. Analyzing those networks is important to understand the real-life phenomena. Among various graph analysis techniques, random walk has been widely used in many applications with satisfactory results. However, various real-world graphs are large and complicated with diverse labels. Traditional random walk based methods require heavy computational cost, and disregards those labels for performing random walks; thus, its utilization has been limited in such large and complicated graphs.

In this thesis, I handle the technical challenges of mining large real-world graphs based on random walk. Real-world graphs have distinct structural properties which become a basis to increase the performance of the random walk in terms of speed and quality. Based upon this idea, I develop fast, scalable, and exact methods for node ranking using random walk in large-scale plain networks. I also design accurate models using random walks for node ranking and relational reasoning in labeled graphs such as signed networks and knowledge bases.

Through extensive experiments on various real-world graphs, I demonstrate the effectiveness of the methods and models proposed by this thesis. The proposed methods process 100 times larger graphs, and require up to 130 times less memory with up to 9 times faster speed compared to other existing methods, successfully scaling to billion-scale graphs. Also, the proposed models substantially improve the predictive performance of a variety of tasks in labeled graphs such as signed networks and knowledge bases.
-
dc.description.abstract다양한 실세계 자연 현상에서의 관계들은 소셜 네트워크, 하이퍼링크 네트워크와 단백질 상호작용 네트워크와 같이 정점과 간서의 그래프로 표현된다. 이러한 네트워크를 분석하는 것은 실세계의 현상을 이해하는데 매우 중요하다. 다양한 그래프 분석 기법중에 랜덤 워크라는 기법이 만족스러운 성능과 함께 많은 그래프 마이닝 응용에 널리 활용되어 왔다. 그러나 대다수의 실세계 그래프는 그 규모가 굉장히 크고 다양한 라벨 정보와 함께 복잡하게 표현된다. 전통적인 랜덤 워크 기반의 기법들은 계산량이 많이 요구되고, 랜덤 워크를 하는데 있어서 다양한 라벨 정보를 전혀 고려하지 않아 라벨로 표현되는 그래프의 고유한 특성이 무시되게 된다. 그래서 이와 같이 복잡하면서 대규모 그래프에서는 랜덤 워크의 실질적 활용이 제한되어왔다.

본 학위 논문에서는 랜덤 워크 기반의 대규모 실세계 그래프 분석의 기술적 한계를 해결하고자 한다. 실세계 그래프는 고유한 구조적 특징들을 가지고 있으며 이러한 구조적 특징들은 속도와 품질의 측면에서 랜덤 워크의 성능을 향상시키는데 기반이 될 수 있다. 이러한 아이디어를 활용하여, 대규모의 라벨이 없는 일반적인 네트워크에서 랜덤 워크 기반의 개인화된 정점 랭킹 계산을 빠르고, 확장성 있고 정확하게 구하는 기법을 제안한다. 또한 부호화된 네트워크 또는 지식 베이스와 같은 라벨이 있는 그래프에서 개인화된 정점 랭킹과 관계 추론을 위한 랜덤 워크 기반의 모델을 제안한다.

다양한 실세계 그래프에서 광범위한 실험을 통해 본 학위 논문에 의해 제안된 방법과 모델의 효과성을 보인다. 제안하는 방법은 다른 경쟁 기법들과 비교했을 때 최대 100배 더 큰 그래프를 처리할 수 있고, 최대 130배 적게 메모리를 사용하면서, 최대 9배 빠른 속도를 보이며, 결과적으로 수 십억 규모의 그래프에서 랜덤 워크 기반의 개인화된 정점 랭킹을 성공적으로 구할 수 있다. 또한, 제안하는 랜덤 워크 기반의 모델들은 부호화된 네트워크와 지식 베이스와 같은 라벨이 있는 그래프에서 부호 예측, 간선 예측, 이상 현상 탐지, 관계 추론 등의 다양한 응용에서 다른 경쟁 모델들보다 더 좋은 예측 성능을 보인다.
-
dc.description.tableofcontentsChapter1 Overview .... 1
1.1 Motivation .... 1
1.2 Research Statement .... 4
1.2.1 Research Goals and Importance .... 4
1.2.2 Technical Challenges .... 6
1.2.3 Main Approaches .... 7
1.2.4 Contributions .... 9
1.2.5 Overall Impact .... 10
1.3 Thesis Organization .... 11

Chapter2 Background .... 12
2.1 Definitions .... 12
2.1.1 Notations on Graphs .... 12
2.1.2 Random Walk with Restart .... 13
2.2 Related Works .... 15
2.2.1 Previous Methods for RWR in Plain Graphs .... 15
2.2.2 Ranking Models in Signed Networks .... 17
2.2.3 Relational Reasoning Models in Edge-labeled Graphs .... 19

Chapter 3 Fast and Scalable Ranking in Large-scale Plain Graphs .... 21
3.1 Introduction .... 21
3.2 Preliminaries .... 23
3.2.1 Iterative Methods for RWR .... 24
3.2.2 Preprocessing Methods for RWR .... 25
3.3 Proposed Method .... 26
3.3.1 Overview .... 26
3.3.2 BePI-B: Exploiting Graph Characteristics for Node Reordering and Block Elimination .... 28
3.3.3 BePI-B: Incorporating an Iterative Method into Block Elimination .... 32
3.3.4 BePI-S: Sparsifying the Schur Complement .... 34
3.3.5 BePI: Preconditioning a Linear System for the Iterative Method .... 36
3.4 Theoretical Results .... 39
3.4.1 Time Complexity .... 39
3.4.2 Space Complexity .... 40
3.4.3 Accuracy Bound .... 41
3.4.4 Lemmas and Proofs .... 43
3.5 Experiments .... 48
3.5.1 Experimental Settings .... 49
3.5.2 Preprocessing Cost .... 51
3.5.3 Query Cost .... 53
3.5.4 Scalability .... 53
3.5.5 Effects of Sparse Schur Complement and Preconditioning .... 54
3.5.6 Effects of the Hub Selection Ratio .... 57
3.5.7 Accuracy .... 58
3.5.8 Comparison with the-State-of-the-Art Method .... 59
3.6 Summary .... 60

Chapter 4 Personalized Ranking in Signed Graphs .... 61
4.1 Introduction .... 61
4.2 Problem Definition .... 65
4.3 Proposed Method .... 65
4.3.1 Signed Random Walk with Restart Model .... 66
4.3.2 SRWR-Iter: Iterative Algorithm for Signed Random Walk with Restart .... 76
4.3.3 SRWR-Pre: Preprocessing Algorithm for Signed Random Walk with Restart .... 82
4.4 Experiments .... 93
4.4.1 Experimental Settings .... 94
4.4.2 Link Prediction Task .... 96
4.4.3 User Preference Preservation Task .... 99
4.4.4 Troll Identification Task .... 100
4.4.5 Sign Prediction Task .... 104
4.4.6 Effectiveness of Balance Attenuation Factors .... 109
4.4.7 Performance of SRWR-Pre .... 110
4.5 Summary .... 113

Chapter 5 Relational Reasoning in Edge-labeled Graphs .... 114
5.1 Introduction .... 114
5.2 Preliminary .... 116
5.3 Proposed Method .... 118
5.3.1 Label Transition Observation .... 120
5.3.2 Learning Label Transition Probabilities .... 121
5.3.3 Multi-Labeled Random Walk with Restart .... 123
5.3.4 Formulation for MuRWR .... 125
5.3.5 Algorithm for MuRWR .... 127
5.4 Theoretical Results .... 131
5.4.1 Lemma for Solution of Label Transition Probabilities and Convexity .... 131
5.4.2 Lemma for Recursive Equation of MuRWR Score Matrix .... 134
5.4.3 Lemma for Spectral Radius in Convergence Theorem .... 136
5.4.4 Lemma for Complexity Analysis .... 137
5.5 Experiment .... 138
5.5.1 Experimental Settings .... 139
5.5.2 Relation Inference Task .... 140
5.5.3 Effects of Label Weights in MuRWR .... 142
5.5.4 Effects of Restart Probability in MuRWR .... 143
5.5.5 Convergence of MuRWR .... 144
5.6 Summary .... 145

Chapter6 Future Works .... 146
6.1 Fast and Accurate Pseudoinverse Computation .... 146
6.2 Fast and Scalable Signed Network Generation .... 147
6.3 Disk-based Algorithms for Random Walk .... 147

Chapter7 Conclusion .... 149

References .... 151

Appendix .... 166
A.1 Hub-and-Spoke Reordering Method .... 166
A.2 Time Complexity of Sparse Matrix Multiplication .... 167
A.3 Details of Preconditioned GMRES .... 167
A.4 Detailed Description of Evaluation Metrics .... 170
A.4.1 Link Prediction .... 170
A.4.2 Troll Identification .... 171
A.5 Discussion on Relative Trustworthiness of SRWR .... 173

Abstract in Korean .... 176
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject.ddc621.39-
dc.titleRandom Walk-based Large Graph Mining Exploiting Real-world Graph Properties-
dc.title.alternative실세계 그래프 특징을 활용한 랜덤 워크 기반 대규모 그래프 마이닝-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorJinhong Jung-
dc.contributor.department공과대학 컴퓨터공학부-
dc.description.degreeDoctor-
dc.date.awarded2020-02-
dc.identifier.uciI804:11032-000000159451-
dc.identifier.holdings000000000042▲000000000044▲000000159451▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share