Publications

Detailed Information

병렬 ST-DBSCAN의 In-database Analytics Function으로의 설계와 구현

DC Field Value Language
dc.contributor.advisor김형주-
dc.contributor.author이인용-
dc.date.accessioned2017-07-14T02:36:41Z-
dc.date.available2017-07-14T02:36:41Z-
dc.date.issued2017-02-
dc.identifier.other000000141997-
dc.identifier.urihttps://hdl.handle.net/10371/122695-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 컴퓨터공학부, 2017. 2. 김형주.-
dc.description.abstract기존에 사용되던 데이터 분석은 데이터베이스에서 데이터를 꺼내, 별도의 분석 툴을 이용하여 분석을 진행한 후 이를 다시 데이터베이스에 저장하는 방식이었으나, 데이터의 양이 증가를 함에 따라, 데이터를 꺼내는 단계를 생략시킬 수 있는 In-database Analytics에 대한 연구가 주목 받고 있다. 본 논문에서는 밀도기반 군집화 알고리즘 중 하나인 DBSCAN 알고리즘을 분산 데이터베이스 시스템 환경에 맞도록 개선하였으며, 프로시저로 이루어진 라이브러리로 만들어 데이터베이스 내에서 수행이 가능하게 하였다. 제안한 알고리즘의 성능 비교를 위해 Apache Spark 프레임워크 에서 실행한 분석 그리고 인메모리 컬럼 기반 데이터베이스에서의 분석을 진행하여 성능을 비교하였다. 본 논문에서 제안한 알고리즘은 scaleup 및 speedup의 실험에서 좋은 결과를 보였다.-
dc.description.tableofcontents제 1 장 서론 1

제 2 장 배경 지식 및 관련 연구 4
2.1 시공간 데이터 4
2.1.1 이동 물체 데이터 4
2.1.2 공간참조 데이터 6
2.1.3 사건 데이터 7

2.2 군집화 분석 8
2.2.1 거리기반 군집화 기법 9
2.2.2 K-means 알고리즘 9
2.2.3 밀도기반 군집화 기법 10

2.3 DBSCAN 알고리즘 11
2.3.1 DBSCAN의 시간 복잡도 17
2.3.2 ST-DBSCAN 알고리즘 17
2.3.3 DBSCAN의 병렬화 18

2.4 MonetDB 19
2.4.1 컬럼 기반 DBMS 20
2.4.2 인메모리 DBMS 21
2.4.3 MonetDB 원격 질의 수행 22

2.5 Tibero 23
2.5.1 Tibero 소개 23
2.5.2 Tibero 원격 질의 수행 24

2.6 In-database Analytics 25
2.6.1 In-database Analytics 제품 26

2.7 Apache Spark 27

제 3 장 실험 설계 30
3.1 전반적인 개요 30
3.2 데이터 파티셔닝 31
3.3 지역 DBSCAN 33
3.4 병합 과정 34
3.5 번호 재부여 과정 36

제 4 장 실험 및 성능 평가 38
4.1 단일 노드 실험 39
4.2 다중 노드 Scaleup 실험 40
4.3 다중 노드 Speedup 실험 41

제 5 장 결론 및 향후 연구 42

참고 문헌 43

Appendix 47
1. 군집화 알고리즘 47
1.1 DBSCAN 알고리즘 진행 과정 47
1.2 K-means 알고리즘 진행 과정 50
1.3 OPTICS 알고리즘 52
1.3.1 OPTICS 알고리즘 소개 52
1.3.2 OPTICS 알고리즘 진행 과정 53

2. Apache Spark 57
2.1 설치 및 구동 57
2.2 Apache Spark의 종류 61
2.3 자주 쓰이는 함수 63
2.4 클러스터의 실행 64
2.5 Apache Spark로 작성된 DBSCSAN 65
2.6 실행 화면 68

3. MonetDB 70
3.1 설치 및 구동 70
3.2 싱글 ST-DBSCAN 코드 71
3.3 병렬 ST-DBSCAN 코드 77
3.4 실행 화면 79

4. Tibero 81
4.1 Tibero의 분산 환경 설정 81
4.2 싱글 ST-DBSCAN 코드 83
4.3 병렬 ST-DBSCAN 코드 88
4.4 실행 화면 92

5. 사용 데이터 셋 94

6. 데이터의 분포 모습 96

Abstract 97
-
dc.formatapplication/pdf-
dc.format.extent1541174 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject시공간 분석-
dc.subjectIn-database Analytics-
dc.subject밀집도 기반 분석-
dc.subject병렬 시스템-
dc.subject.ddc621-
dc.title병렬 ST-DBSCAN의 In-database Analytics Function으로의 설계와 구현-
dc.typeThesis-
dc.contributor.AlternativeAuthorInyong Lee-
dc.description.degreeMaster-
dc.citation.pages98-
dc.contributor.affiliation공과대학 컴퓨터공학부-
dc.date.awarded2017-02-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share