Publications

Detailed Information

Efficient and Adaptive Resource Management for Dynamically Optimizing Distributed Data Processing Systems : 효율적이고 유연한 자원 관리를 통한 분산 데이터 처리 시스템 성능의 동적 최적화

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

송원욱

Advisor
전병곤
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Distributed SystemsBig DataMachine LearningCloud ComputingResource ManagementScheduling
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2023. 8. 전병곤.
Abstract
오늘 날, 다양한 전자기기가 지속적으로 보편화 됨에 따라 전 세계 각지에서 더 많은 대량의 데이터가 생성되고 있다. 이러한 데이터의 종류나 양이 점점 더 증 가함에 따라 빅데이터 처리는 꾸준한 서비스 제공 시간 등의 기준을 충족하면서 유의미한 정보를 추출하기 위해 시스템에 지속적으로 보다 높은 처리량 성능을 요구한다. 현재 빅데이터 처리는 크게 대규모 배치 데이터 또는 실시간 데이터 스트림을 처리하는 용도로 나뉠 수 있으며, 이들 분산 처리의 대상이 되는 데이 터는 각각의 이유로 예측이 불가능하며, 실행 중 빠르게 그 특성이 변할 수 있는 여러가지 요소들을 내재하고 있다. 이처럼 다양한 환경에 동적으로 최적화하여 만족스러운 성능을 보장하기 위해서는 CPU, 네트워크, 메모리 등 리소스에 대한 효율적이고 유연한 관리가 필수적인 경우들이 많이 존재한다.
구체적인 예시로는 실시간 이벤트 데이터 스트림의 경우, 우리가 흔히 급작 스럽고 예측하지 못하는 자연재해나 테러, 경제위기 등의 상황들을 직면했을 때 데이터 트래픽이 기하급수적으로 증가할 수 있으며, 이와 같은 경우에서는 데이 터처리량을늘리기위해CPU 성능을동적으로늘릴수있어야한다.또다른 예시로는 글로벌 서비스 등에서 세계 각지에서 흩어져서 생성된 데이터를 분석하 여 사용자에게 유용한 실시간 정보를 적시에 제공하기 위해서는 다양한 대역폭의 네트워크를 통해 데이터를 수집하여 특정 통계값 등으로 요약해야 되는 경우가 있 는데, 이 때 안정적이지 않은 장거리 네트워크를 이용해야 하는 경우들이 흔하게 존재한다. 또한, 머신러닝이나 그래프처리와 같이 대량의 중간 데이터가 축적되 는 반복적인 워크로드를 처리하는 경우에는 재사용 가능한 데이터를 캐싱하여 반복적인 재계산 작업을 없앰으로써 워크로드를 최적화할 수 있는데, 이 때 캐시 스토리지에 저장된 입력 데이터를 필요할 때마다 작업에 제때 제공하기 위해서는 메모리 리소스 관리가 매우 중요하다. 이와 같은 환경 아래에서 위와 같은 문제는 일반적으로 미리 예측할 수가 매우 힘들고 런타임 중에 동적으로 변경되는데, 이 때 데이터 처리를 위한 자원을 제 때 제공하지 않으면 위와 같은 상황 아래에서 막대한 성능 손실을 초래할 수 있다.
본 논문에서는 이러한 예측 불가능한 자원 문제를 해결하기 위해 클라우드 환경 상의 자원을 수학적 모델링과 분석적 접근 등을 통해 효율적이고 동적으로 사용함으로써 시스템 상의 자원 부족과 병목 현상을 극복하는 동적 자원 관리 기법을 스펀지, 스완, 블레이즈라는 시스템을 통해 제안한다. 스펀지는 입력 부하 가 산발적이고 순간적으로 증가하는 상황에서 서버리스 인스턴스로부터 리소스를 확보하여 1초 미만의 지연 시간으로 시스템에 추가 CPU를 제공함으로써 CPU 리 소스 부족에 빠르게 동적으로 적응할 수 있도록 한다. 스완은 서로 다른 네트워크 연결의 다양한 대역폭 용량을 동적으로 측정하고 분석하여 제한된 네트워크 리소 스를 완화하고 전 세계에 흩어져 있는 환경에서 데이터가 한 곳에서 다른 곳으로 효율적으로 이동할 수 있도록 최적의 경로와 연산자 배치 방법을 찾는다. 블레이즈 는 파티션 메트릭의 실시간 추적과 캐시 사용량 및 오버헤드에 대한 정교한 예측을 기반으로 자동 캐싱 메커니즘을 제공하여 반복적인 데이터 처리 워크로드를 위해 제한된 메모리 리소스를 적시에 캐싱에 효율적으로 사용할 수 있도록 한다.
실험 수행 결과, 이 논문에서 제시하는 동적 리소스 관리 방식을 통해 분산 된 데이터 처리 시스템에 항상 충분한 리소스를 제공하고 리소스 및 입력 부하가 동적으로 변화하는 환경에 맞춰 제한된 리소스를 효율적으로 사용함으로써 기존 시스템 대비 처리량, 지연 시간(스트리밍 워크로드), 엔드투엔드 완료 시간(배치 워 크로드) 측면에서 각각 최대 5.64× 증가, 88% 감소, 2.86× 속도 향상 등의 결과로 시스템 성능을 크게 향상시키는 것을 관찰할 수 있다.
Today, large amount of data are being generated on numerous heterogeneous machines around the globe. Due to its the large sizes of the data in terms of number and volume, big data processing increasingly demands for higher throughput performances in order to extract business-critical information while meeting the service level objective (SLO) requirements. While the target data for distributed processing can be categorized into large-scale batch data or real-time data streams, both types of data possess different characteristics that can be unpredictable and quickly alter in its nature. In order to dynamically optimize to the different environments, there exists different cases where it requires efficient and adaptive management for different resources including CPU, network, and memory.
For example, real-time event streams of data can always change in its volume, as there can be incalculable random events that can cause the data traffic to increase, which requires dynamic adaptation in CPU power to increase the engine throughput. In another case, data that have to be processed could be scattered around the globe, and requires them to be gathered during the data analytics job through heterogeneous and unstable long-distance networks, for them to be summarized into particular statistics in order to timely provide the user with useful information. Moreover, in cases of dealing with iterative workloads that accumulate large amounts intermediate data, like machine learning or graph processing, one may optimize the workload through caching reusable data, where management of memory resources is crucial to timely provide the job with its cached data while preventing recomputation overheads whenever required. If these conditions and environments for the data are not handled, it causes massive performance losses upon facing such situations. Moreover, these problems are commonly unpredictable and alters dynamically during runtime.
In order to deal with the unpredictable resource problems, this dissertation proposes dynamic resource management techniques that makes efficient and adaptive use of resources from cloud environments to overcome resource shortages and bottlenecks in terms of CPU, network, and memory, with mathematical modeling and analytical approaches, through systems called Sponge, SWAN, and Blaze. Sponge provides fast dynamic adaptation for stream workloads to overcome shortages in CPU resources by acquiring resources from serverless instances to provide the system with additional CPU at a sub-second latency under situations where the input load increases sporadically and instantaneously. SWAN dynamically measures and analyzes the different bandwidth capacities of heterogeneous network connections to find the optimal path and operator placement among the operators to mitigate the limited network resources and ensure that the data efficiently flows from one place to another in a globally scattered environment. Blaze provides automatic caching mechanisms based on live tracking of partition metrics and sophisticated predictions on cache usages and overheads to efficiently use limited memory resources for caching in a timely manner for iterative data processing workloads.
Our evaluations show that the dynamic resource management methods significantly improve system performance in terms of throughput, latency (i.e., for streaming workloads), and end-to-end completion time (i.e., for batch workloads) compared to existing systems, by up to 5.64× increase, 88% reduction, and 2.86× speed-up, respectively, by providing the distributed data processing systems with sufficient resources at all times and by efficiently using the limited resources with regard to the dynamically changing environments.
Language
eng
URI
https://hdl.handle.net/10371/196490

https://dcollection.snu.ac.kr/common/orgView/000000177553
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share