Publications

Detailed Information

자기지도 기반 심층강화학습을 이용한 납기 제약 하에서의 셋업 스케줄링 : Setup Change Scheduling Under Due-date Constraints Using Deep Reinforcement Learning with Self-supervision

DC Field Value Language
dc.contributor.advisor박종헌-
dc.contributor.author팽보형-
dc.date.accessioned2022-04-20T07:00:59Z-
dc.date.available2022-04-20T07:00:59Z-
dc.date.issued2021-
dc.identifier.other000000167147-
dc.identifier.urihttps://hdl.handle.net/10371/178251-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000167147ko_KR
dc.description학위논문(박사) -- 서울대학교대학원 : 공과대학 산업·조선공학부, 2021.8. 박종헌.-
dc.description.abstract납기 제약 하에서 셋업 스케줄을 수립하는 것은 현실의 여러 제조 산업에서 쉽게 찾아 볼 수 있으며 학계의 많은 관심을 끌고 있는 중대한 문제이다. 그러나 납기와 셋업 제약이 동시에 존재함에 따라 문제의 복잡도가 증가하게 되며, 시시각각 새로운 생산 계획이 주어지고 초기 설비 상태가 변화되는 환경에서 고품질의 스케줄 수립은 더 어려워진다. 본 논문에서는 학습된 심층신경망이 상기한 변화가 발생한 스케줄링 문제도 재학습 없이 해결할 수 있도록, 자기지도 기반 심층강화학습 기법을 제안한다. 구체적으로, 상태와 행동 표현을 생산 계획과 설비 상태에 무관한 차원을 갖도록 설계한다. 동시에 주어진 상태로부터 효율적으로 신경망을 학습하기 위해 파라미터 공유 구조를 도입한다. 이에 더하여, 스케줄링 문제에 적합한 자기지도를 고안하여 설비와 잡의 수, 생산 계획의 분포가 상이한 평가 환경으로도 일반화 가능한 심층신경망을 학습한다. 제안 기법의 유효성을 검증하기 위해 현실의 병렬설비 및 잡샵 공정을 모사한 대규모 데이터셋에서 집약적인 실험을 수행하였다. 제안 기법을 메타휴리스틱 기법과 다른 강화학습 기반 기법, 규칙 기반 기법과 비교함으로써 납기 준수 성능과 연산 시간 관점에서 우수성을 입증하였다.
더불어 상태 표현, 파라미터 공유, 자기지도 각각으로 인한 효과를 조사한 결과, 개별적으로 성능 개선에 기여함을 밝혀냈다.
-
dc.description.abstractSetup change scheduling under due-date constraints has attracted much attention from academia and industry due to its practical applications. In a real-world manufacturing system, however, solving the scheduling problem becomes challenging since it is required to address urgent and frequent changes in demand and due-dates of products, and initial machine status. In this thesis, we propose a scheduling framework based on deep reinforcement learning (RL) with self-supervision in which trained neural networks (NNs) are able to solve unseen scheduling problems without re-training even when such changes occur. Specifically, we propose state and action representations whose dimensions are independent of production requirements and due-dates of jobs while accommodating family setups. At the same time, an NN architecture with parameter sharing was utilized to improve the training efficiency. Finally, we devise an additional self-supervised loss specific to the scheduling problem for training the NN scheduler robust to the variations in the numbers of machines and jobs, and distribution of production plans.
We carried out extensive experiments in large-scale datasets that simulate the real-world wafer preparation facility and semiconductor packaging line. Experiment results demonstrate that the proposed method outperforms the recent metaheuristics, rule-based, and other RL-based methods in terms of the schedule quality and computation time for obtaining a schedule. Besides, we investigated individual contributions of the state representation, parameter sharing, and self-supervision on the performance improvements.
-
dc.description.tableofcontents제 1 장 서론 1
1.1 연구 동기 및 배경 1
1.2 연구 목적 및 공헌 4
1.3 논문구성 6
제 2 장 배경 7
2.1 순서 의존적 셋업이 있는 납기 제약 하에서의 스케줄링 문제 7
2.1.1 납기 제약 하에서의 스케줄링 문제 7
2.1.2 패밀리 셋업을 고려한 병렬설비 스케줄링 8
2.1.3 셋업 제약이 있는 잡샵 스케줄링 9
2.2 강화학습 기반 스케줄링 12
2.2.1 이론적 배경 12
2.2.2 강화학습을 이용한 제조 라인 스케줄링 13
2.2.3 스케줄링 문제에서의 심층강화학습 15

2.3 자기지도 기반 심층강화학습 19
제 3 장 문제 정의 22
3.1 병렬설비 스케줄링 문제 22
3.1.1 지연시간 최소화를 위한 병렬설비 스케줄링 문제 22
3.1.2 혼합정수계획 모형 24
3.1.3 예시 공정 25
3.2 잡샵 스케줄링 문제 26
3.2.1 투입량 최대화를 위한 유연잡샵 스케줄링 26
3.2.2 예시 공정 27
제 4 장 자기지도 기반 심층강화학습을 이용한 병렬설비 스케줄링 31
4.1 MDP 모형 31
4.1.1 행동 정의 31
4.1.2 상태 표현 32
4.1.3 보상 정의 37
4.1.4 상태 전이 38
4.1.5 예시 39
4.2 신경망 학습 41
4.2.1 심층신경망 구조 41
4.2.2 손실 함수 42
4.2.3 DQN 학습 절차 43
4.2.4 DQN 평가 절차 44
4.3 스케줄링 문제에서의 자기지도 46

4.3.1 내재적 보상 설계 46
4.3.2 셋업 스케줄링을 위한 선호도 점수 설계 47
4.4 자기지도 기반 DQN 학습 49
4.4.1 자기지도 손실 함수 49
4.4.2 학습 절차 50
제 5 장 자기지도 기반 심층강화학습을 이용한 잡샵 스케줄링 53
5.1 스케줄링 프레임워크 53
5.1.1 병목 공정 정의 53
5.1.2 디스패치 규칙 54
5.1.3 이산 사건 시뮬레이터 55
5.1.4 스케줄러 학습 56
5.2 투입 정책과 자기지도 58
5.3 MDP 모형 수정 59
5.3.1 행동 정의 59
5.3.2 상태 표현 59
5.3.3 보상 정의 61
제 6 장 실험 및 결과 62
6.1 병렬설비 스케줄링 문제 62
6.1.1 데이터셋 62
6.1.2 실험 세팅 64
6.1.3 지연시간 총합 성능 비교 67
6.1.4 상태 표현 방식에 따른 성능 비교 72

6.2 잡샵 스케줄링 문제 74
6.2.1 데이터셋 74
6.2.2 실험 세팅 75
6.2.3 투입량 성능 비교 77
6.2.4 행동 정의 방식에 따른 성능 비교 80
6.3 자기지도로 인한 효과 84
6.3.1 데이터셋 84
6.3.2 실험 세팅 86
6.3.3 파라미터 공유 여부에 따른 자기지도의 효과 87
6.3.4 학습 시와 다른 데이터셋에서의 성능 평가 91
제 7 장 결론 및 향후 연구 방향 96
7.1 결론 96
7.2 향후 연구 방향 98
참고문헌 100
Abstract 118
감사의 글 120
-
dc.format.extentix, 121-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject강화학습을 이용한 제조 라인 스케줄링-
dc.subject자기지도 기반 심층강화학습-
dc.subject순서 의존적 셋업-
dc.subject납기 제약 하의 병렬설비 스케줄링-
dc.subject셋업 제약이 있는 잡샵 스케줄링-
dc.subjectManufacturing line scheduling based on reinforcement learning-
dc.subjectDeep reinforcement learning with self-supervision-
dc.subjectSequence-dependent setups-
dc.subjectParallel machine scheduling with due-date related objectives-
dc.subjectSemiconductor packaging line scheduling-
dc.subject.ddc623.8-
dc.title자기지도 기반 심층강화학습을 이용한 납기 제약 하에서의 셋업 스케줄링-
dc.title.alternativeSetup Change Scheduling Under Due-date Constraints Using Deep Reinforcement Learning with Self-supervision-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorPaeng Bohyung-
dc.contributor.department공과대학 산업·조선공학부-
dc.description.degree박사-
dc.date.awarded2021-08-
dc.identifier.uciI804:11032-000000167147-
dc.identifier.holdings000000000046▲000000000053▲000000167147▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share