Publications

Detailed Information

Tokamak operation trajectory design with deep reinforcement learning in KSTAR : 강화학습을 이용한 KSTAR 토카막 운전 궤적 설계

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

Jaemin Seo

Advisor
나용수
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
TokamakPlasmaKSTARMachineLearningReinforcementLearningTokamakSimulationPlasmaControl
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 에너지시스템공학부, 2022. 8. 나용수.
Abstract
토카막에서 정밀한 물리 실험을 하기 위해서는 먼저 특정한 내부 플라즈마 상태를 달성하고 유지하는 것이 필요하다. 특히 상용 핵융합로 운전을 위해서는 자기유체역학적으로 안정적인 플라즈마 영역 내에서의 제어가 필수적이며, 고출력의 핵융합 반응을 일으킬 수 있는 플라즈마 상태를 유지할 수 있어야 한다. 기존에는 실험에서 목표로 하는 플라즈마 상태를 달성하기 위해, 다양한 토카막 운전 조건에서의 사전 시뮬레이션과 실험에서의 추가적인 시행착오가 필요하였다. 이 경우 많은 인적 노동력과 시간이 소요되었으며, 새로운 목표 상태들에 대해 매번 동일한 수준의 시행착오가 요구된다는 문제가 있다.
본 논문은 목표 플라즈마 상태를 달성하기 위한 토카막의 운전 경로를 설계하는 기계학습 기반의 알고리즘 개발을 다룬다. 해당 알고리즘은 기존의 상당한 시뮬레이션 및 시행착오를 수행하는 작업들을 대체할 수 있으며, 이를 통해 보다 빠르고 효율적으로 가능성 높은 운전 조건을 도출할 수 있다. 첫 번째로, 토카막 운전 설계 인공지능 모델의 훈련 환경에 해당하는 토카막 시뮬레이션 기술이 연구되었다. KSTAR 실험 데이터의 패턴을 학습하여 시간에 따른 플라즈마 상태를 순차적으로 예측하는 LSTM 기반의 인공신경망 모델을 개발하였다. 데이터 학습 과정에서 과적합 및 오차 누적 등의 문제를 해결하기 위해 다양한 수치적 기법들이 적용되었다. 학습된 모델은 KSTAR의 다양한 운전 시나리오 방전들에 대해 우수한 예측 정확도를 보여주었으며, 신뢰도 분석을 통해 모델이 과적합되지 않음을 확인하였다. 또한 해당 모델을 기반으로, 실시간 상호작용을 통한 가상 토카막 실험이 가능하도록 그래픽 사용자 인터페이스 (GUI)를 개발하였다. 해당 GUI 상에서 사용자가 토카막 운전 변수들을 조정함에 따라 플라즈마의 변화를 실시간으로 시각적으로 확인할 수 있기 때문에 물리 연구 뿐 아니라 전문가 교육용으로서의 의의가 있다.
두 번째로, 개발된 시뮬레이터 상에서 스스로 운전 변수들을 조정하여 목표로 하는 플라즈마 상태를 달성하는 인공지능 모델을 강화학습 기법을 이용하여 훈련하였다. 이를 통해 목표 플라즈마 상태를 달성하기 위한 적절한 토카막 운전 경로를 설계하는 알고리즘을 개발할 수 있다. 먼저 목표 β_N 달성을 위해 플라즈마 전류, 플라즈마 형태 및 가열 파워를 결정하는 모델을 훈련하였다. 훈련된 모델이 설계한 운전 경로를 이용하여 실험을 수행해본 결과 오차범위 내에서 목표 β_N이 도출됨을 검증하였다. 특히 한정된 가열 조건에서 높은 성능을 달성하기 위해 플라즈마 형태를 적절히 조정하여 가둠 성능을 향상시키는 것을 확인하였다. 이후 보다 더 구체적인 플라즈마 상태를 달성하기 위해, 플라즈마 압력 (β_p) 뿐 아니라 자기장 구조 (q_95) 및 내부 인덕턴스 (l_i)의 다중 파라미터들의 목표값을 동시에 달성케 하는 인공지능 모델 또한 훈련하였다. 해당 모델이 설계한 운전 경로를 실제 실험에 적용해본 결과, 다중 플라즈마 파라미터들이 성공적으로 목표값으로 제어됨을 확인하였다.
본 논문에서 개발된 기계학습 기반 알고리즘은 추후 고성능 운전 시나리오 연구에 도움을 줄 수 있으며, 정밀한 물리 조건을 요구하는 실험에서 초기 조건 달성을 위한 기술로 적용될 수 있을 것으로 기대된다. 추후 실시간 피드백 제어에 적용됨으로써 다양한 상황에서 자율적으로 제어되는 핵융합로 기술 개발을 위한 초석이 될 수 있을 것으로 전망한다.
In order to conduct a sophisticated physics experiment in a tokamak, it is necessary to achieve and sustain a specific target plasma state first. Especially, the commercial fusion reactor requires controlling plasmas within a stable parametric range and maintaining a favorable plasma state for high fusion power generation. Conventionally, we had to conduct numerous simulations with various tokamak operating conditions and experiment with trials and errors for achieving a target plasma state. This takes lots of labor and time and requires the same level of trial and error for different targets each time.
This thesis addresses the development of a reinforcement learning (RL)-based algorithm that designs the tokamak operation trajectory to achieve a given target plasma state. This algorithm replaces the conventional manual tasks of numerous simulative experiments and provides a probable tokamak operation condition faster and more efficiently. First, the tokamak simulator, corresponding to the training environment of the RL agent that designs the operation trajectory, was developed. An LSTM-based neural network was trained that sequentially predicts the plasma state over time by learning the patterns of the KSTAR experimental data. Various numerical techniques were applied to prevent overfitting and error accumulation during the training process. The trained model showed reasonable prediction accuracy for various operation scenarios in KSTAR, and reliability analyses verified that the model was not significantly overfitted. Furthermore, based on the trained model, we developed a graphical user interface (GUI) to enable virtual tokamak experiments through real-time interaction. By adjusting the tokamak operation parameters on the GUI, the user can visually check the plasma evolution in real time, which can be useful not only for physics research but also for expert education.
Second, an artificial agent was trained using a reinforcement learning technique, that adjusts the operation parameters to achieve a target plasma state in the developed simulator. This agent can design a plausible tokamak operation trajectory to achieve a given target after training. First, the agent was trained to determine the plasma current, the plasma shape, and the heating power to achieve the target β_N. We conducted a KSTAR experiment with the operation trajectory designed by the trained agent, and it was verified that the target performance was achieved within the tolerance range. In particular, it was observed that the confinement enhancement factor was improved by adjusting the plasma shape to achieve high performance under limited heating conditions. Moreover, in order to achieve a more specific plasma state, another RL agent was trained to achieve multiple targets of β_p, q_95, and l_i simultaneously. The KSTAR experiment with the RL operation design showed that multiple plasma parameters were successfully controlled to the target values.
The RL-based algorithm addressed in this thesis can provide clues for the research of advanced operation scenarios and can be applied to achieve initial plasma states in experiments that require sophisticated physical conditions. By applying this algorithm to real-time feedback control in the future, it will become a basis for developing a self-operating fusion reactor that can be autonomously controlled to achieve high power generation.
Language
eng
URI
https://hdl.handle.net/10371/187670

https://dcollection.snu.ac.kr/common/orgView/000000173764
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share