Publications

Detailed Information

쌀 단수 예측 모형의 개선을 위한 기계 학습 기법의 적용 : Application of Machine Learning Methods for improving Rice Yield Prediction Models

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

장익훈

Advisor
최영찬
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(박사)--서울대학교 대학원 :농업생명과학대학 농경제사회학부(지역정보전공),2020. 2. 최영찬.
Abstract
The government has maintained a rice production system through various policies in order to stabilize the supply and demand of rice as main grain. However, the recent abandonment of the status of WTO developing countries has increased anxiety for rice producers. The volatility of weather conditions due to global climate change is increasing, and the uncertainty of rice production is gradually increasing. In addition, Korea is facing an important turning point in changing the rice planting schedule to adapt the agricultural sector to climate change.
In order to ensure stable rice supply and demand, future production observations must be preceded, and this requires the development and operation of reliable rice yield forecasting models. In Korea, the Agricultural Observation Center, which is run by the Korea Rural Economic Institute, develops a model predicting rice yields at the end of September and publishes the forecasts at the end of September. However, the machine learning method that is widely used in the prediction field has not been actively studied in the field of rice yield prediction in Korea. Therefore, this study explores the research topics that can contribute to the improvement of rice yield prediction model using machine learning method and suggests new research method through the following empirical research to solve the research question.
First, we examined whether the predictive performance improved when the rice yield predictor was selected using Bayesian model averaging which is a machine learning method that has not been used in previous studies. Most of the meteorological variables selected by Bayesian model averaging were found to be significant by regression analysis, and the performance of the prediction model by Bayesian model averaging was superior to previous model based on cross-validation. The performance of the prediction model trained by machine learning methods such as support vector regression (SVR) is better than the prediction by the linear regression model (OLS) used in the conventional statistical model. However, when evaluating the predictive performance over the past 7 years with the prediction model learned from past data before 2012, the performance of the prediction model by Bayesian model averaging did not show any significant difference in the error-based indicators compared with the previous studies. In terms of explanatory power-based indicators, the performance was lower than that of the relatively simple preceding model. In the case of predicting the future with high uncertainty, we found that complex prediction models with many explanatory variables can lead poor predictive performance due to overfitting problems.
Second, in the situation where there is a lack of label data with observations of dependent variables, and there is abundance of unlabeled observation data, a semi-supervised regression method that can improve the prediction performance by using unlabeled data for prediction model training was applied to the rice yield prediction model. The results showed that the predictive performance of the rice yield prediction model was improved by 4.6% on the error-based indicator and 5.8% on the explanatory power-based index, compared with the case without using the semi-superviesed regression method. The model that trained 200 labed province data using a semi-supervised regression method performed 12% lower on the error-based index, 8.9% lower on the explanatory power-based indicator than the reference model that uses more than 2,000 labeled city data for training. This is a meaningful result considering the number of training data. Thus, the semi-supervised regression method can be a good alternative to improve the performance of prediction models by using unlabeled data.
Third, when comparing existing methods for early prediction of crop yield with methods using machine learning techniques that were not used in previous studies, the prediction performance was found to be improved when using machine learning. In the comparison of the prediction performance by lead time of the early prediction, the prediction performance of the model using future weather variables is superior to the models without future weather variables in all four lead time models. Future weather variables were found to outperform predictive models that do not use future weather variables even if they use past mean or median value of weather variables. In particular, the longer the lead time of early prediction, the more pronounced this effect is. Also, in the model using future weather variables, if the forecasting point has a certain level of lead time (2-4 months before harvesting in this study), applying the predicted value by the prediction model to future weather variables will improve the predictive performance. However, the use of forecasts by weather predcition model does not show significant benefits in yield prediction models with longer lead times (five months before harvest).
The results of the empirical research suggest that the application of Bayesian model averaging to the crop yield prediction model enables data-based variable search and predictive performance improvement. Therefore, it is expected to be developed as the basic technology of artificial intelligence in agriculture, and it is necessary to continuously verify through subsequent research. The semi-supervised regression method can provide yield estimates using historical weather information for a specific city even when yield data of the city are not observed. This makes it possible to determine if the crop is suitable for the region. The empirical analysis of the early prediction model suggests that prediction model using future weather variables that are not measured at the baseline are recommended for improving predictive performance. In this context, it is necessary to expand research focused on agricultural weather forecasts for early crop yield prediction. As the uncertainty of the crop production system increased due to the recent climate change, the importance of early prediction of crops is expected to increase gradually. Therefore, before the volatility of the production system due to climate change increases, analysis and data accumulation on the effects of climate factors should be preceded. In addition, considering the analysis of various crops and regions, there is a lack of analysis experts in the domestic agricultural sector. To solve this problem, Research on artificial intelligence-based technologies that are specialized for agricultural data analysis should continue to be developed.
주곡인 쌀의 수급 안정화를 위해 정부는 다양한 정책을 통해 쌀 생산 체계를 유지해오고 있으며 장기적인 식량 안보의 관점에서도 쌀 자급률을 꾸준히 관리하고 있다. 그러나 최근 WTO 개발도상국 지위의 포기로 인해 쌀 생산 농가의 불안감이 확대되고 있고, 전세계적 기후변화에 의해 기상 조건의 변동성이 커지는 등 쌀 생산에서의 불확실성은 점차 커지는 추세이다. 또한 우리나라는 기후변화협약국으로 농업부문의 기후변화 적응을 위해 벼의 재배 작기 이동도 고려해야 하는 중요한 전환점을 맞이하고 있다.
안정적인 쌀 수급을 위해서는 미래 시점의 생산량 관측이 선행되어야하며 이를 위해서는 신뢰할 수 있는 쌀 단수 예측 모형의 개발과 운영이 필요하다. 국내에서는 농촌경제연구원이 운영하는 농업관측본부에서 쌀 단수 예측 모형을 개발하여 매년 9월 말에 예측치를 발표하고 있고, 쌀 단수 예측과 관련한 연구들은 타 작물에 비해 비교적 활발하게 연구되고 있다. 그러나 최근 예측 분야에서 많이 사용되고 있는 기계 학습 방법은 아직까지 국내의 쌀 단수 예측 분야에서는 활발하게 검토되고 있지는 않고 있다. 따라서 본 연구는 기계 학습 방법을 이용하여 쌀 단수 예측 모형의 개선에 기여할 수 있는 연구 주제를 탐색하고 도출된 연구 질문을 해결하기 위한 새로운 연구 방법을 다음의 실증 연구를 통해 제시한다.
첫 째, 쌀 단수 예측 모형의 변수 선별 방법으로 기존의 연구에서 사용되지 않은 기계 학습 방법인 베이지안 모형 평균화 기법을 이용하여 변수를 선별한 예측 모형이 기존의 예측 모형과 비교했을 때 예측력이 개선되는지 살펴보았다. 베이지안 모형 평균화에 의해 선별된 기상 변수들은 회귀분석 결과 대부분 유의한 것으로 나타났고, 교차검증 방법에의한 예측 성능 평가에서는 베이지안 모형 평균화에 의한 예측 모형의 성능이 기존의 선행연구 기반의 모형보다 우수한 것이 확인되었다. 기존의 통계 기반의 예측모형에서 사용되는 선형회귀모형(OLS)에 의한 예측보다는 서포트벡터회귀(SVR)와 같은 기계 학습그러나 2012년 이전의 과거 데이터로 학습한 예측 모형으로 최근 7년간 예측 성능을 평가했을 때에는 베이지안 모형 평균화에 의한 예측 모형의 성능이 기존 선행연구와 비교하여 오차 기반의 지표에서는 다소 앞서지만 유의미한 차이를 보이지 못하였고 설명력 기반의 지표에서는 오히려 상대적으로 단순한 선행연구의 예측 모형보다 성능이 떨어지기도 하였다. 설명변수가 많은 복잡한 예측 모형은 불확실성이 큰 미래의 예측에서는 오히려 과적합 문제로 예측 성능이 떨어지는 것을 확인하였다.
둘 째, 종속변수의 관측치를 가지는 레이블 데이터는 부족하고 레이블이 없는 관측 데이터는 풍부한 상황에서 레이블이 없는 데이터를 예측 모형 학습에 이용하여 예측 성능을 개선할 수 있는 준지도 회귀 방법을 쌀 단수 예측 모형에 적용하였다. 결과는 쌀 단수의 예측 상황에서는 준지도 회귀 방법을 사용하지 않을 경우와 비교했을 때 오차 기반 지표에서는 평균적으로 4.6%, 설명력 기반 지표에서는 5.8%의 예측 성능 개선이 확인되었다. 2,000개 이상의 레이블이 있는 시·군 데이터를 이용한 기준모형과의 비교에서는 준지도 회귀 기법을 이용하여 200개의 레이블이 있는 도 데이터로 학습한 모형이 기준 모형의 예측 성능 대비 오차 기반 지표에서는 평균적으로 12%, 설명력 기반 지표에서는 8.9% 가량 낮은 예측 성능을 보였는데, 학습용 데이터 수를 고려하면 의미 있는 결과로 볼 수 있다. 따라서 준지도 회귀 방법은 레이블 없는 데이터를 활용하여 예측 모델의 성능을 개선할 수 있는 좋은 대안이 될 수 있다.
셋 째, 작물 단수의 조기 예측에 사용된 여러 방법들과 기존 연구에서 사용되지 않았던 기계 학습 기법을 적용한 방법을 비교했을 때 기계 학습을 사용하는 경우 예측 성능이 개선되는 것이 확인되었다. 조기 예측의 리드 타임별 예측 성능의 차이 비교에서는 4 가지 리드타임 모형 모두에서 미래 기상 변수를 사용하지 않는 모형보다 미래 기상 변수를 사용하는 모형의 예측 성능이 우월한 것으로 나타났다. 미래의 기상변수는 과거 시점의 평균 또는 중위수를 쓰더라도 미래 시점의 기상 변수를 사용하지 않는 예측 모형보다 예측 성능이 우수한 것이 확인되었다. 특히 조기 예측의 리드타임이 길어질수록 이와 같은 효과는 더 극명하게 나타났다. 또한 미래의 기상 변수를 사용하는 모형에서는 예측 시점이 일정 수준의 리드타임을 가지는 경우(본 연구에서는 수확 2∼4개월 전)에서는 미래 기상 변수에 예측 모형에 의한 예측치를 적용하는 것이 예측 성능 개선에 도움이 될 수 있음을 확인하였다. 하지만 일정 수준 이상의 긴 리드타임(쌀의 경우 수확 5개월 전)에서의 단수 예측 모형에서는 기상 예측 모형에 의한 예측치 사용이 큰 이득을 주지 않는 것으로 나타났다.
실증 연구 결과들을 종합하면 작물 단수 예측 모형에서의 베이지안 모형 평균화 기법의 적용은 데이터에 기반한 변수 탐색과 예측력 개선이 가능하기 때문에 농업 분야 인공지능의 기초 기술로 발전할 수 있을 것으로 기대되며, 후속 연구의 수행을 통한 지속적인 검증이 필요하다. 준지도 회귀 방법은 시·군 단위 단수 데이터가 집계되지 않는 쌀 외의 다른 작물에 대해서도 특정 시·군 지역의 과거의 기상 정보를 이용하여 작물 재배가 적합한 지역인지에 대한 판단 근거로 단수 예측값을 제공할 수 있다는 점에서 활용이 가능하다. 조기 예측 모형의 실증 분석 결과에 따르면 예측 시점 기준에서 측정되지 않는 미래 시점의 기상 변수에 대해서는 예측 모형을 이용한 예측치를 사용하는 것이 권장된다. 이러한 맥락에서 작물별 작황 조기 예측을 위해서는 농업용 기상 예보에 초점을 맞춘 연구를 확대할 필요가 있다. 최근 기후변화로 인한 농작물 생산 체계의 불확실성이 커지면서 작황 조기예측의 중요성이 점차 증대될 것으로 예상된다. 따라서 기후변화로 인한 생산 체계의 변동성이 커지기 전에 작물별 품종 및 작부체계를 고려한 기상 요인의 영향에 대한 분석과 데이터 축적이 선행되어야 한다. 또한 다양한 품목과 지역별 분석까지 고려했을 때 현재의 국내 농업 분야의 분석 인력이 부족한데, 이를 해결하기 위해서는 농업 데이터 분석에 특화되어 있는 인공지능 기반 기술도 함께 연구하고 발전시켜야 할 것이다.
Language
kor
URI
https://hdl.handle.net/10371/167524

http://dcollection.snu.ac.kr/common/orgView/000000160699
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share