본문 바로가기
Energy/Papers

[논문정리] 최적화 하이퍼 파라미터의 XGBoost 학습자 기반 배깅 모델을 활용한 태양광 출력 예측

by 최성현 2022. 2. 8.
320x100
 

Optimized-XGBoost Learner Based Bagging Model for Photovoltaic Power Forecasting

최적화 하이퍼 파라미터의 XGBoost 학습자 기반 배깅 모델을 활용한 태양광 출력 예측

대한전기학회 2020년 6월 최성현*⋅허진 

 

As the world is aware of the problem of greenhouse gas emissions, the trend of generating energy source has been changing from conventioanl fossil fuels to sustainable energy such as soalr and wind. In order to reduce greenhouse gas emissions, the ration of renewable energy sources should be increased. However, renewable energy sources highly depend on weather conditions and it has intermittent generation characteristics, thus embedding uncertainty  and variability. As a result, it can cause variability and uncertainty in the power system, and that is why it is essential to have accurate forecasting technology of renewable energy to address this problem. We proposed a bagging model which is using an ensemble model as a base learner and what we set for the base learner is a XGBoost. Results showed that ensemble learner-based bagging models averagely have lower error compared to the bagging model using single model learner. Through the use of accurate forecasting technology, we will be able to reduce uncertainties in the power system and expect improved system reliability.

 

1. 서 론

1.1 연구의 배경

  • 2015년 파리협정에서 196개 국가가 21세기 말까지 지구 온난화를 유발하는 온실가스를 사용하지 않도록 노력하겠다는 사항에 동의했으며 이 협정으로 재생에너지원을 통한 에너지 발전, 관리에 관한 연구 많은 관심이 쏠리고 있다.
  • 태양광에 초점을 맞추어보면, PV 가격의 하락으로 전력계통에서 태양광 에너지의 비율은 점점 증가해가고 있다. 태양광 에너지는 재생에너지 기술 중 가장 빠르게 성장하는 에너지원이며, 미래 글로벌 에너지 믹스에서 중요한 역할을 할 준비가 되어있는 자원이다.
  • 전력 계통에서의 태양광의 비중이 커지면 경제적으로 많은 이익을 가질 수 있으나, 동시에 간헐성, 변동성의 특징을 가진 태양광 에너지는 전력계통의 신뢰성 및 안정적인 운영 측면에서 어려움을 가져올 수 있다. 전력계통 운영자는 언제라도 전기 생산과 소비의 정확한 균형을 보장해야 하며, 이러한 불안정성을 가진 재생에너지원의 계통연계에 대비하기 위해 효과적인 예측 기법이 중요해졌다.

1.2 연구의 목적 및 방법

  • 태양광 발전 출력 예측은 다양한 방법으로 수행할 수 있으며 머신러닝은 본 연구에서 중점적으로 연구할 출력 예측 기법이다. 다양한 태양광 발전 예측에 관한 머신러닝의 알고리즘이 제안되어오고 있고 주목할 만한 성과를 거두고 있다.
  • 본 논문에서는 예측 모형의 예측 정확도를 향상시키고 동시에 오버 피팅을 줄이는 방안으로 앙상블 학습자 기반 배깅(Bagging) 모델을 제안한다.

2. 본 론

2.1 머신러닝 (Machine Learning)

  • 머신러닝은 컴퓨터 과학의 하위 분야로 인공지능 방식으로 분류된다. 머신러닝 모델은 입력과 출력의 관계에 대해서 표현이 불가능한 경우에도 입력과 출력의 관계를 찾을 수 있다는 장점이 있다. 또한, 이 특성은 패턴 인식, 분류 문제, 스팸필터링, 데이터 마이닝 및 예측 문제 등 다양한 방면으로 사용될 수 있다.
  • 앙상블 기법은 머신러닝의 학습 방법 중 하나로 주어진 자료를 이용하여 여러 개의 예측 모형을 먼저 만들고, 그 예측 모형들을 결합하여 최종적으로 하나의 예측 모형을 만드는 방법이다. 배깅(Bagging), 부스팅(Boosting), 랜덤 포레스트(Random Forest)가 가장 널리 사용되는 앙상블기법이며, 본 논문에서는 머신러닝의 앙상블 기법중 배깅 기반의 예측 모형을 모델링하고 이를 통해 예측을 진행한다.

2.2.1 의사결정나무 (Decision Tree)

  • 의사결정나무란 변수들로 기준을 만들고 이것을 통하여 샘플을 분류하고 분류된 집단의 성질을 통하여 추정하는 모형이다.

2.2.2 배깅 (Bagging)

  • 배깅은 Boostrap Aggregating의 준말로 자료를 여러 개의 붓스트랩 자료로 생성하여 각각에 대한 예측모형을 생성한 후 조합하여 최종적으로 하나의 모형을 만드는 방법이다.

2.2.3 XGBoost (eXtreme Gradient Boosting)

  • XGBoost는 병렬처리와 최적화를 장점으로 내세우는 Gradient Boositng 알고리즘으로, 출시된 이래 Kaggle 등 각종 대회에서 좋은 성적을 보이며 많은 주목을 받는 방법이다.
  • XGBoost는 CART (Classification And Regression Tree)를 기반으로 만들어진 알고리즘으로 의사결정나무 기반의 앙상블 모델이다.
  • 즉, 여러 개의 의사결정나무 모델들을 학습 시켜서 예측 값을 더한 것으로 결정한 다는 개념으로, 더해진 예측 점수들을 이용해 결론을 내림으로써 과적합이나 기존 모델이 잘 설명하지 못하는 취약 부분에 대해 보완을 할 수 있다.

2.3 태양광발전 출력 예측 모형 모델링

  • 본 논문에서는 머신러닝 앙상블 기법 기반의 태양광발전 출력 예측 모형을 모델링한다.
  • 일반적으로 배깅 모델은 모델을 훈련할 때 기본 학습자(base learner)로 의사결정나무(Decision Tree)를 사용한다. 그러나 본 논문에서 제안하는 예측 모형은 기본 학습자 자체를 단일 모델인 의사결정나무가 아닌 앙상블 모델을 사용함으로써 더욱 정확한 예측 모형을 만들고자 한다.

3. 예측 모형 모델링 과정

3.1 Data Set and Data Preprocessing

  • 대한민국의 전라남도 지역에 있는 태양광발전단지의 1시간 단위 데이터를 사용한다. 훈련 데이터(Train Data)와 테스트 데이터(Test Data)의 비율은 약 85 : 15이며, 테스트 데이터는 월별, 계절별 특성을 고려하여 임의 추출이 아닌 매월 27일부터 말일까지의 데이터로 지정했다.

3.2 Feature Engineering and Selection

  • 예측에 사용되는 데이터는 태양광 발전 단지의 기온, 강수량, 습도, 일사량, 전운량과 실제 출력량을 가지고 있다. 먼저 기온, 강수량, 습도, 일사량, 전운량을 입력 변수인 피쳐(Feature)지정을 하고 출력을 예측하는 항목인 라벨(Label)로 지정한다.
  • 다음은 전체 변수의 상관관계를 계산하기 위해 피어슨 상관계수(Pearson’s correlation coefficient)를 계산한다. 피어슨 상관계수의 식은 아래와 같으며 -1에서 1의 값을 가진다. 두 변수 간의 관련성이 얼마나 강한지를 나타내는 지표이다. 1에가까울수록 양의 상관관계가 강하고, -1에 가까울수록 음의 상관관계가 강하며 0일 때는 관계가 없다.

3.3 Hyper-parameter optimization

  • 본 논문에서는 XGBoost의 하이퍼 파라미터의 최적화를 위해 GridSearchCV를 사용했다.
  • 하이퍼 파라미터 여러 개를 조합해 시험하고 최적의 조합을 찾는 작업을 Gridsearch라고 하며, 이는 각 파라미터에 몇 가지 값을 정해 두고 모든 조합을 시험해 가장 좋은 것을 찾는 방법이다. GridsearchCV는 Gridsearch와 교차검증(Cross Validation)을 함께 진행하는 방법으로 일반화 성능을 더 잘 평가하기 위해 훈련 세트와 검증 세트를 한 번만 나누지 않고, 교차 검증을 사용하는 것이며, 각하이퍼 파리미터 조합의 성능을 평가하는 방법이다.

Best Score : 0.9640917931185321

  • colsample_bytree : 0.7
  • learning_rate : 0.03
  • max_depth : 5
  • min_child_weight : 5
  • n_estimators : 500
  • nthread : 4
  • silent : 1
  • subsample : 0.7

4. 예측 모형 평가 및 결과

4.1 예측 정확도

  • 본 논문에서는 모형의 효과를 검증하고 성능을 평가하기 위해 평균 제곱 오차(Mean Square Error)를 지표로 사용했다.
  • 평균 제곱 오차란 잔차의 제곱에 대해 평균을 취한 값으로 개별 관측값들이 중심에서 얼마나 멀리 떨어져 있는지의 척도를 나타낸다. 값이 작을수록 추정의 정확성이 높아지며 평균 제곱 오차는 다음과 같이 표현될 수 있다.

 

4.2 예측 모형 구축 시간

  • 예측 모형 구축에 대해서 앙상블 모델 사용, 최적화 과정을 거치면서 모델의 훈련 시간, 예측 수행 시간에 대해서 차이가 발생하는 것을 볼 수 있었다. 단일 모델보다는 앙상블 모델이, 단일 모델을 기본학습자로 사용한 앙상블 모델보다는 기본학습자를 앙상블 모델로 사용한 모델이, 기본 하이퍼 파라미터를 사용한 앙상블 모델보다는 하이퍼 파리미터 최적화를 위해 GridsearchCV를 사용한 앙상블 모델로 갈수록 베이스 러너의 훈련 시간, 전체 모델을 훈련하는 데 걸리는 시간이 늘어나는 것을 볼 수 있다.

 

5. 결 론

  • 온실가스 감축을 위해 에너지 믹스에서의 재생에너지 비율을 점점 커져갈 것이며, 대규모 재생에너지의 계통 연계에 대비하고 안정적인 계통 운영을 위해서는 재생에너지의 출력 예측이 중요하다.
  • 본 연구에서는 간헐성 , 변동성을 가진 태양광 에너지의 출력 예측 모델링을 실현하기 위해 대한민국의 전라남도 목포 지역의 태양광 발전단지의 1년 치 데이터를 이용하여 머신러닝 모형을 학습시키고 테스트하였다. 
  • 기존 배깅 모델과 다르게 기본 학습자를 의사결정나무 모델이 아닌 앙상블 모델인 XGBoost 모델을 이용하여 모형을 구축하였으며, GridsearchCV를 통해 하이퍼 파리미터 최적화를 진행하였다.
  • 예측 결과는 제안하는 예측 모형인 하이퍼 파라미터를 최적화한 XGBoost를 사용한 배깅 모델, 기본 XGBoost를 사용한 배깅 모델, 일반 배깅모델, 의사결정나무 모델 순으로 오차가 낮았으며, 단일 모델보다는 앙상블 모델이, 기본 하이퍼 파라미터보다는 최적화한 하이퍼 파라미터를 사용했을 때 더 좋은 결과를 얻을 수 있는 것을 볼 수 있었다.

 

Reference

  • Antonanzas, J., Osorio, N., Escobar, R., Urraca, R., Martinez-de-Pison, F. J., Antonanzas-Torres, F. “Review of
    Photovolt Power Forecast,” Sol. Energy, 136, 78-111. 2016.
  • Lorenz, E., Remund, J., Müller, S. C., Traunmüller, W.,Steinmaurer, G., Pozo, D., Ruiz-Arias, J. A., Fanego, V. L.,
    Ramirez, L., Romeo, M. G., “Benchmarking of Different Approaches to Forecast Solar Irradiance,” others. In Proceedings of the 24th European Photovoltaic Solar Energy Conference, Hamburg, Germany, 21-5, September 2009.
  • Bella Espinar, Jos´e-Luis Aznarte, Robin Girard, Alfred Mbairadjim Moussa, Georges Karinio-takis. “Photovoltaic
    Forecasting: A state of the art,” 5th European PV-Hybrid and Mini-GridConference, 250-255, Apr 2010.
  • [Moreno-Munoz, J. J. G., De la Rosa, R., Posadillo, F., “Very short term forecasting of solar radiation,” In Proceedings of the 33rd IEEE Photovoltaic Specialists Conference 2008 PVSC 08, San Diego, CA, USA, 11-16 May 2008.
  • Hadja Maïmouna Diagne, Philippe Lauret, Mathieu David. “Solar irradiation forecasting: state-ofthe-art and proposition for future developments for small-scale insular grids,” WREF 2012 - World Renewable Energy Forum, May 2012.
  • Heinemann, D., Lorenz, E., Lückehe, B., “Short-term forecasting of solar radiation: A statistical approach using satellite data,” Sol. Energy, 67, 139-150, 1999.
  • Kalogirou, S., “Artificial neural networks in renewable energy systems applications: A review,” Renew. Sustain. Energy Rev, 5, 373-401, 2001.
  • Hugo, T. C., Carlos, P., Coimbra, F. M. “Assessment of Forecasting Techniques for Solar Power Production with no Exogenous Inputs,” Solar Energy, vol. 86, issue 7, pp. 2017-2028, July 2012.
  • Joao, G., da Silva, F., Jr., Takashi, O., Takumi, T., Gentarou, K., Yoshihisa, U., Kazuhiko, O., “Use of Support Vector Regression and Numerically Predicted Cloudiness to Forecast Power Output of a Photovoltaic Power Plant in Kitakyushu, Japan,” July 2011.
  • Guangye, L. I., “Short-term electricity load forecasting based on the xgboost algorithm,” Smart Grid, 7, 274-285, 2017.
  • Li, P., Zhang, J. -S., “A new hybrid method for China’s energy supply security forecasting based on arima and xgboost,” Energies, 11, 1687, 2018.
  • Xiao, Y., Wu, J., Lin, Z., Zhao, X., “A deep learningbased multi-model ensemble method for cancer prediction,” Comput. Methods Programs Biomed. 153, 1-9, 2018.
  • Xiao, J., Li, Y., Xie, L., Liu, D., Huang, J., “A hybrid model based on selective ensemble for energy consumption forecasting in China,” Energy, 159, 534-546, 2018.
  • Torre, M. C., Poggi, P., Louche, A., “Markovian model for studying wind speed time series in corsica,” Int. J. Renew. Energy Eng, 3, 311-319, 2001.
  • JR QUINLAN, “Induction of decision trees - Machine Learning (Theory),” 1986.
  • Breiman, L. “Bagging predictors,” Mach. Learn. 24, 123-140, 1996.
  • Tianqi Chen, Carlos Guestrin, “XGBoost: A Scalable Tree Boosting System,” 10 Jun 2016.
  • Zhou, H., Deng, Z., Xia, Y., Fu, M., “A new sampling method in particle filter based on pearson correlation coefficient,” Neurocomputing, 216, 208-215, 2016.

 

300x250