728x90 전체 글60 [NYC 택시 수요 예측 PJT] 10. Result Analysis and Feature Analysis 앞서 XGBoost, LightGBM, Random Forest를 통해 예측한 결과를 분석을 해보려고 한다. 모델의 결과는 MAE, MAPE, MSE를 통해 나타내었으며, parsing을 통해 각 파라미터와 오차는 experinments 폴더에 저장이 되었다. MAE, MAPE, MSE와 같은 지표는 예측 모형의 효과를 검증하고 성능을 평가하기 위해 사용된다. 1. 오차의 종류 1-1. MAE (평균 절대 오차) MAE는 Mean Absolute Error의 약자로 실제 값과 예측 값의 차이를 절댓값의 평균으로 나타낸 값이다. MAE는 오차에 절댓값을 취하므로 오차의 크기가 그대로 반영되어 직관적인 특성을 가진 지표이나 절댓값을 취하기 때문에 실제보다 낮은 값인지 높은 값인지는 알 수 없다. 1-2. M.. 2021. 8. 19. 8월 3주차 전력시장 기사 1. LNG, 태양광, 풍력, 美 신규전력 99% 차지 최근 미국 에너지정보청에 따르면 2019년 미국내 신규 설치된 전력 생산시설 중 약 99%를 천연가스(41%), 풍력(35%), 태양광(23%)이 차지하는 것으로 나타났다. 재생에너지 발전시설 건설비용 감소로 미국 발전원에서 원자력 및 석탄이 차지하는 비중이 감소하고 풍력, 태양광 등 재생에너지 비중이 증가하고 있다. (2013년 3705달러/kW였던 미국의 태양광 발전 평균 건설비용은 2019년 약 50% 감소한 1796달러/kW 을 기록) 2019년 미국에 신규 설치된 천연가스 설비용량은 총 8.1GW로 전체 신규 설치 설비용량의 34.5%를 차지하며 재생에너지의 도전을 원활히 방어하고 있는 수준이다. 최근 신규 설치되고 있는 천연가스 발전소는 .. 2021. 8. 19. [NYC 택시 수요 예측 PJT] 9. XGBoost Regressor, LightGBM Regressor, Random Forest 본 게시글에서는 머신러닝의 앙상블 모델인 Random Forest와 Gradient Boost 기법의 종류인 XGBoost와 LightGBM를 사용하여 예측을 진행한다. XGBoost와 LightGBM 기법은 최근 Kaggle 플랫폼에서 좋은 성능을 보이며 주목을 받고 있다. 하지만 두 모델 모두 의사결정나무 (Decision Tree)를 기반으로 하기 때문에 오버 피팅 (Over-fitting)에 주의해야 한다. 부스팅은 랜덤 포레스트나 배깅처럼 여러 개의 트리를 만드나 기존에 있는 예측기를 발전시켜서 이를 합한다는 차이점이 있다. 정리해보면 배깅은 모델을 다양하게 만들기 위해 데이터를 재구성하는 방법, 랜덤 포레스트는 모델을 다양하게 만들기 위해 데이터와 변수 모두 재구성하는 방법 그리고 부스팅은 맞.. 2021. 8. 15. [NYC 택시 수요 예측 PJT] 8. 베이스라인 모델 구축 - 반복 실험(Sacred 사용) 머신러닝 모델링을 진행하면 최적의 결과를 찾기 위해 다양한 모델을 사용하며 반복적으로 실험을 하게 된다. 이 과정에서 다양한 실험을 진행하며, feature, parameter를 자동으로 기록할 수 있는 도구가 있으면 진행이 아주 효율적인데 이때 Sacred라는 것을 사용하면 모델링을 할 때 사용했던 feature, parameter와 같은 설정을 저장하고 관리할 수 있다. Scared Github에 의하면 Sacred는 실험에서 축적된 데이터의 복사를 만들고, 기록하고, 정리하고, 설정하는 데 도움을 주는 도구이며, 아래와 같이 설명하고 있다. Sacred is a tool to help you configure, organize, log and reproduce experiments. It is de.. 2021. 8. 2. [NYC 택시 수요 예측 PJT] 7. 베이스라인 모델 구축 본 장에서는 수요 예측을 진행함에 있어 성능 비교의 기준이 되는 베이스라인 모델을 구축하고자 한다. 1. Library Import import pandas as pd from sklearn.preprocessing import OneHotEncoder from sklearn.linear_model import LinearRegression import seaborn as sns import numpy as np import warnings import matplotlib.pyplot as plt from ipywidgets import interact from sklearn.metrics import mean_absolute_error from sklearn.metrics import mean_squa.. 2021. 7. 28. [NYC 택시 수요 예측 PJT] 6. 데이터 전처리 데이터 전처리란 모델링하고자 하는 목적에 맞고 분석하기 좋게 데이터를 다듬고 이상값을 제거하는 과정을 말한다. 데이터 전처리는 SQL(BigQuery)와 Python 둘 다에서 진행이 가능하며, SQL에서 가능한 부분은 SQL에서, SQL에서 하기 힘든 부분은 Python의 Label Encoding, One Hot Encoding을 통해 하고자 한다. 코딩에 앞서 전처리할 부분은 아래와 같다. Time data pre-processing Reverse Geocoding via BigQiery GIS Categorical data pre-processing Train-Test Split 1. Library Import import pandas as pd from sklearn.preprocessing i.. 2021. 7. 27. 이전 1 ··· 6 7 8 9 10 다음 728x90