본문 바로가기
300x250

Programming14

[NYC 택시 수요 예측 PJT] 7. 베이스라인 모델 구축 본 장에서는 수요 예측을 진행함에 있어 성능 비교의 기준이 되는 베이스라인 모델을 구축하고자 한다. 1. Library Import import pandas as pd from sklearn.preprocessing import OneHotEncoder from sklearn.linear_model import LinearRegression import seaborn as sns import numpy as np import warnings import matplotlib.pyplot as plt from ipywidgets import interact from sklearn.metrics import mean_absolute_error from sklearn.metrics import mean_squa.. 2021. 7. 28.
[NYC 택시 수요 예측 PJT] 6. 데이터 전처리 데이터 전처리란 모델링하고자 하는 목적에 맞고 분석하기 좋게 데이터를 다듬고 이상값을 제거하는 과정을 말한다. 데이터 전처리는 SQL(BigQuery)와 Python 둘 다에서 진행이 가능하며, SQL에서 가능한 부분은 SQL에서, SQL에서 하기 힘든 부분은 Python의 Label Encoding, One Hot Encoding을 통해 하고자 한다. 코딩에 앞서 전처리할 부분은 아래와 같다. Time data pre-processing Reverse Geocoding via BigQiery GIS Categorical data pre-processing Train-Test Split 1. Library Import import pandas as pd from sklearn.preprocessing i.. 2021. 7. 27.
[NYC 택시 수요 예측 PJT] 4. 데이터 EDA - 데이터 시각화 (Time Domain) - 2 지난 포스트에 이어 이번에도 데이터 시각화를 진행하고자한다. 5. 요일별 시간대별 Trip 수 현재 데이터프레임을 다시 한번 살펴보면 현재는 1월 1일부터 시간별 Trip의 수와 날짜만을 보여준다. df.head(2) 현재 확인하고자 하는 요소들은 요일별 시간대별 Trip수이기때문에 요일, 시간 주차 정보를 추가로 데이터프레임에 추가한다. df['weekday'] = df.index.weekday #요일을 숫자로 표기 df['hour'] = df.index.hour df['weeknum'] = df.index.week #주차를 숫자로 표기 df.head() datetime모듈의 weekday()함수는 날짜의 요일 정보를 숫자값으로 0(월요일)부터 6(일요일)까지 리턴해주며, weeknum()은 주차를 숫.. 2021. 7. 14.
[NYC 택시 수요 예측 PJT] 4. 데이터 EDA - 데이터 시각화 (Time Domain) - 1 EDA(Exploratory Data Analysis) - Exploratory data analysis (EDA) is used by data scientists to analyze and investigate data sets and summarize their main characteristics, often employing data visualization methods. - 탐색적 데이터 분석으로 도표(Plot), 그래포(Graph), 요약 통계(Summary Statistics)등으로 시각화하여 데이터를 다양한 각도에서 관찰하고 이해하는 과정 PJT Code for EDA 1. Library Install pip install plotly cufflinks pandas numpy seabor.. 2021. 7. 11.
[NYC 택시 수요 예측 PJT] 3. BigQuery 소개 1. BigQuery - BigQuery is a serverless, cost-effective and multicloud data warehouse designed to help you turn big data into valuable business insights - 페타바이트급 이상의 데이터에 대해 스케일링 분석을 가능케 하는 완전 관리형 서버리스 컴퓨팅 데이터 웨어하우스 2. BigQuery 특징 - SQL기반으로 데이터 추출 가능 - 다른 데이터베이스는 Index 또는 서버의 성능에 따라 속도가 느리지만, BigQuery는 Index 개념이 없음 - Firebase를 사용할 경우 앱 데이터를 쉽게 획득 가능, 사용기기, 위치, OS버전, 이벤트 행동까지 획득 가능 - 서버를 따로 구축, 관리.. 2021. 7. 11.
[NYC 택시 수요 예측 PJT] 2. 문제정의 1. 문제 정의 - 어떤 것이 문제인지에 대한 발견, 문제를 어떻게 풀 것인가에 대한 접근 방식 정의 - 문제에 대한 배경지식과 도메인이 있으면 문제 해결에 용이 본 프로젝트에서는 NYC의 Yellow taxi 데이터를 활용하여 taxi들이 더 많은 운행을 할 수 있도록 성장시키는 것이 목표 2. 배경 2015년 기준 뉴욕에서는 택시가 크게 2가지 종류가 있음 1)주로 멘하탄에 있는 Yellow taxi와 2)외부에서 들어오는 Green taxi이며 대부분의 traffic은 Yellow taxi가 담당 3. 문제 해결 방안 3-1) 문제 해결 방안 브레인 스토밍 - 시간대별/지역별로 수요와 공급 그래프가 맞는가? - 적절한 지역과 시간대에 어느 정도의 수요가 발생할지 알 수 있을까? -> 수요 예측을 통.. 2021. 7. 11.
300x250