パンナの学生生活

地方大学の大学生/プログラミング言語【python】を中心に紹介しています。/日々の脳内をアウトプット/麻雀とワインと日本酒が好き/将来は幸せになりたい

【データサイエンス】【python】重回帰分析で気温を予測する。

今回はpython言語で回帰分析をすることで明日の気温を予測していきたいと思います。今回は最初に、データの取得とデータの可視化、分析をしていきたいと思います。今回は三つの記事を使って予測していきたいと思います。

 

pannakotta.hatenablog.jp

 実際に予測したデータはこちらの記事になります。

 データの取得方法

データの可視化

ソースコード

次の回の説明

データの取得方法について

最初に気象庁サイトへアクセスをしましょう。

気象庁|過去の気象データ・ダウンロード

ここから日平均気温を取得します。最初に予測した地域を選択してみましょう。その後、取得する気温の期間がありますが、まずは10年分くらい取得してみるといいと思います。日平均期間と取得時期を入力して、csvファイルをダウンロードをしましょう。

csvファイルをダウンロードしたら一度開いて確認してみましょう。

f:id:panNakotta:20200222001853p:plain

気温

このように気温のダウンロードが成功したと思います。しかし、このままだと分析しにくいので、データの整理していきたいと思います。まずは、気温の品質番号と均質番号は消しましょう。

f:id:panNakotta:20200222002521p:plain

気温1

最終的にここまで整理すると後に楽になります。

データの可視化

今回の記事では、相関係数を求めるソースコードと折れ線グラフのソースコードをのせていきたいと思います。相関係数は以下のようになります。

f:id:panNakotta:20200222003135p:plain

相関係数

f:id:panNakotta:20200222003430p:plain

相関図

上は先ほどの年度ごとの散布図になります。このように見てみると正の相関があることが分かります。先ほどの相関係数の数値を見てもらうと分かるように大体が0.9以上なので強い相関があることが分かります。ちなみに相関係数の絶対値が0.5以上の場合に強い相関があると言われています。

f:id:panNakotta:20200222004305p:plain

気温の棒グラフ

今回は2018年の気温を予測していきたいと考えています。黒い棒線が2018年のグラフです。全体的に同じような気温の変化をしていることが分かります。

ソースコード

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import scipy as sp
from matplotlib import pyplot 
from pandas import Series,DataFrame
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import linear_model
import seaborn as sns
import sklearn

data1=DataFrame(pd.read_csv("assign5_temp1.csv")) #気温データを読み込む

data2=data1[["2018","2007","2008","2009","2010","2011","2012","2013","2014","2015","2016","2017"]]
print("データ型確認{}\n".format(data2.dtypes))
data2.corr() #相関係数を調べる

sns.pairplot(data2) #相関行列を作成
plt.grid(True)

l=pd.date_range("1-1-1",periods=365,freq="d")
plt.plot(l,X,alpha=0.7)
plt.plot(l,data2["2018"],color="black") #棒グラフを作成
plt.legend(X)

 私は今回はjupyter notebookを使用しているのでjupyter notebookでやってみることがお勧めです。また今回使っているライブラリーはデータ分析でよく使うライブラリなので必要になったらインストールすると良いです。windowsの場合はコマンドプロンプトでpip installを使用すればライブラリーのインストールが出来ます。

次の回の説明

次回は重回帰分析の説明と予測をしていきたいと思います。

また、今回の記事では少しおざっぱに説明してしまったので、分からない部分はツイッターなどで質問を受け付けています。気軽にお声かけください。また、時間を見つけて詳しく説明していきたいと思います。

 

 

pannakotta.hatenablog.jp