【データサイエンス】【python】重回帰分析で気温を予測する。
今回はpython言語で回帰分析をすることで明日の気温を予測していきたいと思います。今回は最初に、データの取得とデータの可視化、分析をしていきたいと思います。今回は三つの記事を使って予測していきたいと思います。
実際に予測したデータはこちらの記事になります。
データの取得方法
データの可視化
次の回の説明
データの取得方法について
最初に気象庁サイトへアクセスをしましょう。
ここから日平均気温を取得します。最初に予測した地域を選択してみましょう。その後、取得する気温の期間がありますが、まずは10年分くらい取得してみるといいと思います。日平均期間と取得時期を入力して、csvファイルをダウンロードをしましょう。
csvファイルをダウンロードしたら一度開いて確認してみましょう。
このように気温のダウンロードが成功したと思います。しかし、このままだと分析しにくいので、データの整理していきたいと思います。まずは、気温の品質番号と均質番号は消しましょう。
最終的にここまで整理すると後に楽になります。
データの可視化
今回の記事では、相関係数を求めるソースコードと折れ線グラフのソースコードをのせていきたいと思います。相関係数は以下のようになります。
上は先ほどの年度ごとの散布図になります。このように見てみると正の相関があることが分かります。先ほどの相関係数の数値を見てもらうと分かるように大体が0.9以上なので強い相関があることが分かります。ちなみに相関係数の絶対値が0.5以上の場合に強い相関があると言われています。
今回は2018年の気温を予測していきたいと考えています。黒い棒線が2018年のグラフです。全体的に同じような気温の変化をしていることが分かります。
ソースコード
私は今回はjupyter notebookを使用しているのでjupyter notebookでやってみることがお勧めです。また今回使っているライブラリーはデータ分析でよく使うライブラリなので必要になったらインストールすると良いです。windowsの場合はコマンドプロンプトでpip installを使用すればライブラリーのインストールが出来ます。
次の回の説明
次回は重回帰分析の説明と予測をしていきたいと思います。
また、今回の記事では少しおざっぱに説明してしまったので、分からない部分はツイッターなどで質問を受け付けています。気軽にお声かけください。また、時間を見つけて詳しく説明していきたいと思います。