【超基礎編】データをpythonのpanndasで分析する(データの読み込みまで)

スポンサーリンク
Python




データ分析や機械学習をするためには、自身のデータの管理や保存方法から、Pyhtonで分析するためのデータの読み込みが必要です。

始めてPyhtonを使う方にとっては、これらのことも結構難しく感じると思います。わたしは聞く人がいなかったこともあり、時間がかかりました。

データ分析するための、データの読み込みまでを解説していきます。

初めてPyhtonをする方には、作業時間が短縮し、つまずきによるモチベーションの低下を防ぐことができると思います。

環境構築は、【2020年最新】Anacondaのインストール方法

それでは早速やっていきましょう。

データ分析のための環境設定

データ分析は、ANACONDAをインストールして、Jupyter Labで行いましょう。データ分析をするためにPythonを使うなら、Jupyter Labがいいです。

また、Jupyter Labを使うなら、ANACONDAで使うほういいです。ANACONDAは、あらかじめ、データ分析をするための環境が整っているためです。

ANACONDAのインストールからJupyter Labを使うまでは こちら を参照してください。


Jupyter LabはPythonを使うための環境です。

Jupyter Labはコードを書く、その結果が出力、コードを書く、出力、コード、出力…と繰り返していきます。データ分析はひとつのコードで完了することはなく、出力結果を踏まえてコードを書きます。

なので、コード、出力の繰り返しのほうが、データ分析しやすいです。

データ分析のコンペティションであるKaggleや、グーグルが提供しているクラウド上でのPythonの環境であるGoogle Colaboratory、プログラムコードやデータを保存・公開している管理サービスであるGithubなどでも、データ分析にはJupyter Labが使われています。

Jupyter Notebookも使われていますが、Jupyter Labのほうが新しく、使いやすいです。大きな違いはなく、拡張子も「ipynb」で同じなので、どちらでも構いません。

この拡張子は「IPython NoteBook」という意味です。詳細は理解しなくても問題ありません。

データの保存方法

自分でデータを集めたら、行列の表にして保存しましょう。
データの収集と保管方法については、 こちら をご覧下さい。
データはエクセルで保存している場合が多いかもしれませんが、できればcsvファイルでの保存をお勧めします。データ量が大きくなると、エクセルでは動きが遅くなります。

csvファイルのほうが、データ量が多くなっても、容量が抑えられて、動きが遅くなりにくいためです。
csvファイルはエクセルを保存するときに拡張子(データの保存方法みたいなもの)を指定するだけで、簡単に保存できます。

ためしに、簡単なデータをエクセルで作って、cvsファイルで保存してみました。

こちらが、データの内容です。

これをcvsファイルで保存する。ファイル名は「goods」にする。

csv(コンマ区切り)(*.csv)で保存します。

データ分析の作業場所を指定

まずは、作業場所を決めましょう。作業場所とは、データ分析するためのフォルダです。
簡単なのは、デスクトップに新たなフォルダを作ることです。試しに、「My_Python」という名前のフォルダを作りましょう。

デスクトップ上で、右クリック、新規作成(X)、フォルダー(F) でフォルダを作成し、フォルダの名前を指定する。今回は「My_Python」とします。

csvファイルの 「goods」 をドラックアンドドロップやコピペで、デスクトップ上に作成した「My_Python」のフォルダの中に入れます。

その「My_Python」のフォルダの中に、Jupyter Labのファイルを作ります。

作り方は、ANACONDAからJupyter Labを開いて、My_pythonのフォルダに移動します。

「My_Python」のフォルダでNotebookのPython3をクリック、また、shift+ctrl+Lを同時に押します。すると、「My_Python」のフォルダにJupyter Labのファイルが開きます。

これで、「My_Ptyhon」のフォルダが作業場所(ディレクト)となります。
これで、分析対象であるcsvファイルと分析手段であるJupyter Labのファイルが同じ作業場所になりました。

Jupyter Labからcvsファイルを読み込む

csvファイルの読み込みはpandasを使います。コードは

# データを読み込むために必要なもの(ライブラリ)
import pandas as pd

df = pd.read_csv('goods.csv')
df

出力:

これは、これらか嫌というほど目にするエラーメッセージです。

めっちゃ怒られています。

csvファイルのデータに日本語表記があると、上記のコードでは、読み込めないです。

以下のコードで読み込むことができます。

df = pd.read_csv('goods.csv',encoding='SHIFT-JIS')
df

出力:

無事、読み込めましたね。
コードを説明します。

こんな感じです。
とりあえず、今回はcsvファイルの読み込みまで説明しました。
自身のデータがあれば、この方法でデータを読み込んで、以下のようにコピペで機械学習を行ってみて下さい。

【初心者】コピペでできるXGBoost回帰

【初心者】コピペでできるXGBoost

【初心者】コピペでできる決定木回帰

【初心者】コピペでできる決定木とランダムフォレスト





コメント

タイトルとURLをコピーしました