データ分析や機械学習をするためには、自身のデータの管理や保存方法から、Pyhtonで分析するためのデータの読み込みが必要です。
始めてPyhtonを使う方にとっては、これらのことも結構難しく感じると思います。わたしは聞く人がいなかったこともあり、時間がかかりました。
データ分析するための、データの読み込みまでを解説していきます。
初めてPyhtonをする方には、作業時間が短縮し、つまずきによるモチベーションの低下を防ぐことができると思います。
環境構築は、【2020年最新】Anacondaのインストール方法
それでは早速やっていきましょう。
データ分析のための環境設定
データ分析は、ANACONDAをインストールして、Jupyter Labで行いましょう。データ分析をするためにPythonを使うなら、Jupyter Labがいいです。
また、Jupyter Labを使うなら、ANACONDAで使うほういいです。ANACONDAは、あらかじめ、データ分析をするための環境が整っているためです。
ANACONDAのインストールからJupyter Labを使うまでは こちら を参照してください。
↓
Jupyter Labはコードを書く、その結果が出力、コードを書く、出力、コード、出力…と繰り返していきます。データ分析はひとつのコードで完了することはなく、出力結果を踏まえてコードを書きます。
なので、コード、出力の繰り返しのほうが、データ分析しやすいです。
データ分析のコンペティションであるKaggleや、グーグルが提供しているクラウド上でのPythonの環境であるGoogle Colaboratory、プログラムコードやデータを保存・公開している管理サービスであるGithubなどでも、データ分析にはJupyter Labが使われています。
Jupyter Notebookも使われていますが、Jupyter Labのほうが新しく、使いやすいです。大きな違いはなく、拡張子も「ipynb」で同じなので、どちらでも構いません。
この拡張子は「IPython NoteBook」という意味です。詳細は理解しなくても問題ありません。
データの保存方法
自分でデータを集めたら、行列の表にして保存しましょう。
データの収集と保管方法については、 こちら をご覧下さい。
データはエクセルで保存している場合が多いかもしれませんが、できればcsvファイルでの保存をお勧めします。データ量が大きくなると、エクセルでは動きが遅くなります。
csvファイルのほうが、データ量が多くなっても、容量が抑えられて、動きが遅くなりにくいためです。
csvファイルはエクセルを保存するときに拡張子(データの保存方法みたいなもの)を指定するだけで、簡単に保存できます。
ためしに、簡単なデータをエクセルで作って、cvsファイルで保存してみました。
こちらが、データの内容です。
これをcvsファイルで保存する。ファイル名は「goods」にする。
csv(コンマ区切り)(*.csv)で保存します。
データ分析の作業場所を指定
まずは、作業場所を決めましょう。作業場所とは、データ分析するためのフォルダです。
簡単なのは、デスクトップに新たなフォルダを作ることです。試しに、「My_Python」という名前のフォルダを作りましょう。
デスクトップ上で、右クリック、新規作成(X)、フォルダー(F) でフォルダを作成し、フォルダの名前を指定する。今回は「My_Python」とします。
csvファイルの 「goods」 をドラックアンドドロップやコピペで、デスクトップ上に作成した「My_Python」のフォルダの中に入れます。
その「My_Python」のフォルダの中に、Jupyter Labのファイルを作ります。
作り方は、ANACONDAからJupyter Labを開いて、My_pythonのフォルダに移動します。
「My_Python」のフォルダでNotebookのPython3をクリック、また、shift+ctrl+Lを同時に押します。すると、「My_Python」のフォルダにJupyter Labのファイルが開きます。
これで、「My_Ptyhon」のフォルダが作業場所(ディレクト)となります。
これで、分析対象であるcsvファイルと分析手段であるJupyter Labのファイルが同じ作業場所になりました。
Jupyter Labからcvsファイルを読み込む
csvファイルの読み込みはpandasを使います。コードは
# データを読み込むために必要なもの(ライブラリ) import pandas as pd df = pd.read_csv('goods.csv') df
これは、これらか嫌というほど目にするエラーメッセージです。
めっちゃ怒られています。
csvファイルのデータに日本語表記があると、上記のコードでは、読み込めないです。
以下のコードで読み込むことができます。
df = pd.read_csv('goods.csv',encoding='SHIFT-JIS') df
無事、読み込めましたね。
コードを説明します。
こんな感じです。
とりあえず、今回はcsvファイルの読み込みまで説明しました。
自身のデータがあれば、この方法でデータを読み込んで、以下のようにコピペで機械学習を行ってみて下さい。
コメント