

「データサイエンティスト協会の100本ノック」はビジネス現場で使えるデータ分析の学習に最適です。その「データサイエンティスト協会の100本ノック」のデータとPythonコードがGitHubで公開されています。
今回は、「データサイエンティスト協会の100本ノック」のデータとPythonコードをGitHubからダウンロードする方法を初心者でも分かるように解析していきます。
初心者からビジネス向けのデータサイエンティストへ
Pythonの学習を始めた頃は、scikit-learnやseabornにあるデータセットを使って、分析の練習をしていくことが多いと思います。これらのデータはビジネスで使うようなデータではありません。
ビジネスで使用するようなデータを使って学習した方が、現場で使える能力が得られやすいです。ビジネスで使用するようなデータを、Pythonで自由自在に使えたら、とりあえず現場で実践できるレベルだと思います。
GitHubを知らない人でもダウンロードできるように解説していきます。
データサイエンティスト協会の100本ノックのデータは、こちらのGitHubからダウンロードします。
GitHubからのダウンロード方法
上のサイトからGitHubに入ると、以下のような画面になります。
ここで、右上にある緑色の「Code」をクリックします。そして、「Download ZIP」をクリックするとダウンロードされます。
ダウンロードされたファイル
ダウンロードされたファイルは、「100knocks-preprocess-master」という名前になっています。
このファイルを開いて、中身を確認してみましょう。
「100knocks-preprocess-master」→「docker」→「work」までファウルを開いていきましょう。
「work」には、以下のファイルが入っています。
「answer」はコードの答えが書いているPython notebookがあります。
「data」はコードで使うCSVデータがあります。
「preprocess_knock_Python.ipynb」は、Python notebookの形で問題文があります。その問題文を一つ一つ解いていく形で学習を進めていきます。ちなみに、データ分析に必要な、RやSQLでも同じ内容の問題文があります。当然、コードはそれぞれ言語別にあります。
では、データが入っている「data」のファイルを確認してみましょう。
画像データやCSVデータ、Python notebook(Jupyter Labとほぼ同じ)があります。ここの、Jupyter Labで問題に対する解答をコードで書いていきます。
また、データがある「data」に新しくipynbファイルを作っても良いです。
Jupyter Labからファイルを開く
【2021年最新】M1 mac でanacondaをインストールする方法
【2021年最新】WindowsでAnacondaをインストールする方法
Jupyter Labを開いて、「data」のファイルで、Notebookを開きます。Windowsなら「ctrl」+
「shift」+「L」、Macなら「command」+「shift」+「L」を押すと、以下のような画面になります。ここで、Python 3をクリックするとPythonが開きます。
新しく作ったPythonのファイルは名前が、「Untitled」になっているため、内容が分かりません。なので、ファイルに名前をつけましょう。
作成したファイルを右クリックし、「Rename」をクリックすると、ファイルの名前を指定できます。
では早速、「receipt」のデータを読み込んでみましょう。
import pandas as pd df_receipt = pd.read_csv("receipt.csv") df_receipt
このデータの読み込みが第1問目です。
無事正解できたでしょうか。
これからも、「100本ノック」のデータを使って、初心者でも分かりやすい、コード説明していきます。
データサイエンティスト協会の100本ノックを解説|データの抽出
データサイエンティスト協会の100本ノックを解説|変数の一部を使ってデータを抽出する
データサイエンティスト協会の100本ノックを解説|ソート(順序で整列)
データサイエンティスト協会の100本ノックを解説|グループ分け
データサイエンティスト協会の100本ノック|新たなデータフレームの作成
データサイエンティスト協会の100本ノック|特徴量エンジニアリング
データサイエンティスト協会の100本ノック|時系列データの処理
データサイエンティスト協会の100本ノック|データサンプリング
データサイエンティスト協会の100本ノック|住所データの処理
データサイエンティスト協会の100本ノック|サンプリングと正規化
内容は違いますが、こちらの書籍も実践的なデータ分析の練習に最適です。

コメント