【Python初心者でも分かる】データサイエンティスト協会の100本ノック|ダウンロードから読み込みまで

スポンサーリンク
Python
Python初心者がデータサイエンティストになるために必要な書籍
データサイエンティストに必須のプログラミング言語であるPythonですが、初心者にとってはハードルが高いです。 初心者がPyhtonを勉強するためには、書籍が手っ取り早いです。しかし、書店やECサイトには多くのPyth...
ゼロ知識の初心者がデータサイエンスを完全無料で学習する方法5選
データサイエンスの知識や技術、またはPythonについて学びたい。でも「大学に行くほど本気度がない」、「スクールに行くほどお金がない」、なんせ「時間がない」という方も多いはずです。というよりほとんどの方がそうだと思います(当然わたし...

「データサイエンティスト協会の100本ノック」はビジネス現場で使えるデータ分析の学習に最適です。その「データサイエンティスト協会の100本ノック」のデータとPythonコードがGitHubで公開されています。

今回は、「データサイエンティスト協会の100本ノック」のデータとPythonコードをGitHubからダウンロードする方法を初心者でも分かるように解析していきます。

初心者からビジネス向けのデータサイエンティストへ

Pythonの学習を始めた頃は、scikit-learnやseabornにあるデータセットを使って、分析の練習をしていくことが多いと思います。これらのデータはビジネスで使うようなデータではありません。

ビジネスで使用するようなデータを使って学習した方が、現場で使える能力が得られやすいです。ビジネスで使用するようなデータを、Pythonで自由自在に使えたら、とりあえず現場で実践できるレベルだと思います。

GitHubを知らない人でもダウンロードできるように解説していきます。

データサイエンティスト協会の100本ノックのデータは、こちらのGitHubからダウンロードします。

GitHubからのダウンロード方法

上のサイトからGitHubに入ると、以下のような画面になります。

ここで、右上にある緑色の「Code」をクリックします。そして、「Download ZIP」をクリックするとダウンロードされます。

ダウンロードされたファイル

ダウンロードされたファイルは、「100knocks-preprocess-master」という名前になっています。

このファイルを開いて、中身を確認してみましょう。

「100knocks-preprocess-master」→「docker」→「work」までファウルを開いていきましょう。

「work」には、以下のファイルが入っています。

「answer」はコードの答えが書いているPython notebookがあります。

「data」はコードで使うCSVデータがあります。

「preprocess_knock_Python.ipynb」は、Python notebookの形で問題文があります。その問題文を一つ一つ解いていく形で学習を進めていきます。ちなみに、データ分析に必要な、RやSQLでも同じ内容の問題文があります。当然、コードはそれぞれ言語別にあります。

では、データが入っている「data」のファイルを確認してみましょう。

画像データやCSVデータ、Python notebook(Jupyter Labとほぼ同じ)があります。ここの、Jupyter Labで問題に対する解答をコードで書いていきます。

また、データがある「data」に新しくipynbファイルを作っても良いです。

Jupyter Labからファイルを開く

【2021年最新】M1 mac でanacondaをインストールする方法

【2021年最新】WindowsでAnacondaをインストールする方法

Jupyter Labを開いて、「data」のファイルで、Notebookを開きます。Windowsなら「ctrl」+

「shift」+「L」、Macなら「command」+「shift」+「L」を押すと、以下のような画面になります。ここで、Python 3をクリックするとPythonが開きます。

新しく作ったPythonのファイルは名前が、「Untitled」になっているため、内容が分かりません。なので、ファイルに名前をつけましょう。

作成したファイルを右クリックし、「Rename」をクリックすると、ファイルの名前を指定できます。

では早速、「receipt」のデータを読み込んでみましょう。

import pandas as pd

df_receipt = pd.read_csv("receipt.csv")
df_receipt

このデータの読み込みが第1問目です。

無事正解できたでしょうか。

これからも、「100本ノック」のデータを使って、初心者でも分かりやすい、コード説明していきます。

データサイエンティスト協会の100本ノックを解説|データの抽出

データサイエンティスト協会の100本ノックを解説|変数の一部を使ってデータを抽出する

データサイエンティスト協会の100本ノックを解説|ソート(順序で整列)

データサイエンティスト協会の100本ノックを解説|グループ分け

データサイエンティスト協会の100本ノック|新たなデータフレームの作成

データサイエンティスト協会の100本ノック|日付データ

データサイエンティスト協会の100本ノック|特徴量エンジニアリング

データサイエンティスト協会の100本ノック|変数を整える

データサイエンティスト協会の100本ノック|小数点の処理

データサイエンティスト協会の100本ノック|時系列データの処理

データサイエンティスト協会の100本ノック|データサンプリング

データサイエンティスト協会の100本ノック|欠損値の処理

データサイエンティスト協会の100本ノック|住所データの処理

データサイエンティスト協会の100本ノック|サンプリングと正規化

内容は違いますが、こちらの書籍も実践的なデータ分析の練習に最適です。

【Python初心者】データを前処理から機械学習までを実行する|タイタニックデータセット
今回は、データの前処理から機械学習までを一貫して解説していきます。データを目の前にして、いきなり機械学習もモデルを作成することはありえません。データの前処理や可視化、特徴量エンジニアリングなどをしてから、モデルの作成、モデル...



コメント

タイトルとURLをコピーしました