Pythonを使ったデータ解析の概要

スポンサーリンク
Python





Python(パイソン) は1990年代初頭ごろから公開されているフリー(無料)のプログラミング言語。

実用的で、高い拡張性も備えており、読みやすさ・習得しやすさと、実用性のバランスが大きな魅力です。

Pythonはプログラミング言語の利用度調査などでは、常に高く支持されています。システム管理やツール・アプリケーション開発・科学技術計算・Webシステムなどで広く利用されてきました。特に、2010年代ごろからの機械学習ブームでは、優れた科学技術計算ツールとして評価され、大きな人気を得ました。

このブログでは主に、データ解析や機械学習について提示していきます。

Pythonの環境構築はこちらをご覧下さい。

当サイトでは、分かりやすさ、ハードルの低さを求めているので、言葉の定義が多少異なる場合があります。でも、おおざっぱな理解でも、十分通用すると考えています。より正確に、より詳細に知りたい方は、中級者以上を対象とした資料を参照して下さい。

データ解析

データを用いて問題を解決するための方法

  1. データの可視化(グラフ)
  2. 統計学(今あるデータの意味を説明する)
  3. 機械学習(未知のデータを予測する)

1. データの可視化

データ(数字の羅列)だけでは人間は理解できません。

そこで、グラフや要約した表にすることで、理解しやすくなります。可視化により、気づかなかった知見を発見することを期待します。

客数が上がると売り上げが上がるよね。でも、年齢層で分けてみると、中年層にその傾向が強いよね。その他の年齢層はそうでもない。(未知の発見)
例えば、

など

2. 統計学

  記述統計:今あるデータを要約する(データの可視化もこれにあたる)

  推定統計:今あるデータから、知りたいデータを推定する

全体の売上との関係が強いのは、日用品の売上と店舗の場所(駅からの距離)みたいだね。じゃー、日用品の売り場を広げて、店舗ごとで品物を変えてみるか。「売上と関係が強いものを変化させると、売上が上がるかもね」と新たな仮説(予想)に繋がる。

3. 機械学習

予測を行うために、機械が学習すること。AI(人工知能)の一種(私は、人工知能という言葉はあまり好きではないですが)。

予測精度は高いが、結果の解釈が困難。「結果を変えるにはどうしたらよいか」が分かりにくい。

(どうしてこの結果になるか)よく分からないが、今月のデータから今年全体の売上が予測できたよ。
きゅうりの、形、色、大きさなどから、品質管理する。売り物になる or ならないを判別
Pythonはこれらのことが、分かりやすく行うことができる。
そこで、もう一度我々にできることを考えてみる。

現場のサラリーマンに期待すること

1.現場の解決すべき(解決したい)問題がなにかが分かる

 目的変数と呼ぶ(知りたい目的となること)

例)売上、残業時間、離職率、アクセス数など

2.問題に関係しそうなことが分かる(なんとなくでも)

説明変数と呼ぶ(目的変数を説明するためのもの)

現場感覚(私が最も大切にしていることです。管理者や経営陣任せでは会社は良くならない)

例)年齢層、子連れの男性、品物の置き場所(店舗の奥やカウンター前)など

 

統計学では説明変数の解釈が非常に重要。説明変数を変化することで、目的変数を変えることができる可能性がある。業務改善、戦略改善に繋げやすい。

機械学習では、「目的変数との関係(の可能性)に限らずデータはあるだけよい」とする場合もある。

統計学   :目的変数に対する説明変数の影響度を知ることができる
機械学習:目的変数に対して高い予測ができる
目的変数説明変数の関係は、
(統計学では)被説明変数説明変数従属変数独立変数
(機械学習分野では)ターゲット特徴量
といったりしますが、当サイトでは目的変数と説明変数とします。なんとなく、言葉から意味が想像しやすいとかと思います。変数は数値(数字)という意味。

まとめ

現場感覚を生かした問題提起をし、データ解析を使って問題解決を行う。

そのために、データ解析の手法をマスターする。それとともに、(解決可能な)職場の問題について考えることも非常に重要です。なぜなら、データ解析は問題解決のツールに過ぎないのですから。ちなみに、データ解析の手法が分かると問題の解決の可能性も理解できるようになると思います。





コメント

タイトルとURLをコピーしました