いまさらだけど、データ解析 ってなに?

スポンサーリンク
データ解析




わたしが考えるデータ解析とは、

データを用いて、新たな意思決定をするための方法

です。

【重要】データの扱い方(Amazonセールアプリ編)

これだけだと、抽象的すぎてよく分からないですよね。一つひとつ解説していきます。

データを用いて

データとは数値化できるもの。業績(売上)、株価、従業員数、従業員の男女比、残業時間数、文字、文章、静止画、動画、音声など、あらゆるものです。このデータには良いデータと悪いデータがあります。

悪いデータとは、欠損値(データがない)、外れ値(ありえないと思われるデータ)、ノイズ(正確ではないデータ)があるデータのことです。

良いデータとは、悪いデータではないデータのことです。

悪いデータがあると、最新のアルゴリズムの機械学習をしても、よい結果がでないことがあります。悪いデータは前処理をすることで、その悪影響を少なくすることができます。しかし、質の良いデータをとる工夫をすることが一番いい方法です。良いデータを得るためには、データ収集方法を工夫する必要があります。欠損値や外れ値、ノイズが起こる原因を見つけて、対処していきましょう。

新たな

ひとが経験的にしていた判断と変わらない結果では意味がないです。データ解析の目的は、今までなんとなく想像していたが、確かではなかったものを発見するため(仮説検証)。今まで想像すらしていない関連性を発見するため(データマイニング)。よく分からないが予測性能を、ひとの判断より良くするため(機械学習)などです。今までの作業の確認程度ではあまり意味がありません。ですので、データ解析の目的を、「新たな意思決定のためにどうするべきか」という観点から、具体的に決定する必要があります。

意思決定を

データ解析で、結果に影響する新たな因子を発見できたが、その因子を変化させることが可能かどうか。たとえば、「売り上げを上げるためには、大きな店舗にすべき」という結果がでたとします。「では、すべての店舗を大型化しよう」とはならないでしょう。つまり、変化可能な因子を発見しないと、問題解決にならないですね。
また、予測性度が高い機械学習モデルができたが、それをどう業務に取り組むべきか。たとえば、「このままいけば経営が悪化する」と予想された。「ではどうすれば...」などです。未来の経営を予測しても、改善策がないと意味がないですよね。ここでは、目的と方法が間違った、というこですしょう。

するための方法

今まで説明してきたものが満たされていれば、方法はなんでもいいということです。

たとえば、データの可視化のみ、統計学、機械学習、深層学習などです。ここは、ただの手段なので、「データ」、「新たな」、「意思決定」の条件を満たすなかで、一番いい方法を選択します。

つまり、条件が満たされれば、データの可視化だけでいいかもしれません。機械学習や深層学習などの最新の技術ではなく、古典的な統計学のほうがいいかもしれません。

実際に、多くの企業では、統計学を用いた検証作業のほうが良い場合が多いと感じます。

一昔前は、機械学習エンジニアに依頼された案件の答えが、「この案件に機械学習は必要ありません」ということが多かったみたいです。今は知りませんが、機械学習への理解が浸透してきた印象ですので、少なくなったと思います。

データ解析は上記のような、明確な目的意識をもって行うべきだと思います。「とりあえず、データをいじって面白そうな結果がでたから報告してみよう」では、業務改善、問題解決にならない場合が多いです。「機械学習の結果に基づいて行動したけど、あんまり問題が解決されていないよね」なんてことは、よくあります。

【重要】データの扱い方(Amazonセールアプリ編)

データ解析の結果に基づいて、行動(業務)を変化させたが、問題解決につながらない理由は、2つあります。
1つは、データの質が悪いため、もう1つは、アルゴリズムが悪いためです。データの質は、上で説明した内容を満たすことで改善されていきます。ここをクリアして、機械学習のアルゴリズムについては、過去記事やこれから更新していきます。

あらためて、データ解析とは、

データを用いて、新たな意思決定をするための方法

です。

機械学習の始め方(概要編)

 



コメント

タイトルとURLをコピーしました