平均値の罠

スポンサーリンク
データ解析




対象者

  • データ解析の初心者
  • これからデータ解析を勉強しようと思っている
  • 統計学は難しいと思っている
  • 「統計学なんていらないでしょ」と思っている
  • 「平均値ぐらい知ってるでしょ」と思っている

期待される効果

  • 平均値や標準偏差への理解が深まる
  • データの分布の重要性が理解できる
  • 記述統計について理解できる
  • 自身のデータのおおざっぱな理解に繋がる

後輩が提出した資料の平均値をみて、

「平均値だけを出されても意味ないよ。分布をみせてよ」

「メディアの出す数字(平均値)は信用できないよね、分布も標準偏差も出さないんだから」

と言えるようになる。

記述統計

記述統計とは今あるデータを分かりやすい形にすることで、データの傾向や性質を知るためのものです。つまり、”データを分かりやすくする” これにつきます。
「数値の羅列だけでは理解できませんもんね」
記述統計の指標に、平均値標準偏差があります。
今回は、統計学の記述統計学である平均値標準偏差について学んでいきたいと思います。
記述統計学は機械学習や深層学習と比べると地味です。でも、ここを間違えていると、機械学習の方法も間違える可能性があり、予測精度が低下してしまいます。

以下で示す数値やグラフは私が作成したものです。しかし、イメージしやすいように実際の数値に近い値にしています。

平均値とは

平均値は代表値のひとつです。代表値とは、データをひとつの数値で表します。

例えば、

日本人の身長は? → 165cm

日本の世帯年収は? → 550万円

などです。分かりやすいですよね。ひとつの数値で表しているので、イメージしやすい。

「きみ、日本人の平均よりかわいいね~」
「・・・・・・・・・・・」
例が悪かったですね。

「きみは平均より頭の回転が速いね」
「そーなんですー。よくゆわれます~」
人をほめるときに平均なんて言葉を出しただけで、引いちゃいますよね。

自分が平均値より上か下かが分かり、日本人の中で自分がどの程度かを判断する材料になります。

平均身長の計算は、身長を一人ひとり足して、その人数で割った値 ですね。

ではもう少し平均値について深掘りしてみましょう。

データの可視化(身長)

では、データの分布を可視化してみましょう
身長の場合はだいたいこんなグラフになります

これはヒストグラムといって、データの可視化、データの分布を確認するためのマストグラフです。X軸(横軸)が身長で、Y軸(縦軸)が人数です。棒が上に積みあがるほど、多くの人数がその範囲にいることになります。たとえば、一番高い棒(黒の線で平均値を表している)である165cmには約240人が存在していることになる。
こんな感じで、ヒストグラムが左右対称の山なりになっている分布を正規分布といいます。
正規分布になっていれば、平均値が意味をもちます。標準偏差を加えると、さらに情報量が増します。
標準偏差とは、難しいことは抜きにして、
±1標準偏差の範囲に68%が存在する
±2標準偏差の範囲に95%が存在する
どういうことかというと、平均値165標準偏差10とすると
165-10=155(標準偏差である10の数値で足す場合と引く場合)
165+10=175
つまり、155~175の範囲に68%の人数がいる(青の線の範囲)
165-20=145(標準偏差である10に2かけて、20という数字をだしている)
165+20=185
つまり、145~185の範囲に95%の人数がいる(緑の線の範囲)
ということです。

165±10

と表したりします。みなさんも見たことがあると思います。

データの可視化(世帯年収)

身長のときと同様に世帯年収のヒストグラムを確認しましょう。

「あれ、身長のときと形が違うぞ」

「すばらしい」

正規分布である身長のヒストグラムとの違いが分かれば十分です。
このヒストグラムは左右対称の山なりの分布ではないので、正規分布ではありません
ちなみにこの世帯年収のデータの標準偏差は432です。実際の数値は分かりませんが、おそらく似たような大きな数値(平均値の相対として)になると思います(世帯年収が10億以上の方もいるので、もっと大きいでしょう)
標準偏差が432ということは、
118~982の範囲に68%の人数がいる
-314~1414の範囲に95%の人数がいる???
世帯年収がマイナスはありえませんよね。

「人口の95%が-314~1414の範囲にいますよ」

と言われても、

「ぜんぜんわからん」

ってなりますよね。
標準偏差が大きいく(平均値の相対)、ありえない数値になっていると(世帯年収が-314~1414など)、データの分布が、正規分布でない可能性が高いといえます。厳密には、データの分布が標準偏差に従っていなければ、平均値と標準偏差を使用してはいけません。

まとめ

  • 平均値をみたら要注意
  • 分布を確認してから平均値をみる
  • 分布が正規分布に従っていなかったら平均値はみる価値なし

標準偏差が確認できれば、平均値との相対から分布がなんとなく分かるかも(ここでみた世帯年収みたいに、ありえない数値になっているなど)

「平均値なんて出されても意味ないよ。分布をみせてよ」

「メディアの出す数字(平均値)は信用できないよね」

ね。言ってみたくなったでしょ。

独学で統計学や機械学習の勉強、は動画がおすすめですよ。非常に分かりやすいです。




コメント

タイトルとURLをコピーしました