記述統計(平均・中央値・四分位範囲)

スポンサーリンク
統計学




はじめに

記述統計とは、自分の手元にあるデータについて理解を深めるためのものである。

【初心者】機械学習と統計学の違い

データサイエンスで最初に行われるのは、探索的データ分析です。この探索的データ分析をするためには、記述統計の知識が必須です。

探索的データ解析(回帰問題)

探索的データ解析(分類問題)

記述統計を簡潔に言うと、「データをひとつの数値で表す」ということです。つまり、そのデータを代表した数値ということです。例として、平均値・中央値・四分位範囲などがあります。

これらの言葉は聞いたことがあると思いますが、意外と理解できていなかったり、間違っていたりすることが多いです。

今回はこの3種類の数値について、統計入門として解説していきます。

平均値

平均値は、数値の総和(すべてを足す)をその個数で割った値です。

たとえば、[3, 5, 1, 2, 4] という数値の集合があるとします。

平均値は、(3+5+1+4+2)÷ 5 = 15 ÷ 5 = 3 となります。

みなさんもこの「平均値」はよく見聞きすると思います。データをひとつの数値で表すことが、見事にできています。

このクラスの英語の平均点は85点。数学は65点。やはり、数学はみんな苦手だね。

こんな感じで、分かりやすいですね。しかし、この平均値がとんだ曲者です。詳しくは、以下の記事を参考にして下さい。

平均値の罠

ここでは、平均値と外れ値の関係をみてみましょう。

平均値は外れ値の影響が大きい

実際のデータでは、意外に多くの外れ値が存在します。そんなデータに対して、そのまま平均値を用いると、データを表すのに適した数値ではなくなってしまいます。

たとえば、先ほどの例の最後の数値である2を22 にすると、[3, 5, 1, 4, 22] という数値の集合であり、その平均値は 7になります。ひとつの数値が違うだけで、データを代表する数値が3から7 へ大きく変化してしまいます。

この問題は大げさなようですが、決して少なくないです。データを手で入力しているのであれば、2を連続で入力してしまい、22となることがあります。また、動画などのデータでもノイズ(精度の限界としてありえない数値がでてしまう)として、大きく数値が上がる(下がる)ことがあります。

データを代表する数値を示す場合は、この外れ値に対処する必要があります。

その方法は、なぜ大きく違う数値になったかを確認することです。

外れ値の確認

外れ値はさまざまな理由で出現します。

①単純な入力ミス、②機械の精度の問題、③実際に測定された数値などです。

③の実際に測定された数値は、データの集合として分析に入れる、一般的な数値ではないとして削除する、個別の分析を行うなどの対応があります。

①と②は外れ値として、データ分析から削除する必要があります。なぜなら、実際に測定された数値ではなく、間違った数値だからです。しかし、①や②が原因であると断定するための明確な理由が難しいです。この理由は、外れ値の基準(定義)を決めるために必要です。

外れ値の基準を決める方法は、①データの分布、②上下5%、③IQR1.5以上などがあります。

①はデータの分布(ヒストグラム、ドットプロットなど)をみて、明らかに外れている数値を削除する。

②データでの上位5%、下位5%を削除する。たとえば、競技(スキーのジャンプなど)の点数を付けるときは、一番いい点と一番悪い点を削除して、残った数値の平均を点数とすることがありますね。それに似ている考え方ですね。

③は中央値や四分位範囲の項で説明します。

中央値


中央値とは、データを小さい数値から大きな数値に整列したときに、真ん中に来る数値を指します。

データの個数が偶数なら、真ん中の値は存在しないので、真ん中の2つの数値平均が中央値になります。この中央値は平均値より外れ値の影響が非常に小さいです。

なので、外れ値の対応としても有効な代表値になります。

四分位範囲


四分位範囲は中央値とセットで用いられることが多いです。

これは、データのばらつきを表す代表値です。平均値は標準偏差、中央値は四分位範囲といったセットで用います。

四分位範囲とは、中央値とは、データを小さい数値から大きな数値に整列したときに、小さい数値から25%に当たる数値と、75%に当たる数値の範囲のことです。たとえば、[3, 5, 1, 4, 22] という数値の集合あれば、小さい数値から25%に当たる数値は3、75%に当たる数値は5、つまり四分位範囲は2になります。たまは「3-5」と、範囲を表したりします。なので、最大値が大きな外れ値であっても、四分位範囲は大きな影響がないです。

平均値と標準偏差の可視化は、ヒストグラムで表す。対して、中央値と四分位範囲の可視化は、箱ひげ図で表します。

こんな感じです。

まとめ

この記述統計(平均・中央値・四分位範囲)は、超基本で地味なことですが、データ分析するには非常に重要です。

これらのデータを代表する数値の扱いを間違うと、その後のデータ分析やその結果に間違いが生じます。

そうならないように、改めて基本的な記述統計を自身でも確認してみましょう。





コメント

タイトルとURLをコピーしました