これだけは知っておきたい推定統計で注意すべきポイント

スポンサーリンク
データ解析




 

記述統計手元にあるデータの性質を表す(知ることができる情報)

推定統計手元にあるデータを含めた母集団の情報を推定する(知りたい情報)

 

たとえば

  • 商品Aと商品Bでは、商品Aのほうが、2倍よく売れている(記述統計)
  • 今後(未来)も商品Aのほうが、2倍よく売れるかもしれない(推定統計)
  • 日本の30代女性の趣味嗜好が分かる(推定統計)

記述統計は、持っているデータでしか判断しないので、間違うことはない(実際に商品Aのほうが商品Bの2倍売れている)

推定統計は、持っているデータから、持っていないデータ(違う店舗、未来のこと)を推定するので、間違う可能性がある。しかし、活用して問題解決に繋がる。

すごいですよね。

30代女性の趣味嗜好を調査したいとする。しかしすべての30代女性を調べることは不可能です。なので、何人かの30代女性(サンプル)を調べて、30代女性全体(母集団)を推定する方法をとります。この方法で、サンプルを調べれば、母集団が分かります。しかし、上記で述べたように、推定なので間違う可能性がありますその間違いとはなにかまた間違いを少なくするにはどうすべきかを、「注意すべきポイント」として記しましたので、確認していきましょう。

推定統計学で初心者が注意すべきポイント

A. サンプルが母集団から無作為抽出されている

30代女性を母集団とした場合、社内の30代女性をサンプルとして調べた。この場合、社内の30代女性と、すべての30代女性の違いを考えてみます。社内の30代女性は、働いている、収入がある、時間があまりない、など一般的な30代女性より偏りがあることが普通です。ですから、社内の30代女性ですべての30代女性を推定することは精度が低くなる可能性があります。

解決方法は、社内だけでなくできるだけさまざまな30代女性のデータを収集する方法があります(職種や家庭の有無、地域がことなるなど)

B. 測定結果に信頼性や妥当性がある

趣味嗜好をどうやって判断するか。聞き取りで調査(自由記載)、選択項目で調査(選択記載)、興味がある趣味嗜好、実際している趣味嗜好などさまざまな調査方法があります。また、対面なのか、Web上でのアンケートなのか、女性が聞き取るのか、男性が聞き取るのか、といったことも信頼性や妥当性に関係してきます。どう関係するかは、男性が聞き取る場合はカフェ巡りなどおしゃれな趣味嗜好が増える、女性が聞き取る場合は恋愛関係の趣味嗜好が増える、Web上でのアンケートでは本音が出やすい、などが考えられます(たとえばの話なので、実際とは異なるかもしれません。わたしの想像です)。つまり、調査方法にかたよりが出る可能性を考慮するということです。

解決方法は、結果に影響がでそうな因子をできるだけ排除することです。または、調査方法も変数に加えるなどがあると思います。

C. 危険率(P値)の誤解

統計学を知っているかたはご存じだと思いますが、統計学には有意差という考え方があります。有意差とは、「仮説が間違っている可能性が5%以下なので、この仮説は正しい」とするものですね。一般的(学術論文など)には、P値が5%未満で有意に差があるとします(有意水準を5%とした、とかいいます)

 

たとえば、

P値が5.0%は、差がない(場合によっては:薬の効果がない)

P値が4.9%は、差がある(場合によっては:薬の効果がある)

となります。

 

しかし、この結果の解釈は大きく2つの間違いがあります。

  1. P値が大きい場合の解釈
  2. P値の程度と、差の程度

1に関しては、P値が5%以上の場合は、「差がない」ではなく、「差があるとはいえない」です。「差がない」と言いたい場合は、証明が非常に難しいです(ここでは、言及しません)

2に関しては、たとえで示したように、P値の大きさ(0.1%)の違いが、薬の効果とすることはできません。感覚的にも理解できますよね。

P値は「差がない可能性が少ない」といっているだけなので、P値の結果がイコール効果(差の程度)ではないのです。P値が5%未満でも、ごくわずかな差しかなく、現場では意味のないことかもしれません。

ちなみに、P値は、比較する両群の差の程度、サンプル数(データの数)、個々のデータのばらつき度合い、データの分布、変数の性質など多岐にわたります。ですので、P値はただの指標のひとつとして、差の程度が意味のあるものなのかを考えたほうが有意義です。実際、学術論文でもP値のみの判断はしないようになってきています。

差がどの程度あれば意味があるかは、現場で働いているサラリーマンが一番知っているはずです。現場を知らない管理者や経営陣、まして外注のデータサイエンティストもどきでは、決してありません。

ちなみに、このP値でエビデンスのある・なしを語っているひとがいますが、それは明らかな間違いです。エビデンスはたったひとつの調査や、実験で語れるものではありませんし、二元論でもありません。データ解析は華やかではなく、地味なものだと思います。思って下さい。エビデンスについてはまた紹介しようと思います。
興味があれば、統計や機械学習を動画で学んでみることをお勧めします。

まとめ

統計学はA(無作為抽出)とB(測定結果の信頼性・妥当性)が正しいことを前提としています。ここが正しくないと、解析結果に意味はないかもしれません。しかし、実際はAとBの前提条件が満たされていることは、まずありません。

ですので、ある・ないの二元論で判断しないようにしましょう。その解析結果がどの程度信頼できるのか、解析結果の差がどの程度意味があるのか、結果の質について議論していきましょう。質について議論するためには、ある程度は統計学や機械学習についての知識が必要です。このブログや紹介するサイトなどを利用して、市場価値の高いサラリーマンを目指しましょう。 





コメント

タイトルとURLをコピーしました