欠損値の種類と対処方法

スポンサーリンク
データサイエンス
Rを使ってデータサイエンスが学べる書籍
データサイエンスといえはPythonですが、Rでもできます。 Rは統計学に特化したプログラミング言語ですが、さまざまなデータ分析ができます。Rを使って、統計学だけでなく、データサイエンスを学びたい初心者におススメな書籍を紹介します...
【初心者】Rと統計学をいっぺんに学ぶ最初の5冊
Rとはオープンソースの統計解析用のプログラミング言語です。 誰でも無料で使えます。統計解析にはSPSSやSASなどが有名ですが、いずれも有料です。大学や研究機関でないと使えないですね。個人でも統計解析できた方が、職場に依存せずにス...

データ分析をするうえで、データに欠損があることはよくあります。原因は様々ですが、例として、アンケート用紙の未回答、データの入力忘れ、機器の不具合などが挙げられます。

このようなデータの欠損は分析結果に影響を与える可能性があります。その影響とは、ほとんどの場合、正しい分析結果を得ることは難しくなります。つまり、ビジネスの現場では使えない分析結果ということになります。

なので、欠損値になった原因や欠損値の数によって対処を変える必要があります。

欠損の種類

完全に無作為な欠損(Missing Completely At Random:MCAR)

値が欠損する確率が、その対象者のデータと無関係であることを意味する。つまり、データの欠損が完全にランダムに起こっていることを言います。つまり、欠損データは完全なデータから無作為なサブサンプリングとみなすことができる。

この場合、観測されている対象のデータのみで解析しても、推定結果は不変であり、効率性は下がるものの、標準誤差の推定値から欠損による誤差を評価できる。すなわち、MCARは常に無視可能な欠損である。

条件付き無作為な欠損(Missing At Random:MAR)

データを条件とした欠損の条件付き確率が、観測データを条件とした欠損の条件付き確率に一致することを意味する。すなわち、観測データを条件として、欠損確率の分布が日観測データから独立している。

たとえば、収入が高い人ほど、収入について答えない確率が高くなるとします。収入は年齢と相関するとすると、データ内に年齢に関する情報が含まれていれば、年収の欠損は年齢を条件として無作為といえる。

この場合は、欠損を除去する分析は偏っているおそれがあります。また、この偏りは。共変量または補助変数を利用した代入法によって是正することができる。

厳密には、欠損メカニズムが無視可能であるためには、MARであり、かつ、欠損発生に関するパラメータと推測の目的であるパラメータの事前分布がお互いに無関係であるという2つの条件が満たされる必要がある。

無作為ではない欠損(Not Missing At Random:NMAR)

ある値の欠損する確率がその変数の値自体に依存しており、かつ、観測データを条件にしてもこの関係を崩すことができないことを意味する。

たとえば、収入の高い人になるほど収入について答えない確率が高くなり、データ内に収入の欠損確率を予測できる情報が含まれていなければ、収入の欠損は無視できないことになります。

この場合、必ずしも代入法によって欠損データ解析における偏りを是正できるとは限らないため、個別の欠損データに応じた処理方法を採用する必要があるります。

【2021年】ゼロから統計学を独学したい人が読むべき書籍10冊
データサイエンスについて興味があり、統計学を学びたいけど、どんな学習方法がいいか分からない 統計学を独学するために必要な書籍が知りたい 統計...

欠損値への対処

できるだけ完全データを目指す

まずなにより、欠損値を出さないためには、現場の工夫が必要です。欠損データが少ない方がデータ分析の精度が上がるのは確実です。

例えば未回答項目には回答を促す、データ収集を自動化しヒューマンエラーの可能性を下げる、などの対処が必要です。

欠損データを削除する

データ欠損の数が少なければ(データ分析に影響ないと思われる程度:感覚的にはデータ数の1割程度)、またはMCARであるならば、欠損値は削除して分析する。

これをリストワイズ法といいます。

【Python初心者】直感的に分かる欠損値の取り扱い(削除・補完)

欠損値に値を代入する

データ欠損の数がある程度であるならば(2~3割程度)、代入法を用いる
データ欠損の数が多ければ(4割以上)、データ欠損の原因を探って、データ分析結果の限界(limitation)とします。

単一代入法

欠損値に平均値や中央値、最頻値などを代入することです。
あまり、有効な対処法ではありません。

【Python初心者】直感的に分かる欠損値の取り扱い(削除・補完)

多重代入法

多重代入は、個別の値の完全復元ではなく、母集団のパラメーターの推定をすることが目的です。

欠損データの分析から独立かつ無作為に抽出されたM個のシミュレーション値によって欠損地を置き換えるものである。M個のシミュレーション値によって、欠損データの不確実性を反映させることで、標準偏差を妥当なものとすることができ、妥当な統計的推測を行うことができるようになる。

 

コメント

タイトルとURLをコピーしました