【基礎】分類モデルの評価方法

スポンサーリンク
データ解析




分類モデルとは

目的変数が2種類以上の離散的なグループに分けるモデルのこと。
Sklearnでは
Iris(アイリスの種類)、cancer(ガンが良性か悪性か)、Mnist(手書きの数字が0~9)
いれらは、2種類以上あり、量的に分けることができません。いくつかの種類のカテゴリーに分けているだけです。
以下は、cancerなどの二値分類(良性:0 or 悪性:1)の例でみていきましょう

混同行列


TN(True Negative):正しく陰性と予測した数
FN(False Negative):間違えて陰性と予測した数
FP(False Positive):間違えて陽性と予測した数
TP(True Positive):正しく陽性と予測した数

分類評価

正解率

=(TP+TN) ÷ (TP+TN+FP+FN)
総数(TP+TN+FP+FN)のうち、正解(TP+TN)した割合を表した値です。

適合率

=TP ÷ (TP+FP)
予想が陽性(FP+TP)のなかで、実際に陽性(TP)である確率(陽性的中率)

再現率

TP ÷ (TP+FN)
実際に陽性(FN+TP)のなかで、予測が陽性(TP)である確率(感度・真陽性率)

適合率と再現率はトレードオフの関係

F₁値

=2×(適合率×再現率)÷(適合率+再現率)
適合率と再現率のいいとこどりの評価指標。でも、総合評価としては使えるが、実際の予測モデルとしては、適合率と再現率の兼ね合いで評価するほうがよいと思います。

まとめ

では、結局はどうしたらよいのか。「課題設定によってモデルの評価は変わる」である。
たとえば、感染力が強いウイルスの検査では、適合率より再現率が高いほうが有益である。
なぜなら、真の陽性者を見逃すことは、感染者を世に放ち感染拡大を招くからである。

また、客にどの商品を紹介するかは、再現率より適合率が高いほうが有益である。
なぜなら、客の好みに合わない商品を紹介すると、客の信用を損ねブランドイメージの低下になりかねないからだである。

つまり、

適合率が高いほうが良い場合は、間違えたくない場合
再現率が高いほうが良い場合は、正解したい場合

これらは一例であり、課題設定で適合率と再現率のどちらを重要視するかを決定する必要がある。

以下では、もっと詳しく、分かりやすく解説してくれています。参考にして下さい。





コメント

タイトルとURLをコピーしました