カットオフ|ひとつじゃないしきい値の選び方

スポンサーリンク
データ解析

カットオフとは、定量データを区切るために用いる基準のことです。

たとえば、ある病気になっている(陽性)か、病気になっていないか(陰性)を、検査の数値で判断する。検査の数値が100以上なら陽性、100未満なら陰性。

数値が基準になるので、非常に分かりやすく、仕事でも使いやすいです。「いままでのデータから、このクライアントに営業をかければ、仕事がとれるぞ」とか。

しかし、カットオフは分かりやすい反面使い方を間違うと、答えを誤る可能性があります。そこで、今回はカットオフについて分かりやすく簡単に解説していきます。

2つに分けるとは?

横軸は、検査結果の数値です。

縦軸は、横軸の検査結果の数値に対して、頻度(何人いるか)を表しています。

青い線は病気がない健康な人、赤い線は病気の人を表しています。

病気かどうかを判断するとき、検査結果をどこにすればいいでしょうか?検査結果の数値がココより少なければ「病気なし」、ココより大きければ「病気あり」、を判断できる箇所はどこでしょうか?

矢印の箇所ですよね。これが、カットオフです。簡単ですね。新しい人がきて検査を行ったら、検査結果がカットオフの数値より大きいか小さいかで病気のあるなしが判断できますね。

では、このような図では、どこをカットオフにしたらいいでしょうか?

難しいですね。おそらく下図ではBか、AからCまでの間にカットオフがありそうですね。

そもそも、2つに分けるための基準は何でしょうか?基準は存在するのでしょうか?

2つの分ける基準は?

Precision: 適合率、陽性的中率、精度
Recall :再現率、感度、真陽性率
ROC曲線
などを参考としてカットオフを決定します。こちらは、過去記事をご覧下さい。

【基礎】分類モデルの評価方法
分類モデルとは 目的変数が2種類以上の離散的なグループに分けるモデルのこと。 Sklearnでは Iris(アイリスの種類)、cancer(ガンが良性か悪性か)、Mnist(手書きの数字が0~9) いれらは、2種類以...

適合率と再現率はトレードオフ

適合率を上げれば、再現率は下がります。また、再現率を上げれば、適合率は下がります。

上図の場合は、適合率を上げるとAに近づきます。適合率を上げるとCに近づきます。

バランスがとれた基準が必要な場合

バランスがとれた基準のほうがいい場合の方が多いです。たとえば、手書き文字の識別や犬と猫を識別する場合などです。物体や音声を識別する場合は、かたよりなくバランスのとれた基準の方がよいでしょう。

かたよった基準が必要な場合

子供に良くないサイトを検出する場合は、多くの優良サイトを排除してでも、有害サイトを排除したい。

病院でAIを使って診断する場合は、多くの健康な人をガンと診断しても、ガンの人をガンであると診断したい。なぜなら、多くの健康な人はその後の精密検査でガンではないと診断できる。また、ガンの人を健康と診断してしまうと、ガンの治療が遅れて、病状が悪化してしまうからです。

顔認証の場合は、写りの悪い自分の顔でロックが外れなくても、他人の顔でロックが外れないようにしたい。スマホの顔認証は、自分の顔でも変顔するとロックが外れないですよね。

この場合は、図で示すと、

こんな感じになります。赤い範囲は偽陰性、青い範囲は偽陽性となります。偽陰性は有害サイトなのに、優良サイトと判断してします。ガンなのに、ガンではないと診断してしまう。ことですね。この赤い範囲は、青い範囲が増えてでも、できるだけ少ない方がいいですね。

つまり、カットオフの値を低く設定すればいいということです。

まとめ

カットオフを決める場合は、問題解決の目的を改めて確認しよう

「バランス重視」 or 「偏った基準」、どちらがよいかは、どの程度の間違いを許容できるかなど、問題によって変わる。

このカットオフは分類問題では理解していないと、正しい問題解決に繋がらないので、理解しておいた方が良いでしょう。

【初心者】複数の機械学習モデルの性能を比較する(分類問題編)
機械学習の目的は、高い予測精度のモデルを作成することです。 高い予測精度のモデルの作成方法はいくつかありますが、一般的な方法を説明していきます。 複数の機械学習モデルを比較して、最良もモデルを選択する 次に、最...
【初心者】機械学習を使って、予測モデルを作成するまでの手順
機械学習を使って、予測モデルを作成する手順を紹介します。Pyhonで機械学習のコードを書いてても、「自分が何をしているのか」、「大きなプロジェクトのどの部分を担っているのか」、「どうなったら成功といえるのか」などが分かっていないと面白くないですし、効率も悪くなります。 そこで、予測モデルの作成の大枠を初心者に向けて、説明していきます。

コメント

タイトルとURLをコピーしました