偽陽性と偽陰性:第一種過誤と第二種過誤
機械学習の分野では、データを二つに分類する問題がよく扱われます。例えば、メールが迷惑メールかどうかを判別する、画像に猫が写っているかどうかを判定する、といった問題です。このような問題を二値分類問題と呼びます。
二値分類問題を解決するために、機械学習モデルを構築します。そして、構築したモデルの性能を評価するために、様々な指標が用いられます。モデルの性能評価は、モデルの改善や選択に非常に重要です。
二値分類問題の評価指標の中でも、特に重要なのが「偽陽性」と「偽陰性」です。偽陽性とは、実際には「いいえ」であるものを誤って「はい」と判定してしまうことを指します。例えば、正常なメールを迷惑メールと誤判定してしまう場合が該当します。一方、偽陰性とは、実際には「はい」であるものを誤って「いいえ」と判定してしまうことを指します。例えば、迷惑メールを正常なメールと誤判定してしまう場合が該当します。
偽陽性と偽陰性のどちらをより重視するべきかは、具体的な問題によって異なります。例えば、迷惑メール判定の場合、偽陰性によって重要なメールを見逃してしまうリスクは、偽陽性によって迷惑メールをいくつか受信してしまうリスクよりも大きいと考えられます。そのため、偽陰性を小さく抑えるようにモデルを調整することが重要になります。
このように、二値分類問題においては、様々な評価指標を理解し、問題の性質に応じて適切な指標を用いることが重要です。