ROC曲線とAUC:モデル精度の評価指標
- ROC曲線とは
ROC曲線は、あるモデルがどれくらい正確に予測できているかを視覚的に把握するためのグラフです。特に、あるデータに対して「陽性」か「陰性」かを予測する分類問題において用いられます。例えば、迷惑メールを判別するシステムであれば、「迷惑メールである」と予測することが「陽性」にあたり、「通常のメールである」と予測することが「陰性」にあたります。
ROC曲線は、「真陽性率(TPR)」と「偽陽性率(FPR)」の関係をグラフに表したものです。真陽性率は、実際に陽性であるデータのうち、正しく陽性と予測できた割合を表します。つまり、実際に迷惑メールであるメールのうち、どれだけを正しく迷惑メールと判断できたかを表す指標です。一方、偽陽性率は、実際には陰性であるデータのうち、誤って陽性と予測してしまった割合を表します。つまり、実際には通常のメールであるにも関わらず、誤って迷惑メールと判断してしまった割合を表す指標です。
ROC曲線は、一般的に左下から右上に向かって描かれます。グラフの左下は、偽陽性率と真陽性率がどちらも低い状態、つまり、陽性と予測すること自体が少なく、その中でも誤った予測が多い状態を表します。右上に行くにつれて、偽陽性率と真陽性率はどちらも高くなります。つまり、陽性と予測することが多くなり、その中でも正しい予測の割合も増えることを表します。
ROC曲線の下側の面積が大きいほど、そのモデルの性能が良いと判断されます。これは、面積が大きいほど、真陽性率が高く、偽陽性率が低い、つまり、正しい予測が多く、誤った予測が少ないことを意味するからです。