過学習:機械学習の落とし穴
- 過学習とは機械学習の目的は、コンピューターに大量のデータからパターンを学習させ、未知のデータに対しても正確な予測や判断をできるようにすることです。しかし、学習の仕方を間違えると、コンピューターは提供されたデータのみに過剰に適応し、新たなデータに対してはうまく対応できなくなってしまうことがあります。これが「過学習」と呼ばれる現象です。過学習は、人間で例えると、試験前に過去問ばかりを完璧に暗記してしまい、本番の試験では応用問題や少し表現を変えただけの問題に全く対応できない状態に似ています。過去問を解くという限られた範囲では完璧な成績を収めていても、真の学習の目的である「未知の問題への対応」という点においては、全く達成できていない状態と言えるでしょう。機械学習においても、過学習が起きると、訓練に使ったデータに対する予測や分類は非常に高い精度を誇るにも関わらず、実用的な場面で必要となる未知のデータに対しては、全く役に立たないモデルになってしまう可能性があります。過学習は機械学習モデルの精度を大きく損なう要因となるため、その発生原因と対策を理解しておくことは、精度が高く、実用的な機械学習モデルを構築する上で非常に重要です。