決定係数R2:モデルの当てはまりの良さを見る
- 決定係数とは決定係数R²は、統計学や機械学習の分野において、構築したモデルが実際のデータにどれだけ当てはまっているかを評価する指標の一つです。この値は0から1の間で表され、1に近いほどモデルがデータをうまく説明できていることを示します。例えば、ある現象を説明するモデルを作成し、その決定係数が0.8であったとします。これは、目的とする変数の変化のうち80%がモデルによって説明できることを意味します。言い換えれば、観測されたデータのばらつきの80%が、モデルに含まれる説明変数によって説明できるということです。残りの20%は、モデルでは説明できない要因やランダムな誤差によって生じていると考えられます。決定係数は、モデルの適合度を直感的に理解しやすい指標であるため、広く用いられています。しかし、決定係数が高いからといって、必ずしもモデルが妥当であるとは限りません。過剰に多くの変数をモデルに含めると、決定係数は高くなりますが、モデルの解釈が困難になる場合があります。そのため、決定係数だけでなく、他の指標も合わせて検討することが重要です。