データ分析の基礎:検定とは
AIを知りたい
先生、AIの用語で『検定』って出てきたんですけど、推定とどう違うのか、よく分からなくなっちゃいました…
AIの研究家
なるほど。『検定』と『推定』は似ているようで違いますね。例えば、クラスの平均身長を調べたいとします。この時、推定は『クラスの身長データ』から平均身長を計算するものです。一方、検定は『クラスの平均身長は160cmである』という仮説を立てて、それが正しいかどうかをデータを使って判断するんです。
AIを知りたい
あ、なんとなく分かってきました!じゃあ、推定はデータから何かを計算するけど、検定は先に仮説を立てて、それが正しいかを調べるんですね!
AIの研究家
その通りです!よく理解できましたね。このように、データ分析では『推定』と『検定』を使い分けることで、より深い分析ができるようになりますよ。
検定とは。
「検定」っていうのは、AIで使われる言葉で、集めたデータに対して、最初に立てた仮説が本当にあてはまるのかどうかを確かめることをいいます。これは、最初に仮説を立てて、実際に起こった結果と比べてみて、その結果が起こる確率を計算して、最終的な結論を出すっていう手順で行います。結論を出すには「背理法」っていう考え方を使います。「背理法」っていうのは、最初に仮説が正しいと仮定して、もしもその仮定が正しいとするとおかしなことになるよね?っていう矛盾を見つけたら、最初の仮説は間違っていたんだって判断する方法です。
似た言葉に「推定」がありますが、この二つは違います。「推定」は、データがどんな感じで散らばっているかを見て、その散らばり方を表す数式を決めて、その数式の細かい部分をデータから計算することです。一方、「検定」は、データがどんな感じで散らばっているかを表す数式の細かい部分を最初に決めておいて、その決め方が本当に正しいのかを、集めたデータを使って判断します。
さらに、「データがこの数式に従って散らばっていると仮定すると、数式の細かい部分はこうやって計算できますよ」っていうのが「推定」ですが、「データが本当にこの数式に従って散らばっているのかどうか」を判断するのも「検定」の役割です。(コロモゴロフスミノルフ検定)って呼ばれる検定方法がこれにあたります。
検定とは何か
– 検定とは何か私たちの身の回りでは、日々膨大なデータが生み出されています。新しい薬の効果、商品の売れ行き、ウェブサイトのアクセス数など、これらのデータは、私たちに様々なことを教えてくれます。しかし、データを正しく理解し、そこから意味のある結論を導き出すためには、統計学の力が必要となります。その中でも特に重要な役割を果たすのが「検定」です。検定とは、簡単に言うと、ある仮説が正しいかどうかを、データに基づいて統計的に検証するプロセスです。例えば、新しい薬を開発したとしましょう。この薬に効果があるかどうかを確認したい場合、「この薬には効果がある」という仮説を立てます。そして、実際に患者に薬を投与し、その結果を観察します。もし、薬を飲んだ患者が回復したとしても、それが本当に薬の効果なのか、それとも単なる偶然なのかは、すぐに判断できません。そこで、検定の出番です。検定では、集めたデータを統計的な手法を用いて分析し、仮説が正しいと言えるかどうかを客観的に判断します。 もし、データが仮説を強く支持するものであれば、その仮説は正しい可能性が高いと結論づけられます。 一方、データが仮説を支持しない場合、あるいは反対するような場合は、仮説は正しくない可能性が高いと判断されます。検定は、医学、薬学、心理学、経済学など、様々な分野で広く用いられています。新薬の開発や効果検証はもちろんのこと、マーケティング戦略の効果測定、新製品の評価など、データに基づいて意思決定を行う際には、必ずと言っていいほど検定が使われています。私たちが日々目にしている情報や製品の裏側にも、検定が深く関わっているのです。
検定の定義 | 具体的な例 | 検定結果による解釈 | 検定の活用分野 |
---|---|---|---|
データに基づいて仮説が正しいかどうかを統計的に検証するプロセス | 新薬の効果を検証する際に、「この薬には効果がある」という仮説を立て、患者に薬を投与し、その結果を観察する | データが仮説を強く支持する場合は仮説が正しい可能性が高い、データが仮説を支持しない場合は仮説が正しくない可能性が高いと判断する | 医学、薬学、心理学、経済学など、データに基づいて意思決定を行う様々な分野 |
検定の手順
ある仮説が正しいかどうかを検証する際に、検定という統計的な手法を用います。検定は、大きく3つの手順で行われます。
まず始めに、検証したい仮説を立てます。これを「帰無仮説」と呼びます。例えば、「新しい薬の効果は、従来の薬の効果と変わらない」という仮説を検証したい場合、これが帰無仮説になります。
次に、実際に集めたデータと統計的な手法を用いて、帰無仮説が正しいと仮定した場合に、得られた結果がどれくらいの確率で起こるのかを計算します。この確率を「p値」と呼びます。p値が小さいほど、帰無仮説が正しいと仮定した時に、得られた結果が稀であることを意味します。
最後に、p値と事前に設定した基準値を比較します。この基準値は一般的に5%や1%の値が用いられ、「有意水準」と呼ばれます。p値が有意水準よりも小さい場合には、帰無仮説が正しいと仮定すると、得られた結果は非常に稀であると判断できるため、帰無仮説を棄却し、対立仮説を採択します。対立仮説は帰無仮説と反対の仮説です。例えば、帰無仮説が「新しい薬の効果は、従来の薬の効果と変わらない」であれば、対立仮説は「新しい薬の効果は、従来の薬の効果と異なる」となります。
手順 | 内容 | 用語 | 説明 |
---|---|---|---|
1. 仮説を立てる | 検証したい仮説を設定する | 帰無仮説 | 例:新しい薬の効果は、従来の薬の効果と変わらない |
対立仮説 | 帰無仮説と反対の仮説 例:新しい薬の効果は、従来の薬の効果と異なる |
||
2. p値を計算する | 帰無仮説が正しいと仮定した場合に、得られた結果がどれくらいの確率で起こるのかを計算する | p値 | p値が小さいほど、帰無仮説が正しいと仮定した時に、得られた結果が稀であることを意味する |
3. 仮説の検証 | p値と有意水準を比較し、帰無仮説を棄却するか判断する | 有意水準 | 一般的に5%や1%の値が用いられ、p値が有意水準よりも小さい場合には帰無仮説を棄却する |
背理法による結論の導き方
– 背理法を用いた結論の導出
統計的な検定では、「背理法」という考え方が結論を導き出すために用いられます。
背理法とは、ある仮説が正しいと仮定し、そこから矛盾が生じることを示すことで、最初に立てた仮説が実際には間違っていたと結論付ける論法です。
例えば、ある人が「自分は嘘つきではない」と主張するとします。しかし、その人が過去に何度も嘘をついたという証拠が見つかったとしましょう。この場合、「嘘つきではない」という仮定から、嘘をついたという矛盾が生じます。そのため、最初の仮定である「自分は嘘つきではない」は誤りであると結論付けられます。
検定においては、「帰無仮説」が正しいと仮定した上で、データから得られた結果が非常に稀なケースである場合に矛盾が生じると考えます。 つまり、「帰無仮説が正しければ、このような結果は起こり得ないはずだ」という矛盾です。 この矛盾から、私たちは帰無仮説を棄却し、対立仮説を採択するのです。
このように、背理法を用いることで、直接証明することが難しい命題に対しても、矛盾を突き出すことで結論を導き出すことができます。
ステップ | 説明 | 統計検定における例 |
---|---|---|
1. 仮定 | ある仮説が正しいと仮定する。 | 帰無仮説が正しいと仮定する。 |
2. 矛盾の発見 | 仮定から矛盾が生じることを示す。 | データから得られた結果が、帰無仮説が正しいと仮定した場合、非常に稀なケースであることを示す。 |
3. 結論 | 矛盾から、最初の仮定が誤りであると結論付ける。 | 帰無仮説を棄却し、対立仮説を採択する。 |
推定との違い
– 推定との違いデータ分析の世界では、「検定」と非常によく似た言葉に「推定」という言葉が出てきます。どちらもデータ分析において欠かせない手法ですが、その目的は大きく異なっています。推定とは、手元にあるデータに基づいて、まだ知られていない値を予測することを指します。例えば、ある商品を購入した人の平均年齢を推定したいとします。この場合、実際に商品を購入した人から年齢データを収集し、そのデータの平均値を計算することで、平均年齢を推測します。これが推定と呼ばれる作業です。一方、検定はある仮説が正しいかどうかを、集めたデータを用いて統計的に検証するための手法です。例えば、「ある商品の購入者の平均年齢は30歳である」という仮説を立てたとします。この仮説が正しいかどうかを検証するために、実際に商品を購入した人から年齢データを集め、そのデータが「平均年齢30歳」という仮説と矛盾しないかどうかを統計的に判断します。このように、推定と検定はどちらもデータ分析で重要な役割を担いますが、推定は未知の値を予測するのに対し、検定は仮説の真偽を判定するという点で明確な違いがあります。
項目 | 説明 | 例 |
---|---|---|
推定 | 手元にあるデータに基づいて、まだ知られていない値を予測すること | 商品購入者の平均年齢を、収集した年齢データから計算する |
検定 | ある仮説が正しいかどうかを、集めたデータを用いて統計的に検証する | 「商品購入者の平均年齢は30歳である」という仮説が、収集したデータと矛盾しないかを統計的に判断する |
様々な検定手法
データ分析を行う上で、検定は欠かせない手法です。検定とは、収集したデータに基づいて、立てた仮説が正しいかどうかを統計的に検証する procedures を指します。一口に検定といっても、その手法は多岐に渡り、分析の目的やデータの性質に応じて適切なものを選択する必要があります。
例えば、2つのグループの平均値に違いがあるかを調べたい場合は、「t検定」が用いられます。例えば、男性と女性の平均身長に差があるか、新薬を投与したグループと偽薬を投与したグループの効果に差があるか、といったことを検証する際に用いられます。
一方、3つ以上のグループの平均値に違いがあるかを調べたい場合には、「分散分析」が有効です。例えば、異なる3種類の肥料を与えた場合の作物の収量に差があるか、4つの異なる広告を見た後の購買意欲に差があるか、などを分析する際に利用されます。
さらに、2つの変数の間に関係性があるかどうかを調べたい場合は、「相関分析」が用いられます。例えば、気温とアイスクリームの売上、勉強時間と試験の点数、といった2つの変数の関係性を分析する際に役立ちます。
このように、検定には様々な手法が存在し、それぞれ異なる目的やデータに適応されます。適切な検定手法を選択することで、より精度の高い分析結果を得ることができ、データに基づいた意思決定に貢献することができます。
検定手法 | 目的 | 例 |
---|---|---|
t検定 | 2つのグループの平均値に違いがあるかを調べる | 男性と女性の平均身長に差があるか 新薬を投与したグループと偽薬を投与したグループの効果に差があるか |
分散分析 | 3つ以上のグループの平均値に違いがあるかを調べる | 異なる3種類の肥料を与えた場合の作物の収量に差があるか 4つの異なる広告を見た後の購買意欲に差があるか |
相関分析 | 2つの変数の間に関係性があるかどうかを調べる | 気温とアイスクリームの売上 勉強時間と試験の点数 |