機械学習の鍵!アノテーションとは?
- アノテーションとは
アノテーションとは、機械学習のモデルが学習するために必要な、正解データを作成する作業のことです。
例えば、犬や猫の写真を大量に集めたとします。しかし、コンピューターはその写真を見ただけでは、どれが犬でどれが猫なのかを判断することができません。そこで、人間が介入して、写真に写っている動物が犬なのか猫なのかを一つずつ判断し、正解のラベルを付けていく作業が必要になります。
このように、データに対して「これは犬」「これは猫」といった具合に意味付けをする作業を、アノテーションと呼びます。
文章の場合も同様です。ある製品に対する大量のレビューを集めたとします。しかし、コンピューターはそのレビューを読んだだけでは、それが肯定的な意見なのか否定的な意見なのかを判断することができません。そこで、人間が介入して、それぞれのレビューが製品に対して好意的な内容なのか、そうでないのかを判断し、正解のラベルを付けていく作業が必要になります。
このようにして作成された、正解ラベル付きのデータは、機械学習モデルの学習に利用されます。このデータのことを、教師データと呼びます。アノテーションによって作成された教師データは、機械学習モデルがより正確に犬と猫を区別したり、文章の感情を分析したりするために、必要不可欠なものです。