音色の指紋:メル周波数ケプストラム係数
私たちが日々耳にする音は、高さや大きさだけで決まるのではありません。同じ高さで同じ大きさの音であっても、全く違う音に聞こえることがあります。例えば、同じ高さの音をバイオリンで奏でたときと、フルートで奏でたときを想像してみてください。どちらも同じ音符を演奏しているのに、異なる楽器だとすぐに分かりますよね。これは、音の高さと大きさ以外にも、音を特徴づける要素が存在することを示しています。私たちはこの要素を「音色」と呼んでいます。
音色は、楽器や声の種類を見分けるだけでなく、感情や雰囲気を伝える上でも重要な役割を担っています。優しい音色、力強い音色、温かい音色など、音色によって私たちは様々な印象を受け取ります。
さて、この音色をコンピュータで扱うためには、音を数字の羅列に変換する必要があります。音の高さや大きさは比較的簡単に数値化できますが、音色を数値化するのは容易ではありません。音色は、倍音と呼ばれる様々な周波数の音が複雑に組み合わさることで生まれており、その組み合わせ方は無限に存在するからです。
そこで登場するのが「音色の特徴量」です。これは、複雑な音色の情報を、コンピュータで扱いやすいように数値化したものです。音色の特徴量には様々な種類があり、それぞれが音色の異なる側面を表しています。例えば、音の明るさ、温かさ、鋭さなどを数値化することで、コンピュータは音色の違いを認識し、処理することが可能になります。