クラスター分析の基礎:最長距離法を解説

AIを知りたい
先生、「最長距離法」って、どんな計算方法なのか、いまいちよくわからないんです…。

AIの研究家
そうか。「最長距離法」は、「クラスター」を作る時に使う方法の一つなんだ。たくさんのデータの中から、似ているものをまとめてグループにすることを想像してみて。

AIを知りたい
データのグループ分け…。でも、どうやって「一番遠いもの」を使ってグループを作るんですか?

AIの研究家
良い質問だね! 例えば、いくつかの都市をグループ分けするケースを考えてみよう。それぞれの都市間の距離が分かっているとすると、「最長距離法」では、都市間の距離が一番遠いものを使ってグループを作るんだ。つまり、最も遠い都市同士でも、同じグループに所属するようにするんだよ。
最長距離法とは。
「一番遠いもの同士のやり方」は、ものを仲間分けする時に使う計算方法の一つです。これは、「一番近いもの同士のやり方」とは反対の考え方です。
全部がつながっているやり方とも言われます。
仲間の中にいるもの、それぞれの間の距離を全部測って、一番離れている距離を、仲間と仲間の間の距離として使うやり方です。
クラスター分析とは

– クラスター分析とはクラスター分析は、大量のデータの中から、似通った性質を持つデータ同士をグループ(クラスター)にまとめるための統計的な分析手法です。それぞれのデータが持つ様々な特徴を元に、データ間の類似度や距離を測ることでグループ分けを行います。この分析手法は、一見すると複雑なデータ群の中に潜む、隠れた構造や関係性を明らかにすることを目的としています。例えば、ある商店が顧客の購買履歴を分析し、顧客をグループ分けしたいとします。この時、クラスター分析を用いることで、過去の購入商品、購入頻度、購入金額などのデータに基づいて、顧客をいくつかのグループに分類することができます。この結果、例えば「高頻度で購入する常連客グループ」や「特定の商品を好んで購入するグループ」、「週末にまとめ買いをするグループ」といった具合に、顧客の購買行動パターンに基づいたグループが見えてきます。クラスター分析は、マーケティング分野以外でも幅広く応用されています。例えば、生物学の分野では、遺伝子の発現パターンを分析することで、機能的に関連の深い遺伝子同士をグループ化するために利用されています。他にも、医療分野での患者の類型化や、画像認識における画像の分類など、様々な分野で共通のパターンや関係性を発見するための強力なツールとして活用されています。
| 項目 | 説明 | 例 |
|---|---|---|
| 定義 | 似通った性質を持つデータ同士をグループ(クラスター)にまとめる統計的な分析手法 | – |
| 目的 | データ群の中に潜む、隠れた構造や関係性を明らかにする | – |
| 手法 | データ間の類似度や距離を測ることでグループ分けを行う | 過去の購入商品、購入頻度、購入金額 |
| 活用例 | – マーケティング:顧客の購買行動パターンに基づいたグループ分け – 生物学:機能的に関連の深い遺伝子同士をグループ化 – 医療:患者の類型化 – 画像認識:画像の分類 |
– 「高頻度で購入する常連客グループ」 – 「特定の商品を好んで購入するグループ」 – 「週末にまとめ買いをするグループ」 |
さまざまな距離尺度

データ分析、特にクラスター分析を行う上で、データ間の関係性を把握することは非常に重要です。データ間の「近さ」や「遠さ」を数値化することで、客観的な分析が可能となります。この「近さ」や「遠さ」を表す指標を距離尺度と呼び、分析の目的に最適なものを選択する必要があります。
代表的な距離尺度として、ユークリッド距離が挙げられます。これは、最も直感的に理解しやすい距離で、二点間の直線距離を表します。例えば、地図上の2地点間の距離を求める際に用いられます。一方、マンハッタン距離は、碁盤の目のように縦横にしか移動できないと仮定した距離です。これは、都市部での移動距離を計算する際に適切です。
ユークリッド距離やマンハッタン距離以外にも、様々な距離尺度が存在します。例えば、データのばらつきを考慮したマハラノビス距離や、データの順序関係のみに着目する順位相関係数などが挙げられます。
どの距離尺度を用いるかは、分析の目的やデータの性質によって異なります。適切な距離尺度を選択することで、より精度の高い分析結果を得ることができます。
| 距離尺度 | 説明 | 用例 |
|---|---|---|
| ユークリッド距離 | 二点間の直線距離 (最も直感的に理解しやすい) |
地図上の2地点間の距離 |
| マンハッタン距離 | 碁盤の目のように縦横にしか移動できないとした距離 | 都市部での移動距離 |
| マハラノビス距離 | データのばらつきを考慮した距離 | – |
| 順位相関係数 | データの順序関係のみに着目した距離 | – |
最長距離法:その特徴とは

– 最長距離法その特徴とは最長距離法は、クラスター分析という、似た性質を持つデータを集めてグループ化する分析手法の中でも、階層的にグループを形成していく方法の一つです。この手法は、異なるグループに属するデータ間の距離のうち、最も遠い距離をグループ間の距離として採用する特徴があります。これは、例えるなら、グループの中で一番遠く離れている人同士の距離を、グループ間の距離とみなすようなものです。そのため、この手法は完全連結法とも呼ばれます。最長距離法は、離れた要素を明確に区別する必要がある場合に特に有効です。例えば、様々な種類の植物を分類する場合を考えてみましょう。花の形や大きさ、色など、植物には多くの特徴があります。この時、最も異なる特徴を持つ要素、例えば、花びらの数が全く異なるもの同士を基準に分類したい場合に、最長距離法は役立ちます。このように、最長距離法は、グループ内の最も遠い要素間の距離を重視することで、異なるグループを明確に区別することができます。しかし、外れ値(極端に異なる値)の影響を受けやすいという側面も持ち合わせています。そのため、分析の目的やデータの特性を考慮して、適切な手法を選択することが重要です。
| 手法 | 特徴 | メリット | デメリット | 用途例 |
|---|---|---|---|---|
| 最長距離法 (完全連結法) |
グループ間の距離を、最も遠いデータ間の距離で定義する。 | 離れた要素を明確に区別できる。 | 外れ値の影響を受けやすい。 | 様々な種類の植物を、最も異なる特徴で分類する。 |
最長距離法の計算方法

– 最長距離法でデータをまとめよう最長距離法は、データ分析において、似た特徴を持つデータをグループ(クラスター)にまとめる際に用いられる手法です。 ここでは、その計算方法を具体的に見ていきましょう。まず、分析対象となる全てのデータ間の距離を計算します。距離は、データの特徴を数値化し、その差を測ることで求められます。例えば、身長と体重のデータであれば、ユークリッド距離などを用いて計算することができます。次に、計算した距離をもとに、最も距離の近いデータ同士を結合し、一つのクラスターを作ります。最初の段階では、データが二つずつ組み合わさり、複数の小さなクラスターが形成されます。その後、既存のクラスターと、新たに結合されたクラスターとの間の距離を再計算します。この時、それぞれのクラスターに属するデータ間の距離の中で、最も遠い距離を採用するのが最長距離法の特徴です。 つまり、クラスター間の最も離れたデータ間の距離を、新たなクラスター間の距離と定義します。この手順を繰り返し行うことで、クラスターの数が徐々に減っていき、最終的に全てのデータが一つの大きなクラスターにまとめられます。このように、最長距離法は、クラスター内のデータ間のばらつきを最小限に抑えながら、異なる性質を持つデータ群を明確に区別することができます。
| ステップ | 説明 |
|---|---|
| 1 | 全てのデータ間の距離を計算する(例:身長と体重データならユークリッド距離などを使用) |
| 2 | 最も距離の近いデータ同士を結合し、クラスターを作る |
| 3 | 既存のクラスターと、新たに結合されたクラスターとの間の距離を再計算する(クラスター間の距離は、それぞれのクラスターに属するデータ間の最も遠い距離で定義する) |
| 4 | クラスターの数が1つになるまで手順3を繰り返す |
最長距離法の利点と欠点

– 最長距離法の長所と短所最長距離法は、データ間の距離を測る際に、最も遠いデータ点間の距離を基準にする方法です。この方法は、外れ値の影響を受けにくいという長所があります。データの中に極端に離れた値が含まれている場合でも、その値に引っ張られることなく、データ群の大まかな中心を見つけ出すことができます。これは、他のデータ点との距離が大きく離れている外れ値の影響を最小限に抑えられるためです。しかし、最長距離法には、計算量が多いという短所も存在します。データ間のすべての組み合わせにおける距離を計算する必要があるため、データの数が増えるほど計算量が爆発的に増加します。特に、扱うデータが大規模になると、計算に膨大な時間がかかる場合があり、実用性に欠ける可能性があります。そのため、最長距離法は、外れ値の影響を抑えたい場合に有効な方法ですが、データの規模が大きくなるにつれて計算量が膨大になるという側面も考慮する必要があります。大規模なデータセットを扱う場合は、計算時間などのコストと、外れ値への対応のバランスを踏まえて、他の距離計算方法と比較検討することが重要です。
| 項目 | 内容 |
|---|---|
| 長所 | 外れ値の影響を受けにくい。極端に離れた値に引っ張られることなく、データ群の大まかな中心を見つけ出すことができる。 |
| 短所 | 計算量が多い。データ間のすべての組み合わせにおける距離を計算する必要があるため、データの数が増えるほど計算量が爆発的に増加する。 |
