階層クラスター分析のアルゴリズム

階層クラスター分析のためのアルゴリズムは複数存在しますので、
実際にはそれらの中からデータの特性に最も相性のよい手法を選んで分析を進めていきます。

ここでは最もシンプルな最短距離法を例に、階層クラスター分析の基本的な考え方を解説します。

図1

図1

左図のように散布図に描くことができるデータを、階層クラスター分析によって分類します。
 
図2

図2

まず全てのペア間の距離を求めます。その結果が左です。ここで最も距離が短いものを一番最初に結合します。2と3の距離が最も短いのでこれらを結合して、クラスターとします。
 
図3

図3

2と3を結合してクラスターとしました。
 
図4

図4

次に2と3のペアを除いて、最も近いペアを探します。1と3です。
 
図5

図5

3はすでに2とクラスターを形成しているので、1を2・3のクラスターに組み込みます。1・2・3がクラスターを形成しました。
 
図6

図6

ここまでの結合の過程をデンドログラムに表わすと左のようになります。デンドログラムの縦軸は距離となっており、2つのグループが結合した距離のところで線分が結合するようになっています。今回2と3は0.62の距離で、1と2・3グループが、0.65の距離です。
 
図7

図7

次に近いペアは7と8なのでこれを結合します。
 
図8

図8

クラスターができ、左のようになります。さらに、同様に進めていくと、次には3・4・5が1つのクラスターとしてまとまります。
 
図9

図9

4・5・6を結合すると、クラスター分けができています。しかし、階層クラスター分析はデータ全てが一つのクラスターとなるまで続けます。
 
図10

図10

すでに同じクラスターになっているペア間の距離(表のグレーの部分)は除いて、最も近いペアは4と8です。よって、4を含む4・5・6のクラスターと、8を含む7・8のクラスターが結合します。
 
図11

図11

次のステップで、1・2・3が4〜8のクラスターに組み込まれ、階層クラスター分析は終了です。このような形で、全てのデータが一つのクラスターとしてまとまるまで結合を繰り返します。
 
図12

図12

最終的なデンドログラムは以上のようになります。

クラスター分析TOPへ