クラスター分析とは

市場調査用語や分析手法について詳しく解説。分析手法では事例を用いて
複雑な分析手法を分かりやすく紹介。ネットリサーチ国内最大手のマクロミル運営。

クラスター分析

クラスター分析で何ができるのか

クラスター分析とは、異なる性質のものが混ざりあっている集団(対象)の中から互いに似たものを集めて集落(クラスター)を作り、対象を分類しようという方法を総称したものです。このクラスター分析を用いると客観的な基準に従って科学的に分類ができるため、マーケティングリサーチにおいては、ポジショニング確認を目的としたブランドの分類や、イメージワードの分類、生活者のセグメンテーションなどに用いられます。
調査データに対してクラスター分析を実行することで、メーカーサイドの視点に立った恣意的なブランドの分類や、デモグラフィック要因による生活者の分類とは異なった「生活者サイドの視点に立った分類」を発見できるのです。

2種類のクラスター分析

クラスター分析には、大きく分けると階層クラスター分析、非階層クラスター分析の2種類の方法があります。それぞれを手法の特長を見ていきましょう。

階層クラスター分析

寿司ネタの選好度データから、寿司ネタを分類するために階層クラスター分析を行った結果が下記の図に示されています。

階層クラスター分析の例

このように、階層クラスター分析を行うとデンドログラム(樹形図)が出力されます。この図によって、各寿司ネタがクラスターとして結合されていく過程を見ていくことができるのです。例えば、大トロ、中トロ、マグロ赤身を例にとってみると、大トロと中トロから出ている線がまず結合されます。(図中の[1])これは、大トロと中トロがこれ以降一つのクラスターとして結合されたことを表します。さらに[2]では、これがマグロ赤身と結合されます。これは、大トロと中トロのクラスターにマグロ赤身が組み込まれたことを表します。そしてこの大トロ、中トロ、マグロ赤身からなるクラスターは次に、カニ、ボイルえび、甘えび、ほたてからなるクラスターと結合します。

デンドログラムでは、図の下の方で結合すればするほど近い関係にあるといえるので、大トロと中トロは非常に近く、赤身はそれについで近いということがここから読み取れるのです。また、最も下で結合している赤貝ととり貝は、これらの寿司ネタの中で最も近い2つとわかり、図中の赤線より左側のクラスターと右側のクラスターは最も遠い関係にあるクラスターであるといえます。
図中の点線の部分の高さまでで結合されている6つのクラスターは色分けされています。この点線の高さを変えることで、クラスターの分割数を決めることができます。

このように階層クラスター分析を行うと、単に対象をいくつかのクラスターに分類するだけでなく、どのようにクラスターが結合されていくかの過程までが見られる非常に直感的なアウトプットが得られるのです。その反面、階層クラスター分析では分類する対象が非常に多い場合に、計算量が非常に多くなり実行不可能となったり、結果が不安定となってしまうという欠点もあります。
このような特長から非階層クラスター分析がよく用いられます。

非階層クラスター分析

マーケティングリサーチにおける非階層クラスター分析とは、似たようなパターンで回答した回答者が同じグループ(クラスター)に属するように自動でグルーピングを行うアルゴリズムです。同じクラスターの中に属する回答者はなるべく似通っているように、異なるクラスターに属する回答者間ではなるべく違いを際立たせる、というのが非階層クラスター分析の目的です。階層クラスター分析とは違い、大量の項目の分類に用いても結果が安定していることが特長で、サンプル数の多いマーケティングリサーチを行った場合の回答者のセグメンテーションに非常によく用いられます。

しかし、階層クラスター分析と異なり、非階層クラスター分析ではあらかじめ分析者がいくつのクラスターに分類したいかを入力しなければなりません。また得られる結果もそれぞれの回答者がどのクラスターに属するかを示す情報のみとなり、階層クラスター分析のようなデンドログラムが得られるわけではありません。そのため、クラスターの中身を決定木で調べるなどの方法をとることがあります。
このような特長から、非階層クラスター分析を行う際には、「クラスター数をいくつに設定するか」という問題が非常に重要となります。

それでは実例を見てみましょう。階層クラスターでは寿司ネタの分類を行いましたが、今度は寿司ネタの選好データから、好きな(嫌いな)ネタの種類で人を分類してみます。クラスター分析を複数回試行した結果、5つのクラスターに分類することが適当であると判断されたので、非階層クラスター分析によってアンケート回答者を5つのクラスターに分類した結果が下のグラフです。グラフはそれぞれの寿司ネタに対するクラスターごとの選好度の平均を示しています。

非階層クラスター分析の例

グラフより、まず青のクラスターAはウニ・数の子の軍艦巻きと、赤貝・とり貝が嫌いなクラスターであることが分かります。黒のクラスターBは巻きとヒカリ物を苦手とするクラスターで、緑のクラスターCは巻きと甲殻類が苦手でヒカリ物が大好きな様子です。水色のクラスターDはマグロとヒカリ物が嫌いで巻きが好きなクラスターで、ボリュームが全体の5.8%と少ないところが特長です。赤のクラスターEは、どのネタであろうと大好きなクラスターで、このクラスターの全体に対する構成比は最も大きくなっています。

このように非階層クラスター分析を用いると、似通った傾向を持った回答者をグルーピングすることができるのです。この例では、寿司ネタの選好度パターンから5つのクラスターに回答者を分類しましたが、他にもブランド選好度によるセグメンテーション、価値観やライフスタイルによるセグメンテーション、購買時の重視点によるセグメンテーションなど様々なセグメンテーションに応用することが可能です。

近さの定義

階層クラスター分析にせよ非階層クラスター分析にせよ、分類する対象がそれぞれどれほど「近い」か、もしくは「似ているか」を数量的に定義しなければ実行することはできません。このような近さの定義には様々なものがありますが、ここでは最も代表的な「ユークリッド距離」がどのように定義されているかを紹介します。
例としてある商品を購入する際に重視することを基軸に生活者をセグメンテーションするというシーンを想定し、それぞれのアンケート回答者間の「近さ」をどのように定義するのかを説明します。
まず、クラスター分析を行うために下記のような質問を利用します。

アンケート質問例

選ばれた回答に対し、「非常に重要」に7点、「重要」に6点・・・、「全く重要でない」に1点と点数をつけ、下記のようなデータを作成します。

アンケート回答データ例

すると下記のようなことが分かります。

「高性能である」

についてAさんとBさんは 7-6=1 違いがある。

「信頼できる」

についてAさんとBさんは 2-3=-1 違いがある。

「先進的である」

についてAさんとBさんは 4-4=0 違いがある。

「高級感がある」

についてAさんとBさんは 5-5=0 違いがある。

「国際的である」

についてAさんとBさんは 6-7=-1 違いがある。

「伝統がある」

についてAさんとBさんは 5-4=1 違いがある。

 

ここで、プラスの場合もマイナスの場合も同様な差として評価するために、それぞれの項目における差の2乗の合計の平方根をAさんとBさんの距離として定義します。こうして計算すると、

AさんとBさんの距離は2
AさんとCさんの距離は9.17
AさんとBさんの距離は8.49

となります。これをグラフで確認すると

アンケート結果グラフ例

このようになり、定義された距離が直感にも支持されます。このように、「距離」が定義されれば、「距離」の短い2つのサンプルは「近い」ということになります。クラスター分析はこのように数量的に定義された「近さ」を基に実行されていきます。さらに階層クラスター分析、非階層クラスター分析の詳細なアルゴリズムに興味がある方は下記のリンクへお進みください。

[→] 階層クラスター分析
[→] 非階層クラスター分析

クラスター分析の事例を無料ダウンロード

※お問い合わせフォームの「分析事例レポート」ボタンから、【因子/クラスター分析】の事例にチェックを入れてダウンロードをお願いいたします。

※資料に関してご不明な点、ご質問等ございましたらこちらまでお問い合わせ下さい。

CONTACT US

お気軽にご連絡ください。

フリーコールFREE CALL
0120-096-371
このページのトップへ戻る