多変量解析の基礎知識

「多変量解析」という言葉を聞いたとたんに「自分は数学が苦手だから」と引いてしまう方も多いようですが、マーケティングで多変量解析を使うという意味においては、数式の理解はまったく必要ないと言っても過言ではありません。それ以上に、多変量解析で何ができるのか、どんな時にどんな手法を使うのが最適なのか、結果をどう解釈するのか、といったことのほうがはるかに重要なのです。多変量解析は万能ではありませんので、パソコンで計算をすれば求める結果が出るというものではありません。よい結果を導くためには入念な設問設計と得られたデータの予備解析が非常に重要で、実はこの部分に一番時間もとられるのです。そしてその結果から自分が何に気づくか、それが最大のポイントです。

1.多変量解析の基礎知識

1-1.多変量解析とは

「多変量解析とは複数の変数に関するデータをもとにして、これらの変数間の相互関連を分析する統計的技法の総称である(体系マーケティングリサーチ事典:同友館)」とあるように、性別や年齢などの属性プロフィールデータや、ある商品やサービスに対しての認知度や理解度、好意度等に、どういう関係があるかを統計的に分析しようという極めて科学的な手法です。

1-2. 1変量解析

「多変量解析」と言うからには、「1変量解析」もあるだろうと思われるでしょうが、その通りです。多変量は1変量をたくさん集めたものですから、1変量解析も非常に重要なステップとなります。データが集まったからと言って、いきなり多変量解析にかけてもよい結果は出ません。まずは1変量、2変量解析を充分行うことが重要です。では、1変量解析とはどんなものなのでしょうか。

賢い囚人スタット

ある刑務所では毎朝1個のパンが支給されます。囚人のスタットは毎日自分に配られるパンの大きさがかなりばらついているのが気になっていました。「今日は少し大きめだ」「今日のはかなり小さい」「同じ大きさに作るのは難しいのだからしかたがないかな」と思っていたのです。でも、どうも小さいときのほうが多いような気がして、それから毎日パンの大きさを測ることにしました。何日か後、スタットは看守の不正に気づき、その結果を刑務所の所長に見せました。実はその看守が意識的に大きいパンをリベートをもらっている囚人に配っていたことが判明したそうです。看守は「スタットにも時々は大きいパンを配ってばれないようにしたんだけどなあ」と不思議がっていたとのことです。

賢い囚人スタット

1変量解析で代表的な手法がヒストグラムです。上記「賢い囚人スタット」の例で言えば、作ったパンの大きさデータを適当な等間隔のクラスに分け、グラフにしたのが下記の図です。パン職人が同じ大きさになるように作れば、パンはこのような左右対象な分布(正規分布)になるでしょう。

パン
図1. 正規分布(左右対称できれい)

図1. 正規分布(左右対称できれい)

ところが、意識的に小さめのパンを配り、時々大きなパンを混ぜるということをすると、配られたパンは下記のような図になってしまいます。配られたパンは作られたパンの母集団を代表していないことになるのです。賢い囚人スタットは、このようにして看守の不正をあばいたのでした。

図2. 偏りのある分布(右の方にもう一つのピークがある)

図2. 偏りのある分布(右の方にもう一つのピークがある)

1変量を解析する上で、平均値(すべての個別データをたしあげて、その合計をデータの個数で割り算した値)、中央値(データを大きさの順に並べてちょうど真ん中にくる値)、最頻値(対象者が最も集中しているデータ値)、分散、標準偏差などの指標があります。それらのイメージを図で表したのが下記です。1変量解析としては、その他箱ひげ図や、度数折れ線グラフ等があり、多変量解析を実施する前のデータクリーニングに使用されます。

図3. 分散、中央値、平均値、最頻値

図3. 分散、中央値、平均値、最頻値

1-3. 2変量解析

1変量が1つの項目だけを対象にしていたのに対し、2変量解析では身長と体重、年収と預金高など2つの項目を扱います。この2変量のデータを平面上にプロットしたものを散布図といいます。下図のように2つの項目をプロットしてみると、その項目間の関係がよく分かります。

図4. 相関のある分布

図4. 相関のある分布

相関の強さを相関係数と言います。相関係数がプラスの場合は正相関、マイナスの場合は逆相関と言い、その絶対値が1に近い場合は相関が高く、0に近い場合は低くなります。

図5. 相関のない分布

基準の一例(絶対値)

0.7以上  強い相関

0.4~0.7  中程度の相関

0.2~0.4  弱い相関

0.2以下  相関はほとんどない

図5. 相関のない分布

相関係数が低い(r=0.26)からといって、2つの項目に関係がないとは言えません。相関係数だけを見て分析を行うと、2つの変数・事象には関係がないと言う間違った結論を出す危険性もあります。例えば、下記の図のようにケーキの甘さとおいしいと感じる度合いの関係を見ると、ある程度までは甘くなった方がおいしいと感じるが、度を超えるとおいしくなくなります。このような場合は、分析に工夫が必要になります。

図6. 相関がなくても関係のある分布

図6. 相関がなくても関係のある分布

逆に、相関係数が高いからといって、単純にその2項目に因果関係があるとは限りません。身長と体重には高い相関があると想像できます。しかし、太れば身長も伸びるかと言えばそうではなく、相関関係と因果関係は違うという認識を明確に持つべきでしょう。

また、図7は、小学生の漢字の書き取りの成績とボール投げの距離の相関を見たものです。全体で見ると、相関係数は0.83となり、高い相関がありそうです。しかし、このデータが、小学校1年生と6年生のデータだったら、どうなるでしょうか。小学校1年生(赤・でプロット)だけで見ると、相関係数は-0.12、6年生(青・でプロット)では0.13となり、漢字の書き取りとボール投げの間に相関がないことがはっきりします。これは、本来層別すべき状況で、適切な層別が行われなかったために起こった現象です。ここまで極端なケースではなくても、実際の分析の場面で起こりがちな現象なので、十分な注意が必要です。

図7. 層別すれば相関がない分布

図7. 層別すれば相関がない分布

1-4.外れ値

多変量データが得られても、間違ったデータやいいかげんなデータを除去しないのであれば、いくら高度な多変量解析を行っても意味がありません。多変量解析の前に、1変量、2変量解析を行い、多変量解析に適したデータであることを充分確認する必要があります。不適当なサンプルを除去するだけでなく、設問に関しても、削除が必要であれば思い切って捨てることが大切です。

図8. 外れ値

図8. 外れ値

しかし、外れ値からは重要な発見があることもあり、除去するには適切な判断が必要です。また、そのような値を扱う場合は、ノンパラメトリックな統計手法を用いる必要があります。

2.多変量解析の実際

2-1.扱うデータの種類

多変量解析で扱うデータには以下の4種類があります。扱うデータの種類によって、用いることのできる手法が変わりますので、よく理解する必要があります。

1.名義尺度
質的データ。"分類"を目的とした尺度で、順序に意味がない。「男女」「職業」「居住地区」「保有物の種類」等。アイテムカテゴリー型とも言う。
1.名義尺度
2.順序尺度
質的データ。順序に意味があるが間隔が等しいとは限らない。「長男・次男・三男」「1位・2位・3位」。これを間隔尺度と見なして扱うことも多い。
2.順序尺度
3.間隔尺度
量的データ。順序尺度で、かつ"間隔"にも意味がある。ただし原点の位置はどこでもよい。 「摂氏などの温度」。何倍暑いとは言えない。
3.間隔尺度
4.比率尺度
量的データ。間隔尺度で、かつ"原点"に意味がある。「距離・大きさ」、「お金」等。何倍大きいなどと言える。絶対温度は比率尺度と言える。
4.比率尺度

2-2.多変量解析の目的

多変量解析の目的としては、大きく分けて「予測」と「要約」の2つがあります。この2つの目的によって、手法が異なります。

図9. 予測の手法

図9. 予測の手法

図10. 要約の手法

図10. 要約の手法

2-3.多変量解析の種類

多変量解析には扱う変数の種類とその目的に応じて、いろいろな手法があります。下表の説明変数(独立変数)とは、原因となる事柄に関する変数、目的変数(従属変数)とは、結果となる事柄に関する変数です。多変量解析は、この説明変数と目的変数との関係や説明変数同士の関係を調べ、関係式を作ってその関係を明らかにします。

目的変数=従属変数 説明変数=独立変数 多変量解析の目的
量的 質的
あり 量的 重回帰分析 数量化1類 量の推定 予測
質的 判別分析 数量化2類 質の推定
なし 主成分分析
因子分析
MDS(多次元尺度構成法)
数量化3類
数量化4類
多変量の統合整理
変量の分類
代表変量の発見
要約
重回帰分析 複数の説明変数から1つの目的変数を推定します。例えば、目的変数を従業員の年収として、年齢・会社の規模(資本金)・売上高・利益等の説明変数の影響度を求め、年収を推定します。(1つの変数から1つの目的変数を推定するのは、単回帰分析と言います。身長から体重を推定するのが、単回帰分析の例です)
数量化1類 量的な目的変数(外的基準)に対して説明変数が質的な場合、数量化1類により、重回帰分析と同様な推定を可能にします。例えば、店員のサービス・品揃え・立地等の質的説明変数から店の売上を予測します。
判別分析 目的変数が質的変数になります。よく使われるのは、2カテゴリーのデータで、例えば、購入/非購入・継続/中止などの判別を、価格・予算・使用量・支払い金額等の量的な説明変数によって行います。
数量化2類 判別分析の場合量的だった説明変数に質的変数を適応可能にさせたものです。例えば、サービスの印象・売り場の印象・商品評価などの質的説明変数から、購入/非購入を判別します。
主成分分析 多くの量的説明変数がある場合、これを少数の総合指標(合成変数)で表す目的で用いられます。1番目に得られる総合指標を特に第1主成分と言います。例えば、ある商品の満足度についていろいろな属性から評価を得て、これを主成分分析にかけると、第1主成分として総合的満足度のようなものが得られます。主成分分析は、説明変数に誤差を認めないか、認めた場合は誤差を含めて主成分の計算をするという特徴があります。
因子分析 多くの量的説明変数がある場合、これらの変数に共通して影響を与えていると考えられる少数の変数(因子)によって、説明変数を表そうとするものです。各説明変数は、少数の共通因子と各変数独自の因子(誤差)によって表されます。例えば、各教科の点数を、理系能力因子・文系能力因子等を仮定して説明するものです。
多次元尺度構成法(MDS) 個体間の類似度の高さに応じて、似ている個体を近い距離、似ていない個体を遠い距離に配置します。出力は幾何学的で軸に意味はないと言えます。
数量化3類 外的基準がない場合、質的データの内部構造から尺度化を行うものです。内部の反応パターンに基づき、アイテム・カテゴリーと個体(対象者)において対応的な類似関係を求めるものです。ほぼ同じ原理の手法として、コレスポンデンス分析(対応分析)があります。コレスポンデンス分析は量的変数も扱えます。カテゴリーデータの場合、数量化3類とコレスポンデンス分析が扱う行列には、次にあげる表のような違いがあります。
数量化4類 数量化3類同様、外的基準がない分析法で、カテゴリ間の類似性の高さを表す指標が得られた時、この指標をもとに対象に数値を与えるものです。多次元尺度構成法(MDS)に近い考え方です。

数量化3類が分析に用いる行列

対象者 問1 問2 問3
1 1 0 1 2
2 0 0 1 1
3 1 1 0 2
4 1 0 1 2
5 1 1 1 3
4 2 4  

コレスポンデンス分析が分析対象とする行列

対象者 問1
はい
問1
いいえ
問2
はい
問2
いいえ
問3
はい
問3
いいえ
1 1 0 0 1 1 0 2
2 0 1 0 1 1 0 1
3 1 0 1 0 0 1 2
4 1 0 0 1 1 0 2
5 1 0 1 0 1 0 3
4 1 2 3 4 1  

多変量解析には、この表以外にもマーケティング上の課題解決によく用いる手法として、クラスター分析コンジョイント分析等があります。

これらの手法は、説明変数の関係性(からみ具合)や変数間の因果関係を明確にしようというもので、これらを定量的に把握したいときなどに極めて有用です。

これらの新しい手法では、分析者の仮説の設定力、課題の洞察力などが、結果に大きく影響します。この仮説構築や課題の構造化のために、評価グリッド法®グループインタビュー等の定性調査と併用することが、結果の安定性と妥当性を高める上で非常に有効であると言えます。

お客さまの課題・ニーズを伺ってリサーチの企画・提案を行います。
お気軽にお問い合わせください。