テキストマイニング

インターネットの普及により、大量の生活者の声がデジタルテキストデータで取得できるようになりました。同時に、「テキストマイニング」という技術が注目され、市場調査におけるFA(自由回答)に対する関心も急速に高まってきました。しかし、大量の自由記述データを定量的に処理しようと思うと、莫大な時間とコストがかかるため、貴重な生活者の声を充分にマーケティング戦略に生かすことができないという問題がありました。

プログラムを使った単語の頻度や係り受け分析ではなく、意味フラグを立てることで文意を正確に定量化する事例を紹介します。

1.テキストマイニングとは

1-1. テキストマイニングの定義

  1. 大量のテキストデータから、「隠れた」情報や特徴、傾向、相関関係を探し出す技術
  2. 自由記述されたデータ(定性情報)をもとに行うデータマイニング

※「マイニング」の語源は鉱山から金属の鉱脈を採掘(=Mining)することに由来しています。

1-2. テキストマイニングの目的

  1. 大量のテキストデータを分類整理し、全体やクラスターごとにまとめ、短いコトバでその傾向や特徴を表現したい(要は誰が何を言ってるのかを知る)
  2. 大量のテキストデータの中から、重要語やキーワードを抽出し、その出現頻度や同時出現関係等を分析したい(全体傾向、重要事項を把握する)
  3. 大量のテキストデータの中から、キラリと光るアイデアや想定していなかったような斬新な提案、クリティカルなクレームやその兆しを発見したい
  4. 最近起こってきた、問題になってきた事柄を発見したい

2.分析事例

2-1. 単語フラグを立てクラスター分析を行った事例

階層クラスター全体俯瞰図

上図、階層クラスターは当社の調査専用パネル10,000名から寄せられたおすすめメニューを分析した結果です。

検索系と言われる大量のテキストの分析結果アウトプットには、『コレスポンデンス分析』『因子分析』、関連語マップ等がありますが、今回はおびただしい数の言葉から重要語のみを抜き出し、数量化3類にかけた後、その変数スコアから階層クラスターを作成しました。(抽出された重要語を数量化3類の変数スコアから、階層クラスター分析をウォード法で実施)トーナメント表のように見えますが、「似た言葉」=「関連性の高い言葉」を近い順につないでいくイメージになっています。

この結果を見ると、調査対象者が美味しいと思うメニューは、大きく3つに分けられることが分かりました。一番左がラーメンクラスターで、キーワードとしては、「こってり、豚骨」「スープ、味噌」「見た目、濃い、あっさり」「ネギ、塩、醤油」というものが挙げられます。このことから、人気のメニューは「見た目は濃そうだが意外にあっさりしており、ネギがたっぷりのったネギ塩ラーメンとネギ醤油ラーメン」というイメージでしょう。また2番目のクラスターには、丼系、カレー系、定食系などが見られ、人気があるのは辛いチキンカレー、大きい海老の天丼、トンカツ定食ということになります。

階層クラスターランチ、ケーキ系拡大図

こちらは上図の一番右のクラスター、ランチ、ケーキ系を細かく見たものですが、大きく左側のランチコース系とデザート系に分かれます。

まず、一番関連性が高いのは、この縦線の長さが短い、「サラダ、セット」「麺類、色々」であり、それぞれに「付く」「パスタ、ランチ」が関連している事が分かります。これらの固まりの右に「手作り」「パン」という言葉が出てきており、中程には「パスタ、ランチ」があります。総合すると、人気のランチコースは「色々な種類のパスタが選べ、サラダが付いているセット。パンは手作り」という感じになるでしょうか。さらに右のクラスターを見ると、「甘いクリームチーズケーキ」も人気のメニューのようです。

以上のように、1万人のFA(自由回答)をテキストマイニングと多変量解析の手法を組み合わせることにより、日本人のメニューへの意識が手に取るように分かります。さらに男女別・年代別・地域別等について分析したり、時系列での変化などを分析すれば非常に面白い示唆が得られると思います。

2-2. 意味フラグを立てコレスポンデンス分析を行った事例

コレスポンデンス分析の結果

上記マップは、市場調査系テキストマイニングの結果として「携帯電話で気に入っている点」について分析したコレスポンデンス分析の結果です。サンプルと抽出された言葉の意味を同時にプロットした同時散布図となり、言葉の分析は単語の頻度だけでなく、文節に分けた上での係り受けも考慮に入れています。

右上が男性方向、左下が女性の方向を表しており、男性は液晶が明るいTFT、カメラがついてカッコいい等が気に入っている理由だということが分かります。また、女性はピンクでかわいい、写真が撮れる等が気に入っている理由だと言いますが、同じ写メール等のことを表現するのに、男性は「カメラがついている」というスペック的見方を、女性は「写真が撮れる」というベネフィット的表現をするところなどが、テキストマイニングならではの結果と言えるでしょう。

このように単語の頻度だけではなく、意味の頻度を分析することで、新しいマーケティング上の示唆を得ることが可能になりました。

お客さまの課題・ニーズを伺ってリサーチの企画・提案を行います。
お気軽にお問い合わせください。