テキストマイニング

大量のテキストデータから、「隠れた」情報や特徴、傾向、互いの関連性を探し出す技術で、自由記述されたデータ(定性情報)をもとに行うデータマイニングです。

※「マイニング」の語源は鉱山から金属の鉱脈を採掘(=Mining)することに由来しており、宝探しという意味です。

テキストマイニングの活用シーン

  1. 大量のテキストデータをクラスターにまとめて整理し、短い言葉でクラスターの特徴を表現したい。
  2. 大量のテキストデータの中から、重要語やキーワードを抽出し、その出現頻度や同時出現関係等を分析したい。(全体傾向、重要事項を把握する)
  3. 大量のテキストデータの中から、キラリと光るアイディアや想定していなかったような斬新な提案、クリティカルなクレームやその兆しを発見したい
  4. 最近起き始めたこと、問題になり始めたことを見したい

分析事例

事例 単語フラグを立ててクラスター分析を行う

図1の階層クラスターは、10,000人から寄せられたおすすめメニューを分析した結果です。検索系と言われる大量のテキストの分析法としては、『コレスポンデンス分析』や数量化理論3類関連語マップ等があります。今回はおびただしい数の言葉から重要語のみを抜き出し、数量化理論3類を適用した後、その変数スコアから階層クラスターを作成しました(抽出された重要語を数量化3類の変数スコアから、階層クラスター分析をウォード法で実施)。トーナメント表のように見えますが、「似た言葉」=「関連性の高い言葉」を近い順につないでいます。

クラスター分析におけるテキストマイニングの事例

図1

この結果を見ると、調査対象者が美味しいと思うメニューは、大きく3つに分けられることが分かります。一番左がラーメンクラスターで、キーワードとしては、「こってり、豚骨」「スープ、味噌」「見た目、濃い、あっさり」「ネギ、塩、醤油」というものが挙げられました。このことから、人気のメニューは「見た目は濃そうだが意外にあっさりしており、ネギがたっぷりのったネギ塩ラーメンとネギ醤油ラーメン」というイメージでしょう。また2番目のクラスターには、丼系、カレー系、定食系などが見られ、人気があるのは辛いチキンカレー、大きい海老の天丼、トンカツ定食ということになります。

図2は、図1の一番右の「ランチ、ケーキ系」のクラスターを細かく見たものですが、大きく左側のランチコース系とデザート系に分かれます。

クラスター分析におけるテキストマイニングの事例(ランチ・デザート拡大図)

図2

まず、一番関連性が高いのは、この縦線の長さが短い、「サラダ、セット」「麺類、色々」であり、それぞれに「付く」「パスタ、ランチ」が関連している事が分かります。これらの固まりの右に「手作り」「パン」という言葉が出てきており、中程には「パスタ、ランチ」があります。総合すると、人気のランチコースは「色々な種類のパスタが選べ、サラダが付いているセット。パンは手作り」という感じになります。さらに右のクラスターを見ると、「甘いクリームチーズケーキ」も人気のメニューのようです。

このように、テキストマイニングと多変量解析の手法を組み合わせて1万人の自由回答を見ると、日本人のメニューへの意識が手に取るように分かります。さらに男女別、年代別、地域別などで分析したり、時系列での変化などを分析したりすれば、非常に面白い示唆が得られるでしょう。

事例 意味フラグを立てコレスポンデンス分析を行う

図3のマップは、「携帯電話で気に入っている点」について単語や文節それぞれに対していくつかに集約した「意味(かっこいいなど)」を割り振り、そのデータを使ってコレスポンデンス分析を行った結果です。サンプルの特徴は性年齢の区分で表されます。言葉の意味を同時にプロットした同時散布図となり、言葉の分析は単語の頻度だけでなく、文節に分けた上での係り受けも考慮に入れています。

コレスポンデンス分析におけるテキストマイニングの事例

図3

右上が男性方向、左下が女性方向を表しています。男性は液晶が明るいTFT、カメラがついてカッコいい等、女性はピンクでかわいい、写真が撮れる等が気に入っている理由だということが分かります。また、写メール等のことを表現するのに、男性は「カメラがついている」というスペック的見方を、女性は「写真が撮れる」というベネフィット的表現をするところなどが、テキストマイニングならではの結果と言えるでしょう。

このように単語の頻度だけではなく、意味の頻度を分析することで、新しいマーケティング上の示唆を得ることが可能になります。

関連コンテンツ

【ベトナム編】各世代の価値観に影響を与えた社会慣習とは

アジアのターゲット市場で消費者調査を行うと、「なぜこういった傾向がみられるのか」と、スコアの解釈への悩みに直面することがあります。その裏には、各国の消費者意識に影響をあたえる「社会背景」「文化背景」等が必ず存在し、海外で […]

  • リサーチャーコラム
コラム

【2020年5月】新型コロナウイルスが及ぼす消費者心理への影響

マクロミルでは、新型コロナウイルスによる消費者心理や消費金額などの影響を、定点観測調査データMacromilll Weekly Indexから読み解きお届けしている。今回は、先月に引き続き2020年4月から5月1週までの […]

  • リサーチャーコラム
コラム

不確実性な時代を読み解く。「定点観測データ」の活用

市場調査や社会調査では、個別の課題に必要なデータ収集のために設計する「アドホック調査 」だけではなく、同一手法で継続的にデータ収集する「定点観測調査 」も数多く実施されている。データをとり続けることは地味な作業でコストや […]

  • マーケターコラム
ナレッジブログ

募集中のセミナー

オンデマンド

【10分で解説!】「TikTok」の利用時間は増えている?アプリログデータから利用動態を解説!

  • #トレンド
  • #今すぐ見られる

オンデマンド

【10分で解説!】VTuberブームの裏側、視聴者のリアルな姿を分析!!

  • #トレンド
  • #今すぐ見られる

オンデマンド

【15分で解説!】「仮想通貨保有者」は情報マニア!?仮想通貨保有者のプロファイルを解説!

  • #トレンド
  • #今すぐ見られる

動画配信

有意差・サンプルサイズの考え方から、相関分析・回帰分析・クラスタ分析まで一挙解説!マーケティング・リサーチ基礎講座 <統計・多変量解析編>

  • #学習

動画配信

海外市場開拓のためのカラーマーケティング

  • #トレンド

生放送

データ分析と有識者からアジア市場のインサイトを考える-Asia Market Masterclass-

  • #事例
  • #トレンド

動画配信

マーケティングリサーチ基礎講座

  • #学習

動画配信

マーケティングリサーチ基礎講座(定性調査編)

  • #学習

その他のサービス

  • オンラインリサーチ
  • オフラインリサーチ
  • セルフ型アンケート
  • 海外調査
  • デジタル&データマーケティング
  • コンサルティング
  • マーケティングプロモーション
  • ヘルスケアマーケティング

おすすめコンテンツ

ナレッジブログ

マーケティングリサーチ有識者の見解を知る

コラム

マーケティングの基礎を学ぶ

マーケティング用語集

基礎的な用語を身に付ける

市場調査レポート・お役立ち資料

明日から使えるデータと活用術を手に入れる

メールマガジン

マーケティングに関するホットな話題やセミナーなどの最新情報をお届けします