
- 導入:マーケターのあなたが当然と思っていること
- AI(LLM)普及と「2026年問題」
- AI生成コンテンツによる「モデル崩壊」
- 人間証明されたデータの重要性
- マクロミルの人間由来データ
- 結びに変えて:「2026年問題」は一部の企業だけの課題ではない
導入:マーケターのあなたが当然と思っていること
この記事をお読みのあなたがマーケティング担当者だとして、あなたがチームと一緒になって作ったサイト記事やメールマガジンを見ている人が人間ではなかったとしたら、どう思うでしょうか? あるいは、TVCMを出すために分析していたメディアのオーディエンスや、メールマガジンを読んでくれているであろう顧客リストが、100%人間ではなかったとしたら? マーケティング施策の効果の一部は意味のないものとなってしまうし、その前段階の分析結果もまったく信頼できないものになるでしょう。
マーケティングにおいて「対象が人間であるかどうか」は、当然と思われているがゆえ、普段は疑問視されませんが、マーケティング活動の根幹にかかわる重要な問題です。
2017年のIAB(Interactive Advertising Bureau、米国の広告業界団体)の年次大会で、P&G のマーク・プリチャードCMOが当時のメディア業界にはびこるアドフラウド(サイトなりすましやボットによるインプレッション水増し等による広告費の詐取)について問題提起してから10年が経とうとしています。
当時の文脈とは異なる形で、再び「そのデータは人間由来のものであるかどうか」に焦点が集まっています。それはAIというテクノロジーの普及に伴う、AI生成コンテンツのオンライン上への氾濫、そして人間の代わりに顧客体験を担う「AIエージェント」の稼働開始、という文脈です。
AI(LLM)普及と「2026年問題」
OpenAIの「ChatGPT」やAnthropicの「Claude」、Google「Gemini」等に代表されるLLM(大規模言語モデル)とは、膨大なテキストデータで学習したディープラーニングモデルで、自然言語を理解し、学習するだけでなく、人間のように新たな文章を生成したり、翻訳したり、要約したりすることができます。
AIがLLMサービスという形で非常に使いやすい形で提供されたことで、エンジニアやビジネスパーソンだけでなく、一般の生活者までに使われるようになり、AIを使って加工・編集された画像やテキスト、AIが生成したテキストを人間が編集したものなどを身の回りでも見かけるようになりました。
しかし、コンテンツがAIで生成されることに喜んでばかりいられません。
アメリカの研究グループ「Epoch AI」が2022年11月に発表した論文によると、「機械学習に必要な高品質のテキストデータ*は2026年まで、低品質のテキストデータは2030年から2050年までの間に、画像データは2030年から2060年までの間に枯渇し、これが原因となって機械学習の進展が鈍化する」というのです。
*高品質のテキストデータは書籍やニュース記事、科学論文、ウィキペディアなどの人間の手によって編集されたコンテンツで、低品質のテキストデータはソーシャルメディアへの投稿のような編集のされていないコンテンツを指します。
Epoch AI “Will we run out of ML data? Evidence from projecting dataset size trends”
https://epoch.ai/blog/will-we-run-out-of-ml-data-evidence-from-projecting-dataset
また、AI研究の権威であるカリフォルニア大学バークレー校のスチュアート・ラッセル教授も、2023年7月に開催されたAIに関するカンファレンスの中で、「LLMをより大きくして、より多くのデータを使って学習させる方法は終わりつつあり、データは底をつき始めている」と予測しました。
ITU INTERVIEWS @ ITU AI for Good Global Summit: Stuart Russell
https://www.youtube.com/watch?v=fQFDoqieI9Q
こうした研究者たちが警鐘を鳴らす、AI学習用データの枯渇問題を「2026年問題」といいます。
もともと多くのLLM提供企業は、Googleが検索エンジンを作ったときのように、オンラインコンテンツをスクレイピング(クローリング)することでテキストデータを集めていました。
しかし、パブリッシャー各社は、AIに自社のコンテンツを学習させることに警戒心を持っていました。2023年末にOpenAIに訴訟を起こしたNew York Timesを筆頭に、ロイター、CNNといったニュースパブリッシャーや、プログラマーがソースコードを公開しているGitHub、ストックフォトのGetty Images、ブログプラットフォームのMedium、動画配信のDisney等は、AIによるスクレイピングを拒否しています。
2026年現在、こういったパブリッシャーのほうが多数派となっています。2026年1月の最新の調査によると、米国と英国における大手パブリッシャーの79%が、AIによるスクレイピングを少なくとも一つ以上ブロックしているといいます。
Eight in ten of world’s biggest news websites now block AI training bots
こうした高品質コンテンツが手に入らない状況を打破すべく、2023年にOpenAIがAP通信やドイツの大手パブリッシャーAxel Springer SE、ストックフォトのShutterstockと提携し、AI学習をするためにコンテンツに対価を支払いはじめました。この時、AI学習のために人間が編集したコンテンツを持つ企業に費用を支払うというモデルが初めて成立しました。
AI生成コンテンツによる「モデル崩壊」
しかし、オンライン上には情報爆発と言うほどコンテンツは溢れかえっているのに、LLM提供企業はなぜ高品質コンテンツにこだわっているのでしょうか。
それは、人間がつくったコンテンツでも、正しい構文や言葉遣いがされていないソーシャルメディアへの投稿や、AIが生成したデータでAIを再学習させると、モデルの精度が低下してしまう「モデル崩壊(Model Collapse)」のリスクがあるからです。
“近年、研究者は、旧モデルの出力のみに基づいてトレーニングされた生成モデルが、次第に不正確な成果を生み出していくことを発見しました。「取り返しのつかない欠陥」につきまとわれるこれらのモデルは、やがて役に立たなくなります。これは、あるモデルのフィッティング中の出力に発生したエラーが、後続モデルのトレーニングに含まれることによって発生します。その後、新しいモデルでも独自のエラーが発生します。モデル崩壊は、世代を重ね、エラーが積み重なるにつれて進行します。
これらのエラーは、生成AIモデルが元のデータ分布よりも差異が少ないデータ・セットを生成するために発生します。”
IBM: モデル崩壊とは https://www.ibm.com/jp-ja/think/topics/model-collapse
対策としては、モデルを小規模化することや、きちんとした合成データを使用することなどが言われています。
国立情報学研究所の佐藤一郎教授は、日本語のLLMを構築するにあたって、日本語の高品質データだけでのトレーニングには限界があるため、他言語で生成されたデータを活用するケースがあるが、Web上にあふれる生成AIコンテンツを学習するのであれば、前者のほうが品質管理上「まだまし」なのではないかと述べています。
“学習モデルの構築において、AI開発者が「意図的に」別の生成AIの出力を利用することと、ウェブコンテンツ収集などの「結果として」別の生成AIの出力を利用することを比べたときに、前者の方が品質や対象をコントロールしやすいというのが、合成データを学習用データに使う理由です。”
2026年問題でAIの学習データが底をつく?サム・アルトマン「巨大モデルへ突き進む時代は終わった」
https://diamond.jp/articles/-/381317?page=2
このように、AIのトレーニングのために「人間由来のデータ」、次点としても「人間由来の品質管理された合成データ」の価値がかつてないほど高まっています。
人間証明されたデータの重要性
人間由来のデータの価値が高まっているなかで、対象のデータが人間から生じたものか、AIが生成したものかどうかは、AIでは見分けが付きません。
OpenAIは自社で開発したAI生成コンテンツを検知するツール「AI Classifier」を、精度が出ないことを理由に半年で提供を停止していますし、スタンフォード大学の研究でも、検知ツールが非英語ネイティブの書いた文章を、AI生成コンテンツとして誤判断してしまう現象が指摘されています。
OpenAI: AI が書いたテキストを表示する新しい AI Classifier
https://openai.com/ja-JP/index/new-ai-classifier-for-indicating-ai-written-text/
スタンフォード大学: AI-Detectors Biased Against Non-Native English Writers
https://hai.stanford.edu/news/ai-detectors-biased-against-non-native-english-writers
こうしたAIが人間由来のコンテンツだけを用いてトレーニングができないという課題を解決しようしているプロジェクトがいくつか存在しています。有名なのは「World ID」や「Humanity Protocol」の取り組みです。とくに「World ID」の取り組みは、メディアでも取り上げられており、ご存じの方もいらっしゃるのではないでしょうか。
World ID
https://world.org/ja-jp/world-id
Humanity Protocol
FNNプライムオンライン: AI進化で「人間の証明」普及加速 サム・アルトマン氏 世界的に導入推進
https://www.fnn.jp/articles/-/1015070
World IDは、OpenAIのサム・アルトマンCEOによる別プロジェクトで、「Orb」という虹彩識別デバイスで、登録者の虹彩を読み取り、世界に一人だけの人間であることを識別し、保証するという仕組みです。World ID登録者には「Worldcoin」というトークンが支払われます。
このように、LLMの精度向上において人間由来のデータが必要という構造的課題に対し、「Web3」のスキームで人を動かして解決を図るサム・アルトマンの構想は非常に魅力的です。
マクロミルの人間由来データ
余談として、弊社の話になりますが、マクロミルでは登録してくれたモニターに、アンケートやインタビューに協力していただき、その謝礼として現金や電子マネーに変換可能なポイントをお配りしています。
統計的な正確性を保つためにも、モニター登録時の電話認証や、メールアドレス等の重複チェック、以降も定期的に登録情報の更新をお願いしたりと、アンケート回答内容の矛盾等をチェックすることで、人間がきちんと回答してくれたかどうかを確認しています。
こうしたプロセスを経て生まれた意識データは、信頼できる人間由来のデータとして、企業の商品開発やコミュニケーション施策といったマーケティングの各プロセスの意思決定にご活用いただいています。
モニター品質の管理・向上に取り組んできたマクロミルの意識データは、転職で行動データを扱う企業から来た私にとっては、宝のようなデータでした。行動データと比べてボリュームは少ないかもしれませんが、実在する人間のデータであることが明確で、その登録された性別や年齢、居住地などの情報は正確、アンケートを依頼しても数日以内にきちんと答えてくださいます。データは構造化されていて、各マーケティングの利用の同意も取れています。
もちろんポイントや謝礼目当てのお小遣い稼ぎで利用されている方も多くいらっしゃいますが、それだけでなく、企業や公共機関への役に立ちたいという気持ち(内発的動機付けで利用されている方)も見受けられます。ユーザーの貢献(アンケートやデータ提供)によってトークン(ポイントや謝礼)が支払われるというバリューエクスチェンジ(価値交換)が成立しているところは、Web3的でもあります。
結びに変えて:「2026年問題」は一部の企業だけの課題ではない
ここまでオンライン上の高品質データの枯渇がAIの精度に及ぼす影響について触れてきましたが、「2026年問題」に実際に向き合っているのはOpenAIやAnthropic、Google、MetaといったLLM自体を開発している企業の担当者で、それ以外の企業(=LLMを利用するユーザー企業)の担当者にとって、その影響は表面化してはいないというのが実際の体感ではないでしょうか。
しかし、この問題はすべての企業にとって関係があります。自分たち独自のAIサービス(AIエージェント等)を作ろうとする時、トレーニング用のデータの問題に必ずぶつかります。オンラインデータをもとに学習した大手企業のLLMは「ネット上の平均的な誰か」でしかなく、企業独自のノウハウや、サービス会員固有の本音をもとに作られていません。各企業が大手LLMをベースに、特定ドメインの専門性を高めようとしたときに、自社独自の質の高いデータを取り込んでいく必要があります。
企業が自社サービス会員や顧客の声を集めて(ファーストパーティデータとして)、AI学習に活用できるのが一番良いのですが、生活者は自分に合った情報や提案の実現のためでも、データを企業に預けることへの抵抗感が依然としてあるというのが現状です。
生活者は“パーソナライズ”をどう期待する?- 1,550人への調査で明らかになった期待と現状 –
https://www.macromill.com/service/knowledge-blog/marketer-column-027/
こうした企業の現状を解決するのは、企業の外で、実在の人間から同意を得て収集した意識データ(ゼロパーティデータ)ではないかと我々は考えています。
すでに、人間由来のデータの価値を理解されている先進的な企業は、マクロミルの意識データを用いて「AIペルソナ」や「AIエージェント」の構築、機械学習によるレコメンデーション最適化などにトライし始めています。
オンライン上の高品質データが枯渇し、競合企業も同じ大手LLMを使う中で、企業のマーケティングや顧客体験を差別化するのは「AIのアルゴリズム」ではなく、そこに流し込む「人間由来のデータ」の精度です。
マクロミルのCRM/CX支援ソリューションは、意識データによって顧客解像度を高め、(AIエージェントを含む)パーソナライズされた顧客体験の向上を支援しています。我々にお手伝いできることがありましたら、ぜひおっしゃってください。
お問い合わせ・見積り依頼
*マークのついている箇所は全てご入力ください。
著者の紹介
株式会社マクロミル 事業統括本部 事業企画部 CRM/CX事業ユニット ユニット長
原田 俊
2008年にデジタル・アドバタイジング・コンソーシアム株式会社に入社し、広告配信システムのインフラシステムエンジニアとして開発・運用業務に携わった後、アドテクノロジーをはじめとする先端テクノロジーのマーケティングリサーチや、パーソナルデータ領域の新規ビジネス開発業務に従事。また、業界団体や研究機関にて生活者のプライバシー保護プロジェクトを推進。2023年より株式会社マクロミルにて、会員基盤を保有する企業のCRM/CX支援事業を立ち上げ、現在推進中。
