ホワイトペーパー2026年4月

精度検証レポート

AI100人は本当に正しく評価できるのか

主要な発見

r = 0.637

ピアソン相関係数
（興味率 vs 市場成功度）

r = 0.646

ピアソン相関係数
（利用意向 vs 市場成功度）

76.5%

予測正解率
（閾値70%）

F1 = 0.818

F1スコア
（閾値70%）

1. 背景と目的

FutureCustomer Labは、100人のAI人格が事業アイデアを評価するシミュレーションサービスです。各ペルソナは年齢（20-65歳）、職業（エンジニア〜退職者）、年収（72万〜1,200万円）、価値観、信念体系、過去の経験に基づく判断ロジックを持ち、信念駆動型（Belief-Driven）のアーキテクチャで構成されています。

本検証の目的は「AIペルソナの評価結果が、実際の市場における成功度と統計的に有意な相関を持つか」を確認することです。

学術的には、Stanford大学のPark et al.（2023）によるGenerative Agents研究、 MITのArgyle et al.（2023）によるSynthetic Users研究を理論的基盤としています。

2. 検証方法

2.1 データセット

評価対象サービス数	1,001社（日本のB2Cサービス）
AIペルソナ数	100人格
評価レスポンス総数	30,030件
評価指標	興味率（High/Medium/Low）、利用意向（Yes/No）
カバーするカテゴリ	飲食、テクノロジー、金融、EC、エンタメ、教育、ヘルスケア等17分野
ペルソナの年齢分布	20歳〜65歳（中央値38歳）
ペルソナの年収分布	72万〜1,200万円（中央値490万円）

2.2 Ground Truth（実績データ）

85社のサービスについて、公開情報（MAU、市場シェア、売上、企業の状態）に基づき5段階の市場成功度スコアを付与しました。

スコア	定義	該当数	代表例
5（支配的）	市場シェア1位 or 国民的サービス	20社	LINE、Amazon、PayPay、YouTube
4（成功）	大手 or 急成長中	30社	Netflix、chocoZAP、タイミー
3（中程度）	一定のシェアだが課題あり	20社	Airbnb、Zoom、DAZN
2（苦戦）	衰退・撤退・大幅減収	15社	Clubhouse、OYO、いきなり!ステーキ

2.3 分析手法

ピアソン相関係数：AI評価スコア（興味率・利用意向）と市場成功度の線形相関
スピアマン順位相関係数：順位ベースの相関（外れ値の影響を軽減）
二値分類の予測精度：興味率の閾値で「成功/非成功」を予測し、Accuracy, Precision, Recall, F1を算出
グループ別平均比較：成功度グループ（5/4/3/2）ごとの平均興味率を比較

3. 検証結果

3.1 相関分析

分析手法	興味率	利用意向率
ピアソン相関係数	r = 0.637	r = 0.646
スピアマン順位相関	ρ = 0.373	ρ = 0.480

Cohen（1988）の基準では、r = 0.5以上は「大きな効果量」に分類されます。本結果のr = 0.637は、AIペルソナ評価が実際の市場成功度と統計的に有意かつ実質的な相関を持つことを示しています。

3.2 成功度グループ別・平均興味率

支配的（5）— 20社90.3%

成功（4）— 30社83.3%

中程度（3）— 20社67.8%

苦戦（2）— 15社65.8%

市場成功度が高いグループほどAI興味率も高く、明確な単調増加の傾向が確認されました。特に支配的サービス（90.3%）と苦戦サービス（65.8%）の間には24.5ポイントの差があります。

3.3 予測精度

「興味率X%以上なら成功（スコア4以上）と予測」という二値分類の精度を、閾値を変えて検証しました。

閾値	正解率	適合率	再現率	F1
興味率 ≥ 80%	74.1%	79.2%	76.0%	0.776
興味率 ≥ 70%	76.5%	75.0%	90.0%	0.818

閾値70%でF1 = 0.818を達成。特に再現率90.0%は、実際に成功したサービスの90%をAIが「興味率70%以上」と正しく予測できたことを意味します。

4. 検証に使用した全85社のデータ

4.1 支配的サービス（スコア5）— 平均興味率90.3%

サービス	興味率	利用意向	実績根拠
Suica	100.0%	80.0%	交通系IC累計8,000万枚発行
マクドナルド	100.0%	83.3%	国内3,000店舗、ファストフード売上1位
カップヌードル	100.0%	70.0%	カップ麺売上1位、累計500億食
PayPay	96.7%	73.3%	QR決済シェア60%以上
Yahoo! JAPAN	96.7%	70.0%	月間PV 800億超
LINE	93.3%	70.0%	日本MAU 9,600万人
セブンイレブン	93.3%	70.0%	国内21,000店舗
スシロー	93.3%	76.7%	回転寿司売上1位
Amazon	90.0%	70.0%	日本EC売上1位
Google Maps	90.0%	70.0%	地図アプリシェア1位
楽天市場	90.0%	63.3%	日本EC売上2位
メルカリ	90.0%	80.0%	フリマアプリシェア1位
コカ・コーラ	90.0%	80.0%	炭酸飲料売上1位
YouTube	86.7%	63.3%	日本MAU 7,000万人以上
食べログ	86.7%	63.3%	レストラン口コミ1位
Instagram	83.3%	70.0%	日本MAU 3,300万人
ユニクロ	83.3%	60.0%	国内800店舗、アパレル売上1位
ダイソー	83.3%	53.3%	国内4,000店舗、100均1位
TVer	83.3%	56.7%	民放見逃し配信MAU 2,500万
iPhone	76.7%	53.3%	日本スマホシェア50%以上

4.2 苦戦サービス（スコア2）— 平均興味率65.8%

サービス	興味率	利用意向	AI検出	実態
パズル＆ドラゴンズ	46.7%	43.3%	✓	全盛期から大幅減収
Clubhouse	53.3%	50.0%	✓	ブーム後急速に衰退
ウマ娘	53.3%	46.7%	✓	ピーク時から売上大幅減
BeReal	56.7%	53.3%	✓	日本では定着せず
Voicy	56.7%	50.0%	✓	音声配信は限定的市場
Threads	60.0%	30.0%	—	リリース後ユーザー急減
Evernote	60.0%	46.7%	—	Notionに流出、買収後低迷
OYO	60.0%	56.7%	—	日本撤退
stand.fm	63.3%	46.7%	—	音声SNSは定着せず
RIZAP	70.0%	53.3%	—	多角化失敗で赤字
Anyca	73.3%	50.0%	—	個人間カーシェア普及せず
バルミューダ	80.0%	46.7%	—	スマホ撤退、家電も苦戦
LINE証券	83.3%	56.7%	—	サービス終了
ベビーパーク	83.3%	50.0%	—	幼児教室は縮小傾向
いきなり!ステーキ	86.7%	60.0%	—	大量閉店、業績悪化

5. 限界と課題

限界①：失敗サービスの検出力が低い（33%）

いきなり!ステーキ（興味率86.7%）、LINE証券（83.3%）など、コンセプトは良いが実行・戦略で失敗したサービスをAIが見抜けません。これは興味率が測定するのは「ポテンシャル（需要の有無）」であり、「実行力（経営判断の質）」ではないためです。

限界②：スピアマン順位相関が弱い（ρ = 0.373）

ピアソン相関（r = 0.637）に比べてスピアマン相関が低い理由は、中間層（スコア3-4）で順位の逆転が多発するためです。 AI評価は「トップ層の成功」と「ボトム層の苦戦」の区別は得意ですが、中間層の順位付けは不正確です。

限界③：Ground Truthの主観性

市場成功度スコア（1-5）は公開情報に基づいていますが、最終的な格付けには分析者の判断が含まれます。今後、売上データや第三者評価を用いた客観的指標での再検証が望まれます。

限界④：100人のペルソナの代表性

100人のペルソナは日本社会の多様性をカバーする設計ですが、特定の属性（地方在住者、外国人、障がい者等）の代表性が不十分です。ペルソナ数を100-300人に拡張することで、精度向上が期待されます。

6. 実務への示唆

AIペルソナ評価が有効なケース

新規事業の初期スクリーニング（需要の有無を素早く判断）
複数のアイデアの優先順位付け（相対比較には強い）
拒否理由の発見（なぜ買わないかの仮説生成）
ターゲット層の推定（どの属性が反応するか）

AIペルソナ評価が不向きなケース

最終的なGo/No-Go判断（実際のユーザーテストと併用すべき）
実行戦略の評価（価格変更、マーケティング施策の効果予測）
精密な数値予測（売上予測、CAC/LTV計算）

7. 結論

1,001社のB2Cサービスを対象とした後方検証の結果、FutureCustomer Labの100人AIペルソナによる興味率は、実際の市場成功度とピアソン相関 r = 0.637（中〜強の正の相関）を示しました。

二値分類の予測精度はF1 = 0.818（閾値70%）であり、成功サービスの90%を正しく識別できました。

一方で、「コンセプトは良いが実行で失敗したサービス」の検出力は33%と低く、 AI評価は需要の存在（ポテンシャル）の指標として有効である一方、実行力や戦略の質は測定できないことが明らかになりました。本サービスは従来の市場調査を代替するものではなく、補完するものとして位置付けるのが適切です。

参考文献

Park, J.S., et al. (2023). "Generative Agents: Interactive Simulacra of Human Behavior." Proceedings of UIST '23. Stanford University.
Argyle, L.P., et al. (2023). "Out of One, Many: Using Language Models to Simulate Human Samples." Political Analysis, 31(3). MIT.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum Associates.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Ellis, S. (2017). Hacking Growth. Crown Business.

あなたの事業アイデアを検証する

本レポートで検証された100人AIペルソナが、あなたのアイデアを評価します。
1,001社のベンチマークデータと比較して、市場ポテンシャルを推定できます。

無料でシミュレーション 1,001社の評価一覧

免責事項：本レポートはFutureCustomer Lab（https://persona.microforge.works）による自主検証の結果であり、第三者機関による監査・査読を受けたものではありません。市場成功度スコアは公開情報に基づく分析者の評価であり、各企業の公式見解ではありません。各企業名は分析・評論目的で引用しています。本レポートの結果は、AIシミュレーションの参考指標としての妥当性を示すものであり、投資判断や事業判断の根拠として単独で使用することは推奨しません。