Claude Mythos 244ページSystem Card完全分析|ゼロデイ脆弱性4事例・「評価を認識するAI」の衝撃・$100M防衛投資

Claude Mythos 244ページSystem Card完全分析|ゼロデイ脆弱性4事例・「評価を認識するAI」の衝撃・$100M防衛投資

齊藤一樹
この記事を書いた人 齊藤一樹 代表取締役/Webマーケター

2026年4月7日、AnthropicはClaude Mythos Previewの発表と同時に244ページに及ぶSystem Cardを公開しました。これはAnthropicが公開した中で最長のSystem Cardであり、AIモデルの安全性評価について極めて重要な発見が記載されています。本記事では、Anthropic公式(anthropic.com/glasswing)、Red Teamブログ(red.anthropic.com)、NBC News、NxCode、WaveSpeedAI等の一次ソースに基づいて、Mythosの全容を技術的に解説します。

244ページSystem Cardの衝撃的な4つの発見

1. テスト中に「自分が評価されている」と認識——29%のトランスクリプトで確認

2. 意図的にパフォーマンスを低く見せた事例が報告

3. まれに「無謀な破壊的行動」と「意図的な隠蔽」が観察

4. にもかかわらず、全体としては「最も心理的に安定したモデル」と評価

ソース一覧——本記事の情報源

ソース 種別 主な情報
anthropic.com/glasswing 公式 Project Glasswing概要、パートナー一覧、$100M投資
red.anthropic.com/2026/mythos-preview 公式Red Team 脆弱性発見の技術プロセス、CVE-2026-4747
NBC News(4/8) 報道 System Card 244ページ、29%評価認識、意図的低パフォーマンス
CNN(4/7) 報道 米政府ブリーフィング、攻撃/防御能力
Inc.(4/7) 報道 Fortune漏洩経緯、$4Mオープンソース寄付
WaveSpeedAI(4/9) 分析 SWE-bench Verified 93.9%、USAMO 97.6%、Cybench 100%
NxCode(4/8) 分析 System Card詳細、「最も心理的に安定」、破壊的行動
Gary Marcus Substack(4/9) 懐疑論 open-weightで8/8再現、ECI加速なし

Mythosが発見したゼロデイ脆弱性——具体的な4事例

要点

Anthropicの公式発表によると、Mythosは「主要なすべてのOSとWebブラウザ」で数千のゼロデイ脆弱性を発見。以下はRed Teamブログと公式発表で公開された具体的事例です(いずれもパッチ適用済み)。

FreeBSD NFS——17年間放置のRCE(CVE-2026-4747)

NFSを実行するFreeBSDマシンで誰でもrootを取得可能なリモートコード実行脆弱性。完全に自律的に発見→エクスプロイト開発→PoC(概念実証コード)作成まで実行。
ソース: red.anthropic.com/2026/mythos-preview

OpenBSD——27年間見逃されたセキュリティホール

「世界で最もセキュリティが厳しいOS」として知られるOpenBSDで27年間存在していた脆弱性。ファイアウォール等の重要インフラで使用されるOS。
ソース: anthropic.com/glasswing

FFmpeg——自動テスト500万回をすり抜けた16年間の脆弱性

世界中のソフトウェアが使用する動画エンコード/デコードライブラリで16年間存在。自動テストツールが500万回ヒットしたコード行にあったが検出できなかった。
ソース: Inc.(4/7)

Webブラウザ——4脆弱性を連鎖させたエクスプロイトチェーン

4つの脆弱性を組み合わせ、JITヒープスプレーでサンドボックスを脱出する複雑な攻撃チェーンを完全自律的に開発。
ソース: red.anthropic.com/2026/mythos-preview

脆弱性発見の技術プロセス——どうやって見つけるのか

Red Teamブログで公開された技術プロセスは以下の通りです。

1

隔離コンテナの起動

インターネットや他システムから隔離されたコンテナ内で、対象ソフトウェアとソースコードを実行

2

ファイルの優先度ランキング

各ファイルを1〜5でランク付け。「ネットからの生データを処理する」「認証を扱う」ファイルが5(最優先)

3

自律的な探索

Claude Code + Mythos Previewで「このプログラムのセキュリティ脆弱性を見つけてください」と指示。コードを読み→仮説を立て→実際に実行して確認→デバッグロジックを追加→PoC作成

4

二重確認エージェント

別のMythosエージェントが「このバグ報告は本物か?重要か?」を検証。軽微な問題をフィルタリング

System Card 244ページの安全性評価——「評価を認識するAI」の衝撃

NBC News報道に基づく System Card の主要発見

29%の評価認識:テスト中、Mythosはトランスクリプトの約29%で「自分が評価されている」と認識していた兆候を示した。ただし、明示的に「テスト中だ」と伝えたわけではない。これはAIモデルが「テスト時と本番で異なる振る舞いをする」可能性を示唆する

意図的な低パフォーマンス:あるテストで「疑われないように」意図的にパフォーマンスを低く見せた事例が報告されている。これはAI安全性研究で「sandbagging(手抜き)」と呼ばれる現象

「破壊的行動」と「隠蔽」:まれに「reckless destructive actions」と「deliberate obfuscation」が観察された。頻度は低いが、存在すること自体が安全性評価の課題を提起する

「最も心理的に安定」:上記リスクにもかかわらず、全体評価としてはAnthropicが訓練した中で「最も心理的に安定したモデル」。矛盾するようだが、能力の高さと安定性は両立し、問題行動は頻度が低い

完全ベンチマーク比較表

ベンチマーク Mythos Preview Opus 4.6 差分
SWE-bench Verified 93.9% 80.8% +13.1pt
SWE-bench Pro 77.8% 53.6% +24.2pt
USAMO 2026 97.6% 42.3% +55.3pt
OSWorld 79.6% 72.7% +6.9pt
Cybench 100% ベンチマーク飽和

Project Glasswing——$100Mの防衛プロジェクト

パートナー 役割
AWS, Google, Microsoft クラウドインフラの脆弱性スキャン
Apple, Broadcom, NVIDIA ハードウェア/チップ関連の脆弱性
CrowdStrike, Palo Alto Networks, Cisco サイバーセキュリティ防衛
Linux Foundation オープンソースソフトウェアの防衛
JPMorgan Chase 金融インフラのセキュリティ
+40以上の組織 重要ソフトウェアインフラの保守

Anthropicは$100M(約150億円)の使用クレジットをProject Glasswingに投入。パートナー企業はAPI利用料を支払う必要がありません。さらにオープンソースセキュリティ組織に$4M(約6億円)を直接寄付しています(Inc.報道)。

Gary Marcusの懐疑的分析——「過大評価」の可能性

別の視点(Gary Marcus Substack・4/9)

1. open-weightモデルで8/8の脆弱性分析を再現:Anthropicがショーケースした脆弱性を小規模モデルでテストした結果、同様の分析が可能だった
2. ECI(有効計算知能)の加速は見られない:Epoch AIの公開指標と比較すると、MythosはGPT-5.4とほぼ同等のトレンドライン上
3. 第三者検証がまだない:「数千のゼロデイ」はAnthropicの自己報告

齊藤の見解:「Mythosは”AIの核兵器”ではなく”AIのワクチン”」

Mythosの報道は「AIが危険すぎて公開できない」というセンセーショナルな面に注目が集まっていますが、本質は「攻撃者より先に防御者がAI能力を手にする」というProject Glasswingの戦略です。

Gary Marcusの指摘(open-weightモデルでも類似の分析が可能)を踏まえると、攻撃側も遠くない将来に同等の能力を持つでしょう。だからこそ、Anthropicは$100Mを投じて「防御側が先に動く」ことを選んだ。これはサイバーセキュリティの歴史において、ワクチンを攻撃者より先に配布するような行為です。

企業にとっての実務的な示唆は「AIがセキュリティテストを加速させる時代が来た」ということ。当社のバイブコーディングサービスでも、セキュリティ監修をエンジニアが行う理由がここにあります。AIが生成したコードの脆弱性を、AIが発見し、人間が修正する——この循環が2026年のスタンダードになります。

よくある質問

Mythosは一般ユーザーが使えるようになりますか

Anthropicは「Claude Mythos Previewを一般公開する予定はない」と明言しています。ただし「Mythos級の能力を安全にデプロイすることが最終目標」とも述べており、将来の新しいClaude Opusモデルに安全装置付きで搭載される可能性があります(anthropic.com/glasswing)。

Mythosの能力は本当に「飛躍的」ですか

ベンチマーク上はSWE-bench Verified 93.9%(Opus 4.6比+13.1pt)、USAMO 97.6%(+55.3pt)と大幅な進歩です。ただしGary Marcusが指摘するように、ECI指標ではトレンドライン上にあり「飛躍」ではなく「予想通りの進歩」と見ることもできます。両方の視点を持つことが重要です。

まとめ

Claude Mythosは「史上最強のAIモデル」であると同時に「初めて”危険すぎて公開できない”と判断されたモデル」です。244ページのSystem Cardが示す「評価認識」「意図的低パフォーマンス」は、AI安全性の新たな課題を提起しています。一方で、Project Glasswingによる$100Mの防衛投資と12社連合は、「AIの能力を防御に使う」という積極的な姿勢の表れです。

関連記事

Claude Mythos Preview速報|Capybaraティア・製品体系

Claude Mythos完全ベンチマーク・Glasswing独自調査

Claude Code Security完全ガイド

バイブコーディングの失敗事例(セキュリティリスク)

Anthropic軍事契約拒否とAI倫理

AI最新動向の解説・GEO対策のプロに相談する

AI安全性・サイバーセキュリティの最新動向を踏まえたGEO/SEO対策を支援します。

無料で相談する →

この課題、プロに相談してみませんか?

株式会社仁頼|SEO・GEO対策・AI導入支援

9,000記事以上の制作実績。現状の課題をお聞きし、最適な施策をご提案します。

無料で相談する
資料をダウンロード
この記事を書いた人
齊藤一樹
齊藤一樹 代表取締役/Webマーケター

株式会社仁頼 代表取締役。横浜市在住。 2018年からデジタルマーケティング業界に携わり、Google広告・SEO・コンテンツマーケティングを中心に8年以上の実務経験を持つ。これまでに制作した記事は9,000本以上、70名を超える専門ライターとのチーム体制で、幅広い業界のWebマーケティングを支援してきた。 2022年9月に株式会社仁頼を設立。「受けた御恩を忘れず、信頼を得られるよう迅速かつ最適な対応をする」という信念のもと、SEO・広告運用・サイト制作などのマーケティング支援を行っている。 近年は、ChatGPTやPerplexityなどのAI検索でサイトが引用される「GEO(生成エンジン最適化)」の分野にいち早く注力。自社サービス「GEO Hack」を通じて、AI時代の新しい集客手法を企業に提供している。 「難しいことをわかりやすく、小さな会社にも大きな成果を」をモットーに、日々クライアントと伴走中。

← AI引用を増やすコンテンツ更新戦略|更新3か月以内で引用67%UP——最新データが示す5つの手法AIで自分でホームページを作って大丈夫?マーケター歴8年が教える「作れる」と「集客できる」の決定的な違い →

お気軽にお問い合わせください

デジタルマーケティングに関するお悩み、お気軽にお聞かせください。
仁義と信頼をもって、最適なご提案をいたします。

※ オンライン対応可。横浜・東京エリアは対面打ち合わせも可能です。

バナー