2026年4月8日、AnthropicはClaude Mythos PreviewとProject Glasswingを正式発表しました。Mythos Previewは「これまでに構築した中で最も高性能なモデル」であり、SWE-bench Proで77.8%(Opus 4.6は53.4%、GPT-5.4は57.7%)、数学オリンピック(USAMO)で97.6%(Opus 4.6は42.3%)と、全ベンチマークで既存モデルを圧倒しています。本記事では、Anthropic公式ページ(anthropic.com/glasswing)、VentureBeat独占インタビュー、red.anthropic.comのテクニカルレポート、NxCode・officechaiのベンチマーク分析を含む独自調査に基づいて、全容を解説します。
30秒でわかるClaude Mythos Preview
1. Opus 4.6を全10ベンチマークで大幅に上回る次世代フラグシップモデル
2. 全主要OS・ブラウザでゼロデイ脆弱性を数千件自律発見(27年間見落とされたOpenBSD欠陥を含む)
3. Project Glasswingとして12社連合(AWS・Apple・Google・Microsoft等)に限定提供
4. $100M利用枠+$4Mオープンソース寄付。一般APIは「サイバー能力のため」非公開
5. 内部コードネームは「Capybara」——Opusの上に位置する新ティア
完全ベンチマーク表——全10指標でOpus 4.6を上回る
要点
SWE-bench Pro(実務レベルのソフトウェア開発)で+24pt、USAMO(数学オリンピック)で+55pt、SWE-bench Multimodal(視覚+コード)で2.2倍——「インクリメンタルな改善」ではなく「質的飛躍」と評価されています。
特筆すべきはSWE-bench Multimodal(59.0% vs 27.1%)。これはスクリーンショットやUI画像を見ながらコードを書くタスクで、Opus 4.6の2.2倍というスコアは「視覚理解+コード生成」の質的ブレイクスルーを示しています。
また、USAMO 2026(数学オリンピック)の97.6%は衝撃的です。Opus 4.6の42.3%から55ポイント上昇しており、GPT-5.4の95.2%をも上回っています。証明ベースの数学問題をほぼ完璧に解けるAIが登場したことになります。
GPT-5.4との直接比較——Mythosはどれだけ先を行っているか
SWE-bench Pro
Mythos 77.8%
GPT-5.4: 57.7%(-20pt)
USAMO 2026
Mythos 97.6%
GPT-5.4: 95.2%(-2.4pt)
GraphWalks BFS 1M
Mythos 80.0%
GPT-5.4: 約20%(4倍差)
NxCodeの分析によると、SWE-bench Proの24ポイント差は「ベンチマークゲーミング(テスト問題の暗記)」では説明できません。Anthropicは暗記の兆候を示す問題をスクリーニングしており、それらを除外してもMythosの優位は維持されています。
Project Glasswing——サイバーセキュリティの歴史的転換点
要点
Project GlasswingはAnthropicが主導するサイバー防衛イニシアチブ。12社のテック・金融大手が参加し、世界の重要ソフトウェアの脆弱性を「敵より先に」見つけて修正することが目的です。
パートナー12社の全容
さらに40社以上の追加組織にもアクセスが拡大されています。AnthropicはProject Glasswing全体で$100M(約150億円)の利用枠と$4M(約6億円)のオープンソースセキュリティ組織への直接寄付を提供しています。
発見された脆弱性の具体例——独自調査
Anthropic公式(red.anthropic.com)とVentureBeatの独占インタビューから、発見された脆弱性の詳細を調査しました。
27年間見落とされたOpenBSD脆弱性
OpenBSDは「世界で最もセキュリティが厳しいOS」として知られ、ファイアウォールや重要インフラで使用されています。27年間にわたり世界中の専門家がコードレビューを実施してきましたが、Mythos Previewが完全に自律的に欠陥を検出しました。
500万回の自動テストに素通りしたFFmpegバグ
FFmpegは世界中の動画アプリで使用される標準ライブラリ。500万回の自動テストに全てパスしていたバグを、Mythosが論理的推論で特定。従来のテスト手法では原理的に発見不可能な種類のバグです。
Firefox 147のゼロデイ脆弱性を自律的にエクスプロイト
Anthropicの評価で、クラッシュデータからFirefox 147のJavaScriptエンジンの脆弱性を発見し、動作するProof-of-Concept(PoC)エクスプロイトまで自律生成。複数回の試行で毎回同じ最高重要度の脆弱性2つに到達しました。
企業環境のエンドツーエンド攻撃シミュレーション
外部パートナーのテストで、実際の企業環境を模したサイバーレンジ(設定ミス・使い回しパスワード・多段階攻撃チェーン)をエンドツーエンドで突破した初のAIモデルと報告されています。
Newton Cheng氏(Frontier Red Team Cyber Lead)のVentureBeat独占コメント
VentureBeatのインタビューで、AnthropicのCyberチームリーダーであるNewton Cheng氏は以下のように述べています。
「AI進歩の速度を考えると、このような能力が安全にデプロイすることにコミットしていない主体に拡散するのは時間の問題です。経済・公共安全・国家安全保障への影響は深刻になりえます」
—— Newton Cheng, Frontier Red Team Cyber Lead, Anthropic(VentureBeat独占インタビューより)
また、脆弱性の開示プロセスについては「すべてのバグをトリアージし、最も深刻なものは契約した専門のトリアージャーが手動で検証してから開示している」と説明。AIが大量の脆弱性を発見してオープンソースメンテナー(多くは無給のボランティア)に殺到するリスクを認識し、対策を講じていることが明らかになりました。
リーク事件の経緯——なぜ正式発表前に情報が漏れたか
Claude Mythosの存在は、正式発表の約2週間前に2つの事故で明るみに出ました。
Newton Cheng氏はこの2件について「どちらもパブリッシングツールの人的ミスであり、セキュリティアーキテクチャの侵害ではない」と説明しています。ただし、「世界で最も高いサイバー能力を持つモデルの管理者」としての信頼性に疑問を投げかける声もあります。
齊藤の見解:中小企業にとってのMythos——「待つな、今を使え」
Claude Mythos Previewは一般公開されず、今後も公開されない可能性があります(Newton Cheng氏は「サイバー能力のため一般公開は予定していない」と明言)。
では中小企業にとっての意味は何か。Mythosの能力は、次世代のOpus/Sonnetに段階的に降りてくるということです。Opus 4.6がSonnet 4.6のリリースで価格が下がったように、MythosクラスのコーディングAIOが日常的なツールになるのは時間の問題です。
今すべきことは「Mythosを待つ」ことではなく、現行のClaude 4.6で業務フローにAIを組み込み、モデルが進化すれば自動的に恩恵を受ける体制を作ることです。Claude Codeの実践ガイドやClaudeの使い方入門から始めてください。
よくある質問
Claude Mythos Previewを一般ユーザーが使える見込みはありますか
現時点ではありません。Anthropicは「サイバーセキュリティ能力のため一般公開は予定していない」と明言しています。ただし、Mythosの技術は将来のOpus/Sonnetに統合される可能性が高く、能力の一部は段階的に一般モデルに反映されるでしょう。
Project Glasswingのパートナーに日本企業は含まれますか
現時点の12社には日本企業は含まれていません。ただし「40社以上の追加組織」にはグローバル企業が含まれており、日本のテック企業が参加している可能性はあります。
このニュースはGEO/AIO対策に影響しますか
直接的な影響はありません。GEO/AIO対策は検索最適化の施策であり、Mythosのサイバーセキュリティ能力とは別領域です。ただし、Anthropicの技術力が業界最高水準であることが証明されたため、Claudeを使ったコンテンツ制作・分析の信頼性は一層高まったと言えます。
まとめ
Claude Mythos Previewは「AIが人間のトップセキュリティ専門家を超える」瞬間を具現化したモデルです。SWE-bench Pro 77.8%、USAMO 97.6%、ゼロデイ数千件自律発見——いずれも「インクリメンタルな改善」ではなく質的飛躍です。Project Glasswingとして12社連合に限定提供されることで、「AIの攻撃能力を防御に転用する」先例が作られました。中小企業にとっては、現行のClaude 4.6を今すぐ業務に組み込み、モデル進化の恩恵を自動的に受け取れる体制を構築することが最善の戦略です。