Claude Mythos Preview完全ベンチマーク|SWE-bench Pro 77.8%・Project Glasswing 12社連合の独自調査

Claude Mythos Preview完全ベンチマーク|SWE-bench Pro 77.8%・Project Glasswing 12社連合の独自調査

齊藤一樹
この記事を書いた人 齊藤一樹 代表取締役/Webマーケター

2026年4月8日、AnthropicはClaude Mythos PreviewProject Glasswingを正式発表しました。Mythos Previewは「これまでに構築した中で最も高性能なモデル」であり、SWE-bench Proで77.8%(Opus 4.6は53.4%、GPT-5.4は57.7%)、数学オリンピック(USAMO)で97.6%(Opus 4.6は42.3%)と、全ベンチマークで既存モデルを圧倒しています。本記事では、Anthropic公式ページ(anthropic.com/glasswing)、VentureBeat独占インタビュー、red.anthropic.comのテクニカルレポート、NxCode・officechaiのベンチマーク分析を含む独自調査に基づいて、全容を解説します。

📎 公式情報

Anthropic公式

30秒でわかるClaude Mythos Preview

1. Opus 4.6を全10ベンチマークで大幅に上回る次世代フラグシップモデル

2. 全主要OS・ブラウザでゼロデイ脆弱性を数千件自律発見(27年間見落とされたOpenBSD欠陥を含む)

3. Project Glasswingとして12社連合(AWS・Apple・Google・Microsoft等)に限定提供

4. $100M利用枠+$4Mオープンソース寄付。一般APIは「サイバー能力のため」非公開

5. 内部コードネームは「Capybara」——Opusの上に位置する新ティア

完全ベンチマーク表——全10指標でOpus 4.6を上回る

要点

SWE-bench Pro(実務レベルのソフトウェア開発)で+24pt、USAMO(数学オリンピック)で+55pt、SWE-bench Multimodal(視覚+コード)で2.2倍——「インクリメンタルな改善」ではなく「質的飛躍」と評価されています。

ベンチマーク Mythos Opus 4.6 GPT-5.4
SWE-bench Pro 77.8% 53.4% 57.7% +24pt
SWE-bench Verified 93.9% 80.8% +13pt
SWE-bench Multimodal 59.0% 27.1% 2.2倍
Terminal-Bench 2.0 82.0% 65.4% +17pt
CyberGym 83.1% 66.6% +17pt
USAMO 2026 97.6% 42.3% 95.2% +55pt
GPQA Diamond 94.6% 91.3% +3pt
HLE(ツールなし) 56.8% 40.0% +17pt
OSWorld 79.6% 72.7% +7pt
GraphWalks BFS 1M 80.0% 38.7% 2.1倍

特筆すべきはSWE-bench Multimodal(59.0% vs 27.1%)。これはスクリーンショットやUI画像を見ながらコードを書くタスクで、Opus 4.6の2.2倍というスコアは「視覚理解+コード生成」の質的ブレイクスルーを示しています。

また、USAMO 2026(数学オリンピック)の97.6%は衝撃的です。Opus 4.6の42.3%から55ポイント上昇しており、GPT-5.4の95.2%をも上回っています。証明ベースの数学問題をほぼ完璧に解けるAIが登場したことになります。

GPT-5.4との直接比較——Mythosはどれだけ先を行っているか

SWE-bench Pro

Mythos 77.8%

GPT-5.4: 57.7%(-20pt)

USAMO 2026

Mythos 97.6%

GPT-5.4: 95.2%(-2.4pt)

GraphWalks BFS 1M

Mythos 80.0%

GPT-5.4: 約20%(4倍差)

NxCodeの分析によると、SWE-bench Proの24ポイント差は「ベンチマークゲーミング(テスト問題の暗記)」では説明できません。Anthropicは暗記の兆候を示す問題をスクリーニングしており、それらを除外してもMythosの優位は維持されています。

Project Glasswing——サイバーセキュリティの歴史的転換点

要点

Project GlasswingはAnthropicが主導するサイバー防衛イニシアチブ。12社のテック・金融大手が参加し、世界の重要ソフトウェアの脆弱性を「敵より先に」見つけて修正することが目的です。

パートナー12社の全容

パートナー 業種 参加の意味
AWS クラウド 世界最大のクラウドインフラの脆弱性検出
Apple OS/デバイス iOS/macOSのゼロデイ対策
Microsoft OS/クラウド Windows/Azureの脆弱性検出
Google 検索/クラウド Chrome/Androidの防御強化
Nvidia 半導体 GPU/CUDAのセキュリティ
CrowdStrike セキュリティ リーク時に株価5%下落→パートナーとして取り込む戦略転換
Palo Alto Networks セキュリティ 同上。AI能力を取り込む側に回る決断
Cisco ネットワーク ネットワーク機器のファームウェア防御
Broadcom 半導体 チップレベルのセキュリティ
JPMorganChase 金融 金融システムの脆弱性対策。金融セクター唯一の参加
Linux Foundation OSS 世界のインフラを支えるLinuxカーネルの防御

さらに40社以上の追加組織にもアクセスが拡大されています。AnthropicはProject Glasswing全体で$100M(約150億円)の利用枠$4M(約6億円)のオープンソースセキュリティ組織への直接寄付を提供しています。

この記事の内容で気になることがあれば

30分の無料ヒアリングで、御社に合った具体的なアドバイスをお伝えします。

無料で相談する →

発見された脆弱性の具体例——独自調査

Anthropic公式(red.anthropic.com)とVentureBeatの独占インタビューから、発見された脆弱性の詳細を調査しました。

27年間見落とされたOpenBSD脆弱性

OpenBSDは「世界で最もセキュリティが厳しいOS」として知られ、ファイアウォールや重要インフラで使用されています。27年間にわたり世界中の専門家がコードレビューを実施してきましたが、Mythos Previewが完全に自律的に欠陥を検出しました。

500万回の自動テストに素通りしたFFmpegバグ

FFmpegは世界中の動画アプリで使用される標準ライブラリ。500万回の自動テストに全てパスしていたバグを、Mythosが論理的推論で特定。従来のテスト手法では原理的に発見不可能な種類のバグです。

Firefox 147のゼロデイ脆弱性を自律的にエクスプロイト

Anthropicの評価で、クラッシュデータからFirefox 147のJavaScriptエンジンの脆弱性を発見し、動作するProof-of-Concept(PoC)エクスプロイトまで自律生成。複数回の試行で毎回同じ最高重要度の脆弱性2つに到達しました。

企業環境のエンドツーエンド攻撃シミュレーション

外部パートナーのテストで、実際の企業環境を模したサイバーレンジ(設定ミス・使い回しパスワード・多段階攻撃チェーン)をエンドツーエンドで突破した初のAIモデルと報告されています。

Newton Cheng氏(Frontier Red Team Cyber Lead)のVentureBeat独占コメント

VentureBeatのインタビューで、AnthropicのCyberチームリーダーであるNewton Cheng氏は以下のように述べています。

「AI進歩の速度を考えると、このような能力が安全にデプロイすることにコミットしていない主体に拡散するのは時間の問題です。経済・公共安全・国家安全保障への影響は深刻になりえます」

—— Newton Cheng, Frontier Red Team Cyber Lead, Anthropic(VentureBeat独占インタビューより)

また、脆弱性の開示プロセスについては「すべてのバグをトリアージし、最も深刻なものは契約した専門のトリアージャーが手動で検証してから開示している」と説明。AIが大量の脆弱性を発見してオープンソースメンテナー(多くは無給のボランティア)に殺到するリスクを認識し、対策を講じていることが明らかになりました。

リーク事件の経緯——なぜ正式発表前に情報が漏れたか

Claude Mythosの存在は、正式発表の約2週間前に2つの事故で明るみに出ました。

3月26日
CMSの設定ミスにより約3,000件の内部アセット(Mythosのローンチブログ記事ドラフト含む)が認証なしで公開状態に。Fortuneが最初に報道
3月31日
Claude Codeのnpmパッケージに完全なソースコード(512,000行)が約3時間混入。VentureBeatが最初に報道

Newton Cheng氏はこの2件について「どちらもパブリッシングツールの人的ミスであり、セキュリティアーキテクチャの侵害ではない」と説明しています。ただし、「世界で最も高いサイバー能力を持つモデルの管理者」としての信頼性に疑問を投げかける声もあります。

齊藤の見解:中小企業にとってのMythos——「待つな、今を使え」

Claude Mythos Previewは一般公開されず、今後も公開されない可能性があります(Newton Cheng氏は「サイバー能力のため一般公開は予定していない」と明言)。

では中小企業にとっての意味は何か。Mythosの能力は、次世代のOpus/Sonnetに段階的に降りてくるということです。Opus 4.6がSonnet 4.6のリリースで価格が下がったように、MythosクラスのコーディングAIOが日常的なツールになるのは時間の問題です。

今すべきことは「Mythosを待つ」ことではなく、現行のClaude 4.6で業務フローにAIを組み込み、モデルが進化すれば自動的に恩恵を受ける体制を作ることです。Claude Codeの実践ガイドClaudeの使い方入門から始めてください。

よくある質問

Claude Mythos Previewを一般ユーザーが使える見込みはありますか

現時点ではありません。Anthropicは「サイバーセキュリティ能力のため一般公開は予定していない」と明言しています。ただし、Mythosの技術は将来のOpus/Sonnetに統合される可能性が高く、能力の一部は段階的に一般モデルに反映されるでしょう。

Project Glasswingのパートナーに日本企業は含まれますか

現時点の12社には日本企業は含まれていません。ただし「40社以上の追加組織」にはグローバル企業が含まれており、日本のテック企業が参加している可能性はあります。

このニュースはGEO/AIO対策に影響しますか

直接的な影響はありません。GEO/AIO対策は検索最適化の施策であり、Mythosのサイバーセキュリティ能力とは別領域です。ただし、Anthropicの技術力が業界最高水準であることが証明されたため、Claudeを使ったコンテンツ制作・分析の信頼性は一層高まったと言えます。

【追記:2026年4月後半アップデート】発表後1週間で判明した新事実

Claude Mythos Preview発表から1週間が経過し、Anthropic・各メディア・セキュリティ研究者から追加情報が出揃いました。本章では発表時点では明らかになっていなかった重要アップデートを整理します。

1. Anthropic年間収益が$30B(約4.5兆円)に到達

Constellation Researchの報道によると、AnthropicのARR(年間経常収益)が2026年4月時点で$30B(約4.5兆円)に到達しました。1年前の$9Bから3倍超の成長で、Mythos発表と同日に公表されています。

この収益規模は、フロンティアモデル開発への継続投資と、企業顧客の急増を裏付けるものです。Claude Opus 4.6、Sonnet 4.6、Haiku 4.5の3モデル展開と、Claude Code・Cowork・Managed Agentsという複数プロダクトラインの成功が収益基盤を支えています。

2. Project Glasswing参加組織が40+に拡大

発表当初の12社連合(AWS・Apple・Google・Microsoft・Cisco・CrowdStrike・Broadcom・JPMorgan Chase・Linux Foundation・NVIDIA・Palo Alto Networks)に加え、40以上の追加組織にMythos Previewへのアクセスが拡大されました。

対象は「世界の重要ソフトウェアを構築・保守する組織」で、具体名は公表されていませんが、オープンソースメンテナーはAnthropicの「Claude for Open Source」プログラム経由で申請可能です。

3. 正式料金が公開:$25/M入力・$125/M出力

Project Glasswingの$100Mクレジット枠を超えた利用については、入力$25/M・出力$125/Mトークンの料金設定であることが判明しました。Claude Opus 4.6の$15/$75と比較して約1.7倍の価格設定です。

一般公開されない代わりに、招待制ユーザーは限界まで使える実質無料に近い枠組みで、「防御利用の経済合理性」を担保する設計になっています。

4. SWE-bench Verified 93.9%は同領域の新記録

Mythos Previewが達成したSWE-bench Verified 93.9%は、同ベンチマークの史上最高スコアです。前モデルClaude Opus 4.6の80.8%を13.1ポイント上回り、GPT-5.4(OpenAI)やGemini 3.5(Google)の同時期スコアを大きく引き離しています。

注目すべきは、Anthropicが「暗記の兆候を示す問題をスクリーニングした後もMythosの優位は維持される」と明言している点です。つまり「テスト問題の暗記ではない、真の能力向上」と評価できます。

5. CyberGym 83.1%・USAMO 97.6%・GraphWalks BFS 80.0%

サイバーセキュリティ分野のCyberGymベンチマーク83.1%(Opus 4.6の66.6%から+16.5pt)、数学オリンピックUSAMO 2026で97.6%(Opus 4.6の42.3%から+55.3pt)と、全領域で質的飛躍を達成しています。

特に1Mコンテキスト長でのGraphWalks BFSベンチマーク80.0%(GPT-5.4は21.4%)は、長大なコードベース全体を理解した上での推論能力を示しており、実務での巨大コードリファクタリング用途に直結する数値です。

6. 一般公開は「予定していない」と明言

AnthropicのNewton Cheng氏はVentureBeatインタビューで「サイバー能力のため一般公開は予定していない」と明言しました。代わりに、Mythos-classモデルの安全な展開を可能にする新しいセーフガードを次期Claude Opusモデルで導入すると表明しています。

つまり、実質的な「Mythos後継の公開モデル」がOpus 4.7または5.0として登場する可能性が高く、中小企業は公開モデルのロードマップを注視する必要があります。

━━ 関連資料(無料) ━━

Claudeの実務活用にご興味がある方向けに、仁頼では以下の無料資料を公開しています。

Claude活用プロンプト集50選(業務別)
Claude Code導入事例集(5事例・13ページ)

まとめ

Claude Mythos Previewは「AIが人間のトップセキュリティ専門家を超える」瞬間を具現化したモデルです。SWE-bench Pro 77.8%、USAMO 97.6%、ゼロデイ数千件自律発見——いずれも「インクリメンタルな改善」ではなく質的飛躍です。Project Glasswingとして12社連合に限定提供されることで、「AIの攻撃能力を防御に転用する」先例が作られました。中小企業にとっては、現行のClaude 4.6を今すぐ業務に組み込み、モデル進化の恩恵を自動的に受け取れる体制を構築することが最善の戦略です。

━━ 本記事について ━━

本記事は、株式会社仁頼が運営するメディアです。仁頼はGEO対策・SEO・AI導入支援を中心としたデジタルマーケティング会社です。

個別のご相談はお問い合わせフォームから承ります。

関連記事

Claude Mythosとは?リーク経緯と製品体系

Claude 4.6の新機能まとめ

Claude Code Security

Anthropicが2億ドルの軍事契約を捨てた理由

Claude vs ChatGPT比較

生成AI業界ニュース総まとめ【2026年4月】

AI活用×Web集客のご相談

Claudeを含むAIツールの活用だけでなく、AI検索時代のWeb集客(GEO対策・SEO・MEO)もワンストップで支援しています。「AI検索で自社を表示させたい」「HPからの問い合わせを増やしたい」方はお気軽にご相談ください。

→ GEO対策とは?AI検索最適化の基本

→ 中小企業のAI活用事例|業務効率化から集客まで

→ AI検索時代にHP放置は致命的|GEO対策の必要性

→ 【無料PDF】Claude活用プロンプト集50選をダウンロード

無料PDF資料

Claude活用
プロンプト集50選

メール返信3分、議事録5分、競合調査20分。コピペで即使える50テンプレート。

無料ダウンロード →

Claude Code導入支援

要件定義からセキュリティレビューまで、エンジニアが伴走。「自分でやると詰まる」を解決します。

導入支援の詳細を見る →

この記事を書いた人
齊藤一樹
齊藤一樹 代表取締役/Webマーケター

株式会社仁頼 代表取締役。横浜市在住。 2018年からデジタルマーケティング業界に携わり、Google広告・SEO・コンテンツマーケティングを中心に8年以上の実務経験を持つ。これまでに制作した記事は9,000本以上、70名を超える専門ライターとのチーム体制で、幅広い業界のWebマーケティングを支援してきた。 2022年9月に株式会社仁頼を設立。「受けた御恩を忘れず、信頼を得られるよう迅速かつ最適な対応をする」という信念のもと、SEO・広告運用・サイト制作などのマーケティング支援を行っている。 近年は、ChatGPTやPerplexityなどのAI検索でサイトが引用される「GEO(生成エンジン最適化)」の分野にいち早く注力。自社サービス「GEO Hack」を通じて、AI時代の新しい集客手法を企業に提供している。 「難しいことをわかりやすく、小さな会社にも大きな成果を」をモットーに、日々クライアントと伴走中。

← RAGO(RAG Optimization)とは?AIが「食べやすい」コンテンツ構造の設計方法Gemini 3.1 Pro完全解説|ARC-AGI-2首位・MCP対応・Computer Use・Personal Intelligence——2026年のGoogle AI総まとめ →

お気軽にお問い合わせください

デジタルマーケティングに関するお悩み、お気軽にお聞かせください。
仁義と信頼をもって、最適なご提案をいたします。

※ オンライン対応可。横浜・東京エリアは対面打ち合わせも可能です。

バナー