Claude Mythos Preview正式発表——SWE-bench Pro 77.8%でOpus 4.6を24ポイント上回る衝撃｜Project Glasswing独自調査

仁頼 Digital Marketing Company

この記事を書いた人齊藤一樹代表取締役/Webマーケター

2026年4月8日、AnthropicはClaude Mythos PreviewとProject Glasswingを正式発表しました。Mythos Previewは「これまでに構築した中で最も高性能なモデル」であり、SWE-bench Proで77.8%（Opus 4.6は53.4%、GPT-5.4は57.7%）、数学オリンピック（USAMO）で97.6%（Opus 4.6は42.3%）と、全ベンチマークで既存モデルを圧倒しています。本記事では、Anthropic公式ページ（anthropic.com/glasswing）、VentureBeat独占インタビュー、red.anthropic.comのテクニカルレポート、NxCode・officechaiのベンチマーク分析を含む独自調査に基づいて、全容を解説します。

30秒でわかるClaude Mythos Preview

1. Opus 4.6を全10ベンチマークで大幅に上回る次世代フラグシップモデル

2. 全主要OS・ブラウザでゼロデイ脆弱性を数千件自律発見（27年間見落とされたOpenBSD欠陥を含む）

3. Project Glasswingとして12社連合（AWS・Apple・Google・Microsoft等）に限定提供

4. $100M利用枠＋$4Mオープンソース寄付。一般APIは「サイバー能力のため」非公開

5. 内部コードネームは「Capybara」——Opusの上に位置する新ティア

完全ベンチマーク表——全10指標でOpus 4.6を上回る

要点

SWE-bench Pro（実務レベルのソフトウェア開発）で+24pt、USAMO（数学オリンピック）で+55pt、SWE-bench Multimodal（視覚＋コード）で2.2倍——「インクリメンタルな改善」ではなく「質的飛躍」と評価されています。

ベンチマーク	Mythos	Opus 4.6	GPT-5.4	差
SWE-bench Pro	77.8%	53.4%	57.7%	+24pt
SWE-bench Verified	93.9%	80.8%	—	+13pt
SWE-bench Multimodal	59.0%	27.1%	—	2.2倍
Terminal-Bench 2.0	82.0%	65.4%	—	+17pt
CyberGym	83.1%	66.6%	—	+17pt
USAMO 2026	97.6%	42.3%	95.2%	+55pt
GPQA Diamond	94.6%	91.3%	—	+3pt
HLE（ツールなし）	56.8%	40.0%	—	+17pt
OSWorld	79.6%	72.7%	—	+7pt
GraphWalks BFS 1M	80.0%	38.7%	—	2.1倍

特筆すべきはSWE-bench Multimodal（59.0% vs 27.1%）。これはスクリーンショットやUI画像を見ながらコードを書くタスクで、Opus 4.6の2.2倍というスコアは「視覚理解＋コード生成」の質的ブレイクスルーを示しています。

また、USAMO 2026（数学オリンピック）の97.6%は衝撃的です。Opus 4.6の42.3%から55ポイント上昇しており、GPT-5.4の95.2%をも上回っています。証明ベースの数学問題をほぼ完璧に解けるAIが登場したことになります。

GPT-5.4との直接比較——Mythosはどれだけ先を行っているか

SWE-bench Pro

Mythos 77.8%

GPT-5.4: 57.7%（-20pt）

USAMO 2026

Mythos 97.6%

GPT-5.4: 95.2%（-2.4pt）

GraphWalks BFS 1M

Mythos 80.0%

GPT-5.4: 約20%（4倍差）

NxCodeの分析によると、SWE-bench Proの24ポイント差は「ベンチマークゲーミング（テスト問題の暗記）」では説明できません。Anthropicは暗記の兆候を示す問題をスクリーニングしており、それらを除外してもMythosの優位は維持されています。

Project Glasswing——サイバーセキュリティの歴史的転換点

要点

Project GlasswingはAnthropicが主導するサイバー防衛イニシアチブ。12社のテック・金融大手が参加し、世界の重要ソフトウェアの脆弱性を「敵より先に」見つけて修正することが目的です。

パートナー12社の全容

パートナー	業種	参加の意味
AWS	クラウド	世界最大のクラウドインフラの脆弱性検出
Apple	OS/デバイス	iOS/macOSのゼロデイ対策
Microsoft	OS/クラウド	Windows/Azureの脆弱性検出
Google	検索/クラウド	Chrome/Androidの防御強化
Nvidia	半導体	GPU/CUDAのセキュリティ
CrowdStrike	セキュリティ	リーク時に株価5%下落→パートナーとして取り込む戦略転換
Palo Alto Networks	セキュリティ	同上。AI能力を取り込む側に回る決断
Cisco	ネットワーク	ネットワーク機器のファームウェア防御
Broadcom	半導体	チップレベルのセキュリティ
JPMorganChase	金融	金融システムの脆弱性対策。金融セクター唯一の参加
Linux Foundation	OSS	世界のインフラを支えるLinuxカーネルの防御

さらに40社以上の追加組織にもアクセスが拡大されています。AnthropicはProject Glasswing全体で$100M（約150億円）の利用枠と$4M（約6億円）のオープンソースセキュリティ組織への直接寄付を提供しています。

発見された脆弱性の具体例——独自調査

Anthropic公式（red.anthropic.com）とVentureBeatの独占インタビューから、発見された脆弱性の詳細を調査しました。

27年間見落とされたOpenBSD脆弱性

OpenBSDは「世界で最もセキュリティが厳しいOS」として知られ、ファイアウォールや重要インフラで使用されています。27年間にわたり世界中の専門家がコードレビューを実施してきましたが、Mythos Previewが完全に自律的に欠陥を検出しました。

500万回の自動テストに素通りしたFFmpegバグ

FFmpegは世界中の動画アプリで使用される標準ライブラリ。500万回の自動テストに全てパスしていたバグを、Mythosが論理的推論で特定。従来のテスト手法では原理的に発見不可能な種類のバグです。

Firefox 147のゼロデイ脆弱性を自律的にエクスプロイト

Anthropicの評価で、クラッシュデータからFirefox 147のJavaScriptエンジンの脆弱性を発見し、動作するProof-of-Concept（PoC）エクスプロイトまで自律生成。複数回の試行で毎回同じ最高重要度の脆弱性2つに到達しました。

企業環境のエンドツーエンド攻撃シミュレーション

外部パートナーのテストで、実際の企業環境を模したサイバーレンジ（設定ミス・使い回しパスワード・多段階攻撃チェーン）をエンドツーエンドで突破した初のAIモデルと報告されています。

Newton Cheng氏（Frontier Red Team Cyber Lead）のVentureBeat独占コメント

VentureBeatのインタビューで、AnthropicのCyberチームリーダーであるNewton Cheng氏は以下のように述べています。

「AI進歩の速度を考えると、このような能力が安全にデプロイすることにコミットしていない主体に拡散するのは時間の問題です。経済・公共安全・国家安全保障への影響は深刻になりえます」

—— Newton Cheng, Frontier Red Team Cyber Lead, Anthropic（VentureBeat独占インタビューより）

また、脆弱性の開示プロセスについては「すべてのバグをトリアージし、最も深刻なものは契約した専門のトリアージャーが手動で検証してから開示している」と説明。AIが大量の脆弱性を発見してオープンソースメンテナー（多くは無給のボランティア）に殺到するリスクを認識し、対策を講じていることが明らかになりました。

リーク事件の経緯——なぜ正式発表前に情報が漏れたか

Claude Mythosの存在は、正式発表の約2週間前に2つの事故で明るみに出ました。

3月26日

CMSの設定ミスにより約3,000件の内部アセット（Mythosのローンチブログ記事ドラフト含む）が認証なしで公開状態に。Fortuneが最初に報道

3月31日

Claude Codeのnpmパッケージに完全なソースコード（512,000行）が約3時間混入。VentureBeatが最初に報道

Newton Cheng氏はこの2件について「どちらもパブリッシングツールの人的ミスであり、セキュリティアーキテクチャの侵害ではない」と説明しています。ただし、「世界で最も高いサイバー能力を持つモデルの管理者」としての信頼性に疑問を投げかける声もあります。

齊藤の見解：中小企業にとってのMythos——「待つな、今を使え」

Claude Mythos Previewは一般公開されず、今後も公開されない可能性があります（Newton Cheng氏は「サイバー能力のため一般公開は予定していない」と明言）。

では中小企業にとっての意味は何か。Mythosの能力は、次世代のOpus/Sonnetに段階的に降りてくるということです。Opus 4.6がSonnet 4.6のリリースで価格が下がったように、MythosクラスのコーディングAIOが日常的なツールになるのは時間の問題です。

今すべきことは「Mythosを待つ」ことではなく、現行のClaude 4.6で業務フローにAIを組み込み、モデルが進化すれば自動的に恩恵を受ける体制を作ることです。Claude Codeの実践ガイドやClaudeの使い方入門から始めてください。

よくある質問

Claude Mythos Previewを一般ユーザーが使える見込みはありますか

現時点ではありません。Anthropicは「サイバーセキュリティ能力のため一般公開は予定していない」と明言しています。ただし、Mythosの技術は将来のOpus/Sonnetに統合される可能性が高く、能力の一部は段階的に一般モデルに反映されるでしょう。

Project Glasswingのパートナーに日本企業は含まれますか

現時点の12社には日本企業は含まれていません。ただし「40社以上の追加組織」にはグローバル企業が含まれており、日本のテック企業が参加している可能性はあります。

このニュースはGEO/AIO対策に影響しますか

直接的な影響はありません。GEO/AIO対策は検索最適化の施策であり、Mythosのサイバーセキュリティ能力とは別領域です。ただし、Anthropicの技術力が業界最高水準であることが証明されたため、Claudeを使ったコンテンツ制作・分析の信頼性は一層高まったと言えます。

まとめ

Claude Mythos Previewは「AIが人間のトップセキュリティ専門家を超える」瞬間を具現化したモデルです。SWE-bench Pro 77.8%、USAMO 97.6%、ゼロデイ数千件自律発見——いずれも「インクリメンタルな改善」ではなく質的飛躍です。Project Glasswingとして12社連合に限定提供されることで、「AIの攻撃能力を防御に転用する」先例が作られました。中小企業にとっては、現行のClaude 4.6を今すぐ業務に組み込み、モデル進化の恩恵を自動的に受け取れる体制を構築することが最善の戦略です。

→ Claude Mythosとは？リーク経緯と製品体系

→ Claude 4.6の新機能まとめ

→ Claude Code Security

→ Anthropicが2億ドルの軍事契約を捨てた理由

→ Claude vs ChatGPT比較

→ 生成AI業界ニュース総まとめ【2026年4月】

Claude活用・AI導入のプロに相談する

Claudeの最新機能を業務にどう活かすか、具体的なアドバイスが欲しい方はお気軽にどうぞ。

無料で相談する →
プロンプト集50選（無料）→

この記事を書いた人

齊藤一樹代表取締役/Webマーケター

株式会社仁頼代表取締役。横浜市在住。 2018年からデジタルマーケティング業界に携わり、Google広告・SEO・コンテンツマーケティングを中心に8年以上の実務経験を持つ。これまでに制作した記事は9,000本以上、70名を超える専門ライターとのチーム体制で、幅広い業界のWebマーケティングを支援してきた。 2022年9月に株式会社仁頼を設立。「受けた御恩を忘れず、信頼を得られるよう迅速かつ最適な対応をする」という信念のもと、SEO・広告運用・サイト制作などのマーケティング支援を行っている。近年は、ChatGPTやPerplexityなどのAI検索でサイトが引用される「GEO（生成エンジン最適化）」の分野にいち早く注力。自社サービス「GEO Hack」を通じて、AI時代の新しい集客手法を企業に提供している。「難しいことをわかりやすく、小さな会社にも大きな成果を」をモットーに、日々クライアントと伴走中。

Claude Mythos Preview正式発表——SWE-bench Pro 77.8%でOpus 4.6を24ポイント上回る衝撃｜Project Glasswing独自調査