結論: Fugu Ultraは難関ベンチマークSWE-Bench Proで73.7を記録し、AnthropicのFable 5・Mythos Preview級だと主張されています。しかし全て自社申告で独立検証はなく、「圧勝」ではありません。SWE-Bench ProやHumanity’s Last ExamはFable 5、MRCRv2はGPT-5.5、セキュリティ系CTI-REALMはClaude Opus 4.8が首位とされ、Fuguは肩を並べる場面も負ける場面もあります。
「Fugu Ultraは結局、ClaudeやGPTより強いの?」——気になるところですが、ベンチマークの数字は読み方を誤ると判断を間違えます。本記事は、煽らず・公平に、Fugu Ultraの実力を整理します。
製品の全体像は 別記事「Sakana Fuguとは」を、会社の背景は Sakana AIとは をご覧ください。比較対象のモデルは Claude Fable 5とは と Fable 5 vs Opus 4.8 が参考になります。
第1章|Sakana側の主張を正確に押さえる
まずSakana AIが何を主張しているかを正確に把握しましょう。要点は「Fugu UltraはSWE-Bench Proで73.7を記録し、Fable 5・Mythos Preview級の性能を、輸出規制リスクなしで提供する」という3点です。なお比較対象のFable 5は、安全保障上の輸出規制で多くの地域から利用が難しくなった経緯があります(詳細はこちら)。「規制で使えないモデルの代わりになる」という訴求が背景にあります。
第2章|ベンチマーク別の“首位”を見る
重要なのは、Fugu Ultraがすべてのベンチマークで1位なわけではない、という事実です。主要ベンチの首位を並べると、勢力図はこうなります。
| ベンチマーク | 測る能力 | 首位とされるモデル |
|---|---|---|
| SWE-Bench Pro | 実務的なソフト開発 | Fable 5 |
| Humanity’s Last Exam | 難問の総合知力 | Fable 5 |
| MRCRv2 | 長文の文脈処理 | GPT-5.5 |
| CTI-REALM | セキュリティ/脅威分析 | Claude Opus 4.8 |
| (参考)Fugu Ultra | 複数モデルの連携 | 肩を並べる領域あり |
つまりFugu Ultraは「特定領域でトップ級に並ぶ」ものの、分野ごとに最強モデルは入れ替わるのが実態です。「最強」という一語で語るのは不正確です。
第3章|最大の前提——すべて“自社申告”
ベンチマークを読むうえで絶対に外せない前提があります。現時点の数値はすべてSakana AIの自社申告で、独立した第三者評価はまだ出ていないということです。
なぜ自社申告に注意するのか
Sakana AIは過去に、性能を大きく見せた発表を独立検証で撤回した例(AI CUDA Engineer騒動)がある。手法が新しいほど“評価の抜け穴”を踏みやすい。数字は実測・第三者検証とセットで読むのが鉄則。
第4章|“借り物”問題——強さの源泉はどこか
もう一つの論点が、Fuguの強さが「自社で学習したモデル」だけに由来するのかという点です。批判的な指摘では、Fuguは非公開の他社クローズドモデルの組み合わせに依存しており、「結局その他社から知能を“賃借”しているだけではないか」とされています。
これは弱点であると同時に、設計思想の表れでもあります。Fuguは「自前で最強を作る」のではなく「最強の部品を最適に束ねる」ことを狙っているからです。
自社はAI検索に「引用」されていますか?
AIの回答は複数モデルの連携から生まれる時代に入りました。仁頼の「GEO Hack」は、ChatGPT・Claude・Google AI Modeなど各AI検索での御社の引用状況を可視化し、SEOとAI検索を一貫設計で最適化します。まずは無料のGEO診断から。
第5章|では、Fugu Ultraの本当の強みは何か
単体性能の一位争いではなく、Fuguの価値は別のところにあります。
- 集中リスクの回避:1社のモデルに依存せず、供給停止や規制に強い
- 規制の迂回:輸出規制対象モデルが使えない地域でも、代替の知能を確保できる
- 多重チェック:複数モデルの視点で、単体より見落としが減る
- 適材適所:タスクごとに最適なモデルを自動で選べる
言い換えれば、Fuguは「最速の単騎」ではなく「崩れにくいチーム」を売りにしている、という理解が正確です。
第6章|結論——どう評価し、どう付き合うか
現時点の評価は次のように整理できます。「単体ベンチの王者ではないが、ベンダー依存リスクを下げたい用途では有力な選択肢」。導入を検討するなら、自社の実タスクで試し、独立検証の情報が出てくるのを待つのが賢明です。
ベンチマークが「上位だから常に正解とは限らない」という考え方は、AI全般に通じます。Fable 5 vs Opus 4.8 でも同じ視点を扱っています。
第7章|性能以外の比較軸も忘れずに
モデル選びは、ベンチマークの点数だけでは決まりません。実務では、次の“地味だが重要”な軸が効いてきます。
| 比較軸 | 見るべきポイント |
|---|---|
| コスト | 同じ品質を、いくらで出せるか(従量単価・サブスク) |
| 応答速度 | 対話用途では遅延が体験を左右する |
| 可用性・規制 | 供給停止や輸出規制で使えなくなるリスク |
| 提供地域 | EU不可など、自社の利用地域で使えるか |
| 説明性 | なぜその答えになったかを追えるか |
Fuguの強みは、まさにこの“性能以外”——とりわけ可用性と規制耐性にあります。単体ベンチで多少劣っても、「1社依存を避けたい」「規制で使えなくなるのを防ぎたい」という企業にとっては、合理的な選択になり得ます。導入判断では、点数表だけでなく、この5軸を自社の優先順位で重み付けすることをおすすめします。
では、独立した第三者評価が出てきたら、何を見ればよいのでしょうか。注目すべきは「どのベンチで、どの条件で測ったか」です。同じ“73.7”でも、テスト項目や試行回数、採点方法が違えば意味が変わります。発表元が公式かどうか、再現可能な手順が示されているか——この2点を確認するだけでも、数字の信頼度はかなり見極められます。
そして最も確実なのは、自社の実タスクで小さく試すことです。ベンチマークは「平均的な強さ」を示しますが、あなたの業務に効くかは別問題です。普段の業務データで数件試し、単体モデルの出力と比べてみる。手間はかかりますが、点数表を眺めるより何倍も確かな判断材料になります。Fugu Ultraのように「複数モデルの連携」が売りのシステムは、特に“自社で触ってみないと分からない”性格が強いといえます。
まとめると、Fugu Ultraの性能は「期待を持って注視するが、過信はしない」のが正しい距離感です。新興のアプローチだからこそ伸びしろも大きい一方、評価がまだ定まっていません。発表される数字は出発点として受け止め、独立検証の蓄積と自社での実証を重ねながら、自社にとっての本当の価値を見極めていきましょう。焦って全面導入するより、検証しながら付き合うほうが、結果的に賢い選択になります。
よくある質問(FAQ)
Q. Fugu UltraはGPTやClaudeより強いのですか?
分野によります。SWE-Bench ProやHLEはFable 5、長文処理はGPT-5.5、セキュリティはOpus 4.8が首位とされ、Fuguは一部で肩を並べる水準です。総合で最強とは言えません。
Q. SWE-Bench Proの73.7という数字は信頼できますか?
Sakana AIの自社申告値で、独立検証はまだありません。参考値として扱い、第三者評価が出るのを待つのが安全です。
Q. なぜ『輸出規制リスクなし』が強調されるのですか?
比較対象のFable 5等が安全保障上の輸出規制で利用困難になったためです。Fuguはモデルを差し替えられるので、その制約を回避できると訴求しています。
Q. Fuguの性能は他社モデルのおかげなのでは?
その指摘はあります。Fuguは他社モデルも部品として使うため、強みの一部は外部依存です。これは弱点であると同時に『最適な部品を束ねる』設計思想の表れでもあります。
Q. 導入を判断するには何を見ればよいですか?
公開ベンチだけでなく、自社の実際のタスクで試すこと、そして独立した第三者評価の有無を確認することが重要です。
まとめ
- Fugu UltraはFable/Mythos級を主張するが全て自社申告
- 分野ごとに首位は入れ替わり『圧勝』ではない
- 強みは単体性能でなく“集中リスクの回避”と“規制迂回”
- 数字は独立検証・自社の実タスク検証とセットで読む
関連記事
- Sakana AIとは?日本発AIユニコーンの全貌
- Sakana Fuguとは?1つのAPIで全モデル統率
- Sakana Fuguの始め方|料金とAPI設定
- AIオーケストレーションとは?Fuguの心臓部
- Sakana AIはなぜ日本発で世界に挑むのか
- Claude Fable 5とは|Opus超えMythos級が一般公開
- Claude Fable 5が公開3日で停止|米政府指令の全貌
- Fable 5 vs Opus 4.8|上位だから常に正解ではない理由
- LLMO・AIO・GEO・SEOの違いを一枚絵で整理
- AI検索の四半期総括2026春|信頼性の時代へ
「AIに選ばれる」次のステップへ
フロンティアモデルがどれだけ進化しても、AIに引用されるかは自社サイトの作り方次第。仁頼はSEOとAI検索の一貫設計で支援します。
STEP 1 ・ まずは無料で診断
AI検索セルフ診断ワークシート
ChatGPT・Claude・Perplexity・Google AI Overviewで自社が引用されるかを10分で確認。
株式会社仁頼 — BtoB企業のWebマーケティング・AI活用を一貫支援。AI検索最適化サービス「GEO Hack」運営。