モデル
コア機能の概要: 解像度: 最大4K(4096×4096)、Proと同等。参照画像の一貫性: 参照画像は最大14枚(オブジェクト10件 + キャラクター4件)、スタイル/キャラクターの一貫性を維持。極端なアスペクト比: 1:4、4:1、1:8、8:1を新規追加、縦長画像・ポスター・バナーに最適。テキストレンダリング: 高度なテキスト生成、インフォグラフィックおよびマーケティングポスターのレイアウトに最適。検索機能の強化: Google Search + Image Searchを統合。グラウンディング: 思考プロセスを内蔵、複雑なプロンプトは生成前に推論。 Claude Opus 4.6 は、Anthropic の「Opus」クラスの大規模言語モデルで、2026年2月にリリースされた。ナレッジワークや研究ワークフローの主力として位置づけられており、長文脈での推論、多段階の計画立案、ツールの利用(エージェント型ソフトウェアワークフローを含む)、およびスライドやスプレッドシートの自動生成といったコンピュータ操作タスクを強化する。 Claude Sonnet 4.6 は、これまでで最も高性能な Sonnet モデルです。コーディング、コンピューターの利用、長文脈推論、エージェントの計画立案、ナレッジワーク、デザインにわたってモデルのスキルを全面的にアップグレードしました。Sonnet 4.6 は、ベータ版で 1M トークンのコンテキストウィンドウも備えています。 文脈:400,000
GPT-5.4 nano は、分類、データ抽出、ランキング、サブエージェントなど、速度とコストが最も重要となるタスク向けに設計されています。文脈:400,000
GPT-5.4 mini は、GPT-5.4 の強みを、高スループットのワークロード向けに設計された、より高速で効率的なモデルにもたらします。Claude Mythos Preview は、当社のこれまでで最も高性能なフロンティアモデルであり、
従来のフロンティアモデルである Claude Opus 4.6 と比べ、多くの評価ベンチマークでスコアが顕著に向上していることを示しています。 MiMo-V2-Pro は Xiaomi のフラッグシップ基盤モデルで、総パラメータ数は 1T 超、コンテキスト長は 1M で、エージェント志向のシナリオ向けに徹底的に最適化されています。OpenClaw のような汎用エージェントフレームワークに高い適応性を備えており、標準的な PinchBench および ClawBench ベンチマークで世界トップクラスに位置し、体感パフォーマンスは Opus 4.6 に迫ります。MiMo-V2-Pro はエージェントシステムの頭脳として、複雑なワークフローをオーケストレーションし、本番環境のエンジニアリングタスクを推進し、確実に成果を提供するよう設計されています。 MiMo-V2-Omni は、統一されたアーキテクチャで画像・動画・音声入力をネイティブに処理する最先端のオムニモーダルモデルです。強力なマルチモーダル知覚とエージェント的能力(視覚的グラウンディング、マルチステップの計画、ツールの使用、コード実行)を組み合わせ、モダリティをまたぐ複雑な現実世界のタスクに適しています。256K のコンテキストウィンドウ。 MiniMax-M2.7 は、標準モデルと同等の最高水準の知能(再帰的自己進化やエキスパート級のオフィス生産性を含む)を備えつつ、サブ秒レイテンシと高速なトークン生成を要するアプリケーション向けに設計されています。強化された推論バックボーンアーキテクチャを活用し、出力速度は標準モデル比で66%高速(100 tpsに到達)です。インタラクティブなプログラミングアシスタント、リアルタイムのエージェントループ実行、厳格な完了時間要件を伴う高スループットのエ illusions}} 文脈:200k
GLM-5 Turbo は、OpenClaw シナリオのようなエージェント駆動型環境において、高速な推論と優れた性能を実現するよう設計された、Z.ai の新しいモデルです。文脈:1,050,000
より賢く、より正確な応答を生成する GPT-5.4 のバージョン。文脈:1,050,000
GPT-5.4 は、複雑な専門業務向けのフロンティアモデルです。Reasoning.effort は次をサポートします: none(デフォルト)、low、medium、high、xhigh。ChatGPTで使用されているGPT-5.3 Instant モデル Gemini 3.1 Flash-Lite は、Google の Gemini 3 シリーズにおける、コスト効率に優れ低レイテンシな Tier-3 モデルで、最大限の推論深度よりもスループットと速度が重視される大規模なプロダクション AI ワークフロー向けに設計されています。大きなマルチモーダルなコンテキストウィンドウと効率的な推論性能を兼ね備え、多くのフラッグシップモデルよりも低コストで提供されます。 文脈:200K
最速かつ最もコスト効率の高いモデル。毎秒:$0.24
Sora 2 Pro は、当社で最も高度かつ強力なメディア生成モデルで、音声と同期した動画を生成できます。自然言語または画像から、精細でダイナミックな動画クリップを生成します。毎秒:$0.08
効果音に対応し、チャット形式をサポートする超高性能な動画生成モデル。リクエストごと:$0.6
Midjourney video generationネイティブなビジョン・ランゲージモデルである Qwen3.5 シリーズの QWEN3.5-397B-A17B は、推論、プログラミング、エージェント能力、マルチモーダル理解といった包括的なベンチマーク評価で卓越した性能を発揮し、開発者や企業の生産性を大幅に向上させます。モデルは、線形アテンション(Gated Delta Networks)とスパースなハイブリッドの Mixture-of-Experts(MoE)を組み合わせた革新的なハイブリッドアーキテクチャを採用し、優れた推論効率を実現しています。総パラメータは3970億で、順伝播あたりにアクティブ化されるのは170億パラメータのみであり、能力を維持しながら速度とコストを最適化します。さらに、言語および方言のサポートを119から201へ拡大し、世界中のユーザーにより広い利用可能性とより良いサポートを提供します。 文脈:2,000,000
Grok 4.20のリリースでは、マルチエージェント・アーキテクチャ(複数の専門特化したエージェントがリアルタイムで協調)を導入し、コンテキストモードを拡張するとともに、指示追従性、ハルシネーションの低減、構造化/ツール対応の出力に焦点を当てた改善を行いました。毎秒:$0.04
テキストプロンプトから動画を生成し、静止画像をアニメーション化し、自然言語で既存の動画を編集できます。APIは生成される動画の再生時間、アスペクト比、解像度の設定に対応し、SDKが非同期ポーリングを自動的に処理します。文脈:32,000
音声入力・音声出力に最適な音声モデル。Chat Completions における音声入出力に最適な音声モデル。 文脈:400,000
GPT-5.3-Codex は、Codex または同様の環境におけるエージェント駆動のコーディングタスクに最適化されています。GPT-5.3-Codex は、推論負荷の設定として low、medium、high、xhigh をサポートします。リクエストごと:$0.028
Seedream 5.0 Lite は、深い思考能力とオンライン検索機能を備えた統合型マルチモーダル画像生成モデルで、理解・推論・生成の各能力が総合的に強化されています。Gemini 3.1 Pro は、高性能でネイティブにマルチモーダルな推論モデル群である Gemini シリーズの次世代モデルです。Gemini 3 Pro は現在、複雑なタスクに対して Google の最も高度なモデルであり、テキスト、音声、画像、動画、さらにはコードリポジトリ全体を含む、異なる情報ソースからの大規模データセットや難度の高い課題を理解できます。 Qwen3.5ネイティブVision-LanguageシリーズのPlusモデルは、線形アテンション機構とスパースなMixture-of-Expertsモデルを統合したハイブリッドアーキテクチャ上に構築されており、より高い推論効率を実現します。 Qwen3.5シリーズの397B-A17Bネイティブ視覚言語モデルは、線形アテンション機構とスパースMixture-of-Experts(MoE)モデルを統合したハイブリッドアーキテクチャに基づいて構築されており、より高い推論効率を実現しています。 🔹 Doubao Seed 2.0 シリーズ
doubao-seed-2-0-code-preview-260215
長い思考連鎖における推論能力と複雑なタスクに対する安定性に注力し、実ビジネス環境の複雑なシナリオに適応しています。Seed 2.0 のコーディング強化版として、Agentic Coding により適しています。
doubao-seed-2-0-lite-260215
生成品質と応答速度のバランスが取れており、汎用の本番運用向けモデルとして適しています。
doubao-seed-2-0-mini-260215
低レイテンシ、高い同時実行性、およびコストに敏感なシナリオ向けに設計されています。高速応答と柔軟な推論のデプロイを重視し、四段階の思考とマルチモーダルな理解能力をサポートします。 MiniMax-M2.5は、実世界での生産性向上を目的に設計されたSOTAの大規模言語モデルです。多様で複雑な現実のデジタル業務環境で訓練されており、M2.1のコーディングの専門性を基盤に一般的なオフィス業務へと能力を拡張し、Word、Excel、PowerPointファイルの生成・操作を流暢にこなし、多様なソフトウェア環境間でのコンテキスト切り替えや、異なるエージェントおよび人間のチームを横断した作業にも対応します。