モデル
コア機能の概要: 解像度: 最大4K(4096×4096)、Proと同等。参照画像の一貫性: 参照画像は最大14枚(オブジェクト10件 + キャラクター4件)、スタイル/キャラクターの一貫性を維持。極端なアスペクト比: 1:4、4:1、1:8、8:1を新規追加、縦長画像・ポスター・バナーに最適。テキストレンダリング: 高度なテキスト生成、インフォグラフィックおよびマーケティングポスターのレイアウトに最適。検索機能の強化: Google Search + Image Searchを統合。グラウンディング: 思考プロセスを内蔵、複雑なプロンプトは生成前に推論。 新しい自己回帰型マルチモーダルアーキテクチャを採用し、コアとなるブレークスルーはほぼ完璧なテキストレンダリング能力にあり、中国書道を含む多言語のカリグラフィに対応し、黄色フィルターの問題を解消する色再現や世界知識に基づく正確なコンテンツ生成を備え、市販可能なデザイン素材を4K解像度で直接出力できます。 毎秒:$0.08
Seedance 2.0 は、ByteDance の次世代マルチモーダル動画基盤モデルで、シネマティックかつマルチショットのナラティブ動画生成に特化しています。単一ショットのテキストから動画へのデモとは異なり、Seedance 2.0 は参照ベースのコントロール(画像、短いクリップ、音声)、ショットをまたいだキャラクター/スタイルの一貫性、ネイティブな音声/映像の同期を重視し、プロフェッショナルなクリエイティブおよびプリビジュアライゼーションのワークフローで役立つ AI 動画の実現を目指しています。エージェントやコーディング向けの最も高知能なモデル Claude Sonnet 4.6 は、これまでで最も高性能な Sonnet モデルです。コーディング、コンピューターの利用、長文脈推論、エージェントの計画立案、ナレッジワーク、デザインにわたってモデルのスキルを全面的にアップグレードしました。Sonnet 4.6 は、ベータ版で 1M トークンのコンテキストウィンドウも備えています。 文脈:400,000
GPT-5.4 nano は、分類、データ抽出、ランキング、サブエージェントなど、速度とコストが最も重要となるタスク向けに設計されています。文脈:400,000
GPT-5.4 mini は、GPT-5.4 の強みを、高スループットのワークロード向けに設計された、より高速で効率的なモデルにもたらします。文脈:2,000,000
Grok 4.20のリリースでは、マルチエージェント・アーキテクチャ(複数の専門特化したエージェントがリアルタイムで協調)を導入し、コンテキストモードを拡張するとともに、指示追従性、ハルシネーションの低減、構造化/ツール対応の出力に焦点を当てた改善を行いました。Qwen 3.6-Plus が利用可能になり、コード開発機能が強化され、マルチモーダル認識・推論の効率も向上し、Vibe Coding の体験がさらに向上しました。 Kimi K2.6 プレビュー版は現在テスト用に利用可能です。 GLM-5.1 (released April 2026), purpose-built for long-horizon autonomous tasks. Unlike traditional models optimized for short interactions, GLM-5.1 excels at maintaining goal alignment, reducing strategy drift, and delivering production-grade results over extended periods — up to 8 hours of continuous autonomous work on a single complex task. It represents a major leap in agentic engineering, shifting evaluation from single-turn intelligence to real-world sustained execution. Claude Mythos Preview は、当社のこれまでで最も高性能なフロンティアモデルであり、
従来のフロンティアモデルである Claude Opus 4.6 と比べ、多くの評価ベンチマークでスコアが顕著に向上していることを示しています。 MiMo-V2-Pro は Xiaomi のフラッグシップ基盤モデルで、総パラメータ数は 1T 超、コンテキスト長は 1M で、エージェント志向のシナリオ向けに徹底的に最適化されています。OpenClaw のような汎用エージェントフレームワークに高い適応性を備えており、標準的な PinchBench および ClawBench ベンチマークで世界トップクラスに位置し、体感パフォーマンスは Opus 4.6 に迫ります。MiMo-V2-Pro はエージェントシステムの頭脳として、複雑なワークフローをオーケストレーションし、本番環境のエンジニアリングタスクを推進し、確実に成果を提供するよう設計されています。 MiMo-V2-Omni は、統一されたアーキテクチャで画像・動画・音声入力をネイティブに処理する最先端のオムニモーダルモデルです。強力なマルチモーダル知覚とエージェント的能力(視覚的グラウンディング、マルチステップの計画、ツールの使用、コード実行)を組み合わせ、モダリティをまたぐ複雑な現実世界のタスクに適しています。256K のコンテキストウィンドウ。 MiniMax-M2.7 は、標準モデルと同等の最高水準の知能(再帰的自己進化やエキスパート級のオフィス生産性を含む)を備えつつ、サブ秒レイテンシと高速なトークン生成を要するアプリケーション向けに設計されています。強化された推論バックボーンアーキテクチャを活用し、出力速度は標準モデル比で66%高速(100 tpsに到達)です。インタラクティブなプログラミングアシスタント、リアルタイムのエージェントループ実行、厳格な完了時間要件を伴う高スループットのエ illusions}} 文脈:200k
GLM-5 Turbo は、OpenClaw シナリオのようなエージェント駆動型環境において、高速な推論と優れた性能を実現するよう設計された、Z.ai の新しいモデルです。文脈:1,050,000
より賢く、より正確な応答を生成する GPT-5.4 のバージョン。文脈:1,050,000
GPT-5.4 は、複雑な専門業務向けのフロンティアモデルです。Reasoning.effort は次をサポートします: none(デフォルト)、low、medium、high、xhigh。ChatGPTで使用されているGPT-5.3 Instant モデル Gemini 3.1 Flash-Lite は、Google の Gemini 3 シリーズにおける、コスト効率に優れ低レイテンシな Tier-3 モデルで、最大限の推論深度よりもスループットと速度が重視される大規模なプロダクション AI ワークフロー向けに設計されています。大きなマルチモーダルなコンテキストウィンドウと効率的な推論性能を兼ね備え、多くのフラッグシップモデルよりも低コストで提供されます。 Claude Opus 4.6 は、Anthropic の「Opus」クラスの大規模言語モデルで、2026年2月にリリースされた。ナレッジワークや研究ワークフローの主力として位置づけられており、長文脈での推論、多段階の計画立案、ツールの利用(エージェント型ソフトウェアワークフローを含む)、およびスライドやスプレッドシートの自動生成といったコンピュータ操作タスクを強化する。 文脈:200K
最速かつ最もコスト効率の高いモデル。毎秒:$0.24
Sora 2 Pro は、当社で最も高度かつ強力なメディア生成モデルで、音声と同期した動画を生成できます。自然言語または画像から、精細でダイナミックな動画クリップを生成します。毎秒:$0.08
効果音に対応し、チャット形式をサポートする超高性能な動画生成モデル。リクエストごと:$0.6
Midjourney video generationQwen-3.5 Flash Series は、Alibaba Group が Qwen initiative の下で開発した、本番運用志向の大規模言語モデル(LLM)ファミリーです。これは、より広範な Qwen-3.5 モデルファミリーのデプロイメント(ホステッド/API)層に相当し、高速性、長コンテキスト処理、エージェントベースのアプリケーションに最適化されています。
簡単に言えば:Qwen-3.5 Flash = 実環境での本番運用を想定した、Qwen-3.5 モデルの高速・スケーラブル・長コンテキスト・ツール利用対応バージョン。 毎秒:$0.04
テキストプロンプトから動画を生成し、静止画像をアニメーション化し、自然言語で既存の動画を編集できます。APIは生成される動画の再生時間、アスペクト比、解像度の設定に対応し、SDKが非同期ポーリングを自動的に処理します。文脈:32,000
音声入力・音声出力に最適な音声モデル。Chat Completions における音声入出力に最適な音声モデル。 文脈:400,000
GPT-5.3-Codex は、Codex または同様の環境におけるエージェント駆動のコーディングタスクに最適化されています。GPT-5.3-Codex は、推論負荷の設定として low、medium、high、xhigh をサポートします。