基本情報(機能)
- Multimodality: 1つのモデルでテキスト、画像、コードをネイティブに扱います。
- Long Context Window: 長い会話や文書にわたって整合性を維持します。1.05M
- Deep Think Mode: Pro スイート内の実験的なバリアントで、複数の推論エージェントを並列に稼働させ、戦略的計画や創造的な解決策に活用します。
- Ideal Use Cases: コーディング、エージェント型ワークフロー、インタラクティブなシミュレーション、データ可視化。
技術的詳細
- Multi-Agent Architecture: 複数の解法パスを同時に探るために推論ストリームを並列化します。
- MRCR (Multi-Round Coreference Resolution): 継続的な対話やマルチターンタスクにおける共参照処理を強化します。
- Training Corpus: ウェブテキスト、コードリポジトリ、学術ソース、独自データセットにまたがる数十億のトークン。
- Tool Integration: 内部推論を補強するために、コード実行、Google Search、外部APIをシームレスに組み合わせます。
- 制限事項と既知のリスク
- Content policy constraints: モデルはコンテンツポリシー(例: 露骨な性的コンテンツや一部の違法コンテンツの禁止)を施行しますが、施行は完全ではありません—公人や物議を醸すアイコンの画像生成が状況によっては可能な場合があるため、ポリシーチェックは不可欠です。 )
- Failure modes: 極端な編集におけるアイデンティティのドリフト、プロンプトが十分に特定されていない場合の意味的不整合、非常に複雑なシーンや極端な視点変更でのアーティファクトが発生する可能性があります。
- Provenance & misuse: 透かしや SynthID は存在しますが、悪用を防ぐものではありません—検出や帰属の支援には役立ちますが、センシティブなワークフローにおいて人間によるレビューの代替にはなりません。
代表的なユースケース
- Product & ecommerce: 複数画像の融合により、ライフスタイルショットに製品を配置/カタログ化。
- Creative tooling / design: デザインアプリでの高速な反復(Adobe Firefly との統合が言及されています)。
- Photo editing & retouching: 自然言語による局所編集(オブジェクトの削除、色/ライティングの変更、リスタイル)。
- Storytelling / character assets: パネルやシーンをまたいでキャラクターの一貫性を保つ。

