Gemini 2.0 Flashプレビューで画像を作成および編集する方法

CometAPI
AnnaMay 9, 2025
Gemini 2.0 Flashプレビューで画像を作成および編集する方法

7年2025月2.0日の発表以来、Gemini XNUMX Flashの画像機能はプレビュー版として提供されており、開発者やクリエイティブプロフェッショナルは自然言語による対話を通じてビジュアルを生成・洗練させることができます。この記事では、最新の発表、ハンズオンレポート、技術ドキュメントをまとめ、最初の画像プロンプトの作成から既存アセットの精密な編集まで、あらゆる手順をガイドします。各サブ見出しは、探索の方向性を決めるための重要な質問を提示し、サブ見出しでは、今日から構築を開始するために必要な具体的な内容を詳しく説明します。

画像生成および編集用の Gemini 2.0 Flash プレビューとは何ですか?

Gemini 2.0 Flashは、Googleの最新AIモデルで、速度(「Flash」)とマルチモーダルタスク向けに最適化されており、Google AI StudioとVertex AIを通じて画像生成と編集のプレビュー版が利用可能になりました。7年2025月XNUMX日にGoogle AI StudioのプロダクトマネージャーであるKat Kampfによって発表されたこのプレビュー版では、モデル名が公開されています。 gemini-2.0-flash-preview-image-generation GenAI APIを通じて、より高いリクエストレートとアプリケーションへのシームレスな統合が可能になります。India Today Techは、無料ユーザー(Geminiアプリ経由)と開発者(AI Studio / Vertex AI経由)の両方がこれらのアップグレードされたツールを無料で試すことができることを確認しており、高度な画像AIの大幅な民主化を示しています。

Gemini 2.0 Flash と以前のイメージ世代のリリースとの違いは何ですか?

以前 Gemini に組み込まれていた実験的な画像モデルと比較して、Flash は次の機能を提供します。

  • 視覚的な忠実度の向上: よりシャープなディテール、よりリアルなテクスチャ、髪の毛、葉、反射などの細かい要素の処理が向上します。
  • 強化されたテキストレンダリング: 画像内のテキストを正確に配置してスタイルを設定し、以前のバージョンでよく見られた文字化けやグリフの位置ずれを軽減します。
  • フィルターブロック率の低下: 緩和されたコンテンツ フィルターにより、より無害なプロンプトを通過させながら、許可されていないコンテンツに関するポリシーを引き続き適用し、準拠したユース ケースのワークフローを合理化します。

開発者は、Gemini 2.0 Flash プレビューを使用してどのように画像を生成できますか?

画像を生成するのは、プロンプトを使用して GenAI SDK または REST API を呼び出し、テキストと画像の両方のモダリティが必要であることを指定するだけです。

Google の API を使用します。

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

このスニペットは最小限の設定を示しています: GEMINI_API_KEY キーを使って調整します contents あなたの創造的なビジョンに文字列を入力し、生成された画像への URL を受け取ります。

CometAPI で Gemini 2.0 の Flash 画像生成を使用する

最高品質のビジュアルを生み出すためのプロンプトのベストプラクティスは何ですか?

  1. スタイルと媒体について具体的に記述する「水彩画」、「ネオンサイバーパンクシーン」、「ミニマリストベクターアート」などは、モデルの出力を固定するのに役立ちます。
  2. 構成のヒントを含める「三分割法」、「左からのドラマチックな照明」、「前景の被写体にピントを合わせる」などのフレーズがフレーミングのガイドになります。
  3. フォローアップのプロンプトを繰り返します: 会話型編集 (次のセクションを参照) を使用して、最初からやり直すことなく、カラーバランスを微調整したり、比率を調整したり、詳細を調整したりします。

既存の画像を会話形式で編集するにはどうすればよいでしょうか?

編集は、画像をアップロードするか、以前に生成されたアセットを選択し、自然言語の指示を発行して特定の領域または属性を変更することによって機能します。

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

どのような会話編集機能がサポートされていますか?

  • 選択的編集: 周囲のピクセルに影響を与えずに、指定した領域のみを変更します(例:「目を明るくする」、「標識にカリグラフィを追加する」)。
  • リアルタイム共同描画: Gemini 共同描画サンプル アプリを使用すると、複数の共同作業者が AI Studio で直接スケッチや注釈を付けることができ、反復的なワークフローが加速されます。
  • 再文脈化製品やキャラクターをまったく新しいシーンに配置します。マーケティングのモックアップやビジュアルコンセプトのラピッドプロトタイピングに最適です。
  • ウォーターマークの除去: 早期導入者によると、Gemini 2.0 Flash では目に見える透かしを削除し、中立的な SynthID マークに置き換えることができますが、倫理的な使用ガイドラインが適用されます。

ジェミニ 2.0 フラッシュ

プレビューではどのようなレート制限と価格が適用されますか?

Google は実験段階から多くの制約を解除しました。開発者は 1 分あたりの割り当ての増加やプレビュー料金の割引などのメリットを享受できます。

レート制限はどのように改善されましたか?

  • QPSの増加: 1 秒あたりのリクエスト数が以前の実験モデルと比較して 2 倍になり、バースト的なワークロードとリアルタイム アプリケーションをサポートします。
  • 一括編集Gemini では、編集時に 10 回のバッチで最大 XNUMX 枚の画像を受け入れることができるようになり、複数のアセットにわたって一貫したスタイル調整を必要とするワークフローが効率化されました。

プレビューの価格設定はどのようになっていますか?

  • 画像生成: 画像 0.039 枚あたり約 3.9 ドル (XNUMX セント)、固有の出力ごとに課金されます。
  • 編集操作: 生成ジョブと同様の価格設定ですが、プレビュー終了後にさらなる割引が予定されています。

今日はプレビューにどのようにアクセスして設定しますか?

  1. サインイン Google Cloud Console の Google AI Studio または Vertex AI に。
  2. GenAI APIを有効にする 「認証情報」の下にAPIキーを作成します。
  3. 選択する モデル gemini-2.0-flash-preview-image-generation コードまたは API 呼び出しで。
  4. アップロード ソース画像(編集する場合)は、Cloud Storage 経由、または Studio UI で直接保存できます。
  5. 呼び出します Studio ダッシュボードまたはプログラムでプロンプトと出力を確認します。

今後どのような改善が期待できますか?

Google は、Gemini 2.0 Flash がプレビューを終えたら、いくつかの機能強化を予定していると示唆しています。

拡張された機能

  • 高解像度出力 (最大 4K+)、印刷や大規模ディスプレイに最適です。
  • 高度なスタイルのブレンド複数の芸術的参照を 1 つの画像に組み合わせます。

より広範な統合

  • Chrome、ドキュメント、スライドでのネイティブサポート、その他の G Suite アプリケーションと連携し、ワンクリックで画像を作成および編集できるようになります。
  • 強化されたマルチモーダルエージェント (Project Astra) は、画像タスクをより長いコンテキスト認識型会話に統合します。

Gemini 2.0 Flash のプレビュー版は、直感的な会話型インターフェースを通じて画像生成と正確な編集の両方を可能にし、AI を活用したクリエイティビティのアクセシビリティとスケーラビリティにおける画期的な一歩となります。製品ビジュアルのプロトタイプ作成、マーケティングアセットの共同制作、あるいは単に新たな芸術的可能性の探求など、このプレビュー版は、これまで以上に迅速かつ豊かなイテレーションを実現するツールを提供します。プレビュー版が正式リリースへと進化するにつれ、Google エコシステムとのより緊密な統合と、さらに洗練された機能が、あなたの次のブレイクスルーを加速させるでしょう。

スタートガイド

開発者はアクセスできる  Gemini 2.0 Flash Exp-Image-Generation API   コメットAPIまず、プレイグラウンドでモデルの機能を調べ、 APIガイド (モデル名: gemini-2.0-flash-exp-image-generation詳細な手順については、こちらをご覧ください。一部の開発者は、モデルを使用する前に組織の確認が必要となる場合がありますのでご注意ください。Gemini 2.0 Flash プレイメージ生成 API は近日中にリリースされる予定です。

SHARE THIS BLOG

もっと読む

1つのAPIで500以上のモデル

最大20%オフ