Cách tạo và chỉnh sửa hình ảnh bằng bản xem trước Gemini 2.0 Flash

CometAPI
AnnaMay 9, 2025
Cách tạo và chỉnh sửa hình ảnh bằng bản xem trước Gemini 2.0 Flash

Kể từ khi ra mắt vào ngày 7 tháng 2025 năm 2.0, khả năng hình ảnh của Gemini XNUMX Flash đã có sẵn ở dạng xem trước—trao quyền cho các nhà phát triển và chuyên gia sáng tạo để tạo và tinh chỉnh hình ảnh thông qua các cuộc hội thoại bằng ngôn ngữ tự nhiên. Bài viết này tổng hợp các thông báo mới nhất, báo cáo thực hành và tài liệu kỹ thuật để hướng dẫn bạn thực hiện mọi thứ, từ việc tạo lời nhắc hình ảnh đầu tiên cho đến thực hiện chỉnh sửa chính xác trên các tài sản hiện có. Mỗi tiêu đề phụ đặt ra một câu hỏi chính để định hướng cho quá trình khám phá của bạn, với các tiêu đề phụ phân tích các chi tiết cụ thể mà bạn cần để bắt đầu xây dựng ngay hôm nay.

Bản xem trước Gemini 2.0 Flash để tạo và chỉnh sửa hình ảnh là gì?

Gemini 2.0 Flash là mô hình AI mới nhất của Google được tối ưu hóa cho tốc độ (“Flash”) và các tác vụ đa phương thức, hiện cung cấp khả năng tạo và chỉnh sửa hình ảnh trong bản xem trước thông qua Google AI Studio và Vertex AI. Được Kat Kampf, Giám đốc sản phẩm của Google AI Studio công bố vào ngày 7 tháng 2025 năm XNUMX, bản xem trước tiết lộ tên mô hình gemini-2.0-flash-preview-image-generation thông qua GenAI API, cho phép tỷ lệ yêu cầu cao hơn và tích hợp liền mạch vào các ứng dụng. India Today Tech xác nhận rằng cả người dùng miễn phí (thông qua ứng dụng Gemini) và nhà phát triển (thông qua AI Studio/Vertex AI) đều có thể thử nghiệm các công cụ nâng cấp này mà không mất phí—đánh dấu sự dân chủ hóa đáng kể của AI hình ảnh tiên tiến.

Điểm khác biệt của Gemini 2.0 Flash so với các phiên bản tạo hình ảnh trước đó là gì?

So với mô hình hình ảnh thử nghiệm trước đây được nhúng trong Gemini, Flash cung cấp:

  • Cải thiện độ trung thực của hình ảnh: Chi tiết sắc nét hơn, kết cấu chân thực hơn và xử lý tốt hơn các thành phần tinh tế như tóc, lá và hình ảnh phản chiếu.
  • Hiển thị văn bản nâng cao: Đặt và định dạng văn bản một cách chính xác trong hình ảnh, giảm các chữ cái lộn xộn và ký tự tượng hình không thẳng hàng thường gặp trong các phiên bản trước.
  • Tỷ lệ chặn bộ lọc thấp hơn: Bộ lọc nội dung được nới lỏng cho phép nhiều lời nhắc lành tính hơn đi qua, đồng thời vẫn thực thi chính sách về tài liệu không được phép, hợp lý hóa quy trình làm việc cho các trường hợp sử dụng tuân thủ.

Các nhà phát triển có thể tạo hình ảnh bằng cách sử dụng bản xem trước Gemini 2.0 Flash như thế nào?

Việc tạo hình ảnh cũng đơn giản như việc gọi GenAI SDK hoặc REST API bằng lời nhắc của bạn và chỉ định rằng bạn muốn cả dạng văn bản và hình ảnh.

Sử dụng API trong google:

from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=("Show me an ultra-realistic watercolor painting of a city skyline at sunset"),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
)
print(response.images.url)

Đoạn trích này minh họa thiết lập tối thiểu: thay thế GEMINI_API_KEY với chìa khóa của bạn, điều chỉnh contents chuỗi theo tầm nhìn sáng tạo của bạn và nhận URL tới hình ảnh được tạo.

Sử dụng Gemini 2.0 Flash tạo hình ảnh trong CometAPI

Những phương pháp gợi ý nào mang lại hình ảnh chất lượng cao nhất?

  1. Hãy cụ thể về phong cách và phương tiện: “Bức tranh màu nước”, “bối cảnh cyberpunk neon” hoặc “nghệ thuật vector tối giản” giúp mô hình neo giữ đầu ra của nó.
  2. Bao gồm các gợi ý về thành phần:Các cụm từ như “quy tắc một phần ba”, “ánh sáng ấn tượng từ bên trái” hoặc “chủ thể tiền cảnh rõ nét” hướng dẫn cách đóng khung.
  3. Lặp lại với các lời nhắc tiếp theo: Sử dụng các chỉnh sửa hội thoại (xem phần tiếp theo) để điều chỉnh cân bằng màu sắc, điều chỉnh tỷ lệ hoặc tinh chỉnh chi tiết mà không cần phải bắt đầu lại từ đầu.

Làm thế nào bạn có thể chỉnh sửa hình ảnh hiện có theo cách đàm thoại?

Chỉnh sửa hoạt động bằng cách tải lên hình ảnh hoặc chọn nội dung đã tạo trước đó, sau đó đưa ra hướng dẫn bằng ngôn ngữ tự nhiên để thay đổi các khu vực hoặc thuộc tính cụ thể.

response = client.models.generate_content(
   model="gemini-2.0-flash-preview-image-generation",
   contents=(
       "Remove the background from this image, replace it with a snowy mountain vista, and enhance the subject's coat color to deep crimson."
   ),
   config=types.GenerateContentConfig(
        response_modalities=
   ),
   input_image="gs://my-bucket/path/to/source.png"
)

Những tính năng chỉnh sửa hội thoại nào được hỗ trợ?

  • Chỉnh sửa có chọn lọc: Chỉ thay đổi các vùng được chỉ định (ví dụ: “làm sáng mắt”, “thêm chữ viết thư pháp vào biển báo”) mà không ảnh hưởng đến các điểm ảnh xung quanh.
  • Vẽ đồng thời theo thời gian thực:Thông qua ứng dụng Gemini Co-Drawing Sample, nhiều cộng tác viên có thể phác thảo và chú thích trực tiếp trong AI Studio, giúp đẩy nhanh quy trình làm việc lặp đi lặp lại.
  • Văn bản hóa lại: Đặt sản phẩm hoặc nhân vật vào các bối cảnh hoàn toàn mới—lý tưởng cho các bản mô phỏng tiếp thị hoặc tạo mẫu nhanh các khái niệm trực quan.
  • Xóa hình mờ: Những người dùng đầu tiên báo cáo rằng Gemini 2.0 Flash có thể xóa hình mờ có thể nhìn thấy và thay thế bằng dấu SynthID trung tính, mặc dù vẫn áp dụng các nguyên tắc sử dụng có đạo đức.

Song Tử 2.0 Flash

Mức giá và giới hạn tỷ giá nào được áp dụng trong bản xem trước?

Google đã gỡ bỏ nhiều hạn chế trong giai đoạn thử nghiệm: các nhà phát triển được hưởng lợi từ hạn ngạch theo phút cao hơn và mức giá xem trước được giảm giá.

Giới hạn tỷ lệ đã được cải thiện như thế nào?

  • Tăng QPS:Số lượng yêu cầu mỗi giây tăng gấp đôi so với mô hình thử nghiệm trước đó, hỗ trợ khối lượng công việc lớn và các ứng dụng thời gian thực.
  • Chỉnh sửa hàng loạt:Gemini hiện chấp nhận tối đa 10 hình ảnh trong một đợt để chỉnh sửa, hợp lý hóa quy trình làm việc đòi hỏi phải điều chỉnh phong cách nhất quán trên nhiều nội dung.

Giá xem trước trông như thế nào?

  • Tạo hình ảnh: Khoảng 0.039 đô la cho mỗi hình ảnh (3.9 xu), được tính theo mỗi đầu ra duy nhất.
  • Chỉnh sửa hoạt động: Giá tương tự như giá công việc thế hệ, với các mức giảm giá tiếp theo dự kiến ​​sau khi bản xem trước kết thúc.

Hiện nay bạn có thể truy cập và cấu hình bản xem trước như thế nào?

  1. Đăng nhập vào Google AI Studio hoặc Vertex AI trong Google Cloud Console.
  2. Kích hoạt API GenAI và tạo khóa API trong mục “Thông tin xác thực”.
  3. Chọn ngươi mâu gemini-2.0-flash-preview-image-generation trong mã hoặc lệnh gọi API của bạn.
  4. Tải lên hình ảnh nguồn (nếu đang chỉnh sửa) thông qua Cloud Storage hoặc trực tiếp trong Studio UI.
  5. cầu nguyện lời nhắc và kết quả đánh giá của bạn trong bảng điều khiển Studio hoặc theo chương trình.

Chúng ta có thể mong đợi những cải tiến nào trong tương lai?

Google đã báo hiệu một số cải tiến sắp tới khi Gemini 2.0 Flash vượt ra khỏi bản xem trước:

Khả năng mở rộng

  • Đầu ra có độ phân giải cao hơn (lên đến 4K+), lý tưởng để in ấn và hiển thị trên màn hình lớn.
  • Pha trộn phong cách nâng cao, kết hợp nhiều tài liệu tham khảo nghệ thuật trong một hình ảnh duy nhất.

Tích hợp rộng hơn

  • Hỗ trợ gốc trong Chrome, Docs, Slidesvà các ứng dụng G Suite khác, cho phép tạo và chỉnh sửa hình ảnh chỉ bằng một cú nhấp chuột.
  • Các tác nhân đa phương thức nâng cao (Dự án Astra), tích hợp các tác vụ hình ảnh vào các cuộc trò chuyện dài hơn, có nhận thức về ngữ cảnh.

Bằng cách cho phép tạo hình ảnh và chỉnh sửa chính xác thông qua giao diện đàm thoại trực quan, bản xem trước của Gemini 2.0 Flash đánh dấu một cột mốc trong khả năng sáng tạo có thể mở rộng và dễ tiếp cận nhờ AI. Cho dù bạn đang tạo nguyên mẫu hình ảnh sản phẩm, cộng tác về các tài sản tiếp thị hay chỉ đơn giản là khám phá những chân trời nghệ thuật mới, bản xem trước sẽ cung cấp cho bạn các công cụ để lặp lại nhanh hơn và phong phú hơn bao giờ hết. Khi bản xem trước phát triển thành bản phát hành đầy đủ, hãy mong đợi sự tích hợp sâu hơn nữa trên toàn bộ hệ sinh thái của Google và các khả năng ngày càng tinh vi hơn để thúc đẩy bước đột phá tiếp theo của bạn.

Bắt đầu

Các nhà phát triển có thể truy cập  API tạo hình ảnh Exp-Image-Generation của Gemini 2.0 Flash thông qua Sao chổiAPI. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo Hướng dẫn API (tên mẫu: gemini-2.0-flash-exp-image-generation) để biết hướng dẫn chi tiết. Lưu ý rằng một số nhà phát triển có thể cần xác minh tổ chức của họ trước khi sử dụng mô hình. API Gemini 2.0 Flash pre-Image-Generation sẽ sớm được ra mắt.

SHARE THIS BLOG

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%