Các tính năng chính
- Tạo ảnh & chỉnh sửa ảnh tích hợp sẵn — tạo ảnh hoặc chỉnh sửa ảnh hiện có bằng lời nhắc ngôn ngữ tự nhiên. (Tạo / Chỉnh sửa).
- Hợp nhất nhiều ảnh — kết hợp nhiều ảnh đầu vào thành một cảnh chân thực.
- Nhất quán nhân vật — giữ nguyên diện mạo của đối tượng hoặc nhân vật xuyên suốt các lần chỉnh sửa và prompt. (Nhất quán).
- Đóng dấu hình mờ SynthID — mọi đầu ra đều bao gồm một SynthID vô hình để nhận diện nội dung do AI tạo. (Hình mờ).
Chi tiết kỹ thuật
- Kiến trúc & định vị: được xây dựng trên dòng Gemini 2.5 Flash — được thiết kế như một biến thể "Flash" độ trễ thấp, đánh đổi một chút kích thước/thông lượng mô hình để có phản hồi theo mỗi lần gọi nhanh hơn nhiều và hiệu quả chi phí, đồng thời vẫn giữ khả năng suy luận mạnh hơn các tầng Flash trước đó.
- Định dạng đầu vào & giới hạn: chấp nhận ảnh base64 nội tuyến cho đầu vào nhỏ và tải tệp qua File API cho ảnh lớn (khuyến nghị cho >20 MB). Hỗ trợ các kiểu MIME phổ biến (JPEG, PNG).
- Chế độ hoạt động: tạo ảnh từ văn bản, chỉnh sửa ảnh (inpainting / che phủ ngữ nghĩa), chuyển phong cách, ghép nhiều ảnh, và phản hồi xen kẽ văn bản+ảnh (hữu ích cho hướng dẫn minh họa, công thức, hoặc nội dung hỗn hợp).
- Cơ chế nguồn gốc & an toàn: hình mờ hiển thị trên đầu ra AI cùng với dấu SynthID ẩn và các lớp thực thi chính sách để hạn chế nội dung bị cấm rõ ràng.
Hạn chế & rủi ro đã biết
- Ràng buộc chính sách nội dung: mô hình thực thi các chính sách (ví dụ: không cho phép nội dung tình dục rõ ràng và một số nội dung phi pháp), nhưng việc thực thi không hoàn hảo — việc tạo hình ảnh về nhân vật công chúng hoặc biểu tượng gây tranh cãi vẫn có thể xảy ra trong một số trường hợp, vì vậy kiểm tra chính sách là điều thiết yếu. )
- Các chế độ lỗi: có thể trôi lệch danh tính trong các chỉnh sửa cực đoan, đôi lúc lệch ngữ nghĩa (khi prompt thiếu đặc tả), và xuất hiện tạo tác trong các cảnh rất phức tạp hoặc khi thay đổi góc nhìn cực đoan.
- Nguồn gốc & sử dụng sai mục đích: mặc dù có hình mờ và SynthID, chúng không ngăn việc sử dụng sai — chúng hỗ trợ phát hiện và quy kết nhưng không thể thay thế việc xem xét của con người trong các quy trình nhạy cảm.
Các trường hợp sử dụng điển hình
- Sản phẩm & thương mại điện tử: đặt/catalog sản phẩm vào ảnh phong cách sống thông qua hợp nhất nhiều ảnh.
- Công cụ sáng tạo / thiết kế: lặp nhanh trong các ứng dụng thiết kế (tích hợp Adobe Firefly được nêu).
- Chỉnh sửa & retouch ảnh: chỉnh sửa cục bộ bằng ngôn ngữ tự nhiên (xóa đối tượng, thay đổi màu sắc/ánh sáng, đổi phong cách).
- Kể chuyện / tài nguyên nhân vật: giữ nhân vật nhất quán xuyên suốt các khung và cảnh.