API GPT-Image-1.5 là gì?
GPT-Image-1.5 là thành viên mới nhất trong dòng GPT Image của OpenAI và là mô hình đứng sau trải nghiệm Images được làm mới của ChatGPT. Nó được thiết kế để đưa việc tạo ảnh từ các thử nghiệm mang tính mới lạ sang công cụ sáng tạo cấp độ sản xuất: chân thực hơn, kiểm soát tinh chỉnh tốt hơn cho các lần chỉnh sửa lặp, và suy luận nhanh hơn để hỗ trợ quy trình làm việc tương tác và doanh nghiệp.
API gpt-image-1.5 là một endpoint mô hình ảnh đa phương thức, chấp nhận một hoặc nhiều đầu vào hình ảnh (mã định danh tệp hoặc byte) cùng với một lời nhắc văn bản và trả về ảnh được tạo hoặc ảnh đã chỉnh sửa. Nó hỗ trợ:
- Tạo ảnh từ văn bản (tạo từ prompt),
- Chỉnh sửa ảnh / in-painting / ghép ảnh (áp dụng hướng dẫn lên các ảnh hiện có, cho phép nhiều đầu vào ảnh), và
- Quy trình chỉnh sửa lặp nhiều lượt thông qua Responses API (cho phép giao diện người dùng kiểu “tinh chỉnh & lặp lại”).
API xử lý prompt hình ảnh khác với các giới hạn cũ của DALL·E: các mô hình ảnh GPT chấp nhận prompt văn bản dài hơn đáng kể (theo hướng dẫn 32k ký tự), giúp khả thi với các chỉ dẫn phức tạp và nhiều ràng buộc.
Các tính năng chính (thực tế)
- Khả năng chỉnh sửa được cải thiện / tính nhất quán nhiều lượt: giữ nguyên ngoại hình nhân vật, ánh sáng và các thuộc tính hình ảnh quan trọng qua các lần chỉnh sửa lặp. Điều này giúp “cùng một mẫu, chỉnh sửa lặp lại” đáng tin cậy hơn cho các quy trình như danh mục sản phẩm hoặc tài sản thương hiệu.
- Thông lượng nhanh hơn — cải thiện tốc độ 4× so với GPT Image 1, nhằm giảm độ trễ cho các quy trình sáng tạo lặp.
- Tối ưu chi phí — chi phí đầu vào/đầu ra hình ảnh giảm khoảng 20% so với GPT Image 1, giúp giảm chi phí lặp trên mỗi ảnh cho người dùng khối lượng lớn.
- Ghép nhiều ảnh & tham chiếu phong cách — chấp nhận nhiều ảnh tham chiếu để ghép cảnh hoặc chuyển phong cách/ánh sáng.
- Các tham số chất lượng/độ trung thực — tham số API cho phép đánh đổi giữa tốc độ và độ trung thực (dùng chất lượng thấp cho tạo hàng loạt; chất lượng cao cho tài sản sản xuất).
- Chỉnh sửa nhiều lượt / tích hợp Responses API — cho phép quy trình từng bước (yêu cầu thay đổi, sau đó “tinh chỉnh” nhưng vẫn giữ trạng thái).
Khả năng kỹ thuật
- Giới hạn prompt văn bản (mô hình ảnh): tối đa 32.000 ký tự (lưu ý: OpenAI ghi nhận đây là giới hạn độ dài văn bản cho các mô hình ảnh GPT). Hãy dùng điều này cho các prompt dài và nhiều ràng buộc.
- Đầu vào ảnh: chấp nhận File ID (ưu tiên cho các luồng nhiều lượt) hoặc byte thô; có thể cung cấp nhiều ảnh để ghép và tham chiếu.
- Đầu ra: các tạo tác ảnh PNG/JPEG hoặc mặc định nền tảng do API trả về (hoặc dưới dạng tệp đính kèm trong ChatGPT). Đầu ra có thể bao gồm nhiều ảnh ứng viên và hỗ trợ các yêu cầu lặp để tinh chỉnh kết quả.
- Chế độ tạo: tạo ảnh từ văn bản, chỉnh sửa ảnh (inpaint/mở rộng với hướng dẫn), và biến thể. Chỉnh sửa nhiều lượt hỗ trợ các hướng dẫn kiểu “thêm/bớt/kết hợp”.
- Chỉnh sửa nhận biết chỉ dẫn: mô hình được tối ưu cho độ trung thực với chỉ dẫn (giữ nguyên các bất biến được chỉ định như “không thay đổi logo”, “giữ nguyên tư thế và ánh sáng”). Các mẫu prompt engineering (lặp lại rõ ràng các bất biến ở mỗi vòng) giúp giảm lệch nghĩa.
Hiệu năng benchmark
- Vị trí trên bảng xếp hạng: Một báo cáo tổng hợp cho biết GPT Image 1.5 dẫn đầu bảng xếp hạng chuyển văn bản thành ảnh với ~1264 điểm trên bảng xếp hạng Artificial Analysis, vượt mô hình kế tiếp với khoảng cách đáng kể.
- Các chỉ số theo tác vụ (chỉnh sửa & bảo toàn): bản tóm tắt chỉ số đánh giá của Microsoft Foundry cho thấy GPT-Image-1.5 đạt gần như hoàn hảo về tỷ lệ thành công chỉnh sửa nhị phân (100% trên BinaryEval một lượt) và điểm bảo toàn khuôn mặt mạnh (khoảng 90% trên các thước đo AuraFace) trong bảng so sánh của họ với các đối thủ và các mô hình OpenAI trước đó. Các chỉ số so sánh đó cho thấy GPT-Image-1.5 vượt một số đối thủ về khả năng bảo toàn và độ trung thực khi chỉnh sửa.

GPT-Image-1.5 so với các đối thủ
- So với GPT Image 1 (thế hệ trước của OpenAI): nhanh hơn (tối đa 4×), rẻ hơn (chi phí IO hình ảnh thấp hơn ~20%), và độ trung thực khi chỉnh sửa tốt hơn — hướng tới việc chuyển từ quy trình ảnh “nguyên mẫu/demo” sang “thân thiện với sản xuất”.
- So với các mô hình ảnh Nano Banana Pro / Gemini của Google: GPT-Image-1.5 và dòng Nano Banana Pro / Gemini 3 của Google là các đối thủ rất sát nhau — mỗi bên có điểm mạnh ở các nhóm prompt khác nhau. Thông điệp của OpenAI nhấn mạnh vào độ trung thực khi chỉnh sửa và tốc độ lặp; sản phẩm của Google được khen ngợi về độ chân thực cấp studio trong một số ví dụ.
- So với Qwen Image và các mô hình nguồn mở/đóng khác: GPT-Image-1.5 vượt Qwen Image trên một số chỉ số chỉnh sửa và bảo toàn trong các đánh giá một lượt, nhưng khác biệt thu hẹp lại trong các bài kiểm tra nhiều lượt hoặc các miền chuyên biệt khác.
Điểm mạnh của GPT-Image-1.5
- Hình ảnh sản phẩm thương mại điện tử: biến thể hàng loạt, thay nền, danh mục sản phẩm nhất quán từ một ảnh duy nhất (bảo toàn thương hiệu/logo).
- Sản xuất tài sản sáng tạo & marketing: lặp ý tưởng nhanh, mockup chân thực, chuyển phong cách có kiểm soát.
- Chỉnh sửa ảnh & quy trình biên tập: thử quần áo/kiểu tóc chân thực, chỉnh sửa chọn lọc nhưng vẫn giữ nguyên danh tính và ánh sáng.
- Tích hợp công cụ thiết kế: tích hợp vào nền tảng thiết kế hoặc CMS để tạo các biến thể ảnh theo yêu cầu (các tham số độ trung thực giúp kiểm soát chi phí).
- Pipeline ghép nhiều bước: đầu vào nhiều ảnh cho phép ghép và tạo dựa trên tham chiếu cho các cảnh phức tạp.
Cách truy cập API GPT Image 1.5
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Add Token” tại phần API token trong trung tâm cá nhân, lấy token key: sk-xxxxx và gửi đi.
Bước 2: Gửi yêu cầu đến API GPT Image 1.5
Chọn endpoint “gpt-image-1.5” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bài kiểm tra Apifox để thuận tiện cho bạn. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url là Images (https://api.cometapi.com/v1/images/generations) và [Image Editing]
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi . Xử lý phản hồi API để nhận được câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để nhận được câu trả lời được tạo. Sau khi xử lý, API phản hồi với trạng thái tác vụ và dữ liệu đầu ra.
Xem thêm Gemini 3 Pro Preview API