O

GPT Image 1.5

Đầu vào:$6.4/M
Đầu ra:$25.6/M
GPT-Image-1.5 là mô hình hình ảnh của OpenAI trong GPT Image family . Đây là một mô hình GPT đa phương thức gốc, được thiết kế để tạo hình ảnh từ lời nhắc bằng văn bản và thực hiện các chỉnh sửa hình ảnh đầu vào với độ trung thực cao, đồng thời tuân thủ chặt chẽ hướng dẫn của người dùng.
Mới
Sử dụng thương mại

GPT-Image-1.5 API là gì?

GPT-Image-1.5 là thành viên mới nhất của dòng GPT Image của OpenAI và là mô hình đứng sau trải nghiệm Images được làm mới của ChatGPT. Nó được thiết kế để đưa việc tạo ảnh từ các thử nghiệm mang tính mới lạ thành công cụ sáng tạo ở cấp độ sản xuất: tính chân thực cao hơn, kiểm soát tinh vi hơn cho các chỉnh sửa lặp, và suy luận nhanh hơn để hỗ trợ các quy trình tương tác và doanh nghiệp.

gpt-image-1.5 API là một endpoint mô hình hình ảnh đa phương thức, nhận một hoặc nhiều ảnh đầu vào (định danh tệp hoặc bytes) cùng một prompt văn bản và trả về ảnh được tạo hoặc ảnh đã chỉnh sửa. Nó hỗ trợ:

  • Sinh ảnh từ văn bản (tạo từ prompt),
  • Chỉnh sửa ảnh / tô vẽ (in‑painting) / dàn dựng (compositing) (áp dụng hướng dẫn lên ảnh hiện có, cho phép nhiều ảnh đầu vào), và
  • Quy trình chỉnh sửa lặp lại nhiều lượt thông qua Responses API (cho phép giao diện “tinh chỉnh & lặp lại”).

API xử lý prompt hình ảnh khác với các giới hạn cũ của DALL·E: các mô hình GPT về hình ảnh chấp nhận prompt văn bản dài hơn đáng kể (hướng dẫn 32.000 ký tự), giúp các chỉ dẫn phức tạp, nhiều ràng buộc trở nên khả thi.

Tính năng chính (thực tiễn)

  • Khả năng chỉnh sửa được cải thiện / tính nhất quán qua nhiều lượt: giữ nguyên diện mạo nhân vật, ánh sáng và các thuộc tính hình ảnh chính xuyên suốt các lần chỉnh sửa lặp. Điều này khiến “cùng một mô hình, chỉnh sửa lặp lại” đáng tin cậy hơn cho các quy trình như danh mục sản phẩm hoặc tài sản thương hiệu.
  • Thông lượng nhanh hơntốc độ cải thiện gấp 4× so với GPT Image 1, nhằm giảm độ trễ cho các quy trình sáng tạo lặp.
  • Tối ưu chi phí — chi phí vào/ra hình ảnh giảm khoảng 20% so với GPT Image 1, hạ chi phí mỗi lần lặp cho người dùng khối lượng lớn.
  • Dàn dựng nhiều ảnh & tham chiếu phong cách — chấp nhận nhiều ảnh tham chiếu để dàn dựng cảnh hoặc chuyển phong cách/ánh sáng.
  • Nút điều chỉnh chất lượng/độ trung thực — các tham số API cân bằng giữa tốc độ và độ trung thực (dùng chất lượng thấp cho tạo hàng loạt; chất lượng cao cho tài sản sản xuất).
  • Chỉnh sửa nhiều lượt / tích hợp với Responses API — cho phép quy trình theo từng bước (yêu cầu thay đổi, rồi “tinh chỉnh” nhưng vẫn giữ trạng thái).

Khả năng kỹ thuật

  • Giới hạn prompt văn bản (mô hình hình ảnh): lên đến 32.000 ký tự (lưu ý: OpenAI ghi nhận đây là mức cho phép độ dài văn bản cho các mô hình hình ảnh GPT). Dùng cho các prompt dài, nhiều ràng buộc.
  • Đầu vào hình ảnh: chấp nhận File ID (ưu tiên cho các luồng nhiều lượt) hoặc bytes thô; có thể cung cấp nhiều ảnh để dàn dựng và tham chiếu.
  • Đầu ra: PNG/JPEG hoặc định dạng hình ảnh mặc định của nền tảng được API trả về (hoặc dưới dạng tệp đính kèm trong ChatGPT). Đầu ra có thể bao gồm nhiều ảnh ứng viên và hỗ trợ các yêu cầu lặp để tinh chỉnh một kết quả.
  • Chế độ tạo: từ văn bản thành hình ảnh, chỉnh sửa ảnh (tô vẽ/ mở rộng theo chỉ dẫn), và biến thể. Chỉnh sửa nhiều lượt hỗ trợ các chỉ dẫn kiểu “thêm/bớt/kết hợp”.
  • Chỉnh sửa hiểu ngữ lệnh: các mô hình được tối ưu cho độ tuân thủ chỉ dẫn (giữ các bất biến được chỉ định như “không thay đổi logo”, “giữ tư thế và ánh sáng”). Các mẫu kỹ thuật prompt (nhắc lại rõ ràng các bất biến ở mỗi lượt) giúp giảm trôi nghĩa.

Hiệu năng benchmark

  • Vị trí trên bảng xếp hạng: Một báo cáo tổng hợp dẫn rằng GPT Image 1.5 dẫn đầu bảng xếp hạng text‑to‑image với khoảng ~1264 điểm trên bảng xếp hạng của Artificial Analysis, vượt mẫu tiếp theo với khoảng cách có thể đo lường.
  • Chỉ số theo tác vụ (chỉnh sửa & bảo toàn): một bản tóm tắt của Microsoft Foundry về các thước đo đánh giá cho thấy GPT‑Image‑1.5 đạt tỷ lệ thành công chỉnh sửa nhị phân gần như hoàn hảo (100% ở BinaryEval một lượt) và điểm bảo toàn khuôn mặt cao (khoảng 90% theo thước đo AuraFace) trong bảng so sánh với đối thủ và các mô hình OpenAI trước đó. Những chỉ số so sánh này đặt GPT‑Image‑1.5 vượt trước một số đối thủ về khả năng bảo toàn và độ trung thực khi chỉnh sửa.

GPT Image 1.5

So sánh GPT‑Image‑1.5 với các đối thủ

  • So với GPT Image 1 (thế hệ trước của OpenAI): nhanh hơn (tới 4×), rẻ hơn (chi phí IO hình ảnh thấp hơn ~20%), và độ trung thực chỉnh sửa cao hơn — hướng tới chuyển từ “prototype/demo” sang các quy trình hình ảnh “thân thiện sản xuất”.
  • So với các mô hình hình ảnh Nano Banana Pro / Gemini của Google: GPT‑Image‑1.5 và dòng Nano Banana Pro / Gemini 3 của Google là những đối thủ sát nút — mỗi bên mạnh ở các lớp prompt khác nhau. Thông điệp của OpenAI nhấn mạnh độ trung thực khi chỉnh sửa và tốc độ lặp; giải pháp của Google được khen ngợi về mức độ chân thực kiểu studio trong một số ví dụ.
  • So với Qwen Image và các mô hình mở/đóng khác: GPT‑Image‑1.5 vượt Qwen Image ở một số chỉ số chỉnh sửa và bảo toàn trong các đánh giá một lượt, nhưng khác biệt thu hẹp ở các bài kiểm tra nhiều lượt hoặc theo lĩnh vực cụ thể.

GPT‑Image‑1.5 mạnh ở đâu

  • Hình ảnh sản phẩm thương mại điện tử: tạo biến thể hàng loạt, thay nền, xây dựng catalog sản phẩm nhất quán từ một bức ảnh (giữ thương hiệu/logo).
  • Sản xuất tài sản sáng tạo & tiếp thị: lặp ý tưởng nhanh, mockup chân thực, chuyển phong cách có kiểm soát.
  • Chỉnh sửa ảnh & quy trình biên tập: thử trang phục/kiểu tóc chân thực, chỉnh sửa chọn lọc nhưng vẫn giữ nhận dạng và ánh sáng.
  • Tích hợp công cụ thiết kế: cắm vào nền tảng thiết kế hoặc CMS để tạo biến thể ảnh theo nhu cầu (các nút chỉnh độ trung thực giúp kiểm soát chi phí).
  • Pipeline dàn dựng nhiều bước: đầu vào nhiều ảnh cho phép dàn dựng và tạo dựa trên tham chiếu cho các cảnh phức tạp.

Cách truy cập GPT Image 1.5 API

Bước 1: Đăng ký lấy API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI. Lấy API key thông tin xác thực của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới GPT Image 1.5 API

Chọn endpoint “gpt-image-1.5” để gửi yêu cầu API và thiết lập request body. Phương thức yêu cầu và request body được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp bài test Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn. base url là Images (https://api.cometapi.com/v1/images/generations) và [Image Editing]

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mô hình sẽ phản hồi. Xử lý phản hồi API để lấy kết quả được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy kết quả được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.

Xem thêm Gemini 3 Pro Preview API

Câu hỏi thường gặp

Thêm mô hình