GPT Image 1.5: Tính năng, So sánh và Truy cập

OpenAI đã công bố GPT Image 1.5, mô hình chủ lực mới của công ty dành cho tạo và chỉnh sửa hình ảnh, đồng thời phát hành trải nghiệm “ChatGPT Images” được làm mới trên ChatGPT và API. OpenAI định vị lần phát hành này như một bước tiến tới tạo hình ảnh cấp sản xuất: tuân thủ hướng dẫn tốt hơn, chỉnh sửa chính xác hơn mà vẫn giữ các chi tiết quan trọng (khuôn mặt, ánh sáng, logo), đầu ra nhanh hơn tới 4×, và chi phí nhập/xuất hình ảnh thấp hơn trên API. Tin tốt là CometAPI đã tích hợp GPT-image 1.5 (gpt-image-1.5) và cung cấp mức giá thấp hơn OpenAI.

GPT Image 1.5 là gì?

GPT Image 1.5 là mô hình hình ảnh thế hệ mới nhất của OpenAI, phát hành như động cơ phía sau trải nghiệm ChatGPT Images được xây dựng lại và cung cấp qua OpenAI API dưới tên gpt-image-1.5. OpenAI không chỉ coi đây là công cụ nghệ thuật thú vị mà còn là “studio” sáng tạo sẵn sàng cho sản xuất: mô hình hướng tới các chỉnh sửa chính xác, có thể lặp lại và hỗ trợ các quy trình như danh mục thương mại điện tử, tạo biến thể tài sản thương hiệu, pipeline tài sản sáng tạo, và tạo mẫu nhanh. Nổi bật nhấn mạnh những tiến bộ trong việc giữ các chi tiết quan trọng của hình ảnh—khuôn mặt, logo, ánh sáng—và tuân theo hướng dẫn chỉnh sửa từng bước.

Có hai chi tiết vận hành cần ghi nhớ: GPT Image 1.5 dựng hình nhanh hơn tới bốn lần so với phiên bản tiền nhiệm và chi phí nhập/xuất hình ảnh rẻ hơn khoảng ~20% trên API so với GPT Image 1.0 — cả hai đều quan trọng với các nhóm cần lặp lại nhiều. UI ChatGPT Images mới cũng bổ sung khu vực thanh bên chuyên dụng, bộ lọc dựng sẵn và gợi ý thịnh hành, cùng tính năng tải lên “likeness” một lần để cá nhân hóa lặp lại.

GPT Image 1.5 phát triển từ các mô hình hình ảnh trước đây của OpenAI như thế nào?

Dòng mô hình hình ảnh của OpenAI đã đi từ DALL·E → nhiều thử nghiệm hình ảnh nội bộ → GPT Image 1 (và các biến thể nhỏ hơn). So với các mô hình hình ảnh OpenAI trước đó (ví dụ: GPT-image-1 và các stack hình ảnh ChatGPT trước đây), 1.5 được tối ưu hóa rõ ràng cho:

Tuân thủ hướng dẫn chặt chẽ hơn — mô hình bám sát chỉ dẫn văn bản hơn.
Độ trung thực chỉnh sửa hình ảnh được cải thiện — giữ bố cục, đặc điểm khuôn mặt, ánh sáng và logo xuyên suốt các lần chỉnh sửa để chỉnh sửa lặp lại vẫn nhất quán.
Suy luận nhanh hơn, rẻ hơn — OpenAI tuyên bố cải thiện tốc độ tới 4× so với mô hình hình ảnh trước đó và giảm chi phí token/hình ảnh cho đầu vào/đầu ra.

Tóm lại: thay vì coi tạo hình ảnh như một “đồ chơi nghệ thuật” một lần, OpenAI đang thúc đẩy các mô hình hình ảnh trở thành công cụ có thể dự đoán và lặp lại cho đội ngũ sáng tạo và quy trình doanh nghiệp.

Tính năng chính của GPT Image 1.5

Khả năng chỉnh sửa và bảo toàn hình ảnh

GPT Image 1.5 thể hiện mạnh mẽ trên nhiều bảng xếp hạng tạo và chỉnh sửa hình ảnh được công bố từ khi ra mắt. LMArena báo cáo GPT Image 1.5 xếp hạng ở vị trí dẫn đầu hoặc gần dẫn đầu trên các bảng xếp hạng chuyển văn bản thành hình ảnh và chỉnh sửa hình ảnh, đôi khi nhỉnh hơn đối thủ như Nano Banana Pro của Google.

GPT Image 1.5: Tính năng, So sánh và Truy cập

Một trong những điểm nổi bật của GPT Image 1.5 là khả năng chỉnh sửa chính xác giữ “những điều quan trọng”: khi bạn yêu cầu mô hình thay đổi một đối tượng hay thuộc tính cụ thể, nó cố gắng chỉ thay đổi yếu tố đó trong khi giữ nguyên bố cục, ánh sáng, và diện mạo của con người xuyên suốt các lần chỉnh sửa. Với các thương hiệu và đội thương mại điện tử, điều này đồng nghĩa với ít chỉnh tay hơn sau các chỉnh sửa tự động.

Nó nhanh đến mức nào và “nhanh hơn 4×” nghĩa là gì?

OpenAI cho biết việc tạo hình ảnh trong ChatGPT Images nhanh hơn tới 4× so với trước đây, chi phí I/O hình ảnh ~20% rẻ hơn trên API so với GPT Image 1. Đây là tuyên bố ở cấp sản phẩm: thời gian dựng nhanh hơn giúp bạn có thể lặp lại nhiều hình ảnh trong cùng một phiên, bắt đầu các phiên tạo bổ sung khi các phiên khác vẫn đang xử lý, và giảm ma sát trong quy trình khám phá. Suy luận nhanh hơn không chỉ giảm độ trễ cho người dùng cuối mà còn giảm năng lượng mỗi yêu cầu và chi phí vận hành cho triển khai. Lưu ý: “tới” nghĩa là mức cải thiện thực tế sẽ phụ thuộc vào độ phức tạp prompt, kích thước hình ảnh và tải hệ thống.

Cải thiện khả năng tuân thủ hướng dẫn và hiển thị văn bản

Tuân thủ hướng dẫn mạnh hơn so với GPT Image 1.0: mô hình hiểu tốt hơn các prompt nhiều bước và giữ được ý định của người dùng qua các chỉnh sửa chuỗi. Họ cũng nhấn mạnh việc cải thiện hiển thị văn bản (văn bản dễ đọc được nhúng trong hình ảnh) và cải thiện dựng khuôn mặt nhỏ, dù vẫn lưu ý các giới hạn đa ngôn ngữ/hiển thị văn bản trong một số trường hợp biên; nhìn chung mô hình hướng tới khép lại khoảng cách lâu nay khi hình ảnh sinh ra tạo các biển hiệu khó đọc hoặc vô nghĩa.

GPT Image 1.5 so với Nano Banana Pro (Google) và Qwen-Image (Alibaba)?

Nano Banana Pro của Google là gì?

Nano Banana Pro (được gắn thương hiệu trong gia đình Gemini là Gemini 3 Pro Image / Nano Banana Pro) là mô hình hình ảnh cấp studio của Google/DeepMind. Google nhấn mạnh khả năng hiển thị văn bản xuất sắc, phối ghép nhiều hình ảnh (trộn nhiều hình thành một), và tích hợp với các khả năng rộng hơn của Gemini (neo tìm kiếm, dịch theo địa phương, và quy trình doanh nghiệp trên Vertex AI). Nano Banana Pro hướng tới sẵn sàng sản xuất cho nhà thiết kế cần bố cục văn bản chính xác và dự đoán được bên trong hình ảnh.

Qwen-Image là gì?

Qwen-Image (từ gia đình Qwen/Tongyi) là mô hình hình ảnh do Alibaba phát hành, đã được đánh giá qua các benchmark học thuật và công khai. Báo cáo kỹ thuật của đội Qwen ghi nhận hiệu năng mạnh trên nhiều benchmark (GenEval, DPG, OneIG-Bench) và làm nổi bật thế mạnh trong hiểu prompt, hiển thị văn bản đa ngôn ngữ (đáng chú ý là tiếng Trung), và chỉnh sửa vững chắc. Qwen-Image thường được bàn luận như một lựa chọn hàng đầu nguồn mở/thân thiện doanh nghiệp ngoài các “hyperscaler” của Mỹ.

So sánh trực diện: điểm mạnh của từng mô hình

GPT Image 1.5 (OpenAI) — Điểm mạnh: tạo nhanh, tuân thủ hướng dẫn tốt trong các quy trình nhiều bước, UX ChatGPT tích hợp tốt, và API tiếp cận rộng. Các benchmark ban đầu đặt mô hình ở vị trí dẫn đầu hoặc rất gần dẫn đầu trong các chỉ số kết hợp tạo & chỉnh sửa; phần trình bày của OpenAI tập trung vào mô hình như một “studio sáng tạo” phục vụ năng suất thực tiễn.
Nano Banana Pro (Google) — Điểm mạnh: hiển thị văn bản xuất sắc và tích hợp doanh nghiệp (Vertex AI, Google Workspace), bản địa hóa mạnh và tính năng phối ghép nhiều hình, điều khiển cấp studio cho góc/ánh sáng/tỷ lệ/đầu ra 2K. Google nhấn mạnh tiện ích của mô hình cho pipeline marketing/bản địa hóa và tạo poster/mockup chính xác.
Qwen-Image (Alibaba) — Điểm mạnh: hiệu năng trên nhiều benchmark quốc tế, báo cáo kỹ thuật cởi mở, và hiển thị văn bản đa ngôn ngữ mạnh. Đây là lựa chọn hấp dẫn cho nhà phát triển và doanh nghiệp tập trung vào thị trường châu Á và đội ngũ tìm kiếm kết quả benchmark minh bạch.

Khác biệt thực tiễn mà nhà phát triển sẽ nhận thấy

API & mô hình tích hợp: OpenAI cung cấp GPT Image 1.5 qua Image API và Responses API; Google cung cấp Nano Banana Pro qua Gemini/Vertex; Alibaba công bố tài liệu mô hình và endpoint demo. Giá và giới hạn tốc độ khác nhau giữa các nhà cung cấp sẽ ảnh hưởng tới chi phí sản xuất và quyết định thông lượng.
Cân bằng kiểm soát vs. tốc độ: Một số nhà cung cấp đưa ra chế độ “nhanh/flash” so với “suy nghĩ/pro” — ví dụ, Nano Banana (nhanh) vs Nano Banana Pro (suy nghĩ). Thông điệp của OpenAI gợi ý GPT Image 1.5 giảm nhu cầu thực tế phải đánh đổi chất lượng lấy tốc độ, nhưng tinh chỉnh chi phí/hiệu năng vẫn quan trọng cho tạo hàng loạt.

Cách truy cập và sử dụng GPT Image 1.5

Có hai cách để truy cập GPT Image 1.5:

ChatGPT (UI) — GPT Image 1.5 cung cấp năng lượng cho trải nghiệm ChatGPT Images mới (tab Images). Dùng để tạo từ văn bản, tải lên hình ảnh và thực hiện chỉnh sửa, hoặc lặp lại tương tác.

API — Sử dụng Image API (/v1/images/generations và /v1/images/edits) để tạo và chỉnh sửa hình ảnh với gpt-image-1.5. Phản hồi là hình ảnh mã hóa base64 cho các mô hình hình ảnh GPT.

Tin tốt là CometAPI đã tích hợp GPT-image 1.5 (gpt-image-1.5) và cung cấp mức giá thấp hơn OpenAI. Bạn có thể dùng CometAPI để đồng thời sử dụng và so sánh Nano banana pro và Qwen image.

Các trường hợp sử dụng thực tế và quy trình khuyến nghị là gì?

Trường hợp sử dụng được lợi nhất

Thương mại điện tử & lập danh mục sản phẩm: tạo nhiều ảnh sản phẩm nhất quán từ một mẫu, thay đổi nền, và giữ ánh sáng/khía cạnh nhất quán giữa các ảnh. Tính ổn định chỉnh sửa của GPT Image 1.5 hữu ích ở đây.
Sáng tạo quảng cáo & lặp nhanh: tạo nhanh giúp giảm thời gian vòng lặp cho biến thể A/B.
Chỉnh sửa ảnh và bản địa hóa: thay phụ kiện hoặc trang phục trong khi giữ danh tính mẫu nhất quán cho chiến dịch bản địa hóa theo khu vực.
Tạo mẫu thiết kế & concept art: mô hình hỗ trợ cả đầu ra giống ảnh thật lẫn phong cách cao, hữu ích cho khám phá concept giai đoạn đầu.

Ai được lợi nhất từ GPT Image 1.5?

Nhà sáng tạo nội dung và đội ngũ social media cần chỉnh sửa lặp nhanh và biến đổi sáng tạo.
Nhà thiết kế và đội sản phẩm tạo mẫu tài sản UI/UX, ảnh hero, hoặc mockup quảng cáo cần bản nháp nhanh.
Đội thương mại điện tử thực hiện mockup sản phẩm (thử đồ, thay nền, lớp phủ chữ).
Nhà phát triển xây dựng trải nghiệm hội thoại dựa trên hình ảnh (ví dụ: trình chỉnh sửa ảnh dạng chat, tự động hóa marketing).

Quy trình đề xuất cho người sáng tạo

Tạo mẫu trong ChatGPT Images để tinh chỉnh hướng dẫn (dùng preset để khám phá phong cách).
Ghim một snapshot trong sử dụng API cho độ ổn định sản xuất (gpt-image-1.5-YYYY-MM-DD).
Chạy thử nghiệm A/B có kiểm soát so sánh đầu ra mô hình và chi phí hậu kỳ thủ công.
Tích hợp kiểm duyệt và con người tham gia cho tác vụ nhạy cảm về thương hiệu hoặc an toàn.

Cân nhắc về chi phí và hiệu năng

Tạo nhanh hơn có thể giảm độ trễ và (tùy theo giá) chi phí mỗi ảnh, nhưng sử dụng doanh nghiệp nên đo cả thông lượng và giá token/tính toán.

An toàn, thiên kiến và ảo tưởng

GPT Image 1.5 giảm một số chế độ lỗi (chỉnh sửa kém, khuôn mặt không nhất quán) nhưng không loại trừ đầu ra ảo tưởng hoặc thiên kiến. Giống các mô hình sinh khác, nó có thể tái tạo thiên kiến văn hóa hoặc tạo mô tả không chính xác nếu prompt được chỉ định kém. Hãy triển khai hàng rào bảo vệ: bộ lọc nội dung, đánh giá bởi con người, và bộ kiểm thử phản ánh các trường hợp biên kỳ vọng.

Kết luận — Bạn có nên thử GPT Image 1.5?

Nếu dự án của bạn cần tạo hình ảnh chất lượng cao hoặc chỉnh sửa lặp lại vững chắc trong quy trình hội thoại (ví dụ: sáng tạo marketing, mockup sản phẩm, thử đồ ảo, hoặc một SaaS pro có hỗ trợ hình ảnh.

Để bắt đầu, hãy khám phá năng lực của GPT Image 1.5 trong Playground và tham khảo Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, hãy đảm bảo bạn đã đăng nhập CometAPI và nhận được API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.

Sẵn sàng bắt đầu?→ Dùng thử miễn phí các mô hình GPT image 1.5 !