Cách sử dụng GPT Image 2: Hướng dẫn về prompt, tham số và quy trình làm việc

OpenAI đã phát hành GPT Image 2 (đồng thời cung cấp sức mạnh cho ChatGPT Images 2.0) vào ngày 21 tháng 4 năm 2026, đánh dấu một bước nhảy vọt lớn trong tạo ảnh bằng AI. Mô hình đa phương thức thuần gốc này mang lại khả năng hiển thị chữ vượt trội (độ chính xác tiệm cận 99% trên nhiều hệ chữ), độ phân giải linh hoạt lên tới 2K (4K ở bản beta), khả năng tuân thủ hướng dẫn nâng cao, hỗ trợ đa ngôn ngữ và các khả năng "Thinking" cho phép tìm kiếm web, duy trì tính nhất quán giữa nhiều ảnh và tự kiểm chứng.

CometAPI cung cấp cách truy cập GPT Image 2 tương thích với OpenAI thông qua một lớp API hợp nhất, đồng thời có mức giá rất cạnh tranh.

GPT Image 2 là gì?

GPT Image 2 (mã model: gpt-image-2) là mô hình tạo và chỉnh sửa ảnh tối tân của OpenAI. Nó vận hành ChatGPT Images 2.0 và đóng vai trò như một “GPT dành cho hình ảnh” thống nhất — xử lý các tác vụ thị giác phức tạp với suy luận, chỉnh sửa, và đầu ra chuẩn xác.

Những cải tiến chính so với các thế hệ trước (GPT Image 1 / 1.5 và DALL-E 3):

Hiển thị chữ: ~99% độ chính xác cho tiếng Anh và cải thiện lớn với tiếng Nhật, Hàn, Trung, Hindi, Bengali, v.v. Mô hình xử lý ổn định văn bản dày đặc như tiêu đề, nội dung thân, nhãn và biểu tượng mà không bị lỗi chính tả hay méo chữ thường gặp.
Độ phân giải và tỉ lệ khung hình: Hỗ trợ gốc lên tới 2K (2560x1440 hoặc tương tự, ~3,6 triệu pixel tối đa được khuyến nghị để đảm bảo tính nhất quán; lên tới ~8,29 triệu pixel hoặc cạnh tối đa 3840px với các ràng buộc). Tỉ lệ linh hoạt từ 3:1 ngang đến 1:3 dọc; các cạnh phải là bội số của 16. 4K vẫn ở giai đoạn thử nghiệm/beta.
Tuân thủ hướng dẫn và chế độ Thinking: Mô hình có thể “suy nghĩ” (tìm kiếm web, lập kế hoạch, tạo nhiều biến thể và tự kiểm tra) để cho ra các kết quả tinh vi như bộ nhân vật nhất quán, storyboard hay infographic dựa trên dữ liệu. Có sẵn cho người dùng ChatGPT trả phí; tăng cường tạo nhiều ảnh (tối đa 8 ảnh nhất quán từ một prompt).
Chỉnh sửa và độ trung thực: Bảo toàn chi tiết mạnh mẽ hơn trong chỉnh sửa image-to-image; xử lý đầu vào độ trung thực cao.
Mốc kiến thức: Tháng 12 năm 2025, cho phép tham chiếu các phong cách, thương hiệu và sản phẩm gần đây.
Tích hợp đa phương thức: Hoạt động trơn tru trong chat để tinh chỉnh lặp.

Mô hình nổi trội ở việc tạo “hình ảnh có thể sử dụng” — không chỉ mang tính nghệ thuật mà sẵn sàng đưa vào sản xuất cho quảng cáo, thuyết trình, UI/UX, tài liệu, v.v. Các đánh giá ban đầu cho thấy nó dẫn đầu nhiều bảng xếp hạng, với mức tăng Elo đáng kể trong các tác vụ văn bản thành ảnh và chỉnh sửa.

Tham số và thông số kỹ thuật của GPT Image 2

Nhà phát triển truy cập GPT Image 2 chủ yếu qua OpenAI API (hoặc các cổng tương thích) sử dụng định danh model gpt-image-2 (snapshot: gpt-image-2-2026-04-21). Nếu chỉ nhớ một điều từ tài liệu, thì là điều này: GPT Image 2 phản hồi tốt hơn đáng kể khi bạn kiểm soát không gian sinh một cách có chủ đích.

Các tham số cốt lõi bạn sẽ thực sự dùng

Tham số	Chức năng	Hướng dẫn thực tiễn
size	Thiết lập kích thước ảnh. GPT Image 2 chấp nhận nhiều độ phân giải miễn là đáp ứng các ràng buộc của mô hình. Ví dụ phổ biến gồm 1024x1024, 1536x1024, 1024x1536, 2048x2048, 2048x1152, 3840x2160 và 2160x3840, cùng auto.	Dùng 1024x1024 cho công việc nhanh mục đích chung, 1024x1536 cho nội dung dọc, và kích thước lớn hơn cho tài sản cuối.
quality	Kiểm soát chất lượng kết xuất: low, medium, high, hoặc auto.	Dùng low cho bản nháp và lặp nhanh; chuyển sang medium hoặc high cho sản phẩm cuối và văn bản nhỏ.
background	Kiểm soát xử lý nền. Hỗ trợ auto, nhưng hiện chưa hỗ trợ nền trong suốt đối với GPT Image 2.	Tránh quy trình nền trong suốt với mô hình này; thiết kế quanh nền mờ đục hoặc auto.
format	Định dạng đầu ra có thể là png, jpeg, hoặc webp; API trả về dữ liệu mã hóa base64.	Dùng jpeg khi cần giảm độ trễ, vì OpenAI cho biết JPEG nhanh hơn PNG.
output_compression	Kiểm soát nén cho đầu ra JPEG và WebP, từ 0–100%.	Hữu ích khi bạn cần tệp nhỏ hơn cho web.
moderation	Cài đặt an toàn với auto và low.	Giữ auto trừ khi có lý do rõ ràng để nới lỏng lọc.

Tóm tắt các ràng buộc:

Tổng số pixel không vượt quá giới hạn để tránh lỗi.
Dùng trong sản xuất: Bắt đầu với quality=low/medium để thử nghiệm, rồi nâng lên high.
Độ trễ: Tốc độ ở mức trung bình; chế độ Thinking thêm thời gian suy luận nhưng cải thiện chất lượng cho prompt phức tạp.
Tất cả prompt và đầu ra đều được lọc theo chính sách, và các mô hình GPT Image hỗ trợ moderation: "auto" hoặc moderation: "low". OpenAI mô tả auto là bộ lọc tiêu chuẩn và low ít hạn chế hơn.

Mô hình xem việc tạo ảnh như một phần của kiến trúc thống nhất, cho phép suy luận không gian, phối cảnh và kiểm soát bố cục tốt hơn so với các mô hình khuếch tán thuần túy.

Ghi chú dành riêng cho chỉnh sửa

Khi bạn chỉnh sửa ảnh, GPT Image 2 nhận ảnh đầu vào với độ trung thực cao. Ảnh nguồn và mặt nạ (mask) phải cùng định dạng và kích thước, và mặt nạ cần có kênh alpha. Điều này quan trọng khi bạn xây dựng quy trình inpainting, chỉnh sửa sản phẩm, hoặc bất kỳ tính năng chỉnh sửa ảnh nào mà người dùng muốn thay đổi chỉ một vùng và giữ nguyên phần còn lại.

Mẹo sử dụng GPT-Image-2 và hướng dẫn cue

GPT-Image-2 hỗ trợ ngôn ngữ tự nhiên; chỉ cần mô tả điều bạn muốn để tạo ảnh tương ứng mà không cần cấu trúc phức tạp. Mô hình hỗ trợ lặp nhiều bước.

Giá trị của cấu trúc phức tạp nằm ở khả năng kiểm soát độ chính xác, chứ không phải sự bắt buộc. Cấu trúc phức tạp chỉ phù hợp cho hai kịch bản: sản phẩm thương mại (nơi việc tái tạo lặp lại lãng phí thời gian và tiền bạc), và khi chỉnh sửa ảnh hiện có cần quy định chính xác phần giữ nguyên và phần thay đổi.

Dưới đây là một số hướng dẫn nâng cao có thể áp dụng.

Cấu trúc cue cơ bản

Một cue mạnh cho GPT Image 2 nên giống như một bản brief nghệ thuật thu nhỏ, không phải ý tưởng mơ hồ. Hãy tổ chức prompt theo thứ tự: cảnh hoặc nền trước, chủ thể thứ hai, chi tiết quan trọng thứ ba, và ràng buộc sau cùng. Với đầu ra phức tạp, xuống dòng hoặc gắn nhãn các đoạn dễ khiến mô hình làm theo hơn là một đoạn dày đặc.

Một cấu trúc đáng tin cậy trông như sau:

Goal: [what the image is for]Scene: [where it happens, time, environment]Subject: [main person/object/product]Style: [photo, editorial, illustration, UI, infographic]Details: [lighting, composition, lens, color, material, typography]Constraints: [no watermark, no extra text, preserve identity, keep background unchanged]

Ví dụ, nếu mục tiêu là ảnh hero cho blog, đừng chỉ nói “hãy làm cho nó tương lai”. Thay vào đó, hãy chỉ rõ bố cục chính xác, bầu không khí, thứ bậc thị giác, và khoảng trống bạn cần cho tiêu đề.

Nguyên tắc cốt lõi

Hãy cụ thể. Nêu tên chất liệu, kết cấu, hình dạng, ngôn ngữ máy ảnh và phương tiện. Với ảnh siêu thực, OpenAI khuyến nghị dùng trực tiếp từ “photorealistic” và thêm các tín hiệu kết cấu đời thực như lỗ chân lông, nếp nhăn, độ mòn vải, hoặc khiếm khuyết.

Đặt lan can trong prompt. Với chỉnh sửa, hãy nói “chỉ thay đổi X” và “giữ nguyên các phần còn lại.” OpenAI đặc biệt khuyến nghị liệt kê các bất biến như danh tính, hình học, bố cục, nhãn, góc máy và vật thể xung quanh.

Lặp theo từng bước nhỏ. Bắt đầu bằng một prompt sạch, rồi tinh chỉnh với những yêu cầu nhỏ như “làm ấm ánh sáng”, “xóa cái cây thừa”, hoặc “khôi phục nền gốc”. Đó là một trong những chiến thuật kiểm soát chính của hướng dẫn.

Khớp chất lượng với công việc. OpenAI cho biết gpt-image-2 hỗ trợ chất lượng đầu ra low, medium và high, trong đó low hữu ích cho tốc độ và medium/high cho độ trung thực tối đa. Với văn bản dày đặc, sơ đồ và bố cục đa phông chữ, khuyến nghị dùng medium hoặc high.

Chỉnh sửa ảnh: sửa đổi ảnh hiện có

Khi chỉnh sửa, hãy nêu rõ phần phải giữ nguyên và phần có thể thay đổi. Ví dụ của OpenAI thường cố định danh tính, tư thế, khung hình, góc máy hoặc nền khi cần ổn định, sau đó mô tả chính xác phần chỉnh. Với gpt-image-2, quy trình chỉnh sửa cũng hỗ trợ kiểm soát nền với background="transparent", opaque, hoặc auto, và bạn có thể cung cấp tối đa 16 ảnh đầu vào trong các quy trình chỉnh sửa ảnh được hỗ trợ.

Mẫu cue chỉnh sửa

Preserve: face, pose, framing, background.Change only: clothing / object / lighting / season / material.Do not add: text, logos, watermarks, extra objects.

Phối hợp nhiều ảnh tham chiếu

Khi dùng hơn một ảnh tham chiếu, hãy gắn nhãn theo chỉ số và mô tả tương tác rõ ràng, chẳng hạn “Image 1: product photo” và “Image 2: style reference.” Hãy chỉ rõ chính xác thứ gì sẽ di chuyển đi đâu, và bảo toàn các yếu tố cảnh không được thay đổi. Đây là cách gọn gàng nhất để chèn, hoán đổi, chuyển phong cách và ghép.

Ví dụ

Image 1: person in a room.Image 2: dog reference.Place the dog from Image 2 next to the person in Image 1.Keep the room, camera angle, and lighting unchanged.Match scale, perspective, and shadow.

Kỹ thuật hiển thị văn bản

Để văn bản rõ ràng, hãy đặt nội dung chính xác trong dấu ngoặc kép, yêu cầu hiển thị nguyên văn, và chỉ định vị trí, phong cách phông chữ và độ tương phản. Văn bản trong ảnh hoạt động tốt nhất khi prompt nghiêm ngặt và lặp lại với các điều chỉnh nhỏ về bố cục và câu chữ. Điều này hữu ích cho bảng quảng cáo, mockup, poster, slide và bao bì.

Ví dụ

Add this exact text, verbatim:"Fresh and clean"Typography: bold sans-serif, centered, high contrast, clean kerning.No extra characters, no second instance of the text.

Cách bắt đầu với GPT Image 2 trên CometAPI:

Đăng ký tại CometAPI và lấy khóa API của bạn.
Dùng OpenAI Python SDK tiêu chuẩn (hoặc bất kỳ client tương thích nào) với base URL tùy chỉnh:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_COMETAPI_KEY",
    base_url="https://api.cometapi.com/v1"
)

response = client.images.generate(
    model="gpt-image-2",  # or specific snapshot
    prompt="Your detailed prompt here",
    size="1792x1024",     # flexible resolution
    quality="high",
    n=1                   # number of images
)

print(response.data[0].url)  # or b64_json for direct data

Để tạo ảnh tích hợp trong chat (với hành vi giống Thinking), hãy dùng endpoint chat completions và tham chiếu việc tạo ảnh trong messages.

Lợi ích trên CometAPI:

Tiết kiệm chi phí: Mức phí cạnh tranh (ví dụ, đề cập mức giá tối ưu cho tạo ảnh như Nano Banana 2 ở các tầng thấp; GPT Image 2 được định tuyến hiệu quả). Tránh phải quản lý nhiều khóa.
Độ đồng thời cao và độ trễ thấp: Hạ tầng cấp doanh nghiệp.
Hệ sinh thái hợp nhất: Kết hợp với các mô hình văn bản (dòng GPT-5, Claude, v.v.), video hoặc các bộ tạo ảnh khác trong một pipeline.
Độ tin cậy: Bộ nhớ đệm cho đầu vào lặp lại giúp giảm chi phí; định tuyến dự phòng khi cần.
Khả năng mở rộng: Lý tưởng cho ứng dụng sản xuất tạo hình ảnh marketing, mockup sản phẩm, hoặc nội dung tự động với quy mô lớn.

Khuyến nghị: Với trường hợp khối lượng lớn (ví dụ, ảnh sản phẩm thương mại điện tử hoặc lô nội dung mạng xã hội), hãy thử các mức chất lượng trên CometAPI trước. Theo dõi sử dụng qua dashboard của họ và tận dụng caching cho các biến thể prompt. Nhiều nhà phát triển báo cáo quy trình mượt hơn và tiết kiệm đáng kể so với tính phí trực tiếp của OpenAI, đặc biệt khi phối hợp nhiều mô hình.

Nếu bạn đang xây dựng ứng dụng AI hoặc tự động hóa nội dung hình ảnh trên CometAPI, hãy bắt đầu với gpt-image-2 cho các tác vụ đòi hỏi độ chính xác và thử nghiệm các lựa chọn thay thế cho phong cách nghệ thuật.

Trường hợp sử dụng GPT Image 2 với ví dụ prompt

GPT Image 2 tỏa sáng trong các kịch bản thực tế. Dưới đây là các trường hợp sử dụng chi tiết với prompt sẵn dùng (tối ưu cho CometAPI hoặc OpenAI API).

Ứng dụng thực tiễn

GPT Image 2 nổi bật trong:

Marketing & Thiết kế: Poster chuyên nghiệp, nội dung mạng xã hội, mockup sản phẩm và infographic thương hiệu với văn bản chính xác.
Kinh doanh & Giáo dục: Slide, sơ đồ, trực quan hóa dữ liệu và tài liệu đào tạo.
Phát triển sản phẩm: Mockup UI/UX, ảnh chụp màn hình ứng dụng và nguyên mẫu lặp.
Sáng tạo nội dung: Manga, storyboard, bảng nhân vật nhất quán và tài sản đa phương tiện.
Quy trình chỉnh sửa: Tinh chỉnh ảnh hoặc tạo biến thể trong khi bảo toàn danh tính và chi tiết.

Người dùng sớm cho biết cảm giác “sẵn sàng sản xuất”, giảm đáng kể thời gian hậu kỳ.

1. Tài sản Marketing & Mạng xã hội

Trường hợp: Quảng cáo bắt mắt với thương hiệu và lời kêu gọi hành động chuẩn xác.

Prompt ví dụ:

Scene: Clean white studio background with subtle gradient. Subject: Modern wireless earbuds in matte black and silver, floating dynamically. Details: High-end product photography, reflective surfaces, precise shadows. Text: Headline "Experience Crystal Clear Sound" in bold sans-serif, subhead "$129 - Limited Offer" in smaller font. Style: Photorealistic, commercial product shot, 16:9 aspect ratio. Constraints: No people, exact text only, high resolution for web use.

2. Mockup UI/UX và ảnh chụp màn hình ứng dụng

Trường hợp: Tạo nhanh mockup cho giao diện mobile/web.

Prompt ví dụ:

Create a high-fidelity iOS app screenshot for a fitness tracking app. Screen: Dark mode dashboard showing steps: 12,458, heart rate 72 bpm, calories 487. UI Elements: Bottom navigation bar with icons labeled "Home", "Stats", "Profile". Text: All labels in SF Pro font, exact numbers as specified. Style: Realistic smartphone frame, subtle bevel, clean modern design. Resolution: 1170x2532 (iPhone-like).

3. Infographic và trực quan hóa dữ liệu

Trường hợp: Báo cáo chuyên nghiệp hoặc thuyết trình với số liệu chính xác.

Prompt ví dụ (với Thinking để kiểm chứng dữ liệu):

Thinking: Plan a clean infographic on AI adoption rates 2025-2026. Generate an infographic: Title "AI Growth Statistics 2026". Sections with icons and bars: "Enterprises using AI: 78%", source labels. Color palette: Blues and greens, modern flat design with subtle gradients. Exact text and numbers only. High readability at 2K resolution.

4. Trang manga/truyện tranh hoặc storyboard

Trường hợp: Nhân vật nhất quán qua các khung.

Prompt ví dụ:

Generate a 4-panel manga page in black-and-white ink style. Consistent character: Young female detective with short black hair, trench coat. Panel 1: Close-up surprised expression, speech bubble "The clue was right here!". Panel 2-4: [describe actions sequentially]. Maintain exact character design across all panels, Japanese manga style, speech bubbles with exact text.

5. Chỉnh sửa/biến thể ảnh:

Tải ảnh gốc và prompt: "Giữ nguyên tư thế và trang phục của người phụ nữ, đổi nền thành thành phố tương lai vào ban đêm, thêm chữ holographic phát sáng 'Innovation 2026'."

Lặp trong chat: Tạo rồi tinh chỉnh với "Làm chữ đậm hơn và dịch bố cục sang trái."

Kết luận

GPT Image 2 đánh dấu bước chuyển hướng tới hình ảnh AI thực sự có thể sử dụng — chính xác, đa ngôn ngữ và tăng cường suy luận. Bằng cách nắm vững khung prompt và vận hành hiệu quả qua CometAPI, bạn có thể tiết kiệm chi phí, mở rộng sản xuất và tạo ảnh cấp độ chuyên nghiệp nhanh hơn bao giờ hết.

Dành cho nhà phát triển và đội nhóm: Tích hợp qua CometAPI ngay hôm nay để truy cập hợp lý chi phí gpt-image-2 cùng hàng trăm mô hình khác trong một hệ thống hợp nhất. Hãy thử nghiệm các ví dụ trên, lặp trong ChatGPT, và chứng kiến quy trình hình ảnh của bạn được thay đổi.

Sẵn sàng bắt đầu? Truy cập CometAPI, lấy khóa của bạn và tạo ra những tài sản chất lượng cao đầu tiên với GPT Image 2. Chia sẻ sản phẩm và mẹo prompt của bạn trên Slack — cùng nhau xây dựng hình ảnh tốt hơn.

Sẵn sàng giảm 20% chi phí phát triển AI?

Đọc thêm

Sẵn sàng giảm 20% chi phí phát triển AI?

Đọc thêm

Cách sử dụng GPT Image 2: Hướng dẫn về prompt, tham số và quy trình làm việc

GPT Image 2 là gì?

Tham số và thông số kỹ thuật của GPT Image 2

Các tham số cốt lõi bạn sẽ thực sự dùng

Tóm tắt các ràng buộc:

Ghi chú dành riêng cho chỉnh sửa

Mẹo sử dụng GPT-Image-2 và hướng dẫn cue

Cấu trúc cue cơ bản

Nguyên tắc cốt lõi

Chỉnh sửa ảnh: sửa đổi ảnh hiện có

Phối hợp nhiều ảnh tham chiếu

Kỹ thuật hiển thị văn bản

Cách bắt đầu với GPT Image 2 trên CometAPI:

Trường hợp sử dụng GPT Image 2 với ví dụ prompt

Ứng dụng thực tiễn

1. Tài sản Marketing & Mạng xã hội

2. Mockup UI/UX và ảnh chụp màn hình ứng dụng

3. Infographic và trực quan hóa dữ liệu

4. Trang manga/truyện tranh hoặc storyboard

5. Chỉnh sửa/biến thể ảnh:

Kết luận