โมเดลสนับสนุนองค์กรบล็อก
500+ AI Model API ทั้งหมดในหนึ่ง API เพียงแค่ใน CometAPI
API โมเดล
นักพัฒนา
เริ่มต้นอย่างรวดเร็วเอกสารประกอบแดชบอร์ด API
ทรัพยากร
โมเดล AIบล็อกองค์กรบันทึกการเปลี่ยนแปลงเกี่ยวกับ
2025 CometAPI สงวนลิขสิทธิ์ทั้งหมดนโยบายความเป็นส่วนตัวข้อกำหนดการให้บริการ
Home/Models/OpenAI/GPT 4o Image
O

GPT 4o Image

ต่อคำขอ:$0.04
gpt-4o-image สร้างรูปภาพเป็นเอาต์พุต โดยสามารถเลือกใช้รูปภาพเป็นอินพุตได้
ใหม่
ใช้งานเชิงพาณิชย์
ภาพรวม
คุณสมบัติ
ราคา
API

Technical Specifications of gpt-4o-image

SpecificationDetails
Model IDgpt-4o-image
Model TypeMultimodal image generation model
Input ModalitiesText, image
Output ModalitiesImage
Primary Use CasesText-to-image generation, image-to-image generation, visual editing, creative asset production
Context SupportText prompts with optional image inputs
StreamingNot typically required for image output workflows
Tool / Function CallingNot applicable for core image generation
Response FormatGenerated image output, typically returned through API response payload or referenced asset data
Best ForApplications that need generated images from prompts, optionally guided by input images

What is gpt-4o-image?

gpt-4o-image is a multimodal image generation model exposed through CometAPI that is designed to generate images as output, with support for optional image inputs alongside text prompts. It is well suited for products that need to create visual content from natural language descriptions, transform existing images, or build image-driven creative workflows.

Because it can work from prompt-only input or combine prompt instructions with reference imagery, gpt-4o-image fits a wide range of use cases such as concept art generation, marketing creatives, product mockups, design exploration, and iterative visual editing. Through CometAPI, developers can access gpt-4o-image using a consistent API integration pattern across providers and models.

Main features of gpt-4o-image

  • Text-to-image generation: Create original images from natural language prompts for creative, design, and production workflows.
  • Image-conditioned generation: Use one or more input images to guide composition, style, subject matter, or transformations.
  • Visual iteration: Refine outputs across repeated requests by adjusting prompt details and image references.
  • Creative flexibility: Support a broad range of visual use cases, including illustrations, marketing assets, mockups, and conceptual design.
  • Multimodal prompting: Combine descriptive text with image inputs to achieve more controlled and context-aware results.
  • Developer-friendly access: Integrate gpt-4o-image through CometAPI’s unified model access layer and standardized API workflow.

How to access and integrate gpt-4o-image

Step 1: Sign Up for API Key

Sign up on CometAPI and create an API key from the dashboard. After generating your key, store it securely and use it to authenticate requests to the CometAPI endpoint.

Step 2: Send Requests to gpt-4o-image API

Use CometAPI’s OpenAI-compatible API format and set the model field to gpt-4o-image.

curl --request POST \
  --url https://api.cometapi.com/v1/responses \
  --header "Authorization: Bearer $COMETAPI_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "gpt-4o-image",
    "input": [
      {
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Generate a clean modern product poster for a smartwatch on a soft studio background." }
        ]
      }
    ]
  }'

You can also include image inputs in the request when building image-to-image or guided generation workflows, depending on your application’s needs.

Step 3: Retrieve and Verify Results

Read the API response, extract the generated image result from the returned output structure, and verify that the image matches your prompt, formatting expectations, and application requirements before displaying it to end users or storing it in your system.

คุณสมบัติสำหรับ GPT 4o Image

สำรวจคุณสมบัติหลักของ GPT 4o Image ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ GPT 4o Image

สำรวจราคาที่แข่งขันได้สำหรับ GPT 4o Image ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า GPT 4o Image สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
ต่อคำขอ:$0.04
ต่อคำขอ:$0.05
-20%

โค้ดตัวอย่างและ API สำหรับ GPT 4o Image

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ GPT 4o Image เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ GPT 4o Image ในโครงการของคุณ
POST
/v1/chat/completions

โมเดลเพิ่มเติม

G

Nano Banana 2

อินพุต:$0.4/M
เอาต์พุต:$2.4/M
ภาพรวมความสามารถหลัก: ความละเอียด: สูงสุด 4K (4096×4096) เทียบเท่า Pro. ความสม่ำเสมอของภาพอ้างอิง: รองรับภาพอ้างอิงได้สูงสุด 14 ภาพ (วัตถุ 10 รายการ + ตัวละคร 4 ตัว), รักษาความสม่ำเสมอของสไตล์/ตัวละคร. อัตราส่วนภาพแบบสุดโต่ง: เพิ่มอัตราส่วนใหม่ 1:4, 4:1, 1:8, 8:1 เหมาะสำหรับภาพแนวยาว, โปสเตอร์ และแบนเนอร์. การเรนเดอร์ข้อความ: การสร้างข้อความขั้นสูง เหมาะสำหรับอินโฟกราฟิกและเลย์เอาต์โปสเตอร์สำหรับการตลาด. การปรับปรุงการค้นหา: ผสาน Google Search + การค้นหาด้วยภาพ. การยึดโยง: มีกระบวนการคิดในตัว; ทำการให้เหตุผลกับพรอมป์ตที่ซับซ้อนก่อนการสร้าง.
D

Doubao Seedream 5

ต่อคำขอ:$0.028
Seedream 5.0 Lite เป็นโมเดลสร้างภาพแบบมัลติโหมดที่ผสานรวมเป็นหนึ่งเดียว มีความสามารถในการคิดเชิงลึกและการค้นหาออนไลน์ โดยมาพร้อมการอัปเกรดแบบครอบคลุมทุกด้านในด้านการทำความเข้าใจ การให้เหตุผล และความสามารถในการสร้าง
F

FLUX 2 MAX

ต่อคำขอ:$0.008
FLUX.2 [max] เป็นโมเดลปัญญาด้านภาพระดับท็อปจาก Black Forest Labs (BFL) ที่ออกแบบมาสำหรับเวิร์กโฟลว์ระดับโปรดักชัน: การตลาด การถ่ายภาพผลิตภัณฑ์ อีคอมเมิร์ซ สายงานสร้างสรรค์ และทุกแอปพลิเคชันที่ต้องการเอกลักษณ์ของตัวละคร/ผลิตภัณฑ์ที่สม่ำเสมอ การเรนเดอร์ข้อความอย่างแม่นยำ และรายละเอียดสมจริงราวภาพถ่ายในความละเอียดระดับหลายเมกะพิกเซล สถาปัตยกรรมถูกวิศวกรรมมาเพื่อการทำตามพรอมต์ที่แข็งแกร่ง การผสานข้อมูลอ้างอิงหลายแหล่ง (สูงสุดสิบภาพอินพุต) และการสร้างที่ยึดโยงกับบริบท (ความสามารถในการผนวกบริบทบนเว็บที่เป็นปัจจุบันเมื่อสร้างภาพ)。
X

Black Forest Labs/FLUX 2 MAX

ต่อคำขอ:$0.056
FLUX.2 [max] เป็นรุ่นเรือธงที่มีคุณภาพสูงสุดของตระกูล FLUX.2 จาก Black Forest Labs (BFL). ถูกวางตำแหน่งให้เป็นโมเดลการสร้างภาพแบบ text→image และการแก้ไขภาพระดับมืออาชีพ ที่มุ่งเน้นความเที่ยงตรงสูงสุด, การยึดตามพรอมป์, และความสม่ำเสมอของการแก้ไขระหว่างตัวละคร วัตถุ แสง และสี. BFL และรีจิสทรีของพาร์ทเนอร์ระบุว่า FLUX.2 [max] เป็นรุ่น FLUX.2 ระดับสูงสุด พร้อมฟีเจอร์สำหรับการแก้ไขโดยใช้อ้างอิงหลายรายการและการสร้างแบบยึดโยงกับข้อมูล.
O

GPT Image 1.5

อินพุต:$6.4/M
เอาต์พุต:$25.6/M
GPT-Image-1.5 เป็นโมเดลภาพของ OpenAI ใน GPT Image family . เป็นโมเดล GPT แบบมัลติโหมดโดยเนื้อแท้ ออกแบบมาเพื่อสร้างภาพจากพรอมต์ข้อความ และแก้ไขภาพที่ป้อนเข้าด้วยความเที่ยงตรงสูง ขณะเดียวกันก็ปฏิบัติตามคำสั่งของผู้ใช้อย่างเคร่งครัด.
D

Doubao Seedream 4.5

ต่อคำขอ:$0.032
Seedream 4.5 เป็นโมเดลภาพแบบมัลติโมดัลของ ByteDance/Seed (ข้อความ→ภาพ + การแก้ไขภาพ) ที่มุ่งเน้นความซื่อตรงของภาพระดับโปรดักชัน ความสอดคล้องกับพรอมป์ที่ดีขึ้น และความสม่ำเสมอในการแก้ไขที่พัฒนาขึ้นอย่างมาก (การคงเอกลักษณ์ของตัวแบบ การเรนเดอร์ข้อความ/ไทโปกราฟี และความสมจริงของใบหน้า)