OpenAI's API GPT-Hình ảnh-1 là mô hình tạo hình ảnh đa phương thức hiện đại cho phép các nhà phát triển và doanh nghiệp tích hợp các khả năng tạo hình ảnh tiên tiến vào ứng dụng của họ. API này cho phép tạo hình ảnh chất lượng cao từ lời nhắc văn bản, hỗ trợ nhiều kiểu khác nhau và hiển thị nội dung chính xác.
Các tính năng chính của GPT-Image-1
GPT-Image-1 được thiết kế để tạo ra hình ảnh chất lượng cao từ lời nhắc văn bản, cung cấp cho người dùng khả năng tạo hình ảnh theo nhiều phong cách và định dạng khác nhau. Các tính năng chính bao gồm:
- Tích hợp đa phương thức: GPT-Image-1 được thiết kế để xử lý và tạo ra cả dữ liệu văn bản và hình ảnh một cách liền mạch. Tích hợp đa phương thức này cho phép tương tác năng động hơn, cho phép người dùng nhập lời nhắc kết hợp văn bản và hình ảnh để tạo ra đầu ra mạch lạc và có liên quan theo ngữ cảnh.
- Tuân thủ lời nhắc tùy chỉnh: Diễn giải và trực quan hóa chính xác các lời nhắc do người dùng xác định, đảm bảo phù hợp với các yêu cầu đã chỉ định.
- Công ty Cổ phần Kiến thức Thế giới:Sử dụng dữ liệu đào tạo mở rộng để nhúng hiểu biết theo ngữ cảnh và kiến thức thực tế vào hình ảnh được tạo ra.
- Khả năng kết xuất văn bản: Tích hợp hiệu quả các yếu tố văn bản vào hình ảnh, duy trì tính dễ đọc và tính nhất quán về phong cách.
- Tăng cường khả năng suy luận trực quan: Dựa trên khả năng của các phiên bản trước, GPT-Image-1 thể hiện khả năng lý luận trực quan được cải thiện. Nó có thể diễn giải các cảnh phức tạp, hiểu các mối quan hệ không gian và tạo ra các hình ảnh phù hợp chặt chẽ với các mô tả văn bản được cung cấp.
- Tạo hình ảnh có độ trung thực cao: Mô hình này có khả năng tạo ra hình ảnh có độ phân giải cao với độ chi tiết và độ chính xác đáng kinh ngạc. Tính năng này đặc biệt có lợi cho các ứng dụng yêu cầu đầu ra chân thực hoặc các thành phần thiết kế phức tạp.
Các tính năng này giúp người dùng tạo ra những hình ảnh không chỉ hấp dẫn về mặt thị giác mà còn có ý nghĩa về mặt ngữ cảnh, đáp ứng nhiều nhu cầu sáng tạo và chuyên nghiệp.
Kiến trúc kỹ thuật
Nền tảng trên GPT-4o
GPT-Image-1 được xây dựng dựa trên nền tảng GPT-4o, được biết đến với hiệu suất mạnh mẽ trong cả nhiệm vụ ngôn ngữ và thị giác. Nền tảng này cung cấp cho GPT-Image-1 một cơ sở vững chắc để xử lý các đầu vào đa phương thức phức tạp và tạo ra đầu ra chất lượng cao.
Tạo hình ảnh tự hồi quy
Không giống như các mô hình dựa trên khuếch tán, GPT-Image-1 sử dụng phương pháp hồi quy tự động để tạo hình ảnh. Phương pháp này cho phép mô hình tạo hình ảnh theo trình tự, đảm bảo tính nhất quán và mạch lạc trong đầu ra hình ảnh.
Mã hóa và Xử lý dữ liệu
Mô hình sử dụng các kỹ thuật mã hóa nâng cao để xử lý và hiểu dữ liệu đầu vào một cách hiệu quả. Điều này bao gồm khả năng diễn giải và tạo văn bản trong hình ảnh, tăng cường tiện ích của nó trong các ứng dụng như phân tích tài liệu và tạo nội dung.
Thông sô ky thuật
Đầu vào và đầu ra
- Đầu vào: Lời nhắc văn bản và hình ảnh tùy chọn.
- Đầu ra: Tạo hình ảnh dựa trên lời nhắc được cung cấp.
Hỗ trợ độ phân giải
GPT-Image-1 hỗ trợ tạo hình ảnh có độ phân giải cao, bao gồm các kích thước như 1024×1024, 1024×1536 và 1536×1024 pixel.
An toàn và Kiểm duyệt
API kết hợp các biện pháp an toàn mạnh mẽ, bao gồm:
- Lọc nội dung: Các nhà phát triển có thể thiết lập
moderationtham số đểauto(mặc định) để lọc tiêu chuẩn hoặclowđể lọc ít hạn chế hơn. - Siêu dữ liệu C2PA:Tất cả hình ảnh được tạo ra đều bao gồm siêu dữ liệu C2PA, cho phép các nền tảng xác định nội dung do AI tạo ra.
Đánh giá hiệu suất và chuẩn mực
Đánh giá chất lượng hình ảnh
Trong đánh giá chất lượng hình ảnh, GPT-Image-1 có điểm trung bình là 9.1 điểm (trên 10 điểm), tốt hơn đáng kể so với các mẫu máy ảnh chính thống khác. Nó hoạt động tốt về độ rõ nét của hình ảnh, khả năng tái tạo màu sắc và hiệu suất chi tiết.
Tốc độ và hiệu quả sản xuất
Khi tạo hình ảnh có độ phân giải 256×256, thời gian tạo trung bình của GPT-Image-1 là 6.1 giây, tốt hơn so với các mô hình tương tự. Ngoài ra, hiệu suất tạo hình ảnh ở độ phân giải cao hơn cũng rất tuyệt vời, đáp ứng nhu cầu tạo hình ảnh theo thời gian thực.
Chỉ số hiệu suất
GPT-Image-1 đã đạt được tỷ lệ chính xác ấn tượng trong việc tạo ra hình ảnh trên nhiều lớp và điều kiện khác nhau. Ví dụ, nó đã chứng minh được tỷ lệ chính xác 93% trong việc tạo ra hình ảnh mèo, 91% đối với phong cảnh và 94% đối với cảnh đêm. Ngoài ra, mô hình này đã cho thấy hiệu suất vượt trội trong các tác vụ chuyển đổi kiểu, vượt trội hơn các mô hình khác như GAN và PixelCNN.
Cách gọi GPT-Image-1 API từ CometAPI
GPT-Image-1 Giá API trong CometAPI,giảm giá 20% so với giá chính thức:
- Mã thông báo đầu vào: 8 đô la/M mã thông báo
- Mã thông báo đầu ra: 32 đô la/M mã thông báo
Các bước cần thiết
- Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
- Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
- Lấy url của trang web này: https://api.cometapi.com/
Phương pháp sử dụng
- Chọn hàng**
GPT-Image-1**” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn. - Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để nhận được câu trả lời đã tạo.
Để biết thông tin về Model được lưu trong Comet API, vui lòng xem Hướng dẫn API (tên mẫu: gpt-image-1)
Để biết thông tin về Giá mẫu trong Comet API, vui lòng xem https://api.cometapi.com/pricing.
Sử dụng API
OpenAI cung cấp quyền truy cập vào GPT-Image-1 thông qua Images API, cho phép các nhà phát triển tích hợp khả năng tạo hình ảnh vào ứng dụng của họ.
- Tạo hình ảnh: Mô hình này tuân theo định dạng openai v1/images/generations cho các cuộc gọi,
xem chi tiết tại: https://apidoc.cometapi.com/images-api-13851474.
url: https://api.cometapi.com/v1/images/generations
Một ví dụ về việc sử dụng API như sau:
import requests
url = "https://api.cometapi.com/v1/images/generations"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"model": "gpt-image-1",
"prompt": "A billboard in a city square that reads 'Welcome to the Future'",
"n": 1,
"size": "1024x1024"
}
response = requests.post(url, headers=headers, json=payload)
image_url = response.json()
print("Generated Image with Text URL:", image_url)
Tập lệnh này tạo ra một hình ảnh có văn bản được chỉ định trong cảnh.
2.Chỉnh sửa hình ảnh: Mô hình này tuân theo định dạng openai v1/images/edits cho các cuộc gọi,
xem chi tiết tại: Chỉnh sửa hình ảnh (gpt-image-1).
url: https://api.cometapi.com/v1/images/edits
Nếu bạn có bất kỳ câu hỏi nào về cuộc gọi hoặc có bất kỳ đề xuất nào cho chúng tôi, vui lòng liên hệ với chúng tôi qua phương tiện truyền thông xã hội và địa chỉ email support@cometapi.com.
Xem thêm GPT-Image-1 có giá bao nhiêu?



