OpenAI API GPT-Imej-1 ialah model penjanaan imej multimodal tercanggih yang membolehkan pembangun dan perniagaan menyepadukan keupayaan penciptaan imej lanjutan ke dalam aplikasi mereka. API ini membolehkan penjanaan imej berkualiti tinggi daripada gesaan teks, menyokong pelbagai gaya dan pemaparan kandungan yang tepat.
Ciri Utama GPT-Image-1
GPT-Image-1 direka bentuk untuk menjana imej berkualiti tinggi daripada gesaan teks, menawarkan pengguna keupayaan untuk mencipta visual dalam pelbagai gaya dan format. Ciri-ciri utama termasuk:
- Integrasi Multimodal: GPT-Image-1 direka untuk memproses dan menjana kedua-dua data teks dan visual dengan lancar. Penyepaduan multimodal ini membolehkan interaksi yang lebih dinamik, membolehkan pengguna memasukkan gesaan yang menggabungkan teks dan imej untuk menghasilkan output yang koheren dan berkaitan kontekstual.
- Pematuhan Segera Tersuai: Mentafsir dan menggambarkan gesaan yang ditentukan pengguna dengan tepat, memastikan penjajaran dengan keperluan yang ditentukan.
- Perbadanan Pengetahuan Dunia: Menggunakan data latihan yang meluas untuk membenamkan pemahaman kontekstual dan pengetahuan dunia sebenar ke dalam imej yang dihasilkan.
- Keupayaan Pemberian Teks: Mengintegrasikan elemen teks dengan berkesan dalam imej, mengekalkan kebolehbacaan dan ketekalan gaya.
- Penaakulan Visual yang Dipertingkatkan: Berdasarkan keupayaan pendahulunya, GPT-Image-1 mempamerkan penaakulan visual yang lebih baik. Ia boleh mentafsir adegan yang kompleks, memahami hubungan ruang dan menjana imej yang sejajar rapat dengan penerangan teks yang disediakan.
- Penjanaan Imej Kesetiaan Tinggi: Model ini mampu menghasilkan imej resolusi tinggi dengan perincian dan ketepatan yang luar biasa. Ciri ini amat berfaedah untuk aplikasi yang memerlukan output fotorealistik atau elemen reka bentuk yang rumit.
Ciri-ciri ini secara kolektif memperkasakan pengguna untuk menjana imej yang bukan sahaja menarik secara visual tetapi juga bermakna dari segi konteks, memenuhi spektrum luas keperluan kreatif dan profesional.
Senibina Teknikal
Asas pada GPT-4o
GPT-Image-1 dibina di atas rangka kerja GPT-4o, yang terkenal dengan prestasi teguhnya dalam kedua-dua tugas bahasa dan penglihatan. Asas ini menyediakan GPT-Image-1 asas yang kukuh untuk mengendalikan input multimodal yang kompleks dan menjana output berkualiti tinggi.
Penjanaan Imej Autoregresif
Tidak seperti model berasaskan resapan, GPT-Image-1 menggunakan pendekatan autoregresif kepada penjanaan imej. Kaedah ini membolehkan model menjana imej secara berurutan, memastikan ketekalan dan keselarasan dalam output visual.
Tokenisasi dan Pemprosesan Data
Model ini menggunakan teknik tokenisasi lanjutan untuk memproses dan memahami data input dengan berkesan. Ini termasuk keupayaan untuk mentafsir dan menjana teks dalam imej, meningkatkan utilitinya dalam aplikasi seperti analisis dokumen dan penciptaan kandungan.
Spesifikasi teknikal
Input dan Output
- Input: Gesaan teks dan input imej pilihan.
- Output: Imej yang dihasilkan berdasarkan gesaan yang disediakan.
Sokongan Resolusi
GPT-Image-1 menyokong penjanaan imej resolusi tinggi, termasuk dimensi seperti 1024×1024, 1024×1536 dan 1536×1024 piksel.
Keselamatan dan Kesederhanaan
API menggabungkan langkah keselamatan yang teguh, termasuk:
- Penapisan Kandungan: Pembangun boleh menetapkan
moderationparameter untukauto(lalai) untuk penapisan standard ataulowuntuk penapisan yang kurang ketat. - Metadata C2PA: Semua imej yang dijana termasuk metadata C2PA, membolehkan platform mengenal pasti kandungan yang dijana AI.
Penilaian prestasi dan penanda aras
Penilaian kualiti imej
Dalam penilaian kualiti imej, GPT-Image-1 mempunyai skor purata 9.1 mata (daripada 10 mata), yang jauh lebih baik daripada model arus perdana yang lain. Ia berfungsi dengan baik dari segi kejelasan imej, pembiakan warna, dan prestasi perincian.
Kepantasan dan kecekapan penjanaan
Apabila menjana imej resolusi 256×256, purata masa penjanaan GPT-Image-1 ialah 6.1 saat, yang lebih baik daripada model yang serupa. Di samping itu, kecekapan penjanaannya pada resolusi yang lebih tinggi juga sangat baik, memenuhi keperluan penjanaan masa nyata.
Metrik Prestasi
GPT-Image-1 telah mencapai kadar ketepatan yang mengagumkan dalam menjana imej merentas kelas dan keadaan yang berbeza. Sebagai contoh, ia telah menunjukkan kadar ketepatan 93% dalam menjana imej kucing, 91% untuk landskap dan 94% untuk adegan waktu malam. Selain itu, model ini telah menunjukkan prestasi unggul dalam tugas pemindahan gaya, mengatasi prestasi model lain seperti GAN dan PixelCNN.
Bagaimana hendak memanggil GPT-Image-1 API daripada CometAPI
GPT-Image-1 Harga API dalam CometAPI,diskaun 20% daripada harga rasmi:
- Token Input: $8 / M token
- Token Output: $32/M token
Langkah yang Diperlukan
- Log masuk ke cometapi.com. Jika anda belum menjadi pengguna kami, sila daftar dahulu
- Dapatkan kunci API kelayakan akses antara muka. Klik "Tambah Token" pada token API di pusat peribadi, dapatkan kunci token: sk-xxxxx dan serahkan.
- Dapatkan url tapak ini: https://api.cometapi.com/
Kaedah Penggunaan
- Pilih "
GPT-Image-1” titik akhir untuk menghantar permintaan API dan menetapkan badan permintaan. Kaedah permintaan dan badan permintaan diperoleh daripada dokumen API tapak web kami. Laman web kami juga menyediakan ujian Apifox untuk kemudahan anda. - Gantikan dengan kunci CometAPI sebenar anda daripada akaun anda.
- Masukkan soalan atau permintaan anda ke dalam medan kandungan—inilah yang akan dijawab oleh model.
- . Proses respons API untuk mendapatkan jawapan yang dijana.
Untuk maklumat model lunched dalam Comet API sila lihat Panduan API (nama model: gpt-image-1)
Untuk maklumat Harga Model dalam API Komet sila lihat https://api.cometapi.com/pricing.
Penggunaan API
OpenAI menyediakan akses kepada GPT-Image-1 melalui API Imejnya, membolehkan pembangun menyepadukan keupayaan penjanaan imej ke dalam aplikasi mereka.
1.Jana Imej: Model ini mengikut format openai v1/imej/generasi untuk panggilan,
lihat butiran di: https://apidoc.cometapi.com/images-api-13851474.
url: https://api.cometapi.com/v1/images/generations
Contoh penggunaan API adalah seperti berikut:
import requests
url = "https://api.cometapi.com/v1/images/generations"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"model": "gpt-image-1",
"prompt": "A billboard in a city square that reads 'Welcome to the Future'",
"n": 1,
"size": "1024x1024"
}
response = requests.post(url, headers=headers, json=payload)
image_url = response.json()
print("Generated Image with Text URL:", image_url)
Skrip ini mencipta imej yang memaparkan teks yang ditentukan dalam tempat kejadian.
2.Edit Imej: Model ini mengikut format openai v1/images/edits untuk panggilan,
lihat butiran di: Penyuntingan Imej (gpt-image-1).
url: https://api.cometapi.com/v1/images/edits
Jika anda mempunyai sebarang pertanyaan tentang panggilan atau mempunyai sebarang cadangan untuk kami, sila hubungi kami melalui media sosial dan alamat e-mel support@cometapi.com.
See Also Berapakah kos GPT-Image-1?



