Google Major Melancarkan model Imagen 4, Imagen 4 Ultra dan Veo 3 di Google I/O 2025

CometAPI
AnnaMay 18, 2025
Google Major Melancarkan model Imagen 4, Imagen 4 Ultra dan Veo 3 di Google I/O 2025

Google bersedia untuk memperkenalkan model AI generasi akan datangnya—Imej 4, Imej 4 Ultra, dan Veo 3—semasa persidangan tahunan pembangun Google I/O pada 20 Mei 2025. Kebocoran awal pengecam pratonton (cth, imagen-4.0-generate-preview-05-20, imagen-4.0-ultra-generate-exp-05-20, veo-3.0-generate-preview) menandakan pelancaran berperingkat dan berbilang peringkat keupayaan merentas kedua-dua domain sintesis imej dan video. Imagen 4 bertujuan untuk memberikan keuntungan ketara dalam fotorealisme, kesetiaan segera dan konsistensi gaya berbanding Imagen 3, manakala varian "Ultra" mungkin menawarkan resolusi yang lebih tinggi atau mod prestasi khusus . Dari segi video, Veo 3 menjanjikan kesinambungan klip-ke-klip yang lebih koheren dan pematuhan gaya yang mantap berbanding Veo 2 . Ketiga-tiga model dijangka akan disepadukan rapat dengan ekosistem Gemini AI Google, membolehkan peralihan lancar daripada gesaan teks kepada imej atau video dalam aliran kerja yang sama .


Pratonton Pengecam dan Strategi Pelancaran

Pratonton Berperingkat: Rujukan dalaman seperti

  • imagen-4.0-generate-preview-05-20
  • imagen-4.0-ultra-generate-exp-05-20
  • veo-3.0-generate-preview

Google Major Melancarkan model Imagen 4, Imagen 4 Ultra dan Veo 3 di Google I/O 2025
Google Major Melancarkan model Imagen 4, Imagen 4 Ultra dan Veo 3 di Google I/O 2025

Telah muncul dalam repositori kod dan pratonton API, yang menunjukkan hasrat Google untuk menawarkan kedua-dua peringkat prestasi standard dan "Ultra" untuk penjanaan imej, serta pratonton model video lanjutan untuk penguji awal.

Pelancaran Google I/O:

Pengecam ini amat mencadangkan Google akan mempamerkan dan berpotensi memberikan akses pratonton kepada pembangun pada I/O dihidupkan 20 Mei 2025, mencerminkan pelancaran sebelumnya untuk Imagen 3 dan Veo 2.


Apa yang Baharu dalam Imagen 4

Fotorealisme dan Kesetiaan

  • Rendering Dipertingkatkan: Imagen 4 dilaporkan mencapai perincian fotorealistik yang lebih besar, mengurangkan artifak dan meningkatkan ketepatan warna. Khabar angin awal mencadangkan penambahbaikan dalam memahami gesaan kompleks, seperti pencahayaan bernuansa atau pantulan .
  • Pematuhan Segera: Model ini dijangka mengikut arahan pengguna dengan lebih tepat, menyampaikan imej yang lebih sepadan dengan arahan kandungan dan gaya (cth, "lukisan minyak matahari terbenam di atas gunung") .

Ketekalan Gaya

  • Kesepaduan Pelbagai Imej: Imagen 4 direka bentuk untuk mengekalkan gaya visual yang konsisten merentas berbilang output, memanfaatkan kes penggunaan seperti papan cerita atau penciptaan katalog produk, di mana keseragaman adalah kritikal .
  • Varian Ultra: Peringkat "Ultra" (imagen‑4.0‑ultra) berkemungkinan menawarkan output resolusi lebih tinggi atau pengoptimuman khusus (cth, kesetiaan ultra tinggi untuk media cetak) untuk profesional perusahaan dan kreatif .

Apa yang Baharu dalam Veo 3

Peningkatan Kesepaduan

  • Kesinambungan Klip-ke-Klip: Veo 3 bertujuan untuk menjana urutan video di mana tangkapan berturut-turut mengekalkan pembingkaian, pencahayaan dan penampilan watak yang konsisten, menangani batasan dalam Veo 2 di sekitar hanyut visual dari semasa ke semasa .
  • Kesetiaan Gaya: Model memfokuskan pada mereplikasi gaya artistik atau sinematik dengan lebih setia, menjadikannya lebih mudah untuk menghasilkan video dalam estetika yang diingini (cth, noir, animasi pastel).

Penyepaduan Penanda Air SynthID

  • Watermarking Digital: Memanfaatkan teknologi SynthID DeepMind (diperkenalkan dengan Veo 2), Veo 3 akan membenamkan tera air yang tidak dapat dilihat untuk membantu mengenal pasti kandungan yang dijana AI dan membendung penyalahgunaan.

Integrasi dengan Gemini AI

  • Akses Yang Lancar: Kedua-dua Imagen 4 dan Veo 3 dijangka boleh diakses terus melalui antara muka Gemini Google—membolehkan pengguna menjana imej atau video dalam gesaan berasaskan sembang atau melalui antara muka produk seperti Google Photos dan Google Slides.
  • Permata Gemini: “Permata” AI tersuai mungkin menggabungkan model ini, membenarkan pengguna mencipta pembantu khusus (cth, Permata perancangan perjalanan yang menjana imej jadual perjalanan dan video gambaran keseluruhan) dan berkongsinya di pasaran yang serupa dengan Gedung GPT ChatGPT.

Ketersediaan dan Langkah Seterusnya

Pratonton Awam: Pembangun dan penguji perusahaan boleh menerima jemputan untuk mencuba Imagen 4 (standard dan Ultra) dan Veo 3 bermula 20 Mei 2025 di Google I/O, dengan pelancaran yang lebih meluas kepada Labs dan Vertex AI pada minggu-minggu berikutnya .

Maklum Balas dan Lelaran: Seperti pelancaran sebelum ini, Google berkemungkinan akan mendapatkan maklum balas pengguna untuk memperhalusi penapis keselamatan, keteguhan penanda air dan pengoptimuman prestasi sebelum ketersediaan umum.

Tonton Ruang Ini: pemaju yang berminat harus memantau CometAPI.

API model baharu akan disenaraikan di CometAPI, dan ia dijanjikan akan memberikan harga yang lebih rendah daripada Google untuk memudahkan penyepaduan anda. Sila terus ambil perhatian Dokumen API.

Baca Lagi

500+ Model dalam Satu API

Sehingga 20% Diskaun