Adakah ChatGPT-4.5 Lebih Baik Daripada OpenAI o3?

Pada awal 2025, OpenAI melancarkan dua model penting: GPT-4.5 dan siri O3. Walaupun GPT-4.5, dengan nama kod "Orion," mewakili kemajuan dalam AI perbualan, model O3 direka untuk penaakulan yang kompleks dan tugas menyelesaikan masalah. Artikel ini menyelidiki keupayaan, prestasi dan aplikasi kedua-dua model untuk menentukan yang menonjol dalam landskap AI semasa.

Apakah itu GPT-4.5

GPT-4.5 telah dikeluarkan pada 27 Februari 2025, pada mulanya tersedia kepada pengguna dan pembangun ChatGPT Pro melalui OpenAI API. Rancangan telah ditetapkan untuk mengembangkan akses kepada pengguna ChatGPT Plus dan Pasukan tidak lama selepas itu.

Penambahbaikan Utama

GPT-4.5 dibina berdasarkan pendahulunya, GPT-4, dengan beberapa peningkatan yang ketara:

Tetingkap Konteks Dikembangkan: Menyokong sehingga 128,000 token, membolehkan perbualan yang lebih meluas dan koheren .
Keupayaan Multimodal: Memperkenalkan sokongan untuk pemprosesan imej, membolehkan pengguna memuat naik dan menganalisis imej bersama teks .
Peningkatan Kecerdasan Emosi: Menawarkan lebih banyak interaksi seperti manusia dengan lebih memahami dan bertindak balas terhadap isyarat emosi .
Mengurangkan Kadar Halusinasi: Menunjukkan pengurangan sebanyak 37.1% dalam menjana maklumat yang salah atau rekaan berbanding model sebelumnya.

Batasan

Walaupun kemajuan ini, GPT-4.5 mempunyai kelemahannya:

kos: Pada $75 setiap juta token input dan $150 setiap juta token keluaran, ia jauh lebih mahal daripada model seperti GPT-3.5 Turbo .
Cabaran Penaakulan: Sesetengah pengguna melaporkan bahawa GPT-4.5 bergelut dengan tugas penaakulan yang kompleks dan mungkin tidak mengikut arahan terperinci secara konsisten.

Apakah O3

Siri model O3 OpenAI mewakili peralihan ke arah sistem AI yang mampu membuat penaakulan lanjutan. Menggunakan pembelajaran pengukuhan, model O3 dilatih untuk "berfikir" sebelum menjana respons, menggunakan "rantaian pemikiran peribadi" untuk merancang dan menaakul melalui tugas .

Ciri-ciri Utama OpenAI o3

1. Keupayaan Penaakulan yang Dipertingkatkan

Pada teras reka bentuk o3 ialah keupayaannya untuk melakukan penaakulan logik langkah demi langkah. Ini dicapai melalui mekanisme "rantaian pemikiran peribadi", membenarkan model membincangkan secara dalaman sebelum menjana respons. Ciri sedemikian membolehkan o3 menangani tugas yang rumit dalam matematik, pengekodan dan analisis saintifik dengan ketepatan yang dipertingkatkan .

2. Prestasi Penanda Aras Unggul

o3 telah menunjukkan prestasi yang luar biasa merentas beberapa penanda aras:

GPQA Berlian: Mencapai markah 87.7% pada soalan sains peringkat pakar .
SWE-bench Disahkan: Mendapat markah 71.7% dalam menyelesaikan tugas kejuruteraan perisian dunia sebenar, melepasi 1% o48.9.
Codeforces: Mencapai penarafan Elo 2727, menunjukkan kecekapan tinggi dalam cabaran pengaturcaraan kompetitif .
Penanda Aras ARC-AGI: Menunjukkan tiga kali ganda ketepatan o1 dalam tugasan penaakulan abstrak.

3. Keupayaan Multimodal

Di luar teks, o3 mempamerkan kemahiran persepsi visual yang kuat. Ia boleh menganalisis imej, carta dan grafik, menjadikannya mahir dalam tugas yang memerlukan tafsiran data visual .

4. Penggunaan Alat Autonomi

o3 dilengkapi dengan keupayaan untuk menggunakan alatan secara autonomi seperti penyemakan imbas web, pelaksanaan Python, penjanaan imej dan analisis fail. Ini membolehkan model melaksanakan tugas pelbagai rupa tanpa gesaan pengguna yang jelas, meningkatkan kepelbagaiannya .

5. Penjajaran Musyawarah untuk Keselamatan

Untuk memastikan output yang boleh dipercayai dan selamat, o3 menggabungkan pendekatan penjajaran musyawarah. Kaedah ini meningkatkan kapasiti model untuk mematuhi garis panduan keselamatan melalui proses penaakulan berstruktur .

6. Varian untuk Keperluan Pelbagai

OpenAI telah mengeluarkan o3 dalam pelbagai versi untuk memenuhi keperluan yang berbeza:

o3-mini: Model yang lebih kecil dan menjimatkan kos yang dioptimumkan untuk kelajuan dan ketepatan dalam domain teknikal .
o3-mini-tinggi: Varian o3-mini yang memperuntukkan lebih banyak sumber pengiraan untuk penaakulan yang dipertingkatkan, tersedia kepada pelanggan berbayar .

Pertimbangan dan Had

Walaupun o3 mempamerkan kemajuan yang ketara, ia bukan tanpa cabaran:

Peningkatan Permintaan Pengiraan: Proses perbincangan model memerlukan lebih banyak kuasa pengkomputeran, yang membawa kepada kos operasi yang lebih tinggi dan potensi kependaman dalam tindak balas .
Ketidakpastian dalam Output: Walaupun terdapat penambahbaikan, o3 boleh mempamerkan ketidakkonsistenan, seperti halusinasi atau ralat dalam tugasan tertentu, mencerminkan cabaran yang lebih luas dalam pembangunan AI .

Analisis Perbandingan: GPT-4.5 lwn O3

Pemprosesan dan Kreativiti Bahasa Semulajadi

ChatGPT-4.5 cemerlang dalam menjana respons kreatif dan kaya kontekstual, menjadikannya sesuai untuk aplikasi dalam bercerita, perkhidmatan pelanggan dan perancangan strategik. Kecerdasan emosinya yang dipertingkatkan membolehkan interaksi yang lebih bernuansa.

Sebaliknya, OpenAI o3 mengutamakan penaakulan logik berbanding ekspresi kreatif. Walaupun ia mungkin tidak sepadan dengan ChatGPT-4.5 dalam kebolehan perbualan, pendekatan berstrukturnya memastikan ketepatan dalam tugas yang memerlukan analisis terperinci.

Penaakulan dan Penyelesaian Masalah

OpenAI o3 mengatasi ChatGPT-4.5 dalam domain teknikal. Keupayaannya untuk berbincang secara dalaman menghasilkan ketepatan yang lebih tinggi dalam pengekodan, matematik dan penyelesaian masalah saintifik. Sebagai contoh, o3 mendapat 71.7% pada penanda aras SWE-bench Verified, menilai keupayaan kejuruteraan perisian.

ChatGPT-4.5, walaupun cekap, mungkin tidak sepadan dengan ketepatan o3 dalam bidang ini. Kekuatannya lebih banyak terletak pada pengetahuan am dan tugas kreatif daripada penyelesaian masalah teknikal khusus.

Kos dan Kebolehcapaian

ChatGPT-4.5 diletakkan sebagai tawaran premium, dengan kos $75 setiap juta token input dan $150 setiap juta token keluaran. Harga mencerminkan keupayaan lanjutannya tetapi mungkin terhalang untuk sesetengah pengguna. Akses kini terhad kepada pelanggan ChatGPT Pro dan pelanggan perusahaan, dengan ketersediaan yang lebih luas dirancang.

O3 diletakkan sebagai tawaran premium, dengan kos $10 setiap juta token input dan $40 setiap juta token keluaran,$2.5 setiap juta Input Cached, tumpuannya pada kecekapan pengiraan mencadangkan penyelesaian yang lebih kos efektif untuk tugasan yang memerlukan penaakulan logik. Reka bentuknya bertujuan untuk mengimbangi prestasi dengan penggunaan sumber, yang berpotensi menawarkan pilihan yang lebih mudah diakses untuk aplikasi teknikal.

Kesimpulan: Memilih Model yang Tepat

Keputusan antara GPT-4.5 dan O3 bergantung pada keperluan khusus pengguna:

Untuk Perbualan Semulajadi: GPT-4.5 adalah lebih baik untuk aplikasi yang memerlukan interaksi seperti manusia dan kecerdasan emosi.
Untuk Tugas Penaakulan Kompleks: O3 lebih sesuai untuk tugasan yang melibatkan penyelesaian masalah lanjutan, pengekodan dan penyelidikan saintifik.

Memandangkan AI terus berkembang, penyepaduan kefasihan perbualan dan penaakulan mendalam dalam model akan datang mungkin merapatkan jurang antara GPT-4.5 dan O3, menawarkan penyelesaian komprehensif merentas pelbagai domain.

Bermula

Pembangun boleh mengakses API GPT-4.5 and API O3 melalui CometAPI. Untuk bermula, terokai keupayaan model di Taman Permainan dan rujuk Panduan API untuk arahan terperinci. Harap maklum bahawa sesetengah pembangun mungkin perlu mengesahkan organisasi mereka sebelum menggunakan model tersebut.

GPT-4.5 API and O3 API Harga dalam CometAPI，20% daripada harga rasmi:


Versi Model	GPT-4.5	O3
Harga dalam CometAPI	Token Input: $60 / M token	`o3-mini-all :` Token Input: $0.88 / M token Token Output: $3.52 / M token `o3-mini-high:`Harga:$0.06 `o3-mini-high-all:` Harga:$0.06
Token Output: $120 / M token	`o3-2025-04-16 :` Token Input: $8 / M token Token Output: $32 / M token
nama model	`gpt-4.5-preview-2025-02-27` `gpt-4.5-preview` `gpt-4.5`	`o3 o3-2025-04-16`