Pada 25 Mac, menurut Qwen pengumuman pasukan, model Qwen2.5-VL-32B-Instruct secara rasminya adalah sumber terbuka, dengan skala parameter 32B, dan menunjukkan prestasi cemerlang dalam tugas seperti pemahaman imej, penaakulan matematik dan penjanaan teks. Model ini terus dioptimumkan melalui pembelajaran pengukuhan, dan responsnya lebih selaras dengan pilihan manusia, mengatasi model 72B yang dikeluarkan sebelum ini dalam penilaian multimodal seperti MMMU dan MathVista.

Apakah Qwen2.5-VL-32B?
Qwen2.5-VL-32B-Instruct ialah tambahan terbaharu kepada siri Qwen Alibaba, yang mempunyai 32 bilion parameter. Direka bentuk untuk memproses dan mentafsir kedua-dua maklumat visual dan teks, model ini cemerlang dalam tugas yang memerlukan pemahaman imej dan bahasa yang bernuansa. Dikeluarkan di bawah lesen Apache 2.0, ia menawarkan fleksibiliti kepada pembangun dan penyelidik untuk menyepadukan dan menyesuaikan model untuk pelbagai aplikasi.
Berbanding dengan model siri Qwen2.5-VL sebelumnya, model 32B mempunyai penambahbaikan berikut:
- Tanggapan lebih selaras dengan keutamaan subjektif manusia: gaya keluaran telah dilaraskan untuk menjadikan jawapan lebih terperinci, format lebih standard dan lebih selaras dengan pilihan manusia.
- Keupayaan penaakulan matematik: Ketepatan menyelesaikan masalah matematik yang kompleks telah dipertingkatkan dengan ketara.
- Pemahaman dan penaakulan imej yang halus: Ketepatan yang lebih kukuh dan keupayaan analisis yang terperinci telah ditunjukkan dalam tugas seperti penghuraian imej, pengecaman kandungan dan potongan logik visual
Bagaimana Anda Boleh Menggunakan Qwen2.5-VL-32B Secara Tempatan?
Menggunakan Qwen2.5-VL-32B secara tempatan membolehkan pengguna memanfaatkan keupayaannya tanpa bergantung pada pelayan luaran, memastikan privasi data dan mengurangkan kependaman. Repositori GitHub rasmi menyediakan sumber yang komprehensif untuk penggunaan tempatan. citeturn0search6
Menetapkan Alam Sekitar
- Klon Repositori:
git clone https://github.com/QwenLM/Qwen2.5-VL
- Navigasi ke Direktori Projek: Beralih ke direktori klon:
cd Qwen2.5-VL
- Pasang Ketergantungan: Pastikan semua pakej yang diperlukan dipasang. Repositori termasuk a
requirements.txtfail untuk memudahkan ini:
pip install -r requirements.txt
Menjalankan Model
Selepas menyediakan persekitaran:
- Lancarkan Aplikasi: Jalankan skrip utama untuk memulakan aplikasi. Arahan terperinci disediakan dalam dokumentasi repositori.
- Akses Antara Muka: Setelah berjalan, akses antara muka model melalui penyemak imbas web di alamat setempat yang ditentukan.
Petua Pengoptimuman
Untuk meningkatkan prestasi dan mengurus sumber dengan berkesan:
- Pengkuantuman: Gunakan
--quantizebendera semasa penukaran model untuk mengurangkan penggunaan memori. - Uruskan Panjang Konteks: Hadkan token input untuk mempercepatkan respons.
- Tutup Aplikasi Berat Sumber: Pastikan aplikasi intensif lain ditutup untuk membebaskan sumber sistem.
- Pemprosesan Batch: Untuk berbilang imej, proseskannya dalam kelompok untuk meningkatkan kecekapan.
Apakah Ciri Utama Qwen2.5-VL-32B?
Qwen2.5-VL-32B-Instruct memperkenalkan beberapa peningkatan berbanding pendahulunya:
Respons Seperti Manusia yang Dipertingkatkan
Gaya keluaran model telah diperhalusi untuk menghasilkan jawapan yang lebih terperinci dan tersusun dengan baik, sejajar dengan pilihan manusia. Peningkatan ini memudahkan interaksi yang lebih semula jadi dan intuitif.
Penaakulan Matematik Lanjutan
Kemajuan yang ketara telah dicapai dalam keupayaan model untuk menyelesaikan masalah matematik yang kompleks dengan tepat. Ini meletakkan Qwen2.5-VL-32B sebagai alat yang berharga untuk tugasan yang memerlukan pengiraan berangka yang canggih.
Pemahaman dan Penaakulan Imej Berbutir Halus
Model ini menunjukkan ketepatan yang lebih tinggi dalam penghuraian imej, pengecaman kandungan dan potongan logik visual. Ia boleh menganalisis butiran rumit dalam imej, menjadikannya mahir dalam tugas seperti pengesanan objek dan pemahaman pemandangan.
Keupayaan Menghurai Dokumen yang Berkuasa
Qwen2.5-VL-32B cemerlang dalam penghuraian omnidocument, mengendalikan dokumen berbilang adegan, berbilang bahasa dengan berkesan, termasuk dokumen dengan tulisan tangan, jadual, carta, formula kimia dan tatatanda muzik.
Bagaimana Prestasi Qwen2.5-VL-32B Berbanding dengan Model Lain?
Dalam penilaian penanda aras, Qwen2.5-VL-32B-Instruct telah mempamerkan prestasi luar biasa:
- Tugas Pelbagai Modal: Model ini mengatasi rakan sejawat yang lebih besar, seperti model 72B, dalam tugasan yang dinilai oleh penanda aras seperti MMMU, MMMU-Pro dan MathVista. citeturn0search9
- Keupayaan Teks: Ia mencapai hasil terkini yang setanding dengan model seperti Mistral-Small-3.1-24B dan Gemma-3-27B-IT, menunjukkan kehebatannya dalam tugasan berasaskan teks tulen.
Topik yang berkaitan Cara Mengakses Grok 3 & Gunakannya
Untuk Pembangun: Akses API
CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda menyepadukan API qwen(nama model: qwen-max;), dan anda akan mendapat $1 dalam akaun anda selepas mendaftar dan log masuk! Selamat datang untuk mendaftar dan mengalami CometAPI.
CometAPI bertindak sebagai hab berpusat untuk API beberapa model AI terkemuka, menghapuskan keperluan untuk terlibat dengan berbilang penyedia API secara berasingan.CometAPI menyepadukan siri model Qwen 2.5. Anda boleh mengaksesnya melalui API.
Sila rujuk kepada Qwen 2.5 Coder 32B Instruct API and API Maks Qwen 2.5 untuk butiran penyepaduan.CometAPI telah mengemas kini yang terkini API QwQ-32B.
Kesimpulan
Qwen2.5-VL-32B-Instruct mewakili kemajuan yang ketara dalam bidang AI multimodal. Sifat sumber terbukanya, digabungkan dengan keupayaan yang dipertingkatkan dalam interaksi seperti manusia, penaakulan matematik dan pemahaman imej, menjadikannya alat yang serba boleh dan berkuasa untuk pembangun dan penyelidik. Dengan menawarkan sumber untuk penggunaan dan pengoptimuman tempatan, Alibaba memastikan model ini boleh diakses dan praktikal untuk pelbagai aplikasi.
