Gemma 3n: Fitur, Arsitektur, dan lainnya

CometAPI
AnnaMay 26, 2025
Gemma 3n: Fitur, Arsitektur, dan lainnya

AI pada perangkat terbaru Google, Gemma 3n, merupakan lompatan maju dalam membuat model generatif canggih menjadi ringkas, efisien, dan menjaga privasi. Diluncurkan sebagai pratinjau di Google I/O akhir Mei 2025, Gemma 3n telah membangkitkan kegembiraan di kalangan pengembang dan peneliti karena menghadirkan kemampuan AI multimoda canggih langsung ke perangkat seluler dan edge. Artikel ini merangkum pengumuman terbaru, wawasan pengembang, dan tolok ukur independen.

Apa itu Gemma 3n?

Gemma 3n adalah anggota terbaru dari keluarga model AI generatif Gemma Google, yang dirancang khusus untuk di perangkat inferensi pada perangkat keras dengan keterbatasan sumber daya seperti smartphone, tablet, dan sistem tertanam. Tidak seperti pendahulunya—Gemma 3 dan varian sebelumnya, yang terutama dioptimalkan untuk penggunaan cloud atau GPU tunggal—arsitektur Gemma 3n memprioritaskan latensi rendah, jejak memori berkurang, dan penggunaan sumber daya dinamis, yang memungkinkan pengguna menjalankan fitur AI tingkat lanjut tanpa koneksi Internet yang konstan.

Mengapa “3n”?

Huruf “n” pada Gemma 3n adalah singkatan dari “bersarang,” yang mencerminkan penggunaan model Transformator Matryoshka (Atau Mantan Mat) arsitektur. Desain ini menumpuk submodel yang lebih kecil di dalam model yang lebih besar, mirip dengan boneka bersarang Rusia, yang memungkinkan aktivasi selektif hanya komponen yang diperlukan untuk tugas tertentu. Dengan demikian, Gemma 3n dapat secara drastis mengurangi konsumsi komputasi dan energi dibandingkan dengan model yang mengaktifkan semua parameter pada setiap permintaan.

Pratinjau Rilis dan Ekosistem

Google membuka Pratinjau Gemma 3n di I/O, membuatnya tersedia melalui Google AI Studio, Google GenAI SDK, dan pada platform seperti Hugging Face di bawah lisensi pratinjau. Meskipun bobotnya belum sepenuhnya open-source, pengembang dapat bereksperimen dengan varian yang disesuaikan dengan instruksi di dalam browser atau mengintegrasikannya ke dalam prototipe melalui API yang sedang diperluas Google dengan cepat.


Bagaimana Gemma 3n bekerja?

Memahami mekanisme Gemma 3n sangat penting untuk mengevaluasi kesesuaiannya untuk aplikasi pada perangkat. Berikut ini kami uraikan tiga inovasi teknis intinya.

Arsitektur Matryoshka Transformer (MatFormer).

Di jantung Gemma 3n terletak Mantan Mat, varian transformator yang terdiri dari submodel bersarang dengan ukuran yang bervariasi. Untuk tugas-tugas ringan—misalnya, pembuatan teks dengan perintah singkat—hanya sub-model terkecil yang diaktifkan, yang menggunakan CPU, memori, dan daya yang minimal. Untuk tugas-tugas yang lebih kompleks—seperti pembuatan kode atau penalaran multimoda—sub-model “luar” yang lebih besar dimuat secara dinamis. Fleksibilitas ini membuat Gemma 3n komputasi adaptif, meningkatkan penggunaan sumber daya sesuai permintaan.

Penekanan Per Lapisan (PLE)

Untuk lebih menghemat memori, Gemma 3n menggunakan Penembolokan PLE, memindahkan embedding per-layer yang jarang digunakan ke penyimpanan eksternal atau khusus yang cepat. Alih-alih berada secara permanen di RAM, parameter ini diambil dengan cepat selama inferensi hanya bila diperlukan. Menurut pengujian awal, caching PLE mengurangi jejak memori puncak hingga 40% dibandingkan dengan penyematan yang selalu dimuat.

Pemuatan Parameter Bersyarat

Selain caching MatFormer dan PLE, Gemma 3n mendukung pemuatan parameter bersyaratPengembang dapat menentukan terlebih dahulu modalitas (teks, visi, audio) yang dibutuhkan aplikasi mereka; Gemma 3n kemudian melewatkan pemuatan bobot khusus modalitas yang tidak digunakan, sehingga mengurangi penggunaan RAM lebih lanjut. Misalnya, chatbot teks saja dapat mengecualikan parameter visual dan audio secara langsung, sehingga mempersingkat waktu pemuatan dan mengurangi ukuran aplikasi.

Apa yang Ditunjukkan Tolok Ukur Kinerja?

Benchmark awal menyoroti keseimbangan Gemma 3n yang mengesankan antara kecepatan, efisiensi, dan akurasi.

Perbandingan GPU Tunggal

Meskipun Gemma 3n dirancang untuk perangkat edge, kinerjanya tetap kompetitif pada satu GPU. The Verge melaporkan bahwa Gemma 3 (saudaranya yang lebih besar) mengungguli model-model terkemuka seperti LLaMA dan GPT dalam pengaturan GPU tunggal, yang menunjukkan kecakapan rekayasa Google dalam efisiensi dan pemeriksaan keamanan. VergeMeskipun laporan teknis lengkap untuk Gemma 3n akan segera hadir, pengujian awal menunjukkan peningkatan throughput sebesar 20 – 30% versus Gemma 3 pada perangkat keras yang sebanding.

Skor Arena Chatbot

Evaluasi independen pada platform seperti Chatbot Arena menunjukkan varian 3 B-parameter Gemma 4n mengungguli GPT-4.1 Nano dalam tugas campuran, termasuk penalaran matematika dan kualitas percakapan. Asisten editor KDnuggets mencatat kemampuan Gemma 3n untuk mempertahankan dialog yang koheren dan kaya konteks dengan Skor Elo 1.5× lebih baik pendahulunya, sekaligus memangkas latensi respons hingga hampir setengahnya.

Throughput dan Latensi pada Perangkat

Pada smartphone flagship modern (misalnya, Snapdragon 8 Gen 3, Apple A17), Gemma 3n mencapai 5–10 token/detik pada inferensi CPU saja, skala ke 20–30 token/detik saat memanfaatkan NPU atau DSP pada perangkat. Penggunaan memori mencapai puncaknya sekitar 2 GB RAM selama melakukan tugas multimoda yang kompleks, sesuai dengan sebagian besar anggaran perangkat keras seluler kelas atas.


Fitur Apa Saja yang Ditawarkan Gemma 3n?

Rangkaian fitur Gemma 3n jauh melampaui kinerja mentah, dengan fokus pada penerapan di dunia nyata.

Pemahaman Multimoda

  • Teks: Dukungan penuh untuk pembuatan teks sesuai instruksi, ringkasan, penerjemahan, dan pembuatan kode.
  • Visi: Menganalisis dan memberi keterangan pada gambar, dengan dukungan untuk masukan non-persegi dan beresolusi tinggi.
  • Audio: Pengenalan Ucapan Otomatis (ASR) pada perangkat dan penerjemahan ucapan ke teks dalam 140+ bahasa.
  • Video (Segera Hadir):Google telah mengindikasikan dukungan yang akan datang untuk pemrosesan masukan video dalam pembaruan Gemma 3n di masa mendatang.

Privasi-Utama & Siap Offline

Dengan berjalan sepenuhnya pada perangkat, Gemma 3n memastikan data tidak pernah meninggalkan perangkat keras pengguna, mengatasi masalah privasi yang meningkat. Kesiapan offline juga berarti aplikasi tetap berfungsi di lingkungan dengan konektivitas rendah—penting untuk kerja lapangan, perjalanan, dan aplikasi perusahaan yang aman.

Penggunaan Sumber Daya Dinamis

  • Aktivasi Sub-Model Selektif melalui MatFormer
  • Pemuatan Parameter Bersyarat untuk menghilangkan bobot modalitas yang tidak digunakan
  • Penembolokan PLE untuk membongkar penyematan

Fitur-fitur ini digabungkan untuk memungkinkan pengembang menyesuaikan profil sumber dayanya dengan kebutuhan spesifik mereka—apakah itu berarti jejak minimal untuk aplikasi yang boros baterai atau penerapan fitur lengkap untuk tugas-tugas multimedia.

Keunggulan Multibahasa

Korpus pelatihan Gemma 3n mencakup lebih dari 140 bahasa yang digunakan, dengan kinerja yang sangat kuat dilaporkan di pasar berdampak tinggi seperti Jepang, Korea, Jerman, dan Spanyol. Pengujian awal menunjukkan 2 × peningkatan akurasi pada tugas non-Bahasa Inggris dibandingkan model pada perangkat sebelumnya.

Keamanan dan Penyaringan Konten

Gemma 3n menggabungkan pengklasifikasi keamanan gambar bawaan (mirip dengan ShieldGemma 2) untuk memfilter konten yang eksplisit atau mengandung kekerasan. Desain Google yang mengutamakan privasi memastikan filter ini berjalan secara lokal, sehingga pengembang yakin bahwa konten yang dibuat pengguna tetap patuh tanpa panggilan API eksternal.

Apa saja kasus penggunaan umum untuk Gemma 3n?

Dengan menggabungkan kecakapan multimoda dengan efisiensi pada perangkat, Gemma 3n membuka aplikasi baru di berbagai industri.

Aplikasi konsumen mana yang paling diuntungkan?

  • Asisten Bertenaga Kamera: Deskripsi pemandangan atau terjemahan secara real-time langsung di perangkat, tanpa latensi cloud.
  • Antarmuka Suara Pertama: Asisten bicara pribadi offline di mobil atau perangkat rumah pintar.
  • Realitas Tertambah (AR): Pengenalan objek langsung dan hamparan teks pada kacamata AR.

Bagaimana Gemma 3n digunakan dalam skenario perusahaan?

  • Inspeksi Lapangan: Alat inspeksi offline untuk utilitas dan infrastruktur, memanfaatkan penalaran gambar–teks pada perangkat seluler.
  • Pemrosesan Dokumen Aman: AI di tempat untuk analisis dokumen sensitif di sektor keuangan atau perawatan kesehatan, memastikan data tidak pernah meninggalkan perangkat.
  • Dukungan multibahasa: Penerjemahan langsung dan rangkuman komunikasi internasional secara real time.

Apa batasan dan pertimbangannya?

Meskipun ini merupakan langkah maju yang besar, pengembang harus menyadari kendala yang ada saat ini.

Kompromi apa saja yang ada?

  • Kualitas vs. Kecepatan: Submodel dengan parameter lebih rendah menawarkan respons yang lebih cepat tetapi fidelitas keluaran sedikit berkurang; pemilihan campuran yang tepat bergantung pada kebutuhan aplikasi.
  • Manajemen Jendela Konteks:Meskipun 128 K token cukup besar, aplikasi yang memerlukan dialog lebih panjang atau pemrosesan dokumen ekstensif mungkin masih memerlukan model berbasis cloud.
  • Kompatibilitas Perangkat Keras: Perangkat lama yang tidak memiliki NPU atau GPU modern mungkin mengalami inferensi yang lebih lambat, sehingga membatasi kasus penggunaan waktu nyata.

Bagaimana dengan AI yang bertanggung jawab?

Rilis Google disertai dengan kartu model yang merinci evaluasi bias, mitigasi keselamatan, dan pedoman penggunaan yang direkomendasikan untuk meminimalkan bahaya dan memastikan penerapan yang etis.


Kesimpulan

Gemma 3n menandai era baru dalam AI generatif pada perangkat, menggabungkan inovasi transformator mutakhir dengan pengoptimalan penerapan di dunia nyata. Mantan Mat Arsitektur, Penembolokan PLE, dan pemuatan parameter bersyarat membuka inferensi berkualitas tinggi pada perangkat keras mulai dari ponsel andalan hingga perangkat edge tertanam. Dengan kemampuan multimoda, perlindungan privasi yang tangguh, dan tolok ukur awal yang kuat—ditambah akses mudah melalui Google AI Studio, SDK, dan Hugging Face—Gemma 3n mengundang pengembang untuk menata ulang pengalaman yang didukung AI di mana pun pengguna berada.

Baik Anda sedang membangun asisten bahasa yang siap digunakan saat bepergian, alat pembuat teks foto offline, atau chatbot perusahaan swasta, Gemma 3n memberikan kinerja dan fleksibilitas yang Anda butuhkan tanpa mengorbankan privasi. Karena Google terus memperluas program pratinjaunya dan menambahkan fitur seperti pemahaman video, sekarang adalah waktu yang tepat untuk mengeksplorasi potensi Gemma 3n untuk proyek AI Anda berikutnya.

Mulai

CometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI—termasuk keluarga Gemini—di bawah titik akhir yang konsisten, dengan manajemen kunci API bawaan, kuota penggunaan, dan dasbor penagihan. Daripada harus mengelola beberapa URL dan kredensial vendor.

Pengembang dapat mengakses Gemini 2.5 Flash Pra API  (model:gemini-2.5-flash-preview-05-20) Dan Gemini 2.5 Pro API (model:gemini-2.5-pro-preview-05-06)dll melalui API KometUntuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%