Bagaimana Anda Dapat Mengakses dan Menggunakan Gemma 3n?

Seiring dengan evolusi cepat AI yang terus berlanjut, pengembang dan organisasi mencari model yang kuat namun efisien yang dapat berjalan pada perangkat keras sehari-hari. Gemma 3n, model open-source terbaru Google DeepMind dalam keluarga Gemma, secara khusus dirancang untuk inferensi pada perangkat dengan jejak rendah, menjadikannya pilihan ideal untuk aplikasi seluler, edge, dan embedded. Dalam panduan mendalam ini, kita akan menjelajahi apa itu Gemma 3n, mengapa ia menonjol, dan—yang terpenting—bagaimana Anda dapat mengakses dan mulai menggunakannya hari ini.

Apa itu Gemma 3n?

Gemma 3n adalah varian terbaru dalam keluarga model AI Gemma terbuka Google, yang dirancang khusus untuk lingkungan dengan keterbatasan sumber daya. Tidak seperti pendahulunya, Gemma 3n menggabungkan model "host" dengan 4 miliar parameter aktif dan submodel terintegrasi dengan 2 miliar parameter, yang memungkinkan pertukaran kualitas-latensi yang dinamis tanpa beralih di antara titik pemeriksaan yang terpisah. Arsitektur skala ganda ini, yang disebut "Many-in-1," memanfaatkan inovasi seperti Per Layer Embeddings (PLE), berbagi Key-Value-Cache (KVC), dan kuantisasi aktivasi tingkat lanjut untuk mengurangi penggunaan memori dan mempercepat inferensi pada perangkat.

Apa yang membedakan Gemma 3n dari varian Gemma lainnya?

Fleksibilitas Dua-dalam-Satu: Submodel bersarang Gemma 3n memungkinkan pengembang menyesuaikan dengan mudah antara model parameter 4 B berkualitas tinggi dan versi parameter 2 B yang lebih cepat tanpa memuat biner terpisah.

Peningkatan Efisiensi: Melalui teknik seperti PLE caching dan berbagi KVC, Gemma 3n mencapai waktu respons sekitar 1.5x lebih cepat pada perangkat seluler dibandingkan dengan Gemma 3 4 B, sambil mempertahankan atau meningkatkan kualitas keluaran.

Dukungan Multimoda: Di luar teks, Gemma 3n secara asli memproses masukan penglihatan dan audio, memposisikannya sebagai solusi terpadu untuk tugas-tugas seperti pemberian keterangan gambar, transkripsi audio, dan penalaran multimodal.

Gemma 3n memperluas keluarga model terbuka Gemma—yang dimulai dengan Gemma 2 dan kemudian Gemma 3—dengan secara eksplisit menyesuaikan arsitektur untuk perangkat keras yang terbatas. Sementara Gemma 3 menargetkan stasiun kerja, GPU tingkat pemula, dan instans cloud, Gemma 3n dioptimalkan untuk perangkat dengan RAM minimal 2 GB, yang memungkinkan pendekatan banyak-dalam-satu yang berskala dinamis di antara ukuran submodel tergantung pada sumber daya yang tersedia.

Apa Peran Gemini Nano?

Gemini Nano adalah yang akan datang Integrasi Android dan Chrome arsitektur dasar yang sama dengan Gemma 3n. Ini akan memperluas aksesibilitas dengan menanamkan kemampuan pada perangkat ini langsung ke platform konsumen utama Google akhir tahun ini, yang selanjutnya memperkuat ekosistem untuk AI offline pertama .

Bagaimana Anda Dapat Mengakses Gemma 3n?

Pratinjau Gemma 3n dapat diakses melalui beberapa saluran, masing-masing disesuaikan dengan preferensi pengembangan yang berbeda.

Eksplorasi Berbasis Cloud melalui Google AI Studio

Sign in ke Google AI Studio dengan akun Google Anda.
Dalam majalah Jalankan pengaturan panel, pilih Gemma 3n E4B (atau pratinjau terbaru) model.
Masukkan perintah Anda di editor pusat dan Run untuk melihat respons instan.

Tidak diperlukan pengaturan lokal—ideal untuk pembuatan prototipe dan eksperimen cepat di browser.

Akses SDK dengan Google GenAI SDK

Untuk integrasi ke aplikasi Python:

pythonfrom google.genai import Client

client = Client(api_key="YOUR_API_KEY")
model = client.get_model("gemma-3n-e4b-preview")
response = model.generate("Translate this sentence to Japanese.")
print(response.text)

Metode ini memungkinkan penyematan kemampuan Gemma 3n di backend atau alat desktop hanya dengan beberapa baris kode.

Penerapan di Perangkat dengan Google AI Edge

Google AI Edge menyediakan pustaka dan plugin asli (misalnya, untuk Android melalui paket AAR, atau iOS melalui CocoaPods) untuk menyebarkan Gemma 3n langsung di dalam aplikasi seluler. Rute ini membuka kunci Pengunjung inferensi, menjaga privasi pengguna dengan menyimpan data di perangkat. Pengaturan umumnya meliputi:

Menambahkan ketergantungan AI Edge ke proyek Anda.
Menginisialisasi interpreter Gemma 3n dengan bendera modalitas yang diperlukan.
Menjalankan panggilan inferensi melalui API tingkat rendah atau pembungkus tingkat tinggi.

Dokumentasi dan contoh kode tersedia di situs Google Developers.

Model Komunitas Berbagi di Hugging Face

Pratinjau varian Gemma 3n E4B IT dihosting di Hugging Face. Untuk mengakses:

Masuk or mendaftar di Hugging Face.
Setuju dengan lisensi penggunaan Google di google/gemma-3n-E4B-it-litert-pratinjau .
Klon atau unduh file model melalui git lfs atau Python transformers API.

Permintaan Anda diproses segera setelah Anda menerima persyaratan lisensi.

Bagaimana Anda Mengintegrasikan Gemma 3n?

SDK AI Gen: Menyediakan pustaka klien yang telah dibuat sebelumnya untuk Android, iOS, dan web yang mengelola detail tingkat rendah seperti pemuatan model, kuantisasi, dan threading.

TensorFlow Lite (TFLite): Alat konversi otomatis mengubah titik pemeriksaan Gemma 3n menjadi file TFLite FlatBuffer, menerapkan kuantisasi pasca-pelatihan untuk meminimalkan ukuran biner.

Edge TPU dan GPU Seluler: Untuk pengembang yang menargetkan akselerator khusus, Gemma 3n dapat dikompilasi dengan XLA atau TensorRT, membuka throughput tambahan pada perangkat yang dilengkapi dengan Coral Edge TPU atau GPU Adreno.

Prasyarat apa yang dibutuhkan?

Perangkat keras: Perangkat dengan CPU berbasis ARM modern, dengan dukungan NPU atau GPU opsional direkomendasikan untuk meningkatkan throughput.
Perangkat lunak:

Android 12+ atau Linux kernel 5.x+ untuk runtime edge-lite.
AI Edge SDK v1.2.0 atau yang lebih baru, tersedia melalui repositori Maven dan apt Google.
Python 3.9+ atau Java 11+ untuk contoh pustaka klien.

Bagaimana cara mengintegrasikan Gemma 3n ke dalam aplikasi Android?

Tambahkan Ketergantungan AI-Edge-Lite

groovyimplementation 'com.google.ai:edge-lite:1.2.3'

Model Beban Biner

javaModelLoader loader = new ModelLoader(context, "gemma-3n.tflite"); EdgeModel model = loader.load();

Jalankan Inferensi

javaTensor input = Tensor.fromImage(bitmap); Tensor output = model.run(input); String caption = output.getString(0);

Menangani Input Multimodal
penggunaan EdgeInputBuilder untuk menggabungkan tensor teks, penglihatan, dan audio dalam satu panggilan inferensi.

Bagaimana cara mencoba Gemma 3n secara lokal di Linux?

Unduh Model TFLite: Tersedia melalui bucket Google Cloud Storage:

arduinogs://gemma-models/gemma-3n.tflite

Instal SDK Python:

bashpip install ai-edge-lite

Contoh Inferensi Python:

 pythonfrom edge_lite import EdgeModel model = EdgeModel("gemma-3n.tflite") response = model.generate_text("Explain quantum entanglement in simple terms.") print(response)

Apa saja kasus penggunaan umum untuk Gemma 3n?

Dengan menggabungkan kecakapan multimoda dengan efisiensi pada perangkat, ia membuka aplikasi baru di berbagai industri.

Aplikasi konsumen mana yang paling diuntungkan?

Asisten Bertenaga Kamera: Deskripsi pemandangan atau terjemahan secara real-time langsung di perangkat, tanpa latensi cloud.
Antarmuka Suara Pertama: Asisten bicara pribadi offline di mobil atau perangkat rumah pintar.
Realitas Tertambah (AR): Pengenalan objek langsung dan hamparan teks pada kacamata AR.

Bagaimana Gemma 3n digunakan dalam skenario perusahaan?

Inspeksi Lapangan: Alat inspeksi offline untuk utilitas dan infrastruktur, memanfaatkan penalaran gambar–teks pada perangkat seluler.
Pemrosesan Dokumen Aman: AI di tempat untuk analisis dokumen sensitif di sektor keuangan atau perawatan kesehatan, memastikan data tidak pernah meninggalkan perangkat.
Dukungan multibahasa: Penerjemahan langsung dan rangkuman komunikasi internasional secara real time.

Kesimpulan

Gemma 3n merupakan lompatan maju yang signifikan dalam membawa AI generatif multimodal yang kuat ke telapak tangan Anda. Dengan menikahi efisiensi mutakhir dengan desain yang mengutamakan privasi, siap untuk offline, hal ini memberdayakan pengembang untuk menciptakan pengalaman cerdas yang menghargai data pengguna dan beroperasi dengan latensi minimal. Baik Anda membuat prototipe di Google AI Studio, bereksperimen melalui Hugging Face, atau mengintegrasikan melalui Gen AI SDK, hal ini menawarkan platform serbaguna untuk inovasi pada perangkat. Seiring dengan matangnya model dan ekosistemnya—dengan Gemini Nano di cakrawala—janji AI yang benar-benar ada di mana-mana, pribadi, dan responsif menjadi semakin dekat dengan kenyataan.

Mulai

CometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI—termasuk keluarga Gemini—di bawah titik akhir yang konsisten, dengan manajemen kunci API bawaan, kuota penggunaan, dan dasbor penagihan. Daripada harus mengelola beberapa URL dan kredensial vendor.

Pengembang dapat mengakses Gemini 2.5 Flash Pra API (model:gemini-2.5-flash-preview-05-20) Dan Gemini 2.5 Pro API (model:gemini-2.5-pro-preview-05-06)dll melalui API KometUntuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.