Gemma 3n: Мүмкіндік, Архитектура және т.б

CometAPI
AnnaMay 26, 2025
Gemma 3n: Мүмкіндік, Архитектура және т.б

Google-дың соңғы құрылғыдағы AI, Gemma 3n, ықшам, тиімді және құпиялылықты сақтайтын заманауи генеративті үлгілерді жасаудағы алға қадамды білдіреді. 2025 жылдың мамыр айының соңында Google I/O-да алдын ала қарау режимінде іске қосылған Gemma 3n әзірлеушілер мен зерттеушілерді қызықтыруда, өйткені ол мобильді және шеткі құрылғыларға жетілдірілген мультимодальды AI мүмкіндіктерін береді. Бұл мақалада ең соңғы хабарландырулар, әзірлеушілер туралы түсініктер және тәуелсіз көрсеткіштер синтезделген.

Gemma 3n дегеніміз не?

Gemma 3n – Google компаниясының Gemma генеративті AI үлгілерінің ең жаңа мүшесі, ол үшін арнайы әзірленген. құрылғыда смартфондар, планшеттер және ендірілген жүйелер сияқты ресурс шектеулі аппараттық құралдар туралы қорытынды. Алдыңғы нұсқалардан айырмашылығы — негізінен бұлтты немесе бір GPU пайдалану үшін оңтайландырылған Gemma 3 және бұрынғы нұсқалары — Gemma 3n архитектурасы басымдық береді. төмен кідіріс, жад ізінің азаюы, және динамикалық ресурстарды пайдалану, пайдаланушыларға тұрақты интернет қосылымынсыз кеңейтілген AI мүмкіндіктерін іске қосуға мүмкіндік береді.

Неліктен «3n»?

Gemma 3n тіліндегі «n» әрпі «ұя салған,” үлгінің пайдалануын көрсетеді Матрешка трансформаторы (немесе MatFormer) сәулет. Бұл дизайн ресейлік ұя салатын қуыршақтарға ұқсас кішірек қосалқы үлгілерді үлкенірек үлгінің ішіне орналастырады, бұл берілген тапсырма үшін қажетті құрамдастарды ғана таңдап белсендіруге мүмкіндік береді. Осылайша, Gemma 3n әрбір сұрау бойынша барлық параметрлерді белсендіретін үлгілермен салыстырғанда есептеу мен қуат тұтынуды күрт төмендете алады.

Шығарылым мен экожүйені алдын ала қарау

Google ашты Gemma 3n алдын ала қарау оны Google AI Studio, Google GenAI SDK арқылы және Hugging Face сияқты платформаларда алдын ала қарау лицензиясы бойынша қол жетімді етеді. Салмақтар әлі толық ашық емес болса да, әзірлеушілер шолғышта нұсқаулықпен реттелетін нұсқалармен тәжірибе жасай алады немесе оларды Google жылдам кеңейтіп жатқан API арқылы прототиптерге біріктіре алады.


Gemma 3n қалай жұмыс істейді?

Gemma 3n механизмдерін түсіну оның құрылғыдағы қолданбаларға жарамдылығын бағалау үшін өте маңызды. Мұнда біз оның үш негізгі техникалық инновациясын бөлеміз.

Матрешка трансформаторы (MatFormer) архитектурасы

Gemma 3n жүрегінде орналасқан MatFormer, трансформатор нұсқасынан тұрады кірістірілген қосалқы үлгілер әртүрлі мөлшерде. Жеңіл тапсырмалар үшін (мысалы, қысқа шақырулары бар мәтінді құру) ең аз процессорды, жадты және қуатты тұтынатын ең кіші қосалқы үлгі ғана іске қосылады. Код жасау немесе мультимодальды негіздеу сияқты күрделірек тапсырмалар үшін үлкенірек «сыртқы» қосалқы үлгілер динамикалық түрде жүктеледі. Бұл икемділік Gemma 3n жасайды есептеуге бейімделгіш, сұраныс бойынша ресурстарды пайдалануды масштабтау.

Per-Layer Embedding (PLE) кэштеу

Жадты одан әрі сақтау үшін Gemma 3n пайдаланады PLE кэштеу, жылдам сыртқы немесе арнайы жад үшін әр қабатқа сирек қолданылатын ендірулерді түсіру. ЖЖҚ-да тұрақты тұрудың орнына, бұл параметрлер бірден әкелінді қорытынды жасау кезінде қажет болғанда ғана. Алғашқы сынақтарға сәйкес, PLE кэштеу әрқашан жүктелетін ендірілгендермен салыстырғанда ең жоғары жад ізін 40%-ға дейін азайтады.

Шартты параметрді жүктеу

MatFormer және PLE кэштеуден басқа, Gemma 3n қолдайды шартты параметрді жүктеу. Әзірлеушілер қолданбасы қандай әдістерді (мәтін, көру, дыбыс) қажет ететінін алдын ала анықтай алады; Содан кейін Джемма 3n жүктеуді өткізіп жібереді пайдаланылмаған модальділікке тән салмақтар, ЖЖҚ пайдалануды одан әрі қысқартады. Мысалы, тек мәтіндік чат бот көру және дыбыс параметрлерін мүлдем жоққа шығара алады, жүктеу уақытын жеңілдетеді және қолданба өлшемін азайтады.

Қандай өнімділік көрсеткіштері көрсетеді?

Алғашқы көрсеткіштер Gemma 3n жылдамдығының, тиімділігінің және дәлдігінің әсерлі тепе-теңдігін көрсетеді.

Бір GPU салыстырулары

Gemma 3n шеткі құрылғыларға арналған болса да, ол әлі де бір графикалық процессорда бәсекеге қабілетті жұмыс істейді. The Verge Gemma 3 (оның үлкен немере ағасы) бір GPU параметрлерінде LLaMA және GPT сияқты жетекші модельдерден асып түсіп, тиімділік пен қауіпсіздікті тексеруде Google-дың инженерлік шеберлігін көрсетті деп хабарлады. Verge. Gemma 3n үшін толық техникалық есептер алда болғанымен, бастапқы сынақтар өткізу қабілеттілігінің артқанын көрсетеді 20-30% салыстырмалы аппараттық құралдағы Gemma 3-ке қарсы.

Chatbot Arena ұпайлары

Chatbot Arena сияқты платформалардағы тәуелсіз бағалаулар Gemma 3n 4 B параметрінің нұсқасын ұсынады. озық формалар GPT-4.1 Нано аралас тапсырмалар, соның ішінде математикалық пайымдау және сөйлесу сапасы. KDnuggets редакторының көмекшісі Gemma 3n-тің контекстке бай диалогтарды қамтамасыз ету қабілетін атап өтті. 1.5 есе жақсы Elo ұпайлары алдыңғы нұсқасына қарағанда, жауаптың кідірісін шамамен жартысына қысқартады.

Құрылғыдағы өткізу қабілеті және кешігу

Қазіргі заманғы флагмандық смартфондарда (мысалы, Snapdragon 8 Gen 3, Apple A17) Gemma 3n қол жеткізеді. 5–10 токен/сек тек процессорлық қорытынды бойынша, масштабтау 20–30 токен/сек құрылғыдағы NPU немесе DSP пайдалану кезінде. Жадты пайдалану ең жоғары деңгейге жетеді 2 ГБ Күрделі мультимодальды тапсырмалар кезінде жедел жад көлемі жоғары деңгейлі мобильді аппараттық құралдар бюджеттерінің көпшілігіне қолайлы.


Gemma 3n қандай мүмкіндіктерді ұсынады?

Gemma 3n мүмкіндіктер жинағы нақты әлемде қолдану мүмкіндігіне назар аудара отырып, өңделмеген өнімділіктен әлдеқайда кеңейеді.

Көпмодальды түсіну

  • мәтін: Нұсқаулықпен реттелетін мәтінді құруға, қорытындылауға, аударуға және код құруға толық қолдау көрсету.
  • көру: Шаршы емес және жоғары ажыратымдылықтағы енгізулерді қолдау арқылы кескіндерді талдау және жазу.
  • аудио: Құрылғыдағы автоматты түрде сөйлеуді тану (ASR) және 140+ тілде сөйлеуді мәтінге аудару.
  • Бейне (Жақында): Google болашақ Gemma 3n жаңартуларында бейне енгізуді өңдеуге алдағы қолдауды көрсетті.

Құпиялылық-бірінші және офлайн-дайын

Толығымен құрылғыда іске қосу арқылы Gemma 3n қамтамасыз етеді деректер ешқашан пайдаланушының аппараттық құралынан кетпейді, өсіп келе жатқан құпиялылық мәселелерін шешу. Офлайн режимде дайын болу қолданбалардың қосылымы төмен орталарда жұмыс істей беретінін білдіреді — дала жұмыстары, саяхат және қауіпсіз кәсіпорын қолданбалары үшін маңызды.

Динамикалық ресурстарды пайдалану

  • Таңдамалы қосалқы үлгіні белсендіру MatFormer арқылы
  • Шартты параметрді жүктеу пайдаланылмаған модальды салмақтарды алып тастау
  • PLE кэштеу ендірілгендерді босату үшін

Бұл мүмкіндіктер әзірлеушілерге олардың нақты қажеттіліктеріне ресурс профилін бейімдеуге мүмкіндік береді - бұл батареяны қажет ететін қолданбалар үшін ең аз орын немесе мультимедиалық тапсырмалар үшін толық мүмкіндікті орналастыру дегенді білдіреді.

Көптілді шеберлік

Gemma 3n оқу корпусының ауқымы кең 140 ауызша тіл, әсіресе жапон, корей, неміс және испан сияқты жоғары әсер ететін нарықтарда жоғары өнімділік туралы хабарланған. Алғашқы сынақтар көрсетеді 2 × бұрынғы құрылғы үлгілерімен салыстырғанда ағылшынша емес тапсырмалардағы дәлдікті жақсарту.

Қауіпсіздік және мазмұнды сүзу

Gemma 3n ашық немесе зорлық-зомбылық мазмұнды сүзу үшін кірістірілген кескін қауіпсіздігі классификаторын (ShieldGemma 2-ге ұқсас) қамтиды. Google бірінші құпиялылық дизайны бұл сүзгілердің жергілікті түрде іске қосылуын қамтамасыз етіп, әзірлеушілерге пайдаланушы жасаған мазмұн сыртқы API қоңырауларысыз үйлесімді болып қалатынына сенімділік береді.

Gemma 3n үшін әдеттегі пайдалану жағдайлары қандай?

Мультимодальдық шеберлікті құрылғыдағы тиімділікпен үйлестіре отырып, Gemma 3n барлық салалардағы жаңа қолданбалардың құлпын ашады.

Қандай тұтынушы қолданбалары көбірек пайда әкеледі?

  • Камерамен жұмыс істейтін көмекшілер: Бұлттық кідіріссіз нақты уақыттағы көрініс сипаттамасы немесе тікелей құрылғыда аудармасы.
  • Voice-First интерфейстері: Автокөліктердегі немесе смарт үй құрылғыларындағы жеке, офлайн сөйлеу көмекшілері.
  • Толықтырылған шындық (AR): AR көзілдірігінде тірі нысанды тану және субтитр қабаты.

Gemma 3n кәсіпорын сценарийлерінде қалай пайдаланылады?

  • Далалық инспекция: Мобильді құрылғыларда кескін-мәтіндік негіздеуді қолдана отырып, қызметтік қызметтер мен инфрақұрылымды офлайн тексеру құралдары.
  • Құжатты қауіпсіз өңдеу: Қаржы немесе денсаулық сақтау салаларындағы құпия құжаттарды талдауға арналған жергілікті AI, деректердің құрылғыдан ешқашан кетпеуін қамтамасыз етеді.
  • Көптілді қолдау: Нақты уақыттағы халықаралық коммуникацияларды дереу аудару және қорытындылау.

Қандай шектеулер мен ескертулер бар?

Бұл алға жасалған үлкен қадам болғанымен, әзірлеушілер ағымдағы шектеулерді білуі керек.

Қандай айырбастар бар?

  • Сапа мен жылдамдық: Төменгі параметрлі ішкі үлгілер жылдамырақ жауап береді, бірақ шығыс дәлдігін сәл төмендетеді; дұрыс қоспаны таңдау қолданба қажеттіліктеріне байланысты.
  • Мәтінмәндік терезені басқару: 128 K таңбалауыш айтарлықтай болса да, ұзағырақ диалогтарды немесе ауқымды құжаттарды өңдеуді қажет ететін қолданбалар әлі де бұлтқа негізделген үлгілерді қажет етуі мүмкін.
  • Аппараттық үйлесімділік: NPU немесе заманауи графикалық процессоры жоқ ескі құрылғылар нақты уақыттағы пайдалану жағдайларын шектейтін баяу қорытынды жасауы мүмкін.

Жауапты AI туралы не деуге болады?

Google шығарылымы зиянды азайту және этикалық қолдануды қамтамасыз ету үшін біржақты бағалаулар, қауіпсіздікті азайту шаралары және ұсынылатын пайдалану нұсқаулары егжей-тегжейлі сипатталған үлгі карталарымен бірге жүреді.


қорытынды

Gemma 3n жаңа дәуірді жариялайды құрылғыдағы генеративті AI, трансформаторлардың ең озық инновацияларын нақты әлемде орналастыруды оңтайландырулармен біріктіру. Оның MatFormer сәулет, PLE кэштеу, және шартты параметрді жүктеу флагмандық телефондардан бастап ендірілген шеткі құрылғыларға дейінгі аппараттық құралдарға жоғары сапалы қорытындының құлпын ашыңыз. Мультимодальдық мүмкіндіктермен, сенімді құпиялылық қорғанысымен және күшті бастапқы көрсеткіштермен, сонымен қатар Google AI Studio, SDK және Hugging Face арқылы оңай қол жетімділік — Gemma 3n әзірлеушілерді пайдаланушылар қайда болса да, AI-мен жұмыс істейтін тәжірибені қайта елестетуге шақырады.

Саяхатқа дайын тіл көмекшісін, офлайн-алғашқы фотосуреттерге жазу құралын немесе жеке кәсіпорын чат-ботын жасап жатсаңыз да, Gemma 3n құпиялылықты жоғалтпай сізге қажет өнімділік пен икемділікті қамтамасыз етеді. Google алдын ала қарау бағдарламасын кеңейтуді және бейнені түсіну сияқты мүмкіндіктерді қосуды жалғастыруда, енді келесі AI жобаңыз үшін Gemma 3n әлеуетін зерттеудің тамаша уақыты.

Басталу

CometAPI ендірілген API кілтін басқару, пайдалану квоталары және есеп айырысу бақылау тақталары бар дәйекті соңғы нүкте астында жүздеген AI үлгілерін, соның ішінде Gemini отбасын біріктіретін бірыңғай REST интерфейсін қамтамасыз етеді. Бірнеше жеткізушінің URL мекенжайлары мен тіркелгі деректерін араластырудың орнына.

Әзірлеушілер қол жеткізе алады Gemini 2.5 Flash Pre API  (үлгі:gemini-2.5-flash-preview-05-20) және Gemini 2.5 Pro API (үлгі:gemini-2.5-pro-preview-05-06) және т.б. арқылы CometAPI. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз.

Толығырақ оқу

500+ модель бір API-да

20%-ға дейін жеңілдік