Gemma 3n: 기능, 아키텍처 등

CometAPI
AnnaMay 26, 2025
Gemma 3n: 기능, 아키텍처 등

Google의 최신 온디바이스 AI, 젬마 3n는 최첨단 생성 모델을 간결하고 효율적이며 개인정보를 보호하는 데 있어 획기적인 진전을 보여줍니다. 2025년 3월 말 Google I/O에서 프리뷰로 출시된 Gemma XNUMXn은 고급 멀티모달 AI 기능을 모바일 및 에지 기기에 직접 제공함으로써 이미 개발자와 연구자들의 기대를 모으고 있습니다. 이 글에서는 최신 발표 내용, 개발자 인사이트, 그리고 독립적인 벤치마크를 종합적으로 다룹니다.

Gemma 3n은 무엇인가요?

Gemma 3n은 Google의 Gemma 생성 AI 모델 제품군의 최신 멤버로 특별히 설계되었습니다. 온 디바이스 스마트폰, 태블릿, 임베디드 시스템과 같이 리소스가 제한된 하드웨어에서의 추론을 지원합니다. 클라우드 또는 단일 GPU 사용에 주로 최적화되었던 Gemma 3 및 이전 버전과 달리, Gemma 3n 아키텍처는 낮은 대기 시간, 메모리 사용량 감소동적 리소스 사용이를 통해 사용자는 인터넷에 계속 연결하지 않고도 고급 AI 기능을 실행할 수 있습니다.

왜 "3n"인가요?

Gemma 3n의 "n"은 "중첩,” 모델의 사용을 반영합니다. 마트료시카 트랜스포머 (또는 맷포머) 아키텍처. 이 설계는 러시아 마트료시카처럼 더 큰 모델 안에 더 작은 하위 모델을 중첩하여 특정 작업에 필요한 구성 요소만 선택적으로 활성화할 수 있도록 합니다. 이를 통해 Gemma 3n은 모든 요청에서 모든 매개변수를 활성화하는 모델에 비해 컴퓨팅 및 에너지 소비를 크게 줄일 수 있습니다.

미리보기 릴리스 및 생태계

구글이 열었다 Gemma 3n 미리보기 I/O에서 Google AI Studio, Google GenAI SDK, 그리고 Hugging Face와 같은 플랫폼에서 프리뷰 라이선스로 제공될 예정입니다. 가중치는 아직 완전히 오픈소스는 아니지만, 개발자는 브라우저에서 명령어 조정 변형을 실험하거나 Google에서 빠르게 확장 중인 API를 통해 프로토타입에 통합할 수 있습니다.


Gemma 3n은 어떻게 작동하나요?

Gemma 3n의 메커니즘을 이해하는 것은 온디바이스 애플리케이션 적합성을 평가하는 데 매우 중요합니다. 본 논문에서는 Gemma XNUMXn의 세 가지 핵심 기술 혁신을 분석합니다.

Matryoshka Transformer(MatFormer) 아키텍처

Gemma 3n의 핵심에는 다음이 있습니다. 맷포머, 다음으로 구성된 변압기 변형 중첩된 하위 모델 다양한 크기의. 짧은 프롬프트를 사용한 텍스트 생성과 같은 가벼운 작업의 경우, 가장 작은 하위 모델만 활성화되어 CPU, 메모리, 전력을 최소한으로 소모합니다. 코드 생성이나 다중 모드 추론과 같은 더 복잡한 작업의 경우, 더 큰 "외부" 하위 모델이 동적으로 로드됩니다. 이러한 유연성 덕분에 Gemma 3n은 컴퓨팅 적응형, 수요에 따라 리소스 사용량을 확장합니다.

레이어당 임베딩(PLE) 캐싱

메모리를 더욱 보존하기 위해 Gemma 3n은 다음을 사용합니다. PLE 캐싱거의 사용되지 않는 계층별 임베딩을 빠른 외부 또는 전용 저장소로 오프로드합니다. 이러한 매개변수는 RAM에 영구적으로 상주하는 대신 즉석에서 가져옴 추론 중에는 필요할 때만 사용합니다. 초기 테스트에 따르면 PLE 캐싱은 항상 로드되는 임베딩에 비해 최대 메모리 사용량을 최대 40%까지 줄입니다.

조건부 매개변수 로딩

MatFormer 및 PLE 캐싱 외에도 Gemma 3n은 다음을 지원합니다. 조건부 매개변수 로딩개발자는 애플리케이션에 필요한 모달리티(텍스트, 비전, 오디오)를 미리 정의할 수 있습니다. Gemma 3n 로딩을 건너뜁니다 사용하지 않는 모달리티별 가중치를 제거하여 RAM 사용량을 더욱 줄일 수 있습니다. 예를 들어, 텍스트 전용 챗봇은 시각 및 오디오 매개변수를 완전히 제외하여 로딩 시간을 단축하고 앱 크기를 줄일 수 있습니다.

성능 벤치마크는 무엇을 보여줍니까?

초기 벤치마크에서는 Gemma 3n이 속도, 효율성, 정확성 면에서 인상적인 균형을 이루고 있다는 점이 강조되었습니다.

단일 GPU 비교

Gemma 3n은 엣지 기기용으로 설계되었지만 단일 GPU에서도 경쟁력 있는 성능을 제공합니다. The Verge는 Gemma 3(더 큰 모델)가 단일 GPU 설정에서 LLaMA 및 GPT와 같은 주요 모델보다 우수한 성능을 보였다고 보도하며, 이는 효율성과 안전성 검증 측면에서 구글의 뛰어난 엔지니어링 역량을 입증했습니다. 직전Gemma 3n에 대한 전체 기술 보고서가 곧 나올 예정이지만 초기 테스트에서는 처리량 증가가 나타났습니다. 20-30의 % 비슷한 하드웨어에서 Gemma 3와 비교.

챗봇 아레나 점수

Chatbot Arena와 같은 플랫폼에 대한 독립적인 평가는 Gemma 3n의 4 B-매개변수 변형을 제안합니다. 실적이 좋다 GPT-4.1 Nano는 수학적 추론과 대화 품질을 포함한 복합적인 과제에서 뛰어난 성과를 보였습니다. KDnuggets의 보조 편집자는 Gemma 3n이 일관성 있고 맥락이 풍부한 대화를 유지하는 능력을 언급했습니다. 1.5배 더 나은 Elo 점수 이전 모델보다 응답 지연 시간을 거의 절반으로 줄였습니다.

온디바이스 처리량 및 지연 시간

최신 플래그십 스마트폰(예: Snapdragon 8 Gen 3, Apple A17)에서 Gemma 3n은 다음과 같은 기능을 제공합니다. 5~10 토큰/초 CPU 전용 추론에 대해 확장 20~30 토큰/초 온디바이스 NPU 또는 DSP를 활용할 때 메모리 사용량은 약 2 GB 복잡한 멀티모달 작업 중에 RAM을 효율적으로 사용할 수 있어 대부분의 고급 모바일 하드웨어 예산에 적합합니다.


Gemma 3n은 어떤 기능을 제공하나요?

Gemma 3n의 기능 세트는 단순한 성능을 훨씬 뛰어넘어 실제 적용성에 초점을 맞춥니다.

다중 모드 이해

  • 본문: 명령어에 맞춰진 텍스트 생성, 요약, 번역 및 코드 생성을 완벽하게 지원합니다.
  • 비전: 비정사각형 및 고해상도 입력을 지원하여 이미지를 분석하고 캡션을 추가합니다.
  • 오디오: 140개 이상의 언어에 대한 기기 내 자동 음성 인식(ASR) 및 음성-텍스트 번역 기능을 제공합니다.
  • 비디오 (곧 공개): Google은 향후 Gemma 3n 업데이트에서 비디오 입력 처리에 대한 지원을 제공할 것이라고 밝혔습니다.

개인 정보 보호 우선 및 오프라인 준비 완료

Gemma 3n은 전적으로 장치에서 실행되므로 다음을 보장합니다. **데이터는 사용자의 하드웨어를 떠나지 않습니다.**증가하는 개인정보 보호 우려에 대응합니다. 오프라인 준비 상태는 연결성이 낮은 환경에서도 앱이 정상적으로 작동할 수 있음을 의미하며, 이는 현장 작업, 출장 및 보안이 강화된 기업 애플리케이션에 매우 중요합니다.

동적 리소스 사용

  • 선택적 하위 모델 활성화 MatFormer를 통해
  • 조건부 매개변수 로딩 사용하지 않는 모달리티 가중치를 생략하려면
  • PLE 캐싱 임베딩을 오프로드하려면

이러한 기능을 결합하면 개발자는 리소스 프로필을 정확한 요구 사항에 맞게 조정할 수 있습니다. 즉, 배터리에 민감한 앱에 최소한의 공간을 제공하거나 멀티미디어 작업에 모든 기능을 배포할 수 있습니다.

다국어 우수성

Gemma 3n의 훈련 코퍼스는 다음과 같습니다. 140개의 구어체특히 일본, 한국, 독일, 스페인 등 영향력이 큰 시장에서 강력한 성과를 보였습니다. 초기 테스트 결과 2 × 이전 기기 모델과 비교했을 때 영어가 아닌 작업의 정확도가 향상되었습니다.

안전 및 콘텐츠 필터링

Gemma 3n은 ShieldGemma 2와 유사한 이미지 안전 분류기를 내장하여 노골적이거나 폭력적인 콘텐츠를 필터링합니다. Google의 개인정보 보호 중심 설계는 이러한 필터가 로컬에서 실행되도록 보장하여 개발자에게 외부 API 호출 없이도 사용자 생성 콘텐츠가 규정을 준수한다는 확신을 제공합니다.

Gemma 3n의 일반적인 사용 사례는 무엇입니까?

Gemma 3n은 멀티모달 역량과 온디바이스 효율성을 결합하여 산업 전반에 걸쳐 새로운 응용 분야를 개척합니다.

어떤 소비자용 애플리케이션이 가장 큰 이점을 얻을 수 있을까?

  • 카메라 기반 보조원: 클라우드 지연 없이 장치에서 직접 실시간 장면 설명이나 번역이 가능합니다.
  • 음성 우선 인터페이스: 자동차나 스마트 홈 기기에 탑재된 개인용 오프라인 음성 지원 장치입니다.
  • 증강 현실 (Augmented Reality, AR): AR 안경에서 실시간 객체 인식 및 캡션 오버레이.

Gemma 3n은 기업 시나리오에서 어떻게 사용됩니까?

  • 현장 검사: 모바일 기기에서 이미지-텍스트 추론을 활용하여 공공 서비스 및 인프라를 위한 오프라인 검사 도구입니다.
  • 안전한 문서 처리: 금융이나 의료 분야의 민감한 문서 분석을 위한 온프레미스 AI를 통해 데이터가 장치 외부로 유출되지 않도록 보장합니다.
  • 다국어 지원: 실시간으로 국제 커뮤니케이션을 즉시 번역하고 요약합니다.

제한 사항과 고려 사항은 무엇입니까?

이는 큰 진전을 의미하지만, 개발자는 현재의 제약 사항을 알고 있어야 합니다.

어떤 상충관계가 존재합니까?

  • 품질 대 속도: 매개변수가 낮은 하위 모델은 응답 속도가 빠르지만 출력 충실도가 약간 떨어집니다. 적절한 조합을 선택하는 것은 애플리케이션 요구 사항에 따라 달라집니다.
  • 컨텍스트 창 관리: 128K 토큰은 상당한 규모이지만, 더 긴 대화나 광범위한 문서 처리가 필요한 애플리케이션에는 여전히 클라우드 기반 모델이 필요할 수 있습니다.
  • 하드웨어 호환성: NPU나 최신 GPU가 없는 레거시 기기에서는 추론 속도가 느려질 수 있으며, 이로 인해 실시간 사용 사례가 제한될 수 있습니다.

책임 있는 AI는 어떤가?

Google의 발표에는 편향 평가, 안전 완화책, 피해를 최소화하고 윤리적인 배포를 보장하기 위한 권장 사용 지침이 자세히 설명된 모델 카드가 함께 제공됩니다.


결론

Gemma 3n은 새로운 시대를 예고합니다. 온디바이스 생성 AI최첨단 변압기 혁신과 실제 배치 최적화를 결합했습니다. 맷포머 건축물, PLE 캐싱조건부 매개변수 로딩 플래그십 폰부터 임베디드 엣지 디바이스까지 다양한 하드웨어에서 고품질 추론 기능을 제공합니다. 멀티모달 기능, 강력한 개인정보 보호, 그리고 강력한 초기 벤치마크를 기반으로 Google AI Studio, SDK, Hugging Face를 통해 손쉽게 액세스할 수 있는 Gemma 3n은 개발자들이 사용자가 어디에 있든 AI 기반 경험을 새롭게 구상할 수 있도록 지원합니다.

여행용 언어 지원 도구, 오프라인 우선 사진 캡션 도구, 또는 개인 기업용 챗봇 등 어떤 제품을 개발하든 Gemma 3n은 개인정보 보호에 대한 부담 없이 필요한 성능과 유연성을 제공합니다. Google이 미리보기 프로그램을 지속적으로 확장하고 비디오 이해와 같은 기능을 추가함에 따라, 지금이 바로 다음 AI 프로젝트를 위한 Gemma 3n의 잠재력을 살펴보기에 가장 좋은 시기입니다.

시작 가이드

CometAPI는 Gemini 제품군을 포함한 수백 개의 AI 모델을 일관된 엔드포인트로 통합하는 통합 REST 인터페이스를 제공하며, 내장된 API 키 관리, 사용량 할당량 및 청구 대시보드를 통해 여러 공급업체 URL과 자격 증명을 일일이 관리할 필요가 없습니다.

개발자는 액세스할 수 있습니다 제미니 2.5 플래시 사전 API  (모델:gemini-2.5-flash-preview-05-20) and 제미니 2.5 프로 API (모델:gemini-2.5-pro-preview-05-06)등을 통해 코멧API시작하려면 모델의 기능을 탐색하세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요.

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인