Google Gemini 3.5(Snow Bunny) a fuité : tout ce qu'il faut savoir

Google teste discrètement une nouvelle itération interne de sa famille Gemini — mentionnée tantôt comme « Gemini 3.5 » et sous l’intrigant nom de code interne « Snow Bunny ». Baptisé « Snow Bunny », ce point de contrôle interne aurait pulvérisé les benchmarks existants, démontrant une capacité sans précédent à générer des applications logicielles complètes — jusqu’à 3,000 lignes de code fonctionnel — en un seul prompt.

Alors que la Silicon Valley s’emploie à vérifier les données, les premiers rapports suggèrent que Google a réalisé une percée en matière de raisonnement « System 2 », permettant à Gemini 3.5 de faire une pause, réfléchir et architecturer des systèmes complexes avec une maîtrise qui éclipse les leaders actuels comme GPT-5.2 et Claude Opus 4.5.

Qu’est-ce que Gemini 3.5 « Snow Bunny » ?

Gemini 3.5, nommé en interne « Snow Bunny », semble être la réponse directe de Google à la stagnation des capacités de raisonnement des modèles observée fin 2025. Contrairement à ses prédécesseurs, qui mettaient fortement l’accent sur la compréhension multimodale et la taille de la fenêtre de contexte, Gemini 3.5 représente un changement de paradigme vers des horizons cognitifs étendus et une architecture logicielle autonome.

L’architecture « Snow Bunny »

Le surnom « Snow Bunny » ferait référence à un point de contrôle spécifique, haute performance, du modèle actuellement soumis à des tests A/B sur les plateformes Vertex AI et AI Studio de Google. La fuite suggère qu’il ne s’agit pas simplement d’une remise à niveau « Pro » ou « Ultra », mais d’une mise à niveau architecturale fondamentale intégrant des capacités de « Deep Think ».

Des variantes spécialisées du modèle

Les fuites indiquent que « Snow Bunny » pourrait être une famille de modèles spécialisés plutôt qu’un monolithe unique. Deux variantes spécifiques ont été identifiées dans la documentation divulguée :

Fierce Falcon : une variante optimisée pour la vitesse de calcul brute et la déduction logique, probablement destinée à la programmation compétitive et à l’analyse rapide de données.
Ghost Falcon : une puissance créative conçue pour le « vibe coding », gérant la conception UI/UX, la génération de SVG, la synthèse audio et les effets visuels avec une haute fidélité.

Raisonnement System 2 : le mode « Deep Think »

La caractéristique déterminante de Gemini 3.5 serait son moteur de raisonnement « System 2 ». S’inspirant de la psychologie cognitive humaine, ce système permet au modèle de « faire une pause » avant de répondre à des requêtes complexes. Au lieu de prédire immédiatement le prochain token, le modèle engage un processus caché de chaîne de raisonnement, évaluant plusieurs chemins d’exécution pour du code ou des casse-têtes logiques. Ce commutateur « Deep Think » aurait propulsé ses scores de benchmark dans des territoires inexplorés.

Qui a révélé l’information ?

L’existence de Gemini 3.5 a été mise en lumière par une série de fuites coordonnées sur la plateforme sociale X (anciennement Twitter) et des blogs techniques fin janvier 2026.

Source principale : la première bombe est venue du blogueur tech et insider Pankaj Kumar, qui a partagé des captures d’écran et des journaux du modèle « Snow Bunny » en action. Ses publications détaillaient la capacité du modèle à « one-shot » des tâches d’ingénierie complexes.
Validation des benchmarks : un utilisateur connu sous le nom de « Leo », qui maintient le benchmark de raisonnement latéral Hieroglyph, a corroboré les fuites. Il a publié des résultats montrant une variante « Snow Bunny » atteignant un taux de réussite de 80–88 % sur des tâches de pensée latérale — un test où la plupart des modèles, y compris GPT-5.2, peinent à dépasser 55 %.
Confirmation technique : la crédibilité a été renforcée par l’apparition de variables « gemini-for-google-3.5 » dans le code backend des services API de Google, suggérant que l’infrastructure pour un lancement public est déjà en place.

Google Gemini 3.5(Snow Bunny) a fuité : tout ce qu'il faut savoir

Qu’est-ce qui distinguerait la 3.5 de la 3.0 / 3 Flash ?

D’après les rapports de fuites, les principaux différenciateurs sont :

Synthèse de code à grande échelle, au niveau système : capacité à maintenir l’état global et l’architecture sur des milliers de lignes (et pas seulement la génération de fonctions isolées).
Génération unifiée d’artefacts multimodaux : une même session produit du code, des graphiques vectoriels et de l’audio natif dans un workflow cohérent.
Contrôles de raisonnement granulaires : commutateurs expérimentaux (par ex., « Deep Think » / « System2 ») pour troquer la latence contre une recherche interne de type chaîne de pensée plus profonde.

Cela ressemble à des avancées d’ingénierie itératives plutôt qu’à une architecture radicalement différente, mais si cela est validé à l’échelle, cela changerait la manière dont les équipes prototypent et livrent des artefacts produit.

Comment les fonctionnalités et les performances se comparent-elles ?

Les métriques divulguées dressent le portrait d’un modèle significativement plus capable et plus rapide que ses contemporains.

Le miracle des 3,000 lignes de code

L’affirmation la plus virale de la fuite est la capacité de Gemini 3.5 à générer 3,000 lignes de code exécutable à partir d’un seul prompt de haut niveau. L’exemple cité impliquait un utilisateur demandant au modèle de construire un émulateur Nintendo Game Boy.

Dans un flux de travail standard avec GPT-4 ou Gemini 1.5, cette tâche nécessiterait des dizaines de prompts : décomposer l’architecture CPU, définir la carte mémoire, gérer le rendu graphique et déboguer de façon itérative. Gemini 3.5 « Snow Bunny » aurait livré toute la base de code — y compris l’ensemble d’instructions CPU, l’émulation GPU et la gestion mémoire — en un flux continu, ne nécessitant que de légères corrections manuelles pour amorcer de vraies ROMs.

Benchmarks de performance : Gemini 3.5 vs GPT-5.2 vs Claude Opus 4.5

Benchmark	Gemini 3.5 "Snow Bunny"	GPT-5.2 (Est.)	Claude Opus 4.5
Hieroglyph (Lateral Reasoning)	80% - 88%	55%	~50%
GPQA Diamond (PhD Science)	>90%	~85%	~80%
Token Generation Speed	~218 tokens/sec	~80 tokens/sec	~60 tokens/sec

La vitesse de 218 tokens par seconde est particulièrement alarmante pour les concurrents.

Pour qu’un modèle avec une telle profondeur de raisonnement fonctionne à une vitesse aussi élevée, cela implique une optimisation massive de l’infrastructure TPU v6 de Google ou une percée dans l’architecture de modèles clairsemés.

Exemple de code : la capacité « one-shot »

Pour illustrer la complexité de ce que représentent « 3,000 lignes de code », il faut comprendre que le modèle ne se contente pas d’écrire un simple script. Il conçoit une architecture.

Voici un extrait conceptuel de la façon dont Gemini 3.5 pourrait structurer l’unité de gestion de la mémoire (MMU) de l’émulateur Game Boy divulgué en un seul passage.

Note : Ce qui suit est un extrait représentatif du type de logique bas niveau que « Snow Bunny » génère de manière autonome.

python

class GameBoyMMU:
    def __init__(self, bios_path):
        self.bios = self.load_bios(bios_path)
        self.rom = bytearray(0x8000)  # Cartouche 32k
        self.vram = bytearray(0x2000) # Mémoire vidéo 8k
        self.wram = bytearray(0x2000) # RAM de travail 8k
        self.zram = bytearray(0x80)   # RAM de page zéro
        self.in_bios = True

    def load_bios(self, path):
        try:
            with open(path, 'rb') as f:
                return bytearray(f.read())
        except FileNotFoundError:
            return bytearray(256)

    def read_byte(self, address):
        # Mappage du BIOS
        if self.in_bios and address < 0x0100:
            return self.bios[address]
        elif address == 0x0100:
            self.in_bios = False
        
        # Routage du mappage mémoire
        if 0x0000 <= address < 0x8000:
            return self.rom[address]
        elif 0x8000 <= address < 0xA000:
            return self.vram[address - 0x8000]
        elif 0xC000 <= address < 0xE000:
            return self.wram[address - 0xC000]
        elif 0xFF80 <= address < 0xFFFF:
            return self.zram[address - 0xFF80]
        # ... (Gestion étendue pour registres I/O, interruptions, Echo RAM)
        return 0xFF

    def write_byte(self, address, value):
        # Écriture VRAM (bloquer pendant les modes de rendu si nécessaire)
        if 0x8000 <= address < 0xA000:
            self.vram[address - 0x8000] = value
        # Déclenchement du transfert DMA
        elif address == 0xFF46:
            self.dma_transfer(value)
        # ... (Logique complexe pour le banking, les contrôles de minuterie, les registres audio)
        
    def dma_transfer(self, source_high):
        # Implémentation Direct Memory Access simulant un cycle de 160ms
        source_addr = source_high << 8
        for i in range(0xA0):
            byte = self.read_byte(source_addr + i)
            self.write_byte(0xFE00 + i, byte) # Écriture vers l’OAM

Dans une interaction typique, un utilisateur se contenterait de demander : « Crée un émulateur Game Boy entièrement fonctionnel en Python qui gère le chargement du BIOS, le mappage mémoire et les opcodes CPU de base. » Gemini 3.5 génère alors la classe ci‑dessus, ainsi que la classe CPU, le PPU (Pixel Processing Unit) et la boucle d’exécution principale, en maintenant la cohérence sur des milliers de lignes.

Quand sera-t-il publié ?

Bien que Google n’ait pas officiellement confirmé de date de sortie, la convergence des fuites suggère qu’une annonce est imminente.

Calendrier : les variables de test internes et le point de contrôle « Snow Bunny » semblent en phase de validation finale. Les spéculations pointent vers un possible « shadow drop » ou une grande révélation en février 2026, potentiellement pour devancer les sorties concurrentes.
Statut actuel : le modèle est actuellement en bêta privée, accessible uniquement à certains testeurs de confiance et partenaires entreprises via Vertex AI.

Quels sont les détails de prix et de coûts ?

La tarification demeure l’un des aspects les plus agressifs de la stratégie Gemini. Des rumeurs indiquent que Google entend casser significativement le marché, en tirant parti de son intégration verticale matériel (TPUs) + logiciel.

Gemini 3.5 Flash : une tarification divulguée d’environ $0.50 par 1 million de tokens d’entrée. C’est approximativement 70 % moins cher que les modèles « intelligents » comparables des concurrents.
Gemini 3.5 Pro/Ultra : une tarification qui devrait rester compétitive, avec potentiellement un modèle d’abonnement à paliers pour les capacités « Deep Think ».
Supplément Deep Think : il est spéculé que le mode de raisonnement « System 2 » pourrait coûter plus cher par token en raison du temps de calcul accru nécessaire au modèle pour « réfléchir » avant de générer une réponse.

Conclusion

Si les fuites « Snow Bunny » se confirment, Google Gemini 3.5 n’est pas qu’une mise à jour incrémentale ; c’est une déclaration de domination. En résolvant le problème du « code paresseux » et en permettant une génération de code massive et cohérente, Google pourrait bien être sur le point de transformer les développeurs de rédacteurs de code en architectes système. En attendant la keynote officielle, une chose est claire : la course à l’IA vient d’accélérer à vitesse hypersonique.

Les développeurs peuvent accéder à Gemini 3 Flash et à Gemini 3 Pro via CometAPI, les derniers modèles listés étant à la date de publication de l’article. Pour commencer, explorez les capacités du modèle dans le Playground et consultez le API guide pour des instructions détaillées. Avant d’accéder, assurez‑vous d’être connecté à CometAPI et d’avoir obtenu la clé API. CometAPI propose un prix bien inférieur au tarif officiel pour vous aider à intégrer.

Prêt à commencer ? → Inscrivez-vous à Gemini 3 dès aujourd’hui !

Si vous souhaitez en savoir plus d’astuces, de guides et d’actualités sur l’IA, suivez‑nous sur VK, X et Discord !