Google Gemini 3.5(Snow Bunny) bị rò rỉ: Tất cả những gì bạn cần biết

Google đang âm thầm thử nghiệm một phiên bản nội bộ mới của họ Gemini — được gọi theo nhiều cách là “Gemini 3.5” và bằng mật danh nội bộ đầy tò mò “Snow Bunny.” Được đặt mật danh "Snow Bunny," checkpoint nội bộ này được cho là đã phá vỡ các benchmark hiện có, cho thấy khả năng chưa từng có trong việc tạo ra toàn bộ ứng dụng phần mềm—lên tới 3.000 dòng mã hoạt động—chỉ với một prompt duy nhất.

Trong khi Thung lũng Silicon đang gấp rút xác minh dữ liệu, các báo cáo ban đầu cho thấy Google đã đạt được đột phá trong khả năng suy luận "System 2", cho phép Gemini 3.5 tạm dừng, suy nghĩ và kiến trúc các hệ thống phức tạp với mức độ thành thạo vượt qua các lãnh đạo hiện tại như GPT-5.2 và Claude Opus 4.5.

Gemini 3.5 "Snow Bunny" là gì?

Gemini 3.5, được gọi nội bộ bằng mật danh "Snow Bunny," có vẻ là câu trả lời trực diện của Google trước sự trì trệ của năng lực suy luận mô hình được ghi nhận vào cuối năm 2025. Khác với các thế hệ trước tập trung mạnh vào hiểu đa phương thức và kích thước cửa sổ ngữ cảnh, Gemini 3.5 thể hiện một sự chuyển dịch mô hình hướng tới chân trời nhận thức mở rộng và kiến trúc phần mềm tự chủ.

Kiến trúc "Snow Bunny"

Tên gọi "Snow Bunny" được cho là ám chỉ một checkpoint hiệu năng cao cụ thể của mô hình hiện đang được thử nghiệm A/B trên các nền tảng Vertex AI và AI Studio của Google. Rò rỉ cho thấy đây không chỉ là bản làm mới "Pro" hoặc "Ultra" mà là một nâng cấp kiến trúc nền tảng tích hợp khả năng "Deep Think".

Biến thể mô hình chuyên biệt

Các rò rỉ cho thấy "Snow Bunny" có thể là một họ mô hình chuyên biệt thay vì một khối đơn. Hai biến thể cụ thể đã được xác định trong tài liệu bị rò rỉ:

Fierce Falcon: Một biến thể tối ưu cho tốc độ tính toán thô và suy luận logic, nhiều khả năng nhắm tới lập trình thi đấu và phân tích dữ liệu nhanh.
Ghost Falcon: Một cỗ máy sáng tạo được thiết kế cho "vibe coding", xử lý thiết kế UI/UX, tạo SVG, tổng hợp âm thanh và hiệu ứng hình ảnh với độ trung thực cao.

Suy luận System 2: Chế độ "Deep Think"

Tính năng xác định của Gemini 3.5 là động cơ suy luận "System 2" được đồn đoán. Lấy cảm hứng từ tâm lý nhận thức của con người, hệ thống này cho phép mô hình "tạm dừng" trước khi phản hồi các truy vấn phức tạp. Thay vì dự đoán token tiếp theo ngay lập tức, mô hình tham gia vào một quá trình chain-of-thought ẩn, đánh giá nhiều đường thực thi cho mã hoặc câu đố logic. Công tắc "Deep Think" này được cho là đã thúc đẩy điểm số benchmark của nó lên vùng chưa được khám phá.

Ai đã đưa tin?

Sự tồn tại của Gemini 3.5 được đưa ra ánh sáng thông qua một loạt rò rỉ phối hợp trên nền tảng mạng xã hội X (trước đây là Twitter) và các blog kỹ thuật vào cuối tháng 1 năm 2026.

Nguồn chính: Cú nổ đầu tiên đến từ blogger công nghệ và người nội bộ Pankaj Kumar, người đã chia sẻ ảnh chụp màn hình và nhật ký về mô hình "Snow Bunny" đang hoạt động. Bài đăng của ông chi tiết khả năng "one-shot" các tác vụ kỹ thuật phức tạp của mô hình.
Xác thực benchmark: Một người dùng tên "Leo," người duy trì benchmark tư duy ngang Hieroglyph, đã chứng thực các rò rỉ. Anh ấy đăng kết quả cho thấy một biến thể "Snow Bunny" đạt tỷ lệ thành công 80–88% trên các bài lateral thinking—bài kiểm tra mà hầu hết các mô hình, bao gồm GPT-5.2, chật vật vượt qua 55%.
Xác nhận kỹ thuật: Tính xác thực tăng lên khi các biến "gemini-for-google-3.5" xuất hiện trong mã backend của các dịch vụ API của Google, gợi ý rằng hạ tầng cho một đợt ra mắt công khai đã sẵn sàng.

Google Gemini 3.5(Snow Bunny) bị rò rỉ: Tất cả những gì bạn cần biết

3.5 khác gì so với 3.0 / 3 Flash?

Dựa trên các báo cáo rò rỉ, những điểm khác biệt chính là:

Tổng hợp mã quy mô lớn ở cấp độ hệ thống: khả năng duy trì trạng thái toàn cục và kiến trúc xuyên suốt hàng nghìn dòng (không chỉ tạo hàm đơn lẻ).
Tạo sản phẩm đa phương thức hợp nhất: cùng một phiên tạo ra mã, đồ họa vector và âm thanh gốc trong một quy trình mạch lạc duy nhất.
Điều khiển suy luận chi tiết: các công tắc thử nghiệm (ví dụ: “Deep Think” / “System2”) để đánh đổi độ trễ lấy tìm kiếm nội bộ theo kiểu chain-of-thought sâu hơn.

Những điều này nghe có vẻ như các tiến bộ kỹ thuật mang tính lặp hơn là một kiến trúc hoàn toàn khác, nhưng nếu được xác thực ở quy mô, chúng sẽ thay đổi cách các đội ngũ tạo mẫu và phát hành các sản phẩm tạo tác.

Tính năng và hiệu năng so sánh ra sao?

Các số liệu bị rò rỉ phác họa một mô hình có năng lực và tốc độ vượt trội đáng kể so với các đối thủ cùng thời.

Kỳ tích mã 3.000 dòng

Tuyên bố lan truyền nhất từ rò rỉ là khả năng của Gemini 3.5 tạo ra 3.000 dòng mã có thể thực thi từ một prompt cấp cao duy nhất. Ví dụ cụ thể được dẫn liên quan đến việc một người dùng yêu cầu mô hình xây dựng một trình giả lập Nintendo Game Boy.

Trong quy trình chuẩn với GPT-4 hoặc Gemini 1.5, tác vụ này sẽ cần hàng chục prompt: phân rã kiến trúc CPU, xác định sơ đồ bộ nhớ, xử lý kết xuất đồ họa và gỡ lỗi theo từng bước. Gemini 3.5 "Snow Bunny" được cho là đã xuất toàn bộ codebase—bao gồm tập lệnh CPU, giả lập GPU và xử lý bộ nhớ—trong một luồng liên tục, chỉ cần các chỉnh sửa thủ công nhỏ để khởi động các ROM thực.

Benchmark hiệu năng: Gemini 3.5 vs GPT-5.2 vs Claude Opus 4.5

Benchmark	Gemini 3.5 "Snow Bunny"	GPT-5.2 (ước tính)	Claude Opus 4.5
Hieroglyph (Tư duy ngang)	80% - 88%	55%	~50%
GPQA Diamond (Khoa học trình độ Tiến sĩ)	>90%	~85%	~80%
Tốc độ tạo token	~218 tokens/sec	~80 tokens/sec	~60 tokens/sec

Tốc độ 218 token mỗi giây đặc biệt khiến các đối thủ phải lo ngại.

Để một mô hình có độ sâu suy luận như vậy chạy ở tốc độ cao như thế hàm ý một tối ưu hóa lớn trong hạ tầng TPU v6 của Google hoặc một đột phá trong kiến trúc mô hình thưa.

Ví dụ mã: Khả năng "One-Shot"

Để minh họa mức độ phức tạp của "3.000 dòng mã", hãy lưu ý rằng mô hình không chỉ viết một script đơn giản. Nó đang kiến trúc một hệ thống.

Dưới đây là một đoạn khái niệm về cách Gemini 3.5 có thể cấu trúc Memory Management Unit (MMU) của trình giả lập Game Boy bị rò rỉ trong một lần chạy.

Lưu ý: Phần sau là trích đoạn đại diện cho kiểu logic cấp thấp mà "Snow Bunny" tự động tạo ra.

python

class GameBoyMMU:
    def __init__(self, bios_path):
        self.bios = self.load_bios(bios_path)
        self.rom = bytearray(0x8000)  # 32k Cartridge
        self.vram = bytearray(0x2000) # 8k Video RAM
        self.wram = bytearray(0x2000) # 8k Working RAM
        self.zram = bytearray(0x80)   # Zero-page RAM
        self.in_bios = True

    def load_bios(self, path):
        try:
            with open(path, 'rb') as f:
                return bytearray(f.read())
        except FileNotFoundError:
            return bytearray(256)

    def read_byte(self, address):
        # BIOS Mapping
        if self.in_bios and address < 0x0100:
            return self.bios[address]
        elif address == 0x0100:
            self.in_bios = False
        
        # Memory Map Routing
        if 0x0000 <= address < 0x8000:
            return self.rom[address]
        elif 0x8000 <= address < 0xA000:
            return self.vram[address - 0x8000]
        elif 0xC000 <= address < 0xE000:
            return self.wram[address - 0xC000]
        elif 0xFF80 <= address < 0xFFFF:
            return self.zram[address - 0xFF80]
        # ... (Extended handling for I/O registers, Interrupts, Echo RAM)
        return 0xFF

    def write_byte(self, address, value):
        # VRAM Write (Block during rendering modes if necessary)
        if 0x8000 <= address < 0xA000:
            self.vram[address - 0x8000] = value
        # DMA Transfer Trigger
        elif address == 0xFF46:
            self.dma_transfer(value)
        # ... (Complex logic for banking, timer controls, audio registers)
        
    def dma_transfer(self, source_high):
        # Direct Memory Access implementation simulating 160ms cycle
        source_addr = source_high << 8
        for i in range(0xA0):
            byte = self.read_byte(source_addr + i)
            self.write_byte(0xFE00 + i, byte) # Write to OAM

Trong một tương tác điển hình, người dùng chỉ cần đưa prompt: "Tạo một trình giả lập Game Boy đầy đủ chức năng bằng Python có xử lý nạp BIOS, ánh xạ bộ nhớ và các opcode CPU cơ bản." Gemini 3.5 sau đó tạo ra lớp ở trên, cùng với lớp CPU, PPU (Pixel Processing Unit) và vòng lặp thực thi chính, duy trì tính mạch lạc xuyên suốt hàng nghìn dòng.

Khi nào sẽ phát hành?

Mặc dù Google chưa chính thức xác nhận ngày phát hành, sự hội tụ của các rò rỉ cho thấy thông báo đang đến rất gần.

Mốc thời gian: Các biến thử nghiệm nội bộ và checkpoint "Snow Bunny" có vẻ đang ở giai đoạn xác thực cuối. Suy đoán hướng tới khả năng "shadow drop" hoặc công bố lớn vào tháng 2 năm 2026, có thể nhằm đi trước các đợt phát hành của đối thủ.
Trạng thái hiện tại: Mô hình hiện đang ở giai đoạn private beta, chỉ truy cập được bởi một số người thử nghiệm đáng tin cậy và đối tác doanh nghiệp thông qua Vertex AI.

Giá cả và chi phí chi tiết ra sao?

Giá cả tiếp tục là một khía cạnh quyết liệt trong chiến lược Gemini. Tin đồn cho thấy Google dự định giảm giá đáng kể so với thị trường, tận dụng tích hợp dọc phần cứng (TPU) và phần mềm.

Gemini 3.5 Flash: Giá bị rò rỉ cho thấy khoảng $0.50 cho mỗi 1 triệu token đầu vào. Mức này rẻ hơn khoảng 70% so với các mô hình "smart" tương đương từ đối thủ.
Gemini 3.5 Pro/Ultra: Giá được kỳ vọng cạnh tranh, có thể giới thiệu mô hình đăng ký theo tầng cho các khả năng "Deep Think".
Phụ phí Deep Think: Có suy đoán rằng chế độ suy luận "System 2" có thể tốn nhiều chi phí trên mỗi token hơn do thời gian tính toán tăng thêm khi mô hình "suy nghĩ" trước khi tạo câu trả lời.

Kết luận

Nếu các rò rỉ "Snow Bunny" là thật, Google Gemini 3.5 không chỉ là một bản cập nhật gia tăng; đó là tuyên bố mạnh mẽ về sự thống trị. Bằng cách giải quyết vấn đề "lazy coding" và cho phép tạo mã quy mô lớn, mạch lạc, Google có thể đang trên bờ vực biến các nhà phát triển từ người viết mã thành kiến trúc sư hệ thống. Khi chờ bài phát biểu chính thức, một điều rõ ràng: cuộc chạy đua vũ trang AI vừa tăng tốc lên mức siêu âm.

Nhà phát triển có thể truy cập Gemini 3 Flash và Gemini 3 Pro CometAPI, các mô hình mới nhất được liệt kê tính đến thời điểm bài viết được xuất bản. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Playground và tham khảo API guide để có hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký Gemini 3 ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI hãy theo dõi chúng tôi trên VK, X và Discord!