Grok 4.1 đã ra mắt: Nó vượt trội hơn các mô hình khác như thế nào

xAI được phát hành một cách lặng lẽ Grok 4.1 (17–18 tháng 11 năm 2025) — bản nâng cấp tập trung cho Grok 4 ưu tiên trí tuệ cảm xúc, khả năng thể hiện sáng tạo và giảm ảo giác trong khi vẫn giữ nguyên lập luận sắc bén của các phiên bản Grok trước đó. Phiên bản này có hai chế độ (Suy nghĩ / Không suy nghĩ), được ra mắt âm thầm vào đầu tháng 11, hiển thị kết quả xếp hạng cao nhất trên LMArena và có sẵn thông qua grok.com, ứng dụng Grok và API.

Grok 4.1 là gì?

Grok 4.1 là phiên bản kế nhiệm Grok 4, tập trung vào việc sản xuất, được xây dựng trên cùng một nền tảng học tăng cường quy mô lớn nhưng được tinh chỉnh và đào tạo lại với các tối ưu hóa hậu đào tạo chuyên sâu nhằm vào phong cách, tính cách, sự đồng nhất và độ tin cậy trong thế giới thực. Nó được định vị là một bước tiến thực dụng, "có thể sử dụng": thông minh hơn trong các bài kiểm tra sở thích mù của con người, thông minh hơn về mặt cảm xúc, viết sáng tạo tốt hơn và ít bị ảnh hưởng bởi "ảo giác" tự tin nhưng sai lầm vốn đã làm khổ các chương trình Thạc sĩ Luật (LLM) hiệu suất cao trước đây.

Grok 4.1 đạt được những thay đổi về chất lượng ở bốn khía cạnh sau:

Sáng tạo: Thể hiện phong cách ngôn ngữ và trí tưởng tượng mạnh mẽ hơn trong văn bản, kể chuyện và bối cảnh xã hội;
Trí tuệ cảm xúc: Nhận biết giọng điệu và những thay đổi về cảm xúc, phản ứng bằng logic cảm xúc giống con người hơn và tạo ra những phản ứng an ủi và thấu hiểu;
Sự nhất quán về tính cách: Duy trì giọng điệu và tính cách nhất quán trong các cuộc trò chuyện dài, không còn biểu hiện hành vi không nhất quán của các mô hình trước đó;
Hợp tác: Duy trì sự mạch lạc và nhận thức mục tiêu trong các cuộc đối thoại nhiều chiều hoặc hợp tác nhiệm vụ.

xAI tóm tắt các đặc điểm của nó trong một câu: “Nó nhạy bén hơn, đồng cảm hơn và giống một con người mạch lạc hơn.”

Grok 4.1 hoạt động như thế nào?

Grok 4.1 được hiểu rõ nhất là xương sống được đào tạo trước giống nhau được sử dụng trên toàn bộ họ Grok 4 cộng với một đường ống đào tạo sau nhiều lớp tập trung vào mô hình phần thưởng, sự liên kết phong cách và các nhà đánh giá đại lý.

Các giai đoạn đào tạo và điều chỉnh là gì?

Grok 4.1 hoạt động theo quy trình nhiều giai đoạn điển hình của các chương trình LLM hiện đại, được điều chỉnh với hai thay đổi quan trọng cho 4.1:

Trước khi đào tạo + giữa quá trình đào tạo: Đào tạo trước kho dữ liệu lớn trên dữ liệu web + đào tạo giữa kỳ có mục tiêu để tăng cường kiến thức chuyên môn và khả năng đa phương thức.
Điều chỉnh có giám sát (SFT): Biểu hiện của con người đối với hành vi mong muốn (trả lời, chiến lược từ chối).
Mô hình phần thưởng (ứng dụng mới): xAI đã đào tạo các mô hình phần thưởng không chỉ dựa trên nhãn sở thích của con người mà còn được sử dụng mô hình lý luận tác nhân biên giới với tư cách là người chấm điểm phần thưởng — cho phép các nhà đánh giá năng lực cao, dựa trên mô hình chấm điểm đầu ra của ứng viên ở quy mô lớn. Điều này cho phép tối ưu hóa các thuộc tính không thể xác minh như phong cách, sự gắn kết tính cách, sự đồng cảm và sự hữu ích mà không cần đến ngân sách dán nhãn quá lớn của con người.
Tối ưu hóa chính sách (RLHF / RL từ phần thưởng mô hình): Tối ưu hóa chính sách tiêu chuẩn bằng cách sử dụng các tín hiệu phần thưởng đã học để tạo ra chính sách được triển khai (mô hình mà người tiêu dùng tương tác).

Có gì mới trong phương pháp mô hình hóa phần thưởng?

Trong RLHF truyền thống, bạn thu thập các nhãn sở thích của con người (A/B), huấn luyện một mô hình phần thưởng để dự đoán các nhãn đó, rồi tối ưu hóa mô hình cơ sở bằng RL (hoặc lấy mẫu từ chối) dựa trên phần thưởng đã học được. Nhưng hai cải tiến thực tế nổi bật của xAI:

Mô hình phần thưởng của tác nhân: Thay vì chỉ có người đánh giá, xAI đã sử dụng các mô hình lý luận "agent" có năng lực làm công cụ chấm điểm để đánh giá các đặc điểm tinh tế hơn (giọng điệu, sắc thái cảm xúc, sự sáng tạo). Các công cụ chấm điểm có thể thực hiện hàng nghìn phép so sánh từng cặp một cách nhanh chóng, cho phép các kỹ sư lặp lại nhanh hơn. Đây là cơ chế cho những cải tiến đáng kể về phong cách và trí tuệ cảm xúc.
Căn chỉnh sau đào tạo cho các tín hiệu không thể xác minh: đối với các thuộc tính mà bạn không thể đo lường bằng một phép đo xác định (ví dụ, "sự ấm áp" hoặc "tính cách mạch lạc"), họ đã giới thiệu các mục tiêu khen thưởng chuyên biệt và chương trình giảng dạy mở rộng để mô hình học được phong cách của đầu ra mà không làm mất đi tính chính xác cốt lõi của sự kiện.

Về mặt kỹ thuật, “suy nghĩ” và “không suy nghĩ” hoạt động như thế nào?

Grok 4.1 Thinking (tên mã quasarflux) — hiển thị các bước suy luận rõ ràng (mã thông báo suy nghĩ) trước khi đưa ra câu trả lời cuối cùng; được tối ưu hóa cho các tác vụ phức tạp và Elo cao hơn trong LMArena. Các mã thông báo bổ sung tốn thời gian suy luận nhưng hỗ trợ các tác vụ suy luận nhiều bước, gỡ lỗi và khả năng giải thích.
Grok 4.1 Không suy nghĩ (tên mã tensor) bỏ qua các mã thông báo trung gian rõ ràng để có một phản hồi cuối cùng tức thì, duy nhất. Điều này giúp giảm độ trễ và chi phí mã thông báo, đồng thời vẫn được hưởng lợi từ các trọng số chính sách được tinh chỉnh tương tự. Chế độ không suy nghĩ được tối ưu hóa để có độ trễ cực thấp và vẫn có khả năng xử lý cao.

Tối ưu hóa sự liên kết của cảm xúc và phong cách

Ngoài các tín hiệu "trung thực" đơn giản, Grok 4.1 còn bao gồm tối ưu hóa sự liên kết có mục tiêu cho cảm xúc, giọng điệu và phong cách giao tiếp. Điều này có nghĩa là quy trình đào tạo bao gồm các thành phần thưởng hoặc mất mát để trừng phạt rõ ràng giọng điệu không phù hợp (ví dụ: nói năng cộc lốc không cần thiết khi cần sự đồng cảm) và khen thưởng các phản hồi phù hợp với phong cách hoặc hồ sơ cảm xúc mong muốn. Trong Grok 4.1, AI lần đầu tiên giới thiệu mục tiêu tối ưu hóa "Sự liên kết tính cách".

Mục tiêu của nó là giúp mô hình duy trì nhận thức về bản sắc nhất quán và ổn định. So với Grok 4, Grok 4.1 bổ sung thêm những điểm sau vào mục tiêu đào tạo:

Phần thưởng tích cực cho chiều hướng thể hiện cảm xúc (phần thưởng liên kết cảm xúc);
Một thước đo tính nhất quán của tính cách.

Grok 4.1 được đánh giá như thế nào — và hiệu suất của nó ra sao?

Các cuộc thử nghiệm sở thích mù quáng của con người đã cho thấy điều gì?

Trong quá trình triển khai âm thầm, Grok 4.1 được ưa chuộng hơn 64.78% so với mô hình sản xuất trước đó trong lưu lượng truy cập trực tiếp — một tín hiệu ưa thích mạnh mẽ của con người cho thấy kết quả trò chuyện tốt hơn trong thực tế.

Grok 4.1 có đứng đầu bảng xếp hạng không?

xAI báo cáo rằng Grok 4.1 Suy nghĩ chế độ ngồi ở #1 trên Đấu trường Văn bản của LMArena, với Elo được báo cáo là 1483và chế độ không suy luận (nhanh) của nó xếp hạng #2 với Elo 1465 — vị trí cao trên bảng xếp hạng công khai về cả độ chính xác và trình bày (kiểm soát phong cách đóng một vai trò quan trọng).

Grok 4.1 đã ra mắt: Nó vượt trội hơn các mô hình khác như thế nào

Kết luận: Grok 4.1 vượt trội hơn các mô hình dòng GPT-4.5 và Claude về khả năng hiểu văn bản, tạo văn bản và chất lượng tổng thể, chỉ đứng sau phiên bản GPT-5 Advanced Preview.

Trí tuệ cảm xúc

xAI đã chạy EQ-Bench3, một bài kiểm tra chuyên biệt về trí tuệ cảm xúc bao gồm 45 tình huống nhập vai đầy thử thách và báo cáo rằng Grok 4.1 cho thấy sự cải thiện đáng kể về khả năng đồng cảm, tốc độ và hiểu biết giữa các cá nhân. Grok 4.1 đạt điểm cao nhất trong việc hiểu bối cảnh buồn bã, đồng cảm và thoải mái.

Grok 4.1 đã ra mắt: Nó vượt trội hơn các mô hình khác như thế nào

Viết sáng tạo – liệu nó có thực sự giàu trí tưởng tượng hơn không?

Grok 4.1 đã được đánh giá trên Viết sáng tạo v3 (32 gợi ý qua 3 lần lặp lại với thang điểm + điểm Elo). xAI cho biết phong cách viết, tính nhất quán của giọng văn và tính sáng tạo trong câu chuyện của phiên bản 4.1 đã tăng đáng kể, đưa phiên bản này lên gần đầu bảng xếp hạng gần đây về các nhiệm vụ sáng tạo (các gợi ý ví dụ được bao gồm trong bản phát hành). Các báo cáo độc lập cũng phản ánh những phát hiện này: người đánh giá nhận thấy "giọng văn đặc trưng" rõ rệt hơn và tính mạch lạc của bài viết dài tốt hơn. Về chất lượng viết, Grok 4.1 chỉ đứng sau các mẫu thuộc dòng GPT-5 và vượt trội hơn toàn bộ các dòng sản phẩm của Claude, Gemini và Kimi.

Grok 4.1 đã ra mắt: Nó vượt trội hơn các mô hình khác như thế nào

Giảm ảo giác / trung thực

xAI tuyên bố giảm đáng kể tỷ lệ ảo giác: họ đã báo cáo (trong thông báo và bài đăng trên mạng xã hội) Grok 4.1 là ~Giảm khả năng bị ảo giác 3 lần so với các mô hình Grok trước đó, trích dẫn phân tích lưu lượng sản xuất và đánh giá theo kiểu FActScore (ví dụ: bộ câu hỏi tiểu sử/tiểu sử, càng thấp càng tốt). Đặc biệt trong "chế độ phi lý luận" khi có sẵn các công cụ tìm kiếm bên ngoài, tính nhất quán của các sự kiện sẽ ổn định hơn.

Grok 4.1 đã ra mắt: Nó vượt trội hơn các mô hình khác như thế nào

Tại sao Grok 4.1 lại “đánh bại” các mô hình khác — đó có phải là lời nói quá không?

“Crushes” mang tính chất tiếp thị, nhưng có những tuyên bố khách quan đằng sau tuyên bố này:

Bảng xếp hạng: Grok 4.1 giữ vị trí hàng đầu trên bảng xếp hạng LMArena công khai về khả năng tạo văn bản (Elo 1483 cho chế độ Tư duy) và khả năng sáng tạo và EQ-bench mạnh mẽ theo bản phát hành của xAI. Đây là những chỉ số cạnh tranh tương đương được sử dụng trong toàn cộng đồng.
Ưu tiên giao thông thực tế thắng thế: xAI báo cáo sự ưu tiên của con người trong các so sánh mù (~65% ưu tiên so với mô hình sản xuất trước đó) từ một lần triển khai âm thầm trên giao thông trực tiếp. Điều này phản ánh những cải tiến của người dùng thực tế, chứ không chỉ là các điểm chuẩn trên giấy.
Khả năng mới thực tế: Sự kết hợp giữa các trình phân loại mô hình, RL trên các tín hiệu không thể xác minh và bộ lọc đầu vào chặt chẽ hơn là một bước kỹ thuật thực dụng giúp cải thiện trực tiếp trải nghiệm của người dùng trong các nhiệm vụ đàm thoại, đồng cảm và sáng tạo mà trước đây đối thủ cạnh tranh thường kém hiệu quả.

Vì vậy, trong khi "nghiền nát" là một cách nói hoa mỹ để nói "dẫn đầu trong nhiều đánh giá công khai và nội bộ", các số liệu công khai cơ bản xAI đã công bố lại kết luận đó

Cách truy cập Grok 4.1

Quyền truy cập của người tiêu dùng / ứng dụng

xAI định kỳ cung cấp Grok 4.1 ở chế độ "Tự động" miễn phí hoặc dưới dạng cửa sổ khuyến mại, nhưng các gói cao cấp (SuperGrok, SuperGrok Heavy) và quyền truy cập API với hạn ngạch cao hơn vẫn tồn tại và tiếp tục là dịch vụ trả phí.

Grok 4.1 có sẵn cho tất cả người dùng on grok.com, **X (trước đây là Twitter)**và các ứng dụng Grok trên iOS và Android, triển khai ngay lập tức ở chế độ Tự động đồng thời có thể chọn rõ ràng là “Grok 4.1” trong trình chọn mô hình.

Quyền truy cập API và kế hoạch phát triển

Các điểm cuối Grok 4.1 có sẵn thông qua API xAI. Tính đến ngày xuất bản bài viết này, API GPT 4.1 chính thức vẫn chưa được phát hành.

Sao chổiAPI hứa sẽ theo dõi các động lực mô hình mới nhất bao gồm API Grok 4.1, sẽ được phát hành đồng thời với bản phát hành chính thức. Hãy đón chờ và tiếp tục theo dõi CometAPI. Trong khi chờ đợi, bạn có thể tham khảo các mô hình khác của Grok như: Grok-code-fast-1 và Grok 4, hãy khám phá các khả năng của chúng trong Sân chơi và tham khảo hướng dẫn API để biết hướng dẫn chi tiết về cách gọi . Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.

Mẹo thực tế để sử dụng Grok 4.1 trong sản xuất

Làm thế nào để giảm nguy cơ ảo giác

Bật tìm kiếm trực tiếp hoặc chuỗi công cụ đã được xác minh để tìm kiếm thông tin.
Cung cấp các bước xác minh: yêu cầu người mẫu trả về các nguồn và bằng chứng cho các tuyên bố thực tế; sử dụng response siêu dữ liệu để kiểm tra trích dẫn (nếu có).
Chạy kiểm tra xác định (LLM kiểm tra thực tế, trình xác thực dữ liệu có cấu trúc) như một bước xử lý hậu kỳ cho các đầu ra có rủi ro cao.

Cách kiểm soát tông giọng và phong cách

Sử dụng lời nhắc hệ thống rõ ràng để sửa giọng nói (“Bạn trang trọng và đồng cảm.”).
Sử dụng lời nhắc có giám sát và các mẫu cục bộ nhỏ để có giọng nói nhất quán trên các ứng dụng.
Nếu có thể, hãy tận dụng tùy chọn điều khiển kiểu dáng của xAI và các nút điều khiển theo phần thưởng.

Phán quyết cuối cùng: Grok 4.1 có phải là một sự thay đổi lớn không?

Grok 4.1 là không một kiến trúc hoàn toàn mới; đúng hơn, đó là một kiến trúc tinh vi và chu đáo sau đào tạo / căn chỉnh bản phát hành tập trung vào những gì con người thực sự quan tâm trong trò chuyện: tính cách, trí tuệ cảm xúc, sự sáng tạo và ít lỗi thực tế hơn. Những cải thiện đáng kể trên bảng xếp hạng, sở thích giao thông thực tế quy mô lớn và công cụ an toàn được cải thiện. Đối với các ứng dụng dựa trên hội thoại chất lượng cao, cộng tác sáng tạo hoặc hỗ trợ nhạy bén, Grok 4.1 là một bước tiến lớn và, theo một số tiêu chuẩn cộng đồng, là ứng dụng có hiệu suất cao nhất tại thời điểm phát hành.

CometAPI là một nền tảng tổng hợp API thương mại, cung cấp cho các nhà phát triển quyền truy cập REST thống nhất theo phong cách OpenAI vào hàng trăm mô hình AI từ nhiều nhà cung cấp — LLM văn bản, trình tạo hình ảnh/video, nhúng, v.v. — thông qua một giao diện duy nhất, nhất quán. Thay vì kết nối các SDK riêng biệt hoặc các điểm cuối riêng biệt cho OpenAI, Anthropic, Google, Meta hoặc các nhà cung cấp mô hình chuyên biệt nhỏ hơn, CometAPI cho phép bạn gọi các mô hình khác nhau bằng cách thay đổi chuỗi mô hình và một vài tham số.

Sẵn sàng thử chưa?→ Đăng ký CometAPI ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!

Grok 4.1 là gì?

Grok 4.1 hoạt động như thế nào?

Các giai đoạn đào tạo và điều chỉnh là gì?

Có gì mới trong phương pháp mô hình hóa phần thưởng?

Về mặt kỹ thuật, “suy nghĩ” và “không suy nghĩ” hoạt động như thế nào?

Tối ưu hóa sự liên kết của cảm xúc và phong cách

Grok 4.1 được đánh giá như thế nào — và hiệu suất của nó ra sao?

Các cuộc thử nghiệm sở thích mù quáng của con người đã cho thấy điều gì?

Grok 4.1 có đứng đầu bảng xếp hạng không?

Trí tuệ cảm xúc

Viết sáng tạo – liệu nó có thực sự giàu trí tưởng tượng hơn không?

Giảm ảo giác / trung thực

Tại sao Grok 4.1 lại “đánh bại” các mô hình khác — đó có phải là lời nói quá không?

Cách truy cập Grok 4.1

Quyền truy cập của người tiêu dùng / ứng dụng

Quyền truy cập API và kế hoạch phát triển

Mẹo thực tế để sử dụng Grok 4.1 trong sản xuất

Làm thế nào để giảm nguy cơ ảo giác

Cách kiểm soát tông giọng và phong cách

Phán quyết cuối cùng: Grok 4.1 có phải là một sự thay đổi lớn không?

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm