mô hình
GPT Image 2 là mô hình tạo sinh hình ảnh tối tân của openai, cho phép tạo sinh và chỉnh sửa hình ảnh nhanh, chất lượng cao. Nó hỗ trợ các kích thước hình ảnh linh hoạt và đầu vào hình ảnh có độ trung thực cao. Mỗi Giây:$0.063
Seedance 2.0 là mô hình nền tảng video đa phương thức thế hệ mới của ByteDance, tập trung vào khả năng tạo video kể chuyện đa cảnh mang phong cách điện ảnh. Khác với các bản demo chuyển văn bản thành video chỉ một cảnh, Seedance 2.0 nhấn mạnh điều khiển dựa trên tham chiếu (hình ảnh, clip ngắn, âm thanh), đảm bảo tính nhất quán mạch lạc về nhân vật và phong cách xuyên suốt các cảnh quay, cùng khả năng đồng bộ âm thanh–hình ảnh ở mức gốc — nhằm khiến video AI trở nên hữu ích cho các quy trình sáng tạo chuyên nghiệp và tiền trực quan hóa.Mô hình thông minh nhất cho tác tử và lập trình Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.Xuất sắc trong suy luận tác nhân, công việc tri thức và sử dụng công cụ. Đầu vào:$24/M
Đầu ra:$144/M
Một mô hình tiên tiến được thiết kế để xử lý logic cực kỳ phức tạp và đáp ứng các yêu cầu chuyên môn, đại diện cho tiêu chuẩn cao nhất về suy luận sâu và năng lực phân tích chính xác.Một mô hình chủ lực đa phương thức thế hệ mới cân bằng giữa hiệu năng vượt trội và khả năng phản hồi hiệu quả, nhằm cung cấp các dịch vụ AI mục đích chung toàn diện và ổn định. Theo Yêu cầu:$0.04
GPT Image 2 là mô hình tạo ảnh tối tân của OpenAI dùng cho việc tạo và chỉnh sửa hình ảnh nhanh, chất lượng cao. Nó hỗ trợ kích thước ảnh linh hoạt và đầu vào hình ảnh có độ trung thực cao.Đầu vào:$0.416/M
Đầu ra:$0.832/M
DeepSeek V4 Pro là một mô hình Mixture-of-Experts quy mô lớn từ DeepSeek với 1.6T tham số tổng cộng và 49B tham số được kích hoạt, hỗ trợ cửa sổ ngữ cảnh 1M-token. Mô hình này được thiết kế cho suy luận nâng cao, lập trình và các quy trình tác tử dài hạn, với hiệu năng mạnh mẽ trên các benchmark về kiến thức, toán học và kỹ thuật phần mềm.Đầu vào:$0.12/M
Đầu ra:$0.24/M
DeepSeek V4 Flash là một mô hình hỗn hợp chuyên gia được tối ưu hóa về hiệu suất của DeepSeek với 284B tham số tổng và 13B tham số được kích hoạt, hỗ trợ cửa sổ ngữ cảnh 1M-token. Mô hình này được thiết kế cho suy luận nhanh và khối lượng công việc thông lượng cao, đồng thời vẫn duy trì khả năng lập luận và lập trình mạnh mẽ.Đầu vào:$0.24/M
Đầu ra:$0.96/M
MiniMax-M2.7 cung cấp cùng mức độ thông minh hàng đầu như phiên bản tiêu chuẩn—bao gồm tự tiến hóa đệ quy và năng suất làm việc văn phòng ở cấp độ chuyên gia—nhưng được thiết kế cho các ứng dụng yêu cầu độ trễ dưới một giây và tốc độ sinh token cao. Tận dụng kiến trúc xương sống suy luận được tăng cường, tốc độ đầu ra của nó nhanh hơn 66% so với mô hình tiêu chuẩn (đạt 100 tps). Đây là lựa chọn ưu tiên cho các trợ lý lập trình tương tác, việc thực thi vòng lặp tác tử theo thời gian thực và các quy trình doanh nghiệp thông lượng cao với yêu cầu nghiêm ngặt về thời gian hoàn tất.Bối cảnh:400,000
Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.Bối cảnh:400,000
Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.Bối cảnh:1,050,000
Đầu vào:$24/M
Đầu ra:$144/M
Phiên bản GPT-5.4 tạo ra các phản hồi thông minh hơn và chính xác hơn.Đầu vào:$0.4/M
Đầu ra:$2.4/M
Tổng quan về khả năng cốt lõi: Độ phân giải: Lên đến 4K (4096×4096), tương đương với Pro. Tính nhất quán hình ảnh tham chiếu: Tối đa 14 hình ảnh tham chiếu (10 đối tượng + 4 nhân vật), duy trì tính nhất quán về phong cách/nhân vật. Tỷ lệ khung hình cực đoan: Bổ sung các tỷ lệ mới 1:4, 4:1, 1:8, 8:1, phù hợp cho hình ảnh dài, poster và banner. Kết xuất văn bản: Tạo văn bản nâng cao, phù hợp cho infographics và bố cục poster marketing. Tăng cường tìm kiếm: Tích hợp Google Search + Image Search. Lý giải nền tảng: Quy trình tư duy tích hợp; các prompt phức tạp được suy luận trước khi tạo.Đầu vào:$60/M
Đầu ra:$240/M
MiMo-V2.5-Pro là mẫu flagship của Xiaomi, xuất sắc trong năng lực tác nhân đa mục đích và kỹ thuật phần mềm phức tạp.Đầu vào:$60/M
Đầu ra:$240/M
MiMo-V2.5 là mô hình đa phương thức bản địa của Xiaomi. Nó đạt hiệu năng tác tử ở cấp độ chuyên nghiệp với chi phí suy luận chỉ khoảng một nửa, đồng thời vượt trội so với MiMo-V2-Omni về nhận thức đa phương thức trong các tác vụ hiểu hình ảnh và video.Đầu vào:$2.4/M
Đầu ra:$14.4/M
GPT-5.5 xuất sắc trong việc viết mã, nghiên cứu trực tuyến, phân tích dữ liệu và thao tác giữa nhiều công cụ. Mô hình không chỉ nâng cao mức độ tự chủ khi xử lý các tác vụ phức tạp đa bước mà còn cải thiện đáng kể năng lực suy luận và hiệu suất thực thi, đồng thời vẫn duy trì độ trễ tương đương với phiên bản tiền nhiệm, qua đó đánh dấu một bước tiến quan trọng hướng tới tự động hóa công việc văn phòng bằng AI.Bối cảnh:2,000,000
Bản phát hành Grok 4.20 giới thiệu kiến trúc đa tác nhân (nhiều tác nhân chuyên biệt được điều phối theo thời gian thực), các chế độ ngữ cảnh được mở rộng, và các cải tiến tập trung vào khả năng tuân thủ hướng dẫn, giảm ảo giác, cùng đầu ra có cấu trúc/được hỗ trợ công cụ.Đầu vào:$0.32/M
Đầu ra:$1.92/M
Qwen 3.6-Plus hiện đã ra mắt, với khả năng phát triển mã được nâng cấp và hiệu suất nhận dạng, suy luận đa phương thức được cải thiện, giúp trải nghiệm Vibe Coding còn tốt hơn nữa.Đầu vào:$0.76/M
Đầu ra:$3.19998/M
Kimi K2.6 là mô hình mới nhất và thông minh nhất của Kimi, sở hữu khả năng viết mã trong thời gian dài mạnh mẽ và ổn định hơn, khả năng tuân thủ chỉ dẫn và tự hiệu chỉnh được cải thiện đáng kể, đồng thời hỗ trợ đầu vào văn bản, hình ảnh và video, các chế độ có tư duy và không tư duy, cũng như các tác vụ đối thoại và agent.Đầu vào:$0.8/M
Đầu ra:$3.2/M
GLM-5.1 (ra mắt vào tháng 4 năm 2026), được thiết kế chuyên dụng cho các nhiệm vụ tự chủ dài hạn. Không giống các mô hình truyền thống được tối ưu cho các tương tác ngắn, GLM-5.1 vượt trội trong việc duy trì căn chỉnh mục tiêu, giảm hiện tượng trôi lệch chiến lược và cung cấp kết quả đạt chuẩn sản xuất trong khoảng thời gian kéo dài — lên đến 8 giờ làm việc tự chủ liên tục cho một nhiệm vụ phức tạp duy nhất. Đây là một bước nhảy vọt lớn trong kỹ thuật tác tử, chuyển trọng tâm đánh giá từ khả năng thông minh trong từng lượt đơn lẻ sang khả năng thực thi bền bỉ trong thế giới thực.Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một
bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.Đầu vào:$0.8/M
Đầu ra:$2.4/M
MiMo-V2-Pro là mô hình nền tảng chủ lực của Xiaomi, sở hữu hơn 1T tham số tổng và độ dài ngữ cảnh 1M, được tối ưu sâu cho các kịch bản tác tử. Nó thích ứng cao với các khung tác tử tổng quát như OpenClaw. Trên các benchmark chuẩn PinchBench và ClawBench, mô hình này nằm trong nhóm hàng đầu toàn cầu, với hiệu năng cảm nhận tiệm cận Opus 4.6. MiMo-V2-Pro được thiết kế để đóng vai trò bộ não của các hệ thống tác tử, điều phối các quy trình công việc phức tạp, thực thi các tác vụ kỹ thuật trong môi trường sản xuất và cung cấp kết quả một cách đáng tin cậy.Đầu vào:$0.32/M
Đầu ra:$1.6/M
MiMo-V2-Omni là một mô hình omni-modal tiên tiến, có khả năng xử lý trực tiếp đầu vào hình ảnh, video và âm thanh trong một kiến trúc hợp nhất. Mô hình này kết hợp khả năng nhận thức đa phương thức mạnh mẽ với năng lực tác tử - định vị trực quan, lập kế hoạch nhiều bước, sử dụng công cụ và thực thi mã - khiến nó đặc biệt phù hợp với các tác vụ phức tạp trong thế giới thực trải dài trên nhiều phương thức. Cửa sổ ngữ cảnh 256K.Bối cảnh:200k
Đầu vào:$0.96/M
Đầu ra:$3.264/M
GLM-5 Turbo là một mô hình mới từ Z.ai, được thiết kế cho suy luận nhanh và hiệu năng mạnh mẽ trong các môi trường do tác tử điều khiển, chẳng hạn như các kịch bản OpenClaw.Bối cảnh:1,050,000
GPT-5.4 là mô hình tiên tiến nhất cho công việc chuyên môn phức tạp. Reasoning.effort hỗ trợ: none (default), low, medium, high và xhigh.Đầu vào:$1.4/M
Đầu ra:$11.2/M
Mô hình GPT-5.3 Instant được sử dụng trong ChatGPTĐầu vào:$0.2/M
Đầu ra:$1.2/M
Gemini 3.1 Flash-Lite là một mô hình Tier-3 rất tiết kiệm chi phí và có độ trễ thấp trong dòng Gemini 3 của Google, được thiết kế cho các quy trình AI sản xuất khối lượng lớn, nơi thông lượng và tốc độ quan trọng hơn độ sâu suy luận tối đa. Nó kết hợp một cửa sổ ngữ cảnh đa phương thức lớn với hiệu năng suy luận hiệu quả, với chi phí thấp hơn so với phần lớn các mẫu đầu bảng.Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.