Mô hình - Một API Truy Cập 500+ Mô Hình AI - CometAPI

Nano Banana 2

Nano Banana 2

Đầu vào:$0.4/M

Đầu ra:$2.4/M

Tổng quan về khả năng cốt lõi: Độ phân giải: Lên đến 4K (4096×4096), tương đương với Pro. Tính nhất quán hình ảnh tham chiếu: Tối đa 14 hình ảnh tham chiếu (10 đối tượng + 4 nhân vật), duy trì tính nhất quán về phong cách/nhân vật. Tỷ lệ khung hình cực đoan: Bổ sung các tỷ lệ mới 1:4, 4:1, 1:8, 8:1, phù hợp cho hình ảnh dài, poster và banner. Kết xuất văn bản: Tạo văn bản nâng cao, phù hợp cho infographics và bố cục poster marketing. Tăng cường tìm kiếm: Tích hợp Google Search + Image Search. Lý giải nền tảng: Quy trình tư duy tích hợp; các prompt phức tạp được suy luận trước khi tạo.

Claude Opus 4.6

Claude Opus 4.6

Đầu vào:$4/M

Đầu ra:$20/M

Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.

Claude Sonnet 4.6

Claude Sonnet 4.6

Đầu vào:$2.4/M

Đầu ra:$12/M

Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.

GPT-5.4 nano

GPT-5.4 nano

Bối cảnh:400,000

Đầu vào:$0.16/M

GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.

GPT-5.4 mini

GPT-5.4 mini

Bối cảnh:400,000

Đầu vào:$0.6/M

Đầu ra:$3.6/M

GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.

Claude Mythos Preview

Claude Mythos Preview

Đầu vào:$60/M

Đầu ra:$240/M

Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.

mimo-v2-pro

mimo-v2-pro

Đầu vào:$0.8/M

Đầu ra:$2.4/M

MiMo-V2-Pro là mô hình nền tảng chủ lực của Xiaomi, sở hữu hơn 1T tham số tổng và độ dài ngữ cảnh 1M, được tối ưu sâu cho các kịch bản tác tử. Nó thích ứng cao với các khung tác tử tổng quát như OpenClaw. Trên các benchmark chuẩn PinchBench và ClawBench, mô hình này nằm trong nhóm hàng đầu toàn cầu, với hiệu năng cảm nhận tiệm cận Opus 4.6. MiMo-V2-Pro được thiết kế để đóng vai trò bộ não của các hệ thống tác tử, điều phối các quy trình công việc phức tạp, thực thi các tác vụ kỹ thuật trong môi trường sản xuất và cung cấp kết quả một cách đáng tin cậy.

mimo-v2-omni

mimo-v2-omni

Đầu vào:$0.32/M

Đầu ra:$1.6/M

MiMo-V2-Omni là một mô hình omni-modal tiên tiến, có khả năng xử lý trực tiếp đầu vào hình ảnh, video và âm thanh trong một kiến trúc hợp nhất. Mô hình này kết hợp khả năng nhận thức đa phương thức mạnh mẽ với năng lực tác tử - định vị trực quan, lập kế hoạch nhiều bước, sử dụng công cụ và thực thi mã - khiến nó đặc biệt phù hợp với các tác vụ phức tạp trong thế giới thực trải dài trên nhiều phương thức. Cửa sổ ngữ cảnh 256K.

MiniMax-M2.7

MiniMax-M2.7

Đầu vào:$0.24/M

Đầu ra:$0.96/M

MiniMax-M2.7 cung cấp cùng mức độ thông minh hàng đầu như phiên bản tiêu chuẩn—bao gồm tự tiến hóa đệ quy và năng suất làm việc văn phòng ở cấp độ chuyên gia—nhưng được thiết kế cho các ứng dụng yêu cầu độ trễ dưới một giây và tốc độ sinh token cao. Tận dụng kiến trúc xương sống suy luận được tăng cường, tốc độ đầu ra của nó nhanh hơn 66% so với mô hình tiêu chuẩn (đạt 100 tps). Đây là lựa chọn ưu tiên cho các trợ lý lập trình tương tác, việc thực thi vòng lặp tác tử theo thời gian thực và các quy trình doanh nghiệp thông lượng cao với yêu cầu nghiêm ngặt về thời gian hoàn tất.

GLM 5 Turbo

GLM 5 Turbo

Bối cảnh:200k

Đầu vào:$0.96/M

Đầu ra:$3.264/M

GLM-5 Turbo là một mô hình mới từ Z.ai, được thiết kế cho suy luận nhanh và hiệu năng mạnh mẽ trong các môi trường do tác tử điều khiển, chẳng hạn như các kịch bản OpenClaw.

GPT-5.4 pro

GPT-5.4 pro

Bối cảnh:1,050,000

Đầu vào:$24/M

Đầu ra:$144/M

Phiên bản GPT-5.4 tạo ra các phản hồi thông minh hơn và chính xác hơn.

GPT-5.4

GPT-5.4

Bối cảnh:1,050,000

Đầu vào:$2/M

Đầu ra:$12/M

GPT-5.4 là mô hình tiên tiến nhất cho công việc chuyên môn phức tạp. Reasoning.effort hỗ trợ: none (default), low, medium, high và xhigh.

GPT-5.3 Chat

GPT-5.3 Chat

Đầu vào:$1.4/M

Đầu ra:$11.2/M

Mô hình GPT-5.3 Instant được sử dụng trong ChatGPT

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Đầu vào:$0.2/M

Đầu ra:$1.2/M

Gemini 3.1 Flash-Lite là một mô hình Tier-3 rất tiết kiệm chi phí và có độ trễ thấp trong dòng Gemini 3 của Google, được thiết kế cho các quy trình AI sản xuất khối lượng lớn, nơi thông lượng và tốc độ quan trọng hơn độ sâu suy luận tối đa. Nó kết hợp một cửa sổ ngữ cảnh đa phương thức lớn với hiệu năng suy luận hiệu quả, với chi phí thấp hơn so với phần lớn các mẫu đầu bảng.

Claude Haiku 4.5

Claude Haiku 4.5

Bối cảnh:200K

Đầu vào:$0.8/M

Mô hình nhanh nhất, tiết kiệm chi phí nhất.

Sora 2 Pro

Sora 2 Pro

Mỗi Giây:$0.24

Sora 2 Pro là mô hình tạo sinh đa phương tiện tiên tiến và mạnh mẽ nhất của chúng tôi, có khả năng tạo video với âm thanh được đồng bộ hóa. Nó có thể tạo các đoạn video chi tiết, sinh động từ ngôn ngữ tự nhiên hoặc hình ảnh.

Sora 2

Sora 2

Mỗi Giây:$0.08

Mô hình tạo video siêu mạnh mẽ, kèm hiệu ứng âm thanh, hỗ trợ định dạng chat.

mj_fast_video

mj_fast_video

Theo Yêu cầu:$0.6

Midjourney video generation

Qwen 3.5 Flash

Qwen 3.5 Flash

Đầu vào:$0.16/M

Đầu ra:$0.96/M

Là một mô hình thị giác–ngôn ngữ nguyên sinh, QWEN3.5-397B-A17B của dòng Qwen3.5 xuất sắc trong các đánh giá chuẩn toàn diện như suy luận, lập trình, khả năng tác tử và hiểu đa phương thức, giúp nhà phát triển và doanh nghiệp cải thiện đáng kể năng suất. Mô hình sử dụng kiến trúc lai mang tính sáng tạo, kết hợp cơ chế chú ý tuyến tính (Gated Delta Networks) với các chuyên gia hỗn hợp thưa (MoE) để đạt hiệu quả suy luận vượt trội: 397 tỷ tham số tổng cộng và chỉ 17 tỷ tham số được kích hoạt cho mỗi lần lan truyền thuận, tối ưu hóa tốc độ và chi phí đồng thời vẫn duy trì năng lực. Chúng tôi cũng đã mở rộng hỗ trợ ngôn ngữ và phương ngữ từ 119 lên 201, mang lại khả năng tiếp cận rộng hơn và hỗ trợ tốt hơn cho người dùng trên toàn thế giới.

Grok 4.20

Grok 4.20

Bối cảnh:2,000,000

Đầu vào:$1.6/M

Đầu ra:$4.8/M

Bản phát hành Grok 4.20 giới thiệu kiến trúc đa tác nhân (nhiều tác nhân chuyên biệt được điều phối theo thời gian thực), các chế độ ngữ cảnh được mở rộng, và các cải tiến tập trung vào khả năng tuân thủ hướng dẫn, giảm ảo giác, cùng đầu ra có cấu trúc/được hỗ trợ công cụ.

Grok Imagine Video

Grok Imagine Video

Mỗi Giây:$0.04

Tạo video từ prompt văn bản, làm động ảnh tĩnh hoặc chỉnh sửa video hiện có bằng ngôn ngữ tự nhiên. API hỗ trợ cấu hình thời lượng, tỷ lệ khung hình và độ phân giải cho các video được tạo — với SDK tự động xử lý việc thăm dò bất đồng bộ.

gpt-realtime-1.5

gpt-realtime-1.5

Bối cảnh:32,000

Đầu vào:$3.2/M

Đầu ra:$12.8/M

Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh.

gpt-audio-1.5

gpt-audio-1.5

Đầu vào:$2/M

Mô hình giọng nói tốt nhất cho đầu vào âm thanh, đầu ra âm thanh với Chat Completions.

GPT 5.3 Codex

GPT 5.3 Codex

Bối cảnh:400,000

Đầu vào:$1.4/M

Đầu ra:$11.2/M

GPT-5.3-Codex được tối ưu hóa cho các tác vụ lập trình theo mô hình agent trong Codex hoặc các môi trường tương tự. GPT-5.3-Codex hỗ trợ các thiết lập mức nỗ lực suy luận low, medium, high và xhigh.

Doubao Seedream 5

Doubao Seedream 5

Theo Yêu cầu:$0.028

Seedream 5.0 Lite là một mô hình tạo sinh hình ảnh đa phương thức hợp nhất, được trang bị khả năng tư duy sâu và tìm kiếm trực tuyến, mang đến nâng cấp toàn diện về khả năng hiểu, suy luận và tạo sinh.

Gemini 3.1 Pro

Gemini 3.1 Pro

Đầu vào:$1.6/M

Đầu ra:$9.6/M

Gemini 3.1 Pro là thế hệ tiếp theo trong dòng mô hình Gemini, một bộ mô hình suy luận có năng lực cao, hỗ trợ đa phương thức nguyên bản. Gemini 3 Pro hiện là mô hình tiên tiến nhất của Google dành cho các tác vụ phức tạp, và có thể hiểu các bộ dữ liệu khổng lồ cùng những bài toán khó từ nhiều nguồn thông tin khác nhau, bao gồm văn bản, âm thanh, hình ảnh, video và toàn bộ kho mã nguồn.

qwen3.5-plus

qwen3.5-plus

Đầu vào:$0.32/M

Đầu ra:$1.92/M

Các mô hình Qwen3.5 Plus thuộc dòng thị giác-ngôn ngữ nguyên sinh được xây dựng trên một kiến trúc lai, tích hợp cơ chế chú ý tuyến tính với các mô hình hỗn hợp chuyên gia thưa, qua đó đạt hiệu suất suy luận cao hơn.

qwen3.5-397b-a17b

qwen3.5-397b-a17b

Đầu vào:$0.48/M

Đầu ra:$2.88/M

Mô hình thị giác-ngôn ngữ nguyên bản Qwen3.5 series 397B-A17B được xây dựng trên một kiến trúc lai tích hợp cơ chế chú ý tuyến tính với mô hình hỗn hợp chuyên gia thưa, đạt hiệu suất suy luận cao hơn.

Doubao-Seed-2.0

Doubao-Seed-2.0

Đầu vào:$0.024/M

Đầu ra:$0.24/M

🔹 Dòng Doubao Seed 2.0 doubao-seed-2-0-code-preview-260215 Tập trung vào năng lực suy luận chuỗi dài và độ ổn định khi xử lý tác vụ phức tạp, được điều chỉnh cho các kịch bản phức tạp trong môi trường kinh doanh thực tế. Là phiên bản của Seed 2.0 được tăng cường cho lập trình, nó phù hợp hơn cho Agentic Coding. doubao-seed-2-0-lite-260215 Cân bằng giữa chất lượng tạo sinh và tốc độ phản hồi, khiến nó phù hợp làm một mô hình mục đích chung đạt chuẩn sản xuất. doubao-seed-2-0-mini-260215 Được thiết kế cho các kịch bản độ trễ thấp, mức độ đồng thời cao và nhạy cảm về chi phí. Tập trung vào phản hồi nhanh và triển khai suy luận linh hoạt, hỗ trợ tư duy bốn cấp độ và khả năng hiểu đa phương thức。

MiniMax M2.5

MiniMax M2.5

Đầu vào:$0.24/M

Đầu ra:$0.96/M

MiniMax-M2.5 là một mô hình ngôn ngữ lớn SOTA được thiết kế cho năng suất trong thế giới thực. Được huấn luyện trong nhiều môi trường làm việc số phức tạp đa dạng của thế giới thực, M2.5 phát triển dựa trên chuyên môn lập trình của M2.1 để mở rộng sang công việc văn phòng nói chung, đạt mức thành thạo trong việc tạo và thao tác với các tệp Word, Excel và Powerpoint, chuyển đổi ngữ cảnh giữa các môi trường phần mềm đa dạng, và làm việc xuyên suốt giữa các nhóm tác tử và con người khác nhau.