So sánh giá API LLM năm 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash và DeepSeek V4

CometAPI
AnnaMay 21, 2026
So sánh giá API LLM năm 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash và DeepSeek V4

Định giá là quyết định có tác động lớn nhất khi chọn một mô hình LLM tuyến đầu, và cũng là khía cạnh mà hầu hết các so sánh đã công bố trở nên lỗi thời chỉ sau một quý. Bài viết này đi thẳng vào vấn đề. Dưới đây là góc nhìn hiện tại, có dẫn nguồn, về giá token đầu vào và đầu ra của bốn mô hình chiếm phần lớn lưu lượng mô hình tuyến đầu trong sản xuất năm 2026 (GPT-5.5 của OpenAI, Claude Sonnet 4.6 của Anthropic, Gemini 3.5 Flash của Google và DeepSeek V4), cùng với các đòn bẩy thực sự thay đổi hóa đơn của bạn ở quy mô: lưu vào bộ nhớ đệm lời nhắc (prompt caching), xử lý theo lô (batch processing) và phụ phí ngữ cảnh dài.

Bài viết xoay quanh hai câu hỏi. Thứ nhất: theo giá niêm yết, mỗi mô hình tốn bao nhiêu cho mỗi triệu token, và mức giá niêm yết so sánh ra sao khi áp vào phần input và output thực sự tạo nên hóa đơn sản xuất? Thứ hai: khi bạn áp dụng một khối lượng công việc đại diện (100 triệu token mỗi tháng, 80% input và 20% output, với tỷ lệ trúng cache thực tế), hóa đơn hàng tháng bằng đô-la của mỗi mô hình là bao nhiêu? Câu trả lời thứ nhất thiết lập “bảng giá”; câu trả lời thứ hai cho bạn biết bảng giá đó biến thành gì khi chạm vào mẫu sử dụng trong sản xuất.

Đọc nhanh: Trên bốn mô hình tuyến đầu, giá niêm yết trải dài khoảng hai bậc độ lớn. DeepSeek V4 rẻ nhất ở mức $0.435 mỗi triệu token đầu vào; Claude Opus 4.7 đắt nhất ở mức $5.00. Hình thái tải công việc của bạn, đặc biệt là tỷ lệ trúng cache và tỷ lệ input/output, sẽ thay đổi mô hình nào rẻ nhất trên thực tế, thường theo mức chênh lớn hơn so với bảng giá gợi ý.

Vì sao so sánh giá “táo với táo” khó hơn tưởng tượng

Trang định giá của nhà cung cấp được viết cho chính khách hàng của họ, không phải cho người đang đặt bốn lựa chọn cạnh nhau. Hệ quả là việc so sánh dẫn đến ba cái bẫy dai dẳng:

  • Token không giống nhau giữa các nhà cung cấp. Claude Opus 4.7 đi kèm bộ tokenizer mới có thể tạo ra nhiều hơn đến 35% token cho cùng một văn bản đầu vào so với Opus 4.6. Tokenizer của Gemini khác với của OpenAI. Bảng giá tính theo mỗi triệu token, nhưng số token cho cùng một prompt lại khác giữa nhà cung cấp, nghĩa là giá tiêu đề chỉ là xấp xỉ đầu tiên của chi phí tương đối.
  • Bậc giá cho ngữ cảnh dài tạo ra “vách đá” chi phí. Họ GPT-5.5 của OpenAI có mức giá riêng cho ngữ cảnh ngắn và dài, kích hoạt khoảng 270.000 token. Ngược lại, Anthropic giữ nguyên đơn giá theo token trên toàn bộ cửa sổ ngữ cảnh 1M. Các tải công việc nằm sát các ngưỡng này được định giá rất khác so với các tải công việc nằm gọn bên trong.
  • Giảm giá là cộng dồn, không tách rời. Lưu cache lời nhắc, xử lý theo lô, và bậc chiết khấu theo sản lượng của từng nhà cung cấp đều có thể cắt mạnh chi phí hiệu dụng, và chúng được cộng dồn. Một yêu cầu theo lô có cache trên Anthropic có thể chỉ tốn 5% so với yêu cầu tiêu chuẩn không cache. Một so sánh giá bỏ qua các đòn bẩy này sẽ thổi phồng giá niêm yết, đôi khi đến cả một bậc độ lớn.

So sánh dưới đây chuẩn hóa các bẫy này ở mức có thể, và đánh dấu rõ ràng ở nơi không thể.

So sánh giá LLM tuyến đầu năm 2026

Tất cả số liệu tính theo đô-la Mỹ trên mỗi triệu token. Nguồn: tài liệu định giá chính thức của từng nhà cung cấp tính đến tháng 5/2026.

Mô hìnhInputOutputInput được cacheTheo lô (giảm 50%)Cửa sổ ngữ cảnhPhụ phí ngữ cảnh dài
GPT-5.5$5.00$30.00$0.50$2.50 / $15.001MCó (~270K)
Claude Sonnet 4.6$3.00$15.00$0.30$1.50 / $7.501MKhông
Claude Opus 4.7$5.00$25.00$0.50$2.50 / $12.501MKhông
Gemini 3.5 Flash$1.50$9.00$0.15$1.00 / $6.001MCó (200K)
DeepSeek V4$0.435$0.87$0.0028Không cung cấp384KKhông

Cách đọc bảng: Input được cache là mức giá trả cho các token phục vụ từ bộ nhớ đệm lời nhắc (thường là system prompt, ví dụ few-shot, hoặc tiền tố tài liệu lặp lại giữa các yêu cầu). Theo lô là mức giá cho các khối lượng công việc bất đồng bộ với độ trễ lên đến 24 giờ. Phụ phí ngữ cảnh dài cho biết liệu nhà cung cấp có tăng giá trên ngưỡng độ dài ngữ cảnh hay không; với những nơi có, ngưỡng được ghi trong ngoặc.

Khi nào mỗi mô hình vượt trội

GPT-5.5: lựa chọn mặc định năng lực cao nhất cho suy luận khó và công việc mang tính tác tử

GPT-5.5 là mô hình tuyến đầu của OpenAI cho các tải công việc chuyên nghiệp phức tạp: tác tử lập trình, lập kế hoạch nhiều bước, sử dụng công cụ chạy dài, và phân tích tài liệu nơi chiều sâu suy luận là yêu cầu chi phối. Nó cũng là mô hình đắt nhất trong số các mô hình tuyến đầu lớn của Mỹ ở phần input ($5.00 mỗi triệu) và cao nhất ở phần output ($30.00 mỗi triệu), nghĩa là nó “xứng đáng” trên các tải công việc mà lựa chọn khác là trả mức “flagship” cho một mô hình khác giải quyết kém tin cậy hơn. GPT-5.5 hỗ trợ cache với mức giảm 90%, xử lý theo lô giảm 50%, và định giá ngữ cảnh dài kích hoạt khoảng mốc 270K token—liên quan cho các codebase rất lớn hoặc ngữ cảnh toàn kho mã, nhưng không phải với các tải RAG điển hình.

Claude Sonnet 4.6: mặc định khuyến nghị cho phần lớn lưu lượng sản xuất

Sonnet 4.6 là mô hình khuyến nghị của Anthropic cho đa số khối lượng công việc sản xuất, và tỷ lệ giá-trên-năng lực là lý do. Ở mức $3 cho input và $15 cho output mỗi triệu token, nó thấp hơn GPT-5.5 ở cả hai mức trong khi cung cấp chất lượng gần Opus trên các tải công việc chi phối phần lớn hệ thống sản xuất: lập trình, phân tích, pipeline RAG, chat hướng khách hàng, và tạo đầu ra có cấu trúc. Điểm khác biệt về giá của Sonnet là cửa sổ ngữ cảnh 1M đầy đủ có sẵn ở mức giá tiêu chuẩn (không có phụ phí ngữ cảnh dài), khiến nó trở thành lựa chọn đáng tin cậy rẻ nhất cho các tải công việc đôi khi cần nạp tài liệu rất dài hoặc cả kho mã. Lưu cache lời nhắc cắt chi phí input được cache xuống 10% tiêu chuẩn, quyết định cho mọi tải công việc có system prompt ổn định.

Gemini 3.5 Flash: flagship có giá hiếu chiến nhất cho công việc ngữ cảnh ngắn

Gemini 3.5 Flash là mô hình hạng flagship rẻ nhất từ một nhà cung cấp lớn của Mỹ theo giá API thô, ở mức $1.50 input và $9.00 output mỗi triệu token. Với hầu hết lưu lượng sản xuất, đó là bậc giá liên quan, và nó rẻ hơn đáng kể so với GPT-5.5 và Claude Opus 4.7. Mức giá cao hơn so với các bản Flash trước dẫn đến chi phí tổng thể tăng trong các kịch bản tác tử tiêu tốn nhiều token (chi phí Intelligence Index cao hơn 5,5 lần so với Gemini 3 Flash do giá + mức sử dụng).. Đặc điểm khác biệt khác của Gemini là tầng miễn phí thực sự trong Google AI Studio, hữu ích cho thử nghiệm nhưng không liên quan đến mô hình chi phí sản xuất.

DeepSeek V4: rẻ hơn rất nhiều, với những lưu ý đáng hiểu đúng

DeepSeek V4 niêm yết $0.435 mỗi triệu token input và $0.87 mỗi triệu token output, rẻ hơn từ năm đến bảy mươi lần so với các mô hình tuyến đầu của Mỹ tùy đối chiếu với mô hình nào. Bản thân mô hình cạnh tranh trên nhiều benchmark, đặc biệt về suy luận và mã. Các lưu ý cần nói rõ: dữ liệu được xử lý tại Trung Quốc, điều này là không thể chấp nhận với một số tải công việc có quy định; chất lượng tiếng Anh mạnh nhưng mô hình được tối ưu khác với các mô hình tuyến đầu của Mỹ, và thử nghiệm so sánh trực tiếp trên tải công việc cụ thể của bạn là điều bắt buộc chứ không tùy chọn. Với các tải công việc chấp nhận được những lưu ý này, DeepSeek thực sự thay đổi phương trình chi phí.

Ghi chú về Claude Opus 4.7 so với Sonnet 4.6. Opus được đưa vào bảng để đầy đủ, nhưng với phần rất lớn lưu lượng sản xuất, Sonnet 4.6 là lựa chọn kinh tế tốt hơn. Opus đắt gấp 1,67 lần Sonnet ở cả input và output, và với các tải công việc mà Sonnet là đủ (tức là phần lớn), mức chênh đó không có lợi ích bù đắp. Hãy chọn Opus khi đánh giá cho thấy Sonnet thất bại ở một lớp tác vụ cụ thể: tác tử lập trình tự chủ cao, quy trình công việc chuyên nghiệp tầm nhìn dài, và các tác vụ mà độ tuân thủ hướng dẫn ở biên là quyết định.

Ví dụ tính toán: 100 triệu token mỗi tháng thực sự tốn bao nhiêu

Giá tiêu đề theo mỗi triệu token nghĩa lý ít cho đến khi chạm vào một khối lượng công việc đại diện. Ví dụ dưới đây dùng một hồ sơ xấp xỉ hệ thống sản xuất không nhỏ: tổng 100 triệu token mỗi tháng, chia 80% input (80M) và 20% output (20M), với tỷ lệ trúng cache 30% trên phần input. Mẫu hình này đại diện khá sát một tải chat hướng khách hàng hoặc RAG với system prompt và ngữ cảnh tài liệu ổn định.

Cách tính cho mỗi mô hình: chi phí input được cache + chi phí input không cache + chi phí output. Input được cache được tính ở 10% mức tiêu chuẩn cho các nhà cung cấp có hỗ trợ cache.

Mô hìnhInput được cache (24M)Input không cache (56M)Output (20M)Tổng hóa đơn hàng tháng
GPT-5.5$12.00$280.00$600.00$892.00
Claude Sonnet 4.6$7.20$168.00$300.00$475.20
Claude Opus 4.7$12.00$280.00$500.00$792.00

Ý nghĩa của bảng. Trên một tải công việc đại diện, Sonnet 4.6 rẻ khoảng một nửa so với GPT-5.5. DeepSeek thì ở một “vũ trụ” chi phí khác hoàn toàn. Đây là các con số giá niêm yết; áp dụng xử lý theo lô nơi đủ điều kiện sẽ cắt thêm 50% trên input và output (nhưng không áp cho phần cache).

Hai nhận định đáng ghi nhớ. Thứ nhất: cache là đòn bẩy tác động lớn nhất bạn kiểm soát. Ví dụ trên giả định tỷ lệ trúng cache 30%; nâng lên 60% (hoàn toàn đạt được với tải có system prompt ổn định), tổng chi phí giảm thêm khoảng 25%. Thứ hai: tỷ lệ input/output rất quan trọng. Các tải thiên về output (tóm tắt, viết dài) thiên về nhà cung cấp có mức output rẻ hơn, trong khi các tải thiên về input (phân tích ngữ cảnh dài, truy xuất RAG lớn) thiên về nhà cung cấp có input rẻ hơn và không có phụ phí ngữ cảnh dài.

Các chi phí ẩn không có trên trang định giá

Giá niêm yết là “sàn”, không phải “trần”. Năm chi phí bổ sung đáng lập ngân sách rõ ràng, vì chúng thường xuyên gây bất ngờ cho các đội ngũ mở rộng từ thử nghiệm sang sản xuất:

  1. Token suy luận. Các mô hình có chế độ suy luận mở rộng (GPT-5.5 Thinking, DeepSeek V4 thinking mode) tạo ra nội dung suy luận nội bộ được tính là token output. Một lần gọi suy luận nỗ lực cao trên prompt dài có thể chạy 20.000 token suy luận, tương đương $0.60 chi phí output trên GPT-5.5 trước cả khi phản hồi hiển thị được tạo. Lập ngân sách theo tải công việc, không theo yêu cầu.
  2. Phụ phí ngữ cảnh dài. Cả Gemini 3.5 Flash và GPT-5.5 đều tăng giá trên ngưỡng độ dài ngữ cảnh. Pipeline RAG bao gồm tài liệu lớn có thể âm thầm đẩy mọi yêu cầu vào bậc giá cao hơn mà không ai nhận ra cho đến khi hóa đơn về. Đo độ dài prompt thực tế trong sản xuất và kiểm tra xem bạn có vượt ngưỡng hay không.
  3. Hệ số nhân cho lưu trú dữ liệu. Anthropic thu thêm 10% cho suy luận chỉ tại Mỹ với Opus 4.7 và Sonnet 4.6. OpenAI áp mức cộng 10% trên các endpoint lưu trú dữ liệu cho họ GPT-5.4. Với các tải công việc có yêu cầu quy định, hãy tính yếu tố này vào bảng giá ngay từ ngày đầu.
  4. Độ dài đầu ra “trôi”. Khi phiên bản mô hình mới “kỹ lưỡng” hơn mặc định (như được nói về Opus 4.7 so với Opus 4.6), số token output mỗi phản hồi có thể tăng lên dù độ dài input giữ nguyên. Output được định giá cao gấp 5 lần input trên dòng Anthropic, nên đầu ra dài hơn 20% là tăng 20% trên chi phí chi phối.
  5. Yêu cầu thất bại và thử lại. Hầu hết nhà cung cấp không tính phí lỗi 4xx và 5xx, nhưng họ tính cho các lần sinh dở dang và các lần thử lại thành công lần thứ hai. Trong hệ thống sản xuất có logic retry chủ động, điều này có thể cộng thêm vài phần trăm vào hóa đơn. Đáng biết khi đối soát hóa đơn nhà cung cấp với chi phí dự kiến.

Vai trò của CometAPI

Cả bốn mô hình trên, cộng hơn 500 mô hình khác, đều có trên CometAPI qua một endpoint tương thích OpenAI duy nhất, với một thông tin xác thực, hóa đơn hợp nhất, và không cần thiết lập tài khoản theo từng nhà cung cấp. Định giá trên CometAPI được tính theo token theo đúng mức giá từng mô hình do nhà cung cấp gốc công bố, với credit mua trước và dùng cho bất kỳ mô hình nào trong danh mục. Giá trị của việc đi qua CometAPI là vận hành chứ không phải trên mỗi token: một thông tin xác thực để quản lý, một hóa đơn để đối soát, và khả năng chuyển từ GPT-5.5 sang Claude Sonnet 4.6 sang Gemini 3.5 Flash chỉ bằng cách đổi một chuỗi duy nhất trong mã của bạn.

Có những tải công việc mà truy cập trực tiếp nhà cung cấp là lựa chọn đúng. Nếu bạn chạy một tải công việc đơn mô hình ở khối lượng rất lớn trên một nhà cung cấp, với hợp đồng doanh nghiệp đã đàm phán, kinh tế đơn vị khi đi trực tiếp sẽ tốt hơn. Nếu tư thế tuân thủ của bạn yêu cầu quan hệ vendor-of-record cụ thể, một bộ tổng hợp sẽ làm câu chuyện đó phức tạp hơn thay vì đơn giản hóa. Với đa số đội ngũ vận hành tải sản xuất đa mô hình, tuy nhiên, ma sát vận hành khi quản lý ba hay bốn mối quan hệ trực tiếp với nhà cung cấp tự thân đã là một chi phí đáng kể, thứ mà bảng giá không phản ánh.

Hãy thử so sánh trên tải công việc của bạn. Tầng miễn phí trên CometAPI cho phép bạn chạy cùng một prompt với GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash và DeepSeek V4 từ một endpoint duy nhất, không cần đăng ký riêng lẻ. Cho một quyết định chi phí theo tải công việc, bài tập một giờ đó giá trị hơn mọi so sánh giá từng được xuất bản.

Cách sử dụng so sánh này

Mô hình phù hợp cho tải công việc của bạn phụ thuộc vào khía cạnh nào của bảng giá quan trọng nhất với hình thái lưu lượng của bạn. Khung quyết định thực tế:

  • Nếu độ sâu suy luận là nút thắt (quy trình mang tính tác tử, lập kế hoạch nhiều bước phức tạp, các tác vụ lập trình khó nhất), hãy bắt đầu với GPT-5.5 hoặc Claude Opus 4.7. Mức giá cao là có thật nhưng đáng giá trên các tải công việc này.
  • Nếu bạn muốn tỷ lệ giá-trên-năng lực tốt nhất cho lưu lượng sản xuất nói chung, Claude Sonnet 4.6 là mặc định khuyến nghị. Năng lực gần tuyến đầu, cửa sổ ngữ cảnh 1M đầy đủ ở mức giá tiêu chuẩn, và hỗ trợ cache mạnh.
  • Nếu bạn nhạy cảm về chi phí và tải công việc của bạn nằm dưới ngưỡng 200K ngữ cảnh, Gemini 3.5 Flash là lựa chọn hạng flagship đáng tin cậy rẻ nhất từ một nhà cung cấp lớn của Mỹ.
  • Nếu tải công việc của bạn khối lượng lớn và bị chi phối bởi giá, và chính sách lưu trú dữ liệu của DeepSeek là chấp nhận được, V4 thay đổi phương trình chi phí đủ nhiều để đáng để đánh giá nghiêm túc, đặc biệt với các tải dạng theo lô.

Muốn đi xa hơn trong tối ưu chi phí? Dữ liệu định giá ở trên là nền tảng cho “định tuyến”: thực hành gửi các truy vấn khác nhau tới các mô hình khác nhau dựa trên mô hình nào xử lý với chi phí thấp nhất. Bài viết đi kèm, Cắt một nửa chi phí API LLM: Hướng dẫn định tuyến mô hình cho tải công việc sản xuất năm 2026, trình bày các mẫu định tuyến biến bảng giá này thành tiết kiệm thực sự trên hóa đơn hàng tháng của bạn.

Sẵn sàng giảm 20% chi phí phát triển AI?

Bắt đầu miễn phí trong vài phút. Bao gồm tín dụng dùng thử miễn phí. Không cần thẻ tín dụng.

Đọc thêm