So sánh giá API LLM năm 2026: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash và DeepSeek V4

Định giá là quyết định có ảnh hưởng lớn nhất khi chọn một LLM tiên phong, và đây cũng là维度 mà hầu hết các so sánh công khai trở nên lỗi thời trong vòng một quý. Bài viết này đi thẳng vào vấn đề. Dưới đây là cái nhìn cập nhật, có nguồn dẫn về giá token đầu vào và đầu ra của bốn mô hình chiếm phần lớn lưu lượng mô hình tiên phong trong sản xuất năm 2026 (GPT-5.5 của OpenAI, Claude Sonnet 4.6 của Anthropic, Gemini 3.5 Flash của Google và DeepSeek V4), cùng với các đòn bẩy có thể thay đổi đáng kể hóa đơn của bạn ở quy mô: bộ nhớ đệm prompt, xử lý theo lô và phụ phí ngữ cảnh dài.

Bài viết xoay quanh hai câu hỏi. Thứ nhất: theo giá niêm yết, mỗi mô hình tốn bao nhiêu trên mỗi triệu token, và các mức giá được trích dẫn so sánh như thế nào trên đầu vào và đầu ra thực sự quyết định hóa đơn sản xuất? Thứ hai: khi bạn áp một tải công việc đại diện (100 triệu token mỗi tháng, 80% đầu vào và 20% đầu ra, với tỷ lệ cache hit thực tế), hóa đơn hàng tháng bằng đô la trên mỗi mô hình là bao nhiêu? Câu trả lời đầu tiên xác lập bảng giá niêm yết; câu trả lời thứ hai cho thấy bảng giá đó trở thành gì khi chạm vào một mẫu hình sản xuất thực tế.

Đọc nhanh: Trên bốn mô hình tiên phong, giá niêm yết trải dài khoảng hai bậc độ lớn. DeepSeek V4 rẻ nhất ở mức $0.435 trên mỗi triệu token đầu vào; Claude Opus 4.7 đắt nhất ở mức $5.00. Hình thái tải công việc của bạn, đặc biệt là tỷ lệ cache hit và tỷ lệ đầu vào so với đầu ra, sẽ quyết định mô hình nào rẻ nhất trong thực tế, thường chênh lệch nhiều hơn bảng giá gợi ý.

Vì sao so sánh giá “táo với táo” khó hơn tưởng

Các trang giá của nhà cung cấp được viết cho chính khách hàng của họ, không phải cho người đang đánh giá bốn lựa chọn cạnh nhau. Hệ quả là việc so sánh tạo ra ba cái bẫy dai dẳng:

Token không giống nhau giữa các nhà cung cấp. Claude Opus 4.7 đi kèm bộ tokenizer mới có thể tạo ra nhiều hơn đến 35% token cho cùng một văn bản đầu vào so với Opus 4.6. Tokenizer của Gemini khác với OpenAI. Bảng giá là trên mỗi triệu token, nhưng số token cho prompt giống hệt nhau lại khác giữa các nhà cung cấp, nghĩa là mức giá tiêu đề chỉ là xấp xỉ đầu tiên về chi phí tương đối.
Các bậc giá cho ngữ cảnh dài tạo vách giá. Họ GPT-5.5 của OpenAI có mức giá riêng cho ngữ cảnh ngắn và dài, kích hoạt khoảng 270.000 token. Ngược lại, Anthropic giữ nguyên giá theo token trên toàn bộ cửa sổ ngữ cảnh 1M. Các tải công việc nằm gần các ngưỡng này có giá rất khác so với những tải nằm gọn bên trong.
Chiết khấu là cộng dồn, không tách biệt. Bộ nhớ đệm prompt, xử lý theo lô và các bậc dung lượng theo nhà cung cấp đều có thể cắt giảm đáng kể chi phí hiệu dụng, và chúng cộng dồn. Một yêu cầu theo lô có cache trên Anthropic có thể chỉ tốn 5% so với yêu cầu tiêu chuẩn không cache. Một so sánh giá bỏ qua các đòn bẩy này sẽ thổi phồng giá niêm yết, đôi khi lên tới một bậc độ lớn.

So sánh dưới đây chuẩn hóa các bẫy này ở mức có thể, và chỉ rõ nơi không thể.

So sánh giá LLM tiên phong năm 2026

Tất cả con số tính bằng đô la Mỹ trên mỗi triệu token. Nguồn từ tài liệu giá chính thức của từng nhà cung cấp tính đến tháng 5/2026.

Model	Input	Output	Cached input	Batch (50% off)	Context window	Long-context surcharge
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Có (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	Không
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	Không
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Có (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Không cung cấp	384K	Không

Cách đọc bảng: Cached input là mức áp dụng cho token được phục vụ từ cache prompt (thường là system prompt, ví dụ few-shot, hoặc tiền tố tài liệu lặp lại qua nhiều yêu cầu). Batch là mức áp dụng cho khối lượng công việc bất đồng bộ với độ trễ tối đa 24 giờ. Phụ phí ngữ cảnh dài cho biết nhà cung cấp có tăng giá trên ngưỡng độ dài ngữ cảnh hay không; với những nơi có, ngưỡng được ghi trong ngoặc.

Điểm mạnh của từng mô hình

GPT-5.5: mặc định năng lực cao nhất cho lập luận khó và công việc mang tính tác tử

GPT-5.5 là mô hình tiên phong của OpenAI cho các tải chuyên nghiệp phức tạp: tác tử viết mã, lập kế hoạch nhiều bước, sử dụng công cụ kéo dài, và phân tích tài liệu nơi chiều sâu lập luận là yêu cầu chi phối. Đây cũng là mô hình đắt nhất trong số các mô hình tiên phong của Mỹ về đầu vào ($5.00 trên mỗi triệu) và cao nhất về đầu ra ($30.00 trên mỗi triệu), tức nó xứng đáng khi xử lý các tải mà thay thế là trả giá “đầu bảng” cho mô hình khác nhưng giải quyết kém tin cậy hơn. GPT-5.5 hỗ trợ cache với mức giảm 90%, xử lý theo lô giảm 50%, và giá ngữ cảnh dài kích hoạt quanh mốc 270K token, điều này liên quan tới các codebase rất dài hoặc bối cảnh toàn bộ kho mã, nhưng không phổ biến với các tải RAG điển hình.

Claude Sonnet 4.6: khuyến nghị mặc định cho đa số lưu lượng sản xuất

Sonnet 4.6 là mô hình được Anthropic khuyến nghị cho đa số tải sản xuất, và tỷ lệ giá/khả năng là lý do. Ở mức $3 đầu vào và $15 đầu ra trên mỗi triệu token, nó thấp hơn GPT-5.5 ở cả hai trong khi cung cấp chất lượng tiệm cận Opus trên các tải chiếm ưu thế trong hầu hết hệ thống sản xuất: lập trình, phân tích, pipeline RAG, chat hướng khách hàng, và sinh đầu ra có cấu trúc. Điểm khác biệt về giá của Sonnet là toàn bộ cửa sổ ngữ cảnh 1M có sẵn ở mức giá tiêu chuẩn (không có phụ phí ngữ cảnh dài), điều này khiến nó trở thành lựa chọn tiết kiệm nhất cho các tải đôi khi cần nạp tài liệu rất dài hoặc toàn bộ kho mã. Bộ nhớ đệm prompt cắt chi phí đầu vào được cache xuống 10% chuẩn, mang tính quyết định cho bất kỳ tải nào có system prompt ổn định.

Gemini 3.5 Flash: “flagship” được định giá quyết liệt nhất cho công việc ngữ cảnh ngắn

Gemini 3.5 Flash là mô hình hạng đầu bảng rẻ nhất từ một nhà cung cấp lớn của Mỹ theo giá API gốc, ở mức $1.50 đầu vào và $9.00 đầu ra trên mỗi triệu token. Với phần lớn lưu lượng sản xuất, đó là bậc giá liên quan, và thấp hơn đáng kể cả GPT-5.5 và Claude Opus 4.7. Mức giá cao hơn so với các bản Flash trước dẫn đến chi phí tổng thể tăng trong các kịch bản tác tử nặng token (chi phí trên Intelligence Index cao gấp 5.5 lần so với Gemini 3 Flash do giá + mức sử dụng). Điểm khác biệt khác của Gemini là gói miễn phí thực sự trong Google AI Studio, hữu ích khi thử nghiệm nhưng không liên quan tới mô hình chi phí sản xuất.

DeepSeek V4: rẻ hơn rất nhiều, với các lưu ý đáng quan tâm

DeepSeek V4 niêm yết $0.435 trên mỗi triệu token đầu vào và $0.87 trên mỗi triệu token đầu ra, rẻ hơn từ năm đến bảy mươi lần so với các mô hình tiên phong của Mỹ tùy đối chiếu. Bản thân mô hình cạnh tranh tốt trên nhiều benchmark, đặc biệt về lập luận và mã. Các lưu ý cần nói rõ: dữ liệu được xử lý ở Trung Quốc, điều này không khả thi cho một số tải có quy định; chất lượng tiếng Anh rất tốt nhưng mô hình được tối ưu khác so với các mô hình tiên phong của Mỹ, và thử nghiệm trực tiếp đầu-đầu trên tải cụ thể của bạn là điều bắt buộc chứ không phải tùy chọn. Với những tải mà các lưu ý này chấp nhận được, DeepSeek thực sự thay đổi bài toán chi phí.

Ghi chú về Claude Opus 4.7 so với Sonnet 4.6. Opus được đưa vào bảng cho đầy đủ, nhưng với đại đa số lưu lượng sản xuất, Sonnet 4.6 là lựa chọn kinh tế hơn. Opus đắt gấp 1,67 lần Sonnet ở cả đầu vào và đầu ra, và với các tải mà Sonnet đáp ứng đủ (vốn là đa số), mức chênh này không có lợi ích bù trừ. Hãy dùng Opus khi đánh giá cho thấy Sonnet thất bại trên một lớp tác vụ cụ thể: tác tử lập trình tự chủ cao, quy trình chuyên nghiệp tầm nhìn dài, và các tác vụ nơi tuân thủ hướng dẫn ở biên là quyết định.

Ví dụ tính toán: 100 triệu token mỗi tháng thực tế tốn bao nhiêu

Giá tiêu đề trên mỗi triệu token ít ý nghĩa cho đến khi áp vào một tải công việc đại diện. Ví dụ dưới đây dùng một cấu hình gần với hệ thống sản xuất không nhỏ: tổng 100 triệu token mỗi tháng, chia 80% đầu vào (80M) và 20% đầu ra (20M), với tỷ lệ cache hit 30% trên phần đầu vào. Mẫu này khá đại diện cho chat hướng khách hàng hoặc tải RAG với system prompt và ngữ cảnh tài liệu ổn định.

Công thức cho mỗi mô hình: chi phí đầu vào cache + chi phí đầu vào không cache + chi phí đầu ra. Đầu vào cache được tính 10% mức chuẩn đối với nhà cung cấp có hỗ trợ cache.

Model	Cached input (24M)	Uncached input (56M)	Output (20M)	Total monthly bill
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

Điều này cho bạn thấy gì. Trên một tải đại diện, Sonnet 4.6 rẻ khoảng một nửa so với GPT-5.5. DeepSeek thì ở một “vũ trụ chi phí” khác hoàn toàn. Đây là số theo giá niêm yết; áp dụng xử lý theo lô nơi phù hợp sẽ cắt tiếp 50% trên phần đầu vào và đầu ra (không áp dụng cho phần cache hit).

Hai nhận xét đáng ghi nhớ. Thứ nhất: cache là đòn bẩy tác động lớn nhất bạn có thể kiểm soát. Ví dụ trên giả định tỷ lệ cache hit 30%; tăng lên 60% (hoàn toàn đạt được với các tải có system prompt ổn định), tổng chi phí giảm thêm khoảng 25%. Thứ hai: tỷ lệ đầu vào/đầu ra rất quan trọng. Các tải nặng đầu ra (tổng hợp, viết dài) thiên về nhà cung cấp có giá đầu ra rẻ hơn, trong khi các tải nặng đầu vào (phân tích ngữ cảnh dài, truy xuất RAG lớn) thiên về nhà cung cấp có giá đầu vào rẻ và không có phụ phí ngữ cảnh dài.

Các chi phí ẩn không có trên trang giá

Giá niêm yết là sàn, không phải trần. Năm khoản chi phí bổ sung đáng để bạn dự trù rõ ràng, vì chúng thường gây bất ngờ khi đội ngũ mở rộng từ thử nghiệm sang sản xuất:

Token lập luận. Các mô hình có chế độ lập luận mở rộng (GPT-5.5 Thinking, chế độ thinking của DeepSeek V4) tạo ra nội dung lập luận nội bộ được tính là token đầu ra. Một lần gọi lập luận cường độ cao trên prompt dài có thể chạy 20.000 token lập luận, tức $0.60 chi phí đầu ra trên GPT-5.5 trước khi phản hồi hiển thị được tạo. Lập ngân sách theo tải, không theo yêu cầu đơn lẻ.
Phụ phí ngữ cảnh dài. Cả Gemini 3.5 Flash và GPT-5.5 đều tăng giá trên một ngưỡng độ dài ngữ cảnh. Pipeline RAG có tài liệu lớn có thể âm thầm đẩy mọi yêu cầu vào bậc giá cao hơn mà không ai để ý cho tới khi hóa đơn tới. Hãy đo độ dài prompt thực tế trong sản xuất và kiểm tra liệu bạn có vượt ngưỡng hay không.
Hệ số cư trú dữ liệu. Anthropic tính phụ phí 10% cho suy luận chỉ tại Hoa Kỳ trên Opus 4.7 và Sonnet 4.6. OpenAI áp hệ số 10% trên các endpoint cư trú dữ liệu cho họ GPT-5.4. Với các tải có yêu cầu tuân thủ, hãy tính điều này vào bảng giá ngay từ ngày đầu.
Trôi dạt độ dài đầu ra. Khi phiên bản mô hình mới “kỹ lưỡng” hơn theo mặc định (như Opus 4.7 được cho là so với Opus 4.6), số token đầu ra mỗi phản hồi có thể tăng kể cả khi độ dài đầu vào không đổi. Trên Anthropic, đầu ra được định giá cao gấp 5 lần đầu vào, vì vậy 20% trôi dạt độ dài đầu ra là 20% tăng ở yếu tố chi phối chi phí.
Yêu cầu thất bại và thử lại. Đa số nhà cung cấp không tính phí các lỗi 4xx và 5xx, nhưng họ tính phí cho các lần sinh dở dang và thử lại thành công ở lần kế tiếp. Trong hệ thống sản xuất có logic thử lại chủ động, điều này có thể cộng thêm vài phần trăm vào hóa đơn. Đáng biết khi đối soát hóa đơn nhà cung cấp với chi phí dự kiến.

CometAPI phù hợp như thế nào

Cả bốn mô hình trên, cùng hơn 500 mô hình khác, đều có mặt qua CometAPI trên một endpoint tương thích OpenAI, với một thông tin xác thực, hóa đơn hợp nhất, và không cần thiết lập tài khoản theo nhà cung cấp. Giá trên CometAPI được đo theo token tại chính mức giá theo mô hình do nhà cung cấp nền công bố, với tín dụng mua trước và dùng cho bất kỳ mô hình nào trong danh mục. Giá trị của việc định tuyến qua CometAPI là vận hành chứ không phải theo token: một thông tin xác thực để quản lý, một hóa đơn để đối soát, và khả năng chuyển từ GPT-5.5 sang Claude Sonnet 4.6 hay Gemini 3.5 Flash chỉ bằng cách đổi một chuỗi trong mã của bạn.

Vẫn có các tải mà truy cập trực tiếp nhà cung cấp là lựa chọn đúng. Nếu bạn chạy một tải đơn mô hình ở khối lượng rất lớn trên một nhà cung cấp, với hợp đồng doanh nghiệp đã thương lượng, đơn giá khi đi trực tiếp sẽ tốt hơn. Nếu tư thế tuân thủ của bạn đòi hỏi quan hệ vendor-of-record cụ thể, một bộ tập hợp sẽ làm phức tạp thay vì đơn giản hóa cuộc trao đổi đó. Tuy nhiên, với đa số đội ngũ chạy tải sản xuất đa mô hình, ma sát vận hành khi quản lý ba hoặc bốn mối quan hệ trực tiếp với nhà cung cấp tự nó là một chi phí đáng kể mà bảng giá không phản ánh.

Hãy thử so sánh trên tải công việc của bạn. Gói miễn phí trên CometAPI cho phép bạn chạy cùng một prompt với GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash và DeepSeek V4 từ một endpoint duy nhất, không cần đăng ký riêng. Với quyết định chi phí theo tải công việc, bài tập một giờ đó giá trị hơn bất kỳ so sánh giá nào từng được công bố.

Cách sử dụng so sánh này

Mô hình phù hợp cho tải công việc của bạn phụ thuộc vào chiều nào của bảng giá quan trọng nhất với hình thái lưu lượng của bạn. Một khung quyết định thực tiễn:

Nếu độ sâu lập luận là nút thắt (quy trình tác tử, lập kế hoạch nhiều bước phức tạp, các tác vụ lập trình khó nhất), hãy bắt đầu với GPT-5.5 hoặc Claude Opus 4.7. Khoản premium là có thật nhưng xứng đáng trên các tải này.
Nếu bạn muốn tỷ lệ giá/khả năng tốt nhất cho lưu lượng sản xuất nói chung, Claude Sonnet 4.6 là mặc định được khuyến nghị. Khả năng gần mức tiên phong, cửa sổ ngữ cảnh 1M ở giá tiêu chuẩn, và hỗ trợ cache mạnh.
Nếu bạn nhạy cảm chi phí và tải công việc của bạn dưới ngưỡng 200K ngữ cảnh, Gemini 3.5 Flash là lựa chọn hạng đầu bảng rẻ nhất từ một nhà cung cấp lớn của Mỹ.
Nếu tải của bạn khối lượng lớn và bị chi phối bởi giá, và tư thế cư trú dữ liệu của DeepSeek là chấp nhận được, V4 thay đổi bài toán chi phí đủ nhiều để đáng cân nhắc nghiêm túc, đặc biệt cho các tải dạng theo lô.

Muốn đi xa hơn trong tối ưu chi phí? Dữ liệu giá ở trên là nền tảng cho định tuyến: thực hành gửi các truy vấn khác nhau tới các mô hình khác nhau dựa trên mô hình nào xử lý được với chi phí thấp nhất. Bài viết đi kèm, Cắt đôi chi phí API LLM: Hướng dẫn định tuyến mô hình cho tải sản xuất năm 2026, trình bày các mẫu định tuyến biến bảng giá này thành khoản tiết kiệm thực sự trên hóa đơn hàng tháng của bạn.