Chế độ Tư duy trong Claude 4.5: Tất cả những gì bạn cần biết

Dòng Claude 4.5 của Anthropic (đặc biệt là Sonnet 4.5 và Opus 4.5) mang đến khả năng “tư duy” mở rộng / suy luận nội bộ kiểu sổ tay cho dòng Claude 4. Messages API mở ra khả năng này thông qua một đối tượng thinking (bật/tắt + phân bổ budget_tokens), tùy chọn streaming và cách xử lý đặc biệt cho các khối nội dung “thinking” (bao gồm chữ ký và ẩn bớt). Sonnet 4.5 nhắm tới các tác vụ lập trình và tác tử, hưởng lợi mạnh từ tư duy mở rộng; Opus 4.5 bổ sung các khối tư duy được bảo lưu và các tối ưu khác.

Claude 4.5 là gì?

Claude 4.5 (công bố trong họ mô hình Claude của Anthropic dưới các biến thể Sonnet 4.5 và Opus 4.5) là thế hệ mô hình ngôn ngữ lớn mới nhất của công ty, được tinh chỉnh cho suy luận sâu, ngữ cảnh dài hạn và lập trình/chạy tác tử đạt chất lượng sản xuất. Trong thông báo và trang sản phẩm của Anthropic, Sonnet 4.5 được mô tả là bước tiến lớn cho lập trình, xây dựng tác tử và “sử dụng máy tính” (tức là quy trình có hỗ trợ công cụ và tự động hóa nhiều bước), với các cải thiện có thể đo lường trên nhiệm vụ suy luận, toán học và ngữ cảnh dài.

Dòng sản phẩm 4.5

Claude Sonnet 4.5 (Phát hành 29 Tháng 9, 2025): “Cỗ máy trụ cột” của dòng. Hiện được đánh giá là mô hình lập trình tốt nhất thế giới, có khả năng duy trì tập trung trên các tác vụ tự động trong hơn 30 giờ. Nó cân bằng tốc độ, chi phí và suy luận cấp cao, trở thành lựa chọn mặc định cho hầu hết ứng dụng doanh nghiệp.
Claude Haiku 4.5 (Phát hành 15 Tháng 10, 2025): Mô hình tối ưu tốc độ. Đáng ngạc nhiên, nay hỗ trợ Tư duy Mở rộng, trở thành mô hình “nhỏ” đầu tiên cung cấp khả năng suy luận sâu vốn trước đây chỉ dành cho các mô hình tiên phong. Lý tưởng cho tác vụ tần suất cao nơi độ trễ quan trọng nhưng không thể hy sinh độ chính xác.
Claude Opus 4.5 (Phát hành 24 Tháng 11, 2025): Mô hình trí tuệ tiên phong. Opus 4.5 được thiết kế cho những nhiệm vụ phức tạp, mơ hồ—như nghiên cứu khoa học, thiết kế kiến trúc mới, và phân tích tài chính có rủi ro cao. Nó có dung lượng “ngân sách tư duy” cao nhất và xuất sắc trong tự hiệu chỉnh.

Khả năng chính trong nháy mắt

Cửa sổ ngữ cảnh sử dụng được lớn hơn và hành vi cải thiện trong tác vụ chạy dài (quy trình tác tử, gỡ lỗi từng bước, chỉnh sửa codebase).
Hiệu năng tốt hơn trên benchmark lập trình, tái cấu trúc và tác vụ dùng công cụ nhiều bước (dòng Sonnet và Opus).
Tính năng “tư duy” nâng cao (Anthropic gọi là tư duy mở rộng / chế độ tư duy), tùy chọn hiển thị—một phần—các bước suy luận nội bộ của mô hình cho nhà phát triển hoặc cho phép mô hình tiêu tốn một “ngân sách” token có thể cấu hình để suy nghĩ trước khi tạo câu trả lời cuối.

Có thể chạy Claude 4.5 ở đâu

Claude 4.5 (Sonnet/Opus) khả dụng qua chính API của Anthropic và đã được tích hợp vào CometAPI(API pricing is currently on sale, approximately 20% of the Anthropic’s price. ), vì vậy bạn có thể chạy các mô hình này qua nền tảng của Anthropic hoặc qua các nhà cung cấp đám mây bên thứ ba lưu trữ mô hình.

Chế độ THINKING mới trong Claude Code và Claude 4.5 là gì?

Tư duy mở rộng của Anthropic (còn gọi là “chế độ tư duy”, “khối tư duy”, hoặc “thinking tokens”) là một tính năng cho phép mô hình thực hiện thêm các bước lấy mẫu nội bộ để suy luận kỹ lưỡng hơn trước khi đưa ra câu trả lời cuối. Bạn bật nó bằng cách thêm cấu hình thinking vào yêu cầu Messages API của mình (ví dụ: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) hoặc dùng các helper từ SDK của Anthropic. Khi bật, API sẽ (tùy mô hình) hoặc trả về phiên bản tóm tắt của suy luận nội bộ hoặc trả về toàn bộ suy luận (có thể bị ẩn bớt vì an toàn).

Để hiểu vì sao “Chế độ Tư duy” mang tính cách mạng, cần nhìn vào cách các Mô hình Ngôn ngữ Lớn (LLM) vận hành truyền thống. Các mô hình tiêu chuẩn là “bộ sinh văn bản xác suất”—chúng dự đoán token tiếp theo ngay sau khi nhận prompt. Chúng không “dừng lại để suy nghĩ”; chúng bắt đầu “nói” (tạo sinh) tức thì.

Dịch chuyển sang “Tư duy Mở rộng”

Chế độ Tư duy thay đổi mô hình này. Khi bật, Claude 4.5 tạo ra một dòng ẩn các “token tư duy” trước khi hiển thị một ký tự nào cho người dùng.

Lập luận hiển thị (Tùy chọn): Trong một số giao diện như Claude.ai, bạn có thể thấy một menu “Thinking” hiển thị độc thoại nội bộ của mô hình.

Lập luận ẩn (API): Trong API, đây là các khối thinking riêng biệt. Mô hình dùng không gian này để:

Phân rã prompt: Bẻ nhỏ các ràng buộc phức tạp.
Lập kế hoạch: Phác thảo logic từng bước.
Nháp và phản biện: Thử nghiệm lời giải trong đầu, tìm lỗi và sửa trước khi trình bày câu trả lời.

Tư duy đan xen

Một đổi mới lớn ở Sonnet 4.5 là Tư duy đan xen. Trong quy trình tác tử (nơi AI dùng các công cụ như máy tính, trình thông dịch code hoặc trình duyệt), các mô hình tiêu chuẩn chỉ gọi một công cụ, nhận kết quả, rồi lập tức gọi công cụ tiếp theo.

Với Tư duy đan xen, Claude 4.5 có thể:

Suy nghĩ về yêu cầu của người dùng.
Gọi Công cụ A (ví dụ: Tìm kiếm web).
Suy nghĩ về kết quả tìm kiếm (“Kết quả này đã lỗi thời, mình nên thử truy vấn khác”).
Gọi Công cụ B (ví dụ: Tìm lại).
Suy nghĩ về cách tổng hợp dữ liệu.
Phản hồi cuối cùng.

Vòng lặp “Suy nghĩ-Hành động-Suy nghĩ-Hành động” này giảm mạnh ảo giác và truyền lỗi trong các nhiệm vụ lập trình dài, nhiều bước.

Claude Code hiển thị tư duy trong công cụ nhà phát triển như thế nào

Trong Claude Code (trải nghiệm CLI / trình soạn thảo), Anthropic đã bổ sung điều khiển UI để bật/tắt chế độ tư duy cho các phiên tương tác (UX phổ biến là nhấn Tab để bật/tắt tư duy) và hiển thị chỉ báo ngân sách tư duy hiện tại. Một số từ khóa kích hoạt cũ (ví dụ, think, think hard) từng được dùng để điều khiển độ sâu tư duy; các phiên bản hiện đại dựa vào chuyển đổi rõ ràng và tham số ngân sách, với ultrathink vẫn tồn tại trong một số ngữ cảnh. Cấu hình có thể là toàn cục trong ~/.claude/settings.json hoặc ghi đè theo yêu cầu.

Làm thế nào triển khai Chế độ Tư duy của Claude 4.5?

Với nhà phát triển, chuyển sang Claude 4.5 đòi hỏi thay đổi cách cấu trúc yêu cầu API. Bạn không chỉ gửi một prompt; bạn đang quản lý một “Ngân sách Tư duy”.

Thiết lập Ngân sách Tư duy

Tham số thinking giờ đây là một tham số hạng nhất trong API của Anthropic. Bạn phải bật rõ ràng và định nghĩa giá trị budget_tokens. Giá trị này biểu thị lượng tính toán tối đa mô hình có thể dùng cho suy luận nội bộ.

Ví dụ triển khai bằng Python

import anthropic

# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # We set a high max_tokens to accommodate both thinking and the final answer
    # The budget_tokens must be less than max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocating 12k tokens for 'thinking'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Extracting the two distinct parts of the response
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)

Lưu ý kỹ thuật chính

Tổng lượng token sử dụng: Tổng của bạn là thinking_tokens + output_tokens. Nếu bạn đặt ngân sách 10,000 token và mô hình dùng 8,000 cho tư duy và 2,000 cho câu trả lời, bạn sẽ bị tính phí cho 10,000 token đầu ra.
Tư duy bắt buộc: Nếu tác vụ quá đơn giản, mô hình vẫn có thể dùng một lượng tối thiểu token tư duy để xác minh sự đơn giản của yêu cầu.

Chế độ Tư duy cải thiện sinh mã như thế nào?

Một nâng cấp đáng kể ở Claude 4.5 là hiệu năng trong CLI Claude Code. Khi Claude 4.5 “suy nghĩ” về code, nó thực hiện một số hành động ẩn mà các mô hình tiêu chuẩn bỏ qua.

1. Lập bản đồ phụ thuộc

Trước khi viết một dòng sửa lỗi, Claude 4.5 duyệt kho mã của bạn để hiểu cách một thay đổi trong utils/auth.ts có thể làm hỏng một thành phần ở views/Profile.tsx.

2. Thực thi trong đầu

Mô hình “chạy” code trong khối suy luận của nó. Nó mô phỏng luồng logic và xác định các điều kiện race hoặc lỗi lệch một.

3. Xác minh ràng buộc

Nếu bạn yêu cầu một lời giải “tối ưu hiệu năng và không dùng thư viện bên ngoài”, chế độ tư duy hoạt động như cổng kiểm soát. Nếu bản năng đầu tiên của mô hình là đề xuất một gói NPM, quá trình tư duy sẽ phát hiện vi phạm đó và buộc mô hình nghĩ lại một triển khai JavaScript thuần.

So sánh Chế độ Tư duy với nhắc lệnh truyền thống?

Nhiều người quen với nhắc lệnh “Chain of Thought” (CoT), nơi bạn bảo mô hình: “Hãy nghĩ từng bước.” Mặc dù hiệu quả, nhưng nó không giống với Chế độ Tư duy gốc của Claude 4.5.

Tính năng	Chuỗi tư duy (thủ công)	Tư duy mở rộng (gốc)
Cơ chế	Hướng dẫn do người dùng nhắc.	Kiến trúc tích hợp sẵn của mô hình.
Không gian token	Chiếm không gian đầu ra hiển thị.	Chiếm khối nội bộ dành riêng.
Tự hiệu chỉnh	Hạn chế; mô hình thường “cố chấp” với sai lầm ban đầu.	Cao; mô hình có thể loại bỏ toàn bộ lộ trình suy luận và bắt đầu lại.
Độ tin cậy	Phụ thuộc vào chất lượng prompt.	Ổn định cao trên các miền phức tạp.
Xử lý API	Cần tự phân tích văn bản thủ công.	Khối JSON có cấu trúc cho “thinking” và “text”.

Chế độ tư duy hoạt động thế nào trong Claude 4.5?

Luồng nội bộ (mang tính khái niệm)

Yêu cầu người dùng: Ứng dụng của bạn gửi yêu cầu Messages API chỉ định mô hình, prompt, max_tokens, và tùy chọn thinking: { type: "enabled", budget_tokens: N }.
Suy luận nội bộ: Claude thực hiện “tư duy” nội bộ tới mức ngân sách. Nó ghi lại đầu ra suy luận dưới dạng các khối thinking (có thể được tóm tắt cho người dùng).
Tổng hợp đầu ra: API trả về một mảng các khối nội dung. Thông thường thứ tự là khối thinking rồi khối text (câu trả lời cuối). Nếu streaming, bạn nhận các sự kiện thinking_delta tiếp theo là text_delta.
Bảo toàn ngữ cảnh: Khi dùng công cụ hoặc luồng nhiều lượt, bạn có thể gửi lại các khối tư duy trước đó (không sửa đổi) để Claude tiếp tục chuỗi tư duy. Opus 4.5 giới thiệu hành vi bảo lưu khối tư duy theo mặc định vì hiệu suất/bộ nhớ đệm.

Về mặt kỹ thuật, Chế độ Tư duy dựa trên cấu hình tham số API cụ thể phân bổ một “Ngân sách” token cho suy luận.

Khái niệm Ngân sách Token

Khi bạn tạo yêu cầu tới Claude 4.5, bạn phải chỉ định tham số budget_tokens. Đây là số token tối đa mô hình được phép dùng cho độc thoại nội bộ.

Ngân sách thấp (<2,000 token): Phù hợp cho kiểm tra nhanh hoặc câu đố logic đơn giản.
Ngân sách cao (10,000+ token): Cần thiết cho kiến trúc phần mềm phức tạp, chứng minh toán học hoặc soạn thảo tài liệu pháp lý toàn diện.

Mô hình được huấn luyện để “quản lý” ngân sách này. Nếu cảm nhận gần hết ngân sách, nó sẽ cố gắng kết thúc suy luận và cung cấp câu trả lời tốt nhất có thể.

Vòng đời “Quy trình Tư duy”

Khi người dùng hỏi: “Viết script Python để scrape trang web này, nhưng đảm bảo tôn trọng robots.txt và xử lý tải động.”

Tiếp nhận: Claude đọc prompt.
Pha Tư duy (Ẩn):
- Tự hiệu chỉnh: “Mình cần dùng Selenium hoặc Playwright cho tải động. requests sẽ không phù hợp.”
- Kiểm tra bảo mật: “Mình phải xác minh người dùng có quyền scrape. Mình sẽ thêm một lưu ý.”
- Kiến trúc: “Mình sẽ cấu trúc code theo hướng lớp để dễ mô-đun hóa.”
Pha Đầu ra (Hiển thị): Claude tạo mã Python.

Ở các mô hình trước, AI có thể bắt đầu viết code requests ngay, rồi giữa chừng nhận ra nó không hoạt động với nội dung động, và hoặc bịa giải pháp hoặc cung cấp code hỏng. Chế độ tư duy ngăn kịch bản “vẽ đến đường cụt” này.

Khi nào nên bật chế độ tư duy — trường hợp sử dụng và heuristic?

Trường hợp hưởng lợi nhiều nhất

Lập trình phức tạp (thay đổi kiến trúc, tái cấu trúc nhiều tệp, phiên gỡ lỗi dài). Sonnet 4.5 được định vị rõ ràng là dẫn đầu lập trình và tác tử khi dùng tư duy.
Quy trình tác tử dùng công cụ lặp lại và cần bảo toàn ngữ cảnh nội bộ qua nhiều bước. Tư duy đan xen + dùng công cụ là kịch bản chủ đạo.
Nghiên cứu/phân tích sâu (phân tích thống kê, cấu trúc tài chính, lập luận pháp lý) nơi các bước suy luận trung gian hữu ích để xem xét/kiểm chứng.

Khi không nên bật

Sinh câu trả lời ngắn hoặc API thông lượng cao cần độ trễ tối thiểu (ví dụ, giao diện chat cần phản hồi trong vài mili giây).
Tác vụ mà chi phí token mỗi yêu cầu cần tối thiểu và nhiệm vụ đơn giản hoặc được đặc tả rõ.

Heuristic thực tiễn

Bắt đầu với ngân sách tư duy tối thiểu (≈1,024 token) và tăng dần cho các tác vụ cần chiều sâu hơn; đo lường độ chính xác nhiệm vụ đầu-cuối so với độ trễ và token. Với tác vụ tác tử nhiều bước, thử nghiệm tư duy đan xen và các điểm dừng prompt được cache để tìm điểm cân bằng.

Kết luận

Chế độ Tư duy của Claude 4.5 không chỉ là một tính năng; đó là cách tương tác mới với trí tuệ nhân tạo. Bằng cách tách biệt “quá trình” suy nghĩ khỏi “sản phẩm” suy nghĩ, Anthropic mang đến một công cụ đáng tin cậy hơn, minh bạch hơn và có khả năng xử lý các độ phức tạp của công việc doanh nghiệp hiện đại.

Dù bạn đang dùng Claude Code CLI để quản lý một cuộc di trú quy mô lớn hay sử dụng API để xây dựng thế hệ tác tử tự chủ tiếp theo, việc nắm vững “Ngân sách Tư duy” là chìa khóa thành công.

Nhà phát triển có thể truy cập mô hình Claude 4.5 thông qua CometAPI. Để bắt đầu, hãy khám phá khả năng của mô hình trên CometAPI trong Playground và tham khảo hướng dẫn API để biết chỉ dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. Com e tAPI cung cấp mức giá thấp hơn rất nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Dùng thử miễn phí Claude 4.5!