Chế độ Tư duy trong Claude 4.5: Tất cả những gì bạn cần biết

CometAPI
AnnaDec 30, 2025
Chế độ Tư duy trong Claude 4.5: Tất cả những gì bạn cần biết

Anthropic’s Claude 4.5 (đặc biệt là Sonnet 4.5Opus 4.5) mang khả năng “thinking” mở rộng / suy luận nội bộ kiểu scratchpad vào dòng Claude 4 của họ. Messages API cung cấp khả năng đó thông qua một đối tượng thinking (bật/tắt + hạn mức budget_tokens), các tùy chọn streaming, và cách xử lý đặc biệt cho các khối nội dung “thinking” (bao gồm chữ ký và biên tập ẩn bớt). Sonnet 4.5 nhắm đến các tác vụ lập trình và agentic, đồng thời hưởng lợi rất lớn từ extended thinking; Opus 4.5 bổ sung các khối thinking được giữ lại và các tối ưu hóa khác.

Claude 4.5 là gì?

Claude 4.5 (được Anthropic phát hành trong họ mô hình Claude dưới các biến thể Sonnet 4.5Opus 4.5) là thế hệ mô hình ngôn ngữ lớn mới nhất của công ty, được tinh chỉnh cho suy luận sâu hơn, ngữ cảnh dài hạn và các quy trình lập trình / agentic đạt chất lượng production. Trong các thông báo và trang sản phẩm của Anthropic, Sonnet 4.5 được mô tả là một bước tiến lớn cho lập trình, xây dựng agent và “sử dụng máy tính” (tức là quy trình có hỗ trợ công cụ và tự động hóa nhiều bước), với những cải thiện đo lường được về suy luận, toán học và các tác vụ ngữ cảnh dài.

Đội hình dòng 4.5

  • Claude Sonnet 4.5 (Phát hành ngày 29 tháng 9, 2025): “Ngựa thồ” của dòng sản phẩm. Hiện tại, đây được đánh giá là mô hình lập trình tốt nhất thế giới, có khả năng duy trì tập trung vào các tác vụ tự động trong hơn 30 giờ. Nó cân bằng giữa tốc độ, chi phí và suy luận cấp cao, khiến nó trở thành lựa chọn mặc định cho hầu hết các ứng dụng doanh nghiệp.
  • Claude Haiku 4.5 (Phát hành ngày 15 tháng 10, 2025): Mô hình tối ưu hóa cho tốc độ. Đáng ngạc nhiên là hiện nay nó hỗ trợ Extended Thinking, khiến nó trở thành mô hình “nhỏ” đầu tiên cung cấp khả năng suy luận sâu trước đây chỉ dành cho các mô hình frontier. Nó lý tưởng cho các tác vụ tần suất cao, nơi độ trễ quan trọng nhưng không thể đánh đổi độ chính xác.
  • Claude Opus 4.5 (Phát hành ngày 24 tháng 11, 2025): Mô hình trí tuệ frontier. Opus 4.5 được thiết kế cho các tác vụ phức tạp và mơ hồ nhất — chẳng hạn như nghiên cứu khoa học, thiết kế kiến trúc mới và phân tích tài chính có mức độ rủi ro cao. Nó có khả năng “thinking budget” cao nhất và xuất sắc ở khả năng tự hiệu chỉnh.

Các khả năng chính trong nháy mắt

  • Cửa sổ ngữ cảnh sử dụng được lớn hơn và hành vi được cải thiện trong các tác vụ chạy dài (quy trình agent, gỡ lỗi từng bước, chỉnh sửa codebase).
  • Hiệu năng tốt hơn trên các benchmark lập trình, refactor và các tác vụ nhiều bước có sử dụng công cụ (dòng Sonnet và Opus).
  • Các tính năng “thinking” nâng cao (điều Anthropic gọi là extended thinking / thinking mode) cho phép — tùy chọn — hiển thị một phần suy luận nội bộ theo từng bước cho nhà phát triển hoặc cho phép mô hình dùng một “budget” token có thể cấu hình để suy luận trước khi đưa ra câu trả lời cuối cùng.

Nơi bạn có thể chạy Claude 4.5

Claude 4.5 (Sonnet/Opus) có sẵn qua API riêng của Anthropic và đã được tích hợp vào CometAPI(giá API hiện đang được ưu đãi, xấp xỉ 20% so với giá của Anthropic. ), vì vậy bạn có thể chạy các mô hình này thông qua nền tảng của Anthropic hoặc thông qua các nhà cung cấp đám mây bên thứ ba lưu trữ mô hình.

Chế độ THINKING mới trong Claude Code và Claude 4.5 là gì?

Extended thinking của Anthropic (còn gọi là “thinking mode,” “thinking blocks,” hoặc “thinking tokens”) là một tính năng cho phép mô hình thực hiện thêm các bước lấy mẫu nội bộ để suy luận kỹ hơn trước khi tạo ra câu trả lời cuối cùng. Bạn bật nó bằng cách thêm cấu hình thinking vào yêu cầu Messages API của mình (ví dụ: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) hoặc bằng cách sử dụng các helper của Anthropic SDK. Khi được bật, API sẽ (tùy thuộc vào mô hình) либо trả về một phiên bản tóm tắt của suy luận nội bộ hoặc trả về toàn bộ suy luận (có thể bị ẩn bớt vì lý do an toàn).

Để hiểu vì sao "Thinking Mode" mang tính cách mạng, chúng ta cần nhìn vào cách các Large Language Models (LLMs) truyền thống hoạt động. Các mô hình tiêu chuẩn là những “trình tạo văn bản xác suất” — chúng dự đoán token tiếp theo ngay sau khi nhận được prompt. Chúng không “dừng lại để suy nghĩ”; chúng bắt đầu nói (sinh văn bản) ngay lập tức.

Sự chuyển dịch sang "Extended Thinking"

Thinking Mode thay đổi mô hình này. Khi được bật, Claude 4.5 tạo ra một luồng ẩn các “thinking tokens” trước khi phát ra một ký tự hiển thị nào cho người dùng.

Visible Reasoning (Tùy chọn): Trong một số giao diện như Claude.ai, bạn có thể thấy menu xổ xuống "Thinking" hiển thị độc thoại nội tâm của mô hình.

Hidden Reasoning (API): Trong API, đây là các khối thinking riêng biệt. Mô hình sử dụng không gian này để:

  • Phân tách prompt: Chia nhỏ các ràng buộc phức tạp.
  • Lập kế hoạch chiến lược: Phác thảo logic từng bước.
  • Soạn thảo và phản biện: Thử một lời giải trong đầu, tìm ra lỗi và sửa nó trước khi trình bày câu trả lời.

Interleaved Thinking

Một đổi mới lớn trong Sonnet 4.5 là Interleaved Thinking. Trong các quy trình agentic (nơi AI sử dụng các công cụ như máy tính, trình thông dịch mã hoặc trình duyệt web), các mô hình tiêu chuẩn sẽ chỉ gọi một công cụ, nhận kết quả và ngay lập tức gọi công cụ tiếp theo.

Với Interleaved Thinking, Claude 4.5 có thể:

  1. Suy nghĩ về yêu cầu của người dùng.
  2. Gọi Tool A (ví dụ: tìm kiếm trên web).
  3. Suy nghĩ về kết quả tìm kiếm ("Kết quả này đã lỗi thời, mình nên thử một truy vấn khác").
  4. Gọi Tool B (ví dụ: tìm lại).
  5. Suy nghĩ về cách tổng hợp dữ liệu.
  6. Phản hồi cuối cùng.

Vòng lặp "Think-Act-Think-Act" này làm giảm mạnh hiện tượng hallucination và sự lan truyền lỗi trong các tác vụ lập trình dài, nhiều bước.

Claude Code hiển thị thinking như thế nào trong các công cụ dành cho nhà phát triển

Trong Claude Code (trải nghiệm CLI / trình soạn thảo), Anthropic đã thêm các yếu tố giao diện để bật/tắt thinking mode cho các phiên tương tác (một UX phổ biến là nhấn Tab để bật/tắt thinking) và hiển thị chỉ báo cho thinking budget hiện tại. Một số từ khóa kích hoạt cũ hơn (ví dụ: think, think hard) từng được dùng trước đây để kiểm soát độ sâu suy nghĩ; các phiên bản hiện đại dựa vào các nút bật/tắt rõ ràng và tham số budget, với ultrathink vẫn còn dùng được trong một số ngữ cảnh. Cấu hình có thể là toàn cục trong ~/.claude/settings.json hoặc được ghi đè theo từng request.

Bạn triển khai Claude 4.5 Thinking Mode như thế nào?

Đối với các nhà phát triển, việc chuyển sang Claude 4.5 đòi hỏi thay đổi cách cấu trúc các request API. Bạn không còn chỉ gửi một prompt; bạn đang quản lý một "Thinking Budget."

Thiết lập Thinking Budget

Tham số thinking hiện là một thành phần hạng nhất trong API của Anthropic. Bạn phải bật nó một cách rõ ràng và xác định giá trị budget_tokens. Giá trị này biểu thị lượng compute tối đa mà mô hình có thể dùng cho suy luận nội bộ.

Ví dụ triển khai bằng Python

Đoạn mã sau minh họa cách khởi tạo một phiên Claude 4.5 với Extended Thinking được bật.

import anthropic

# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # We set a high max_tokens to accommodate both thinking and the final answer
    # The budget_tokens must be less than max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocating 12k tokens for 'thinking'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Extracting the two distinct parts of the response
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)

Các cân nhắc kỹ thuật quan trọng

  • Tổng mức sử dụng token: Tổng mức sử dụng của bạn là thinking_tokens + output_tokens. Nếu bạn đặt budget là 10.000 token và mô hình dùng 8.000 cho thinking và 2.000 cho câu trả lời, bạn sẽ bị tính phí cho 10.000 output token.
  • Forced Thinking: Nếu tác vụ quá đơn giản, mô hình vẫn có thể dùng một số lượng thinking token tối thiểu để xác minh rằng yêu cầu thực sự đơn giản.

Thinking Mode cải thiện việc sinh mã như thế nào?

Một trong những nâng cấp đáng kể nhất trong Claude 4.5 là hiệu năng của nó trong CLI Claude Code. Khi Claude 4.5 “suy nghĩ” về mã, nó thực hiện một số hành động ẩn mà các mô hình tiêu chuẩn bỏ qua.

1. Lập bản đồ phụ thuộc

Trước khi viết một dòng sửa lỗi nào, Claude 4.5 duyệt qua repository của bạn để hiểu việc thay đổi trong utils/auth.ts có thể làm hỏng một component trong views/Profile.tsx như thế nào.

2. Thực thi trong đầu

Mô hình “chạy” mã trong khối suy luận của nó. Nó mô phỏng luồng logic và xác định các điều kiện race condition tiềm ẩn hoặc các lỗi off-by-one.

3. Xác minh các ràng buộc

Nếu bạn yêu cầu một giải pháp “hiệu năng tốt và không dùng thư viện bên ngoài,” thinking mode đóng vai trò như một người gác cổng. Nếu bản năng đầu tiên của mô hình là đề xuất một gói NPM, quá trình thinking sẽ phát hiện vi phạm đó và buộc mô hình nghĩ lại một cách triển khai JavaScript thuần.

Thinking Mode so với prompting truyền thống như thế nào?

Nhiều người dùng quen thuộc với prompting "Chain of Thought" (CoT), nơi bạn nói với mô hình: "Hãy suy nghĩ từng bước." Dù hiệu quả, nó không giống với Thinking Mode gốc của Claude 4.5.

Tính năngChain of Thought (Thủ công)Extended Thinking (Gốc)
Cơ chếChỉ dẫn do người dùng nhắc trong prompt.Kiến trúc mô hình tích hợp sẵn.
Không gian tokenChiếm không gian đầu ra hiển thị.Chiếm một khối nội bộ chuyên dụng.
Tự hiệu chỉnhHạn chế; mô hình thường “cố chấp” với lỗi ban đầu.Cao; mô hình có thể loại bỏ toàn bộ một hướng suy luận và bắt đầu lại.
Độ tin cậyThay đổi theo chất lượng prompt.Ổn định ở mức cao trên các miền phức tạp.
Xử lý APIYêu cầu phân tích cú pháp văn bản thủ công.Các khối JSON có cấu trúc cho "thinking" và "text".

Thinking mode hoạt động như thế nào trong Claude 4.5?

Quy trình nội bộ (mang tính khái niệm)

  1. Yêu cầu người dùng: Ứng dụng của bạn gửi một request Messages API chỉ định model, prompt, max_tokens, và tùy chọn thinking: { type: "enabled", budget_tokens: N }.
  2. Suy luận nội bộ: Claude thực hiện “thinking” nội bộ trong giới hạn budget. Nó ghi đầu ra suy luận dưới dạng các khối thinking (có thể được tóm tắt cho người dùng).
  3. Tổng hợp đầu ra: API trả về một mảng các khối nội dung. Thông thường thứ tự là khối thinking, sau đó là khối text (câu trả lời cuối cùng). Nếu dùng streaming, bạn sẽ nhận các sự kiện thinking_delta trước, sau đó là các sự kiện text_delta.
  4. Giữ ngữ cảnh: Khi dùng công cụ hoặc luồng nhiều lượt, bạn có thể gửi lại các khối thinking trước đó (không chỉnh sửa) để Claude tiếp tục chuỗi suy luận. Opus 4.5 giới thiệu hành vi giữ lại các khối thinking theo mặc định để tối ưu cache/hiệu quả.

Về mặt kỹ thuật, Thinking Mode dựa vào một cấu hình tham số API cụ thể phân bổ một “Budget” token cho suy luận.

Khái niệm Token Budget

Khi bạn gửi một request đến Claude 4.5, bạn phải chỉ định tham số budget_tokens. Đây là số token tối đa mà mô hình được phép dùng cho độc thoại nội bộ.

  • Budget thấp (<2.000 token): Tốt cho kiểm tra nhanh tính hợp lý hoặc các câu đố logic đơn giản.
  • Budget cao (10.000+ token): Cần thiết cho kiến trúc phần mềm phức tạp, chứng minh toán học hoặc soạn thảo bản tư vấn pháp lý toàn diện.

Mô hình được huấn luyện để “quản lý” budget này. Nếu cảm thấy sắp hết budget, nó sẽ cố gắng kết thúc suy luận và đưa ra câu trả lời tốt nhất có thể.

Vòng đời của "Thinking Process"

Khi người dùng hỏi: "Viết một script Python để scrape website này, nhưng đảm bảo nó tôn trọng robots.txt và xử lý tải động."

  1. Tiếp nhận: Claude đọc prompt.
  2. Giai đoạn Thinking (Ẩn):
    • Tự hiệu chỉnh: "Mình cần dùng Selenium hoặc Playwright cho tải động. requests sẽ không hoạt động."
    • Kiểm tra bảo mật: "Mình phải xác minh người dùng có quyền scrape. Mình sẽ thêm một tuyên bố miễn trừ."
    • Kiến trúc: "Mình sẽ cấu trúc mã theo hướng class để tăng tính mô-đun."
  3. Giai đoạn Output (Hiển thị): Claude sinh mã Python.

Ở các mô hình trước đây, AI có thể đã bắt đầu viết mã requests ngay lập tức, rồi giữa chừng mới nhận ra nó không hoạt động với nội dung động, sau đó hoặc là bịa ra một lời giải hoặc cung cấp mã bị lỗi. Thinking mode ngăn kịch bản “tự đẩy mình vào ngõ cụt” này.

Khi nào nên bật thinking mode — các trường hợp sử dụng và heuristic?

Các trường hợp sử dụng hưởng lợi nhiều nhất

  • Lập trình phức tạp (thay đổi kiến trúc, refactor nhiều tệp, các phiên gỡ lỗi dài). Sonnet 4.5 được định vị rõ ràng là dẫn đầu về lập trình và agentic khi dùng thinking.
  • Quy trình agentic sử dụng công cụ lặp đi lặp lại và phải giữ ngữ cảnh nội bộ qua nhiều bước. Interleaved thinking + sử dụng công cụ là kịch bản trọng tâm.
  • Nghiên cứu hoặc phân tích chuyên sâu (phân tích thống kê, cấu trúc tài chính, suy luận pháp lý) nơi các bước suy luận trung gian có giá trị để kiểm tra hoặc xác minh.

Khi không nên bật

  • Tạo câu trả lời ngắn hoặc các API thông lượng cao, độ trễ thấp, nơi độ trễ tối thiểu là yếu tố sống còn (ví dụ: giao diện chat yêu cầu phản hồi ở mức mili giây).
  • Các tác vụ mà chi phí token trên mỗi request cần được giảm thiểu và bài toán đơn giản hoặc đã được mô tả rõ.

Heuristic thực tế

Bắt đầu với thinking budget tối thiểu (≈1.024 token) và tăng dần cho những tác vụ cần độ sâu cao hơn; benchmark độ chính xác đầu-cuối của tác vụ so với độ trễ và số token. Đối với các tác vụ agent nhiều bước, hãy thử nghiệm interleaved thinking và các điểm ngắt prompt được cache để tìm ra điểm cân bằng tối ưu.

Kết luận

Thinking Mode của Claude 4.5 không chỉ đơn thuần là một tính năng; đó là một cách mới để tương tác với trí tuệ nhân tạo. Bằng cách tách biệt quá trình suy nghĩ khỏi sản phẩm của suy nghĩ, Anthropic đã cung cấp một công cụ đáng tin cậy hơn, minh bạch hơn và có khả năng xử lý tốt hơn những phức tạp của công việc doanh nghiệp hiện đại.

Dù bạn đang sử dụng CLI Claude Code để quản lý một quá trình migration quy mô lớn hay sử dụng API để xây dựng thế hệ agent tự động tiếp theo, việc làm chủ "Thinking Budget" là chìa khóa để thành công.

Các nhà phát triển có thể truy cập mô hình Claude 4.5 thông qua CometAPI. Để bắt đầu, hãy khám phá năng lực mô hình của CometAPI trong Playground và tham khảo hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.

Sẵn sàng bắt đầu?→ Dùng thử miễn phí Claude 4.5!

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm