Семейство Claude 4.5 от Anthropic (в частности, Sonnet 4.5 и Opus 4.5) привносит расширенное «мышление» / внутреннее рассуждение в стиле scratchpad в линейку Claude 4. API Messages предоставляет эту возможность через объект thinking (включение/отключение + выделение budget_tokens), параметры стриминга и специальную обработку блоков содержимого «thinking» (включая подписи и редактирование).
Что такое Claude 4.5?
Claude 4.5 (представленный в семействе моделей Claude от Anthropic в вариантах Sonnet 4.5 и Opus 4.5) — это последнее поколение больших языковых моделей компании, настроенных на более глубокое рассуждение, долгосрочный контекст и производственные сценарии кодирования / агентных рабочих процессов. В анонсах и на продуктовых страницах Anthropic Sonnet 4.5 описывается как крупный шаг вперёд в кодинге, создании агентов и «использовании компьютеров» (то есть в рабочих процессах с инструментами и многошаговой автоматизации), с измеримыми улучшениями в рассуждении, математике и задачах с длинным контекстом.
Линейка семейства 4.5
- Claude Sonnet 4.5 (выпущен 29 сентября 2025 года): «Рабочая лошадка» семейства. В настоящее время он считается лучшей в мире моделью для кодинга, способной сохранять фокус на автономных задачах более 30 часов. Он сочетает скорость, стоимость и высокоуровневое рассуждение, что делает его выбором по умолчанию для большинства корпоративных приложений.
- Claude Haiku 4.5 (выпущен 15 октября 2025 года): Модель, оптимизированная по скорости. Что удивительно, теперь она поддерживает Extended Thinking, что делает её первой «малой» моделью с возможностями глубокого рассуждения, ранее доступными только пограничным моделям. Она идеально подходит для высокочастотных задач, где важна задержка, но нельзя жертвовать точностью.
- Claude Opus 4.5 (выпущен 24 ноября 2025 года): Модель с передовым уровнем интеллекта. Opus 4.5 предназначен для самых сложных и неоднозначных задач — таких как научные исследования, проектирование новой архитектуры и финансовый анализ с высокой ценой ошибки. У него самая высокая ёмкость «бюджета мышления», и он отлично справляется с самокоррекцией.
Ключевые возможности в двух словах
- Более крупные полезные окна контекста и улучшенное поведение в длительных задачах (агентные сценарии, пошаговая отладка, правки кодовой базы).
- Лучшая производительность на бенчмарках по кодингу, рефакторинге и многошаговых задачах с использованием инструментов (семейства Sonnet и Opus).
- Продвинутые возможности «thinking» (то, что Anthropic называет extended thinking / thinking mode), которые опционально открывают разработчику часть внутреннего пошагового рассуждения модели или позволяют модели расходовать на рассуждение настраиваемый «бюджет» токенов перед выдачей финального ответа.
Где можно запускать Claude 4.5
Claude 4.5 (Sonnet/Opus) доступен через собственный API Anthropic и интегрирован в CometAPI(цены API сейчас со скидкой, примерно 20% от цены Anthropic), поэтому вы можете запускать эти модели через платформу Anthropic или через сторонних облачных провайдеров, размещающих модель.
Что нового в режиме THINKING в Claude Code и Claude 4.5?
Extended thinking от Anthropic (также известный как «thinking mode», «thinking blocks» или «thinking tokens») — это функция, позволяющая модели выполнять дополнительные внутренние шаги семплирования, чтобы более тщательно рассуждать перед выдачей финального ответа. Вы включаете её, добавляя конфигурацию thinking в запрос к API Messages (например: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) или используя вспомогательные функции SDK Anthropic. Когда функция включена, API (в зависимости от модели) либо возвращает сжатую версию внутреннего рассуждения, либо полное рассуждение (с возможным редактированием по соображениям безопасности).
Чтобы понять, почему «Thinking Mode» — революционная функция, нужно посмотреть, как традиционно работают большие языковые модели (LLM). Стандартные модели — это «вероятностные генераторы текста»: они предсказывают следующий токен сразу после получения запроса. Они не «останавливаются, чтобы подумать»; они начинают говорить (генерировать) мгновенно.
Переход к «Extended Thinking»
Thinking Mode меняет эту парадигму. Когда он включён, Claude 4.5 генерирует скрытый поток «thinking tokens» ещё до того, как выведет пользователю хотя бы один видимый символ.
Видимое рассуждение (опционально): В некоторых интерфейсах, таких как Claude.ai, можно увидеть выпадающий список «Thinking», показывающий внутренний монолог модели.
Скрытое рассуждение (API): В API это отдельные блоки thinking. Модель использует это пространство, чтобы:
- Разложить запрос: Разбить сложные ограничения на части.
- Спланировать стратегию: Намечать пошаговую логику.
- Сделать черновик и раскритиковать его: Мысленно попробовать решение, найти ошибку и исправить её до представления ответа.
Interleaved Thinking
Крупное нововведение в Sonnet 4.5 — это Interleaved Thinking. В агентных рабочих процессах (где ИИ использует инструменты вроде калькулятора, интерпретатора кода или веб-браузера) стандартные модели просто вызывают инструмент, получают результат и сразу вызывают следующий инструмент.
С Interleaved Thinking Claude 4.5 может:
- Подумать о запросе пользователя.
- Вызвать Tool A (например, выполнить поиск в интернете).
- Подумать о результатах поиска («Этот результат устарел, стоит попробовать другой запрос»).
- Вызвать Tool B (например, выполнить поиск снова).
- Подумать о том, как синтезировать данные.
- Дать финальный ответ.
Этот цикл «Думать-Действовать-Думать-Действовать» радикально снижает число галлюцинаций и распространение ошибок в длинных многошаговых задачах по кодингу.
Как Claude Code отображает thinking в инструментах разработчика
В Claude Code (CLI / редакторский интерфейс) Anthropic добавила элементы UI для переключения thinking mode в интерактивных сессиях (типичный UX — нажатие Tab для включения/выключения thinking) и индикаторы текущего бюджета мышления. Некоторые старые ключевые слова-триггеры (например, think, think hard) исторически использовались для управления глубиной мышления; современные версии полагаются на явные переключатели и параметры бюджета, при этом ultrathink в некоторых контекстах всё ещё доступен. Конфигурация может быть глобальной в ~/.claude/settings.json или переопределяться для каждого запроса.
Как реализовать Thinking Mode в Claude 4.5?
Для разработчиков переход на Claude 4.5 требует изменения в том, как структурируются API-запросы. Теперь вы не просто отправляете запрос; вы управляете «бюджетом мышления».
Настройка бюджета мышления
Параметр thinking теперь является первоклассным элементом API Anthropic. Вы должны явно включить его и задать значение budget_tokens. Это значение представляет максимальный объём вычислений, который модель может потратить на внутреннее рассуждение.
Пример реализации на Python
Следующий код демонстрирует, как инициализировать сессию Claude 4.5 с включённым Extended Thinking.
import anthropic
# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# We set a high max_tokens to accommodate both thinking and the final answer
# The budget_tokens must be less than max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # Allocating 12k tokens for 'thinking'
},
messages=[
{"role": "user", "content": user_query}
]
)
# Extracting the two distinct parts of the response
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)
Ключевые технические соображения
- Общее использование токенов: Ваше общее использование — это
thinking_tokens+output_tokens. Если вы зададите бюджет 10 000 токенов, и модель использует 8 000 на мышление и 2 000 на ответ, тарификация будет идти за 10 000 выходных токенов. - Принудительное мышление: Если задача слишком проста, модель всё равно может использовать минимальное число токенов мышления, чтобы проверить простоту запроса.
Как Thinking Mode улучшает генерацию кода?
Одно из самых значительных улучшений в Claude 4.5 — это его производительность в CLI Claude Code. Когда Claude 4.5 «думает» о коде, он выполняет несколько скрытых действий, которые стандартные модели упускают.
1. Сопоставление зависимостей
Прежде чем написать хоть одну строку исправления, Claude 4.5 проходит по вашему репозиторию, чтобы понять, как изменение в utils/auth.ts может сломать компонент в views/Profile.tsx.
2. Мысленное выполнение
Модель «запускает» код в своём блоке рассуждения. Она симулирует поток логики и выявляет потенциальные race condition или ошибки на единицу.
3. Проверка ограничений
Если вы просите решение, которое «производительно и не использует внешние библиотеки», thinking mode действует как привратник. Если первое побуждение модели — предложить пакет NPM, процесс мышления поймает это нарушение и заставит модель заново продумать реализацию на чистом JavaScript.
Чем Thinking Mode отличается от традиционного prompting?
Многие пользователи знакомы с prompting в стиле «Chain of Thought» (CoT), когда вы говорите модели: «Думай пошагово». Хотя это эффективно, это не то же самое, что нативный Thinking Mode в Claude 4.5.
| Feature | Chain of Thought (Manual) | Extended Thinking (Native) |
|---|---|---|
| Mechanism | User-prompted instructions. | Built-in model architecture. |
| Token Space | Occupies visible output space. | Occupies a dedicated internal block. |
| Self-Correction | Limited; the model often "doubles down" on early mistakes. | High; the model can discard an entire reasoning path and start over. |
| Reliability | Variable based on prompt quality. | Consistently high across complex domains. |
| API Handling | Requires manual parsing of text. | Structured JSON blocks for "thinking" and "text". |
Как работает thinking mode в Claude 4.5?
Внутренний рабочий процесс (концептуально)
- Запрос пользователя: Ваше приложение отправляет запрос к API Messages, указывая модель, prompt,
max_tokensи, опционально,thinking: { type: "enabled", budget_tokens: N }. - Внутреннее рассуждение: Claude выполняет внутреннее «мышление» в пределах бюджета. Он записывает вывод рассуждения в блоки
thinking(которые могут быть представлены пользователю в сжатом виде). - Формирование вывода: API возвращает массив блоков содержимого. Обычно порядок такой: блок(и)
thinking, затем блок(и)text(финальный ответ). При стриминге вы получаете событияthinking_delta, за которыми следуют событияtext_delta. - Сохранение контекста: При использовании инструментов или многоходовых сценариев вы можете повторно отправлять предыдущие блоки thinking (без изменений), чтобы Claude мог продолжать цепочку рассуждений. Opus 4.5 ввёл поведение, при котором блоки thinking по умолчанию сохраняются для кэша/эффективности.
Технически Thinking Mode опирается на конкретную конфигурацию параметров API, которая выделяет «бюджет» токенов на рассуждение.
Концепция бюджета токенов
Когда вы делаете запрос к Claude 4.5, вы должны указать параметр budget_tokens. Это максимальное количество токенов, которое модель может использовать для своего внутреннего монолога.
- Низкий бюджет (<2 000 токенов): Подходит для быстрых sanity-check или простых логических задач.
- Высокий бюджет (10 000+ токенов): Требуется для сложной программной архитектуры, математических доказательств или написания развёрнутых юридических документов.
Модель обучена «управлять» этим бюджетом. Если она понимает, что бюджет заканчивается, она попытается завершить рассуждение и предоставить наилучший возможный ответ.
Жизненный цикл «процесса мышления»
Когда пользователь спрашивает: «Напиши Python-скрипт для парсинга этого сайта, но убедись, что он соблюдает robots.txt и обрабатывает динамическую загрузку.»
- Получение запроса: Claude читает запрос.
- Фаза мышления (скрытая):
- Самокоррекция: «Мне нужно использовать Selenium или Playwright для динамической загрузки.
requestsне подойдёт.» - Проверка безопасности: «Я должен убедиться, что у пользователя есть право на парсинг. Я добавлю дисклеймер.»
- Архитектура: «Я выстрою код на основе классового подхода для модульности.»
- Самокоррекция: «Мне нужно использовать Selenium или Playwright для динамической загрузки.
- Фаза вывода (видимая): Claude генерирует Python-код.
В предыдущих моделях ИИ мог сразу начать писать код с requests, на полпути понять, что он не подходит для динамического контента, а затем либо галлюцинировать решение, либо выдать нерабочий код. Thinking mode предотвращает этот сценарий «загнать себя в угол».
Когда следует включать thinking mode — сценарии использования и эвристики?
Сценарии, которые выигрывают больше всего
- Сложный кодинг (архитектурные изменения, многофайловый рефакторинг, длинные сессии отладки). Sonnet 4.5 явно позиционируется как лидер в кодинге и агентных сценариях при использовании thinking.
- Агентные рабочие процессы, которые многократно используют инструменты и должны сохранять внутренний контекст на протяжении многих шагов. Interleaved thinking + использование инструментов — один из основных сценариев.
- Глубокие исследования или анализ (статистический анализ, финансовое структурирование, юридическое рассуждение), где промежуточные шаги рассуждения важно просматривать или проверять.
Когда не стоит его включать
- Генерация коротких ответов или высоконагруженные низколатентные API, где критична минимальная задержка (например, чат-интерфейсы, которым нужны ответы на уровне миллисекунд).
- Задачи, где нужно минимизировать стоимость токенов на запрос, а сама задача проста или хорошо определена.
Практическая эвристика
Начинайте с минимального бюджета мышления (≈1 024 токена) и постепенно увеличивайте его для задач, которым нужна большая глубина; измеряйте точность выполнения задачи end-to-end относительно задержки и числа токенов. Для многошаговых агентных задач экспериментируйте с interleaved thinking и кэшируемыми breakpoints запроса, чтобы найти оптимальный баланс.
Заключение
Thinking Mode в Claude 4.5 — это больше, чем просто функция; это новый способ взаимодействия с искусственным интеллектом. Разделяя процесс мышления и продукт мышления, Anthropic предоставила инструмент, который стал надёжнее, прозрачнее и лучше справляется со сложностями современной корпоративной работы.
Независимо от того, используете ли вы CLI Claude Code для управления масштабной миграцией или API для создания следующего поколения автономных агентов, освоение «бюджета мышления» — ключ к успеху.
Разработчики могут получить доступ к модели Claude 4.5 через CometAPI. Для начала изучите возможности модели в CometAPI в Playground и ознакомьтесь с руководством по API для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили API-ключ. CometAPI предлагает цену значительно ниже официальной, чтобы помочь вам с интеграцией.
Готовы начать?→ Бесплатная пробная версия Claude 4.5!
