Интеграция LiteLLM с CometAPI — практическое руководство для инженеров

CometAPI
AnnaSep 3, 2025
Интеграция LiteLLM с CometAPI — практическое руководство для инженеров

За последние несколько месяцев ландшафт ИИ быстро изменился: OpenAI предоставил разработчикам GPT-5 и обновил свой стек реального времени; Anthropic обновил Claude и его политики использования данных; а Google глубже проникла в экосистему домашних и умных устройств с помощью Gemini. Эти изменения важны, поскольку они меняют, к каким моделям вы хотите обращаться и как вы будете их отслеживать — именно там, где сочетание «унифицированного API и наблюдаемости», например, LiteLLM + CometAPI сияет.

В этом руководстве вы получите практическое руководство по интеграции с большим количеством кода. ЛайтLLM CometAPI (который говорит на Совместимость с OpenAI (диалект), охватывающий установку, базовые вызовы, асинхронную и потоковую передачу, а также советы по развертыванию. По ходу дела мы расскажем, как последние обновления модели влияют на ваши варианты интеграции.

Что такое LiteLLM?

LiteLLM — это SDK и прокси-сервер Python с открытым исходным кодом (LLM-шлюз), предоставляющий единый, согласованный API для многих поставщиков моделей (OpenAI, Anthropic, Vertex/Google, AWS Bedrock, Hugging Face и др.). Он нормализует различия между поставщиками (формат входных данных, ошибки, формы выходных данных), предоставляет логику повторных попыток/отката/маршрутизации и поддерживает как облегченный SDK, так и и Прокси-сервер для централизованной маршрутизации LLM в инфраструктурных стеках. Другими словами: единый API для вызова множества моделей.

Особенность:

  • Унифицированные функции Python, такие как completion, responses, embeddings.
  • Маршрутизация, совместимая с OpenAI (чтобы клиенты, использующие API в стиле OpenAI, могли быть направлены к другим поставщикам).
  • Поддержка асинхронности и потоковой передачи (асинхронные оболочки, такие как acompletion и stream=True для фрагментированных ответов).

Как сопоставляются модели и конечные точки LiteLLM

  • Используйте completion() (синхронизация) и acompletion() (асинхронный) в Python SDK для вызовов в стиле чата/дополнения.
  • Для конечных точек, совместимых с OpenAI, LiteLLM поддерживает api_base/api_key переопределение, чтобы SDK знал, что нужно идти по пути в стиле OpenAI.

Что такое CometAPI?

CometAPI — это сервис «один API для многих моделей», который предоставляет сотни моделей (включая OpenAI GPT-5, Anthropic Claude, xAI Grok, Qwen, GLM и генераторы изображений/видео) через Совместимость с OpenAI Интерфейс REST. Благодаря совместимости, вы обычно можете указать клиенту OpenAI интерфейс CometAPI. base_url и сохранить ту же схему запроса/ответа, что делает ее готовой альтернативой или дополнением к API сторонних разработчиков.

Наконечник: LiteLLM ожидает именно такой совместимости. Вы можете ссылаться на модели CometAPI через LiteLLM, используя вызовы в стиле OpenAI, или направлять их через прокси-сервер LiteLLM с помощью base_url переопределяет.

Предпосылки для интеграции LiteLLM с CometAPI

Прежде чем подключить LiteLLM к CometAPI, вам необходимо выполнить несколько действий:

Среда Python

  • Python 3.8+ (рекомендуется: виртуальная среда через venv or conda).
  • pip обновлено: python -m pip install --upgrade pip

LiteLLM установлен pip install litellm (Необязательно: установить litellm (если вы хотите запустить прокси-сервер LiteLLM.)

Аккаунт CometAPI и ключ API

  1. Зарегистрироваться на cometapi.com.
  2. Верните деньги Ключ API со своей панели управления.
  3. Сохраните его как переменную среды: export COMETAPI_KEY="sk-xxxx"

Базовое понимание API, совместимых с OpenAI

  • CometAPI предоставляет Конечные точки в стиле OpenAI " У аборигенов /v1/chat/completions.
  • LiteLLM изначально поддерживает этот формат, поэтому специальный клиент не требуется.

Как сделать базовый вызов завершения (используя LiteLLM → CometAPI)?

Используйте функцию автодополнения LiteLLM для отправки сообщений в модель CometAPI. Можно указать модели, например, cometapi/gpt-5 или cometapi/gpt-4o.

Способ 1: использование переменной среды для ключа API (рекомендуется).

from litellm import completion
import os

# Option A: use env var

os.environ = "sk_xxx" # CometAPI key

# Direct call with explicit api_base + api_key

resp = completion(
    model="cometapi/gpt-5",               
    api_key=os.environ,  
    api_base="https://www.cometapi.com/console/", # CometAPI base URL

    messages=[
        {"role":"system", "content":"You are a concise assistant."},
        {"role":"user", "content":"Explain why model-aggregation is useful in 3 bullets."}
    ],
    max_tokens=200,
    temperature=0.2
)

print(resp.choices.message)

Если вы предпочитаете, вы также можете установить OPENAI_API_KEY/OPENAI_API_BASE — LiteLLM принимает несколько соглашений поставщика; проверьте вашу версию документации SDK.

Метод 2: Передайте ключ API явно:

Пример:

from litellm import completion
import os
# Define your messages (array of dictionaries with 'content' and 'role')

messages = 

api_key = 'your-cometapi-key-here'  # Alternative: Store it in a variable for explicit passing

# CometAPI call - Method 2: Explicitly passing API key

response_2 = completion(model="cometapi/gpt-4o", messages=messages, api_key=api_key)

# Print the responses

print(response_2.choices.message.content)

Как работают асинхронные и потоковые вызовы с LiteLLM → CometAPI?

Асинхронные вызовы

  • Смысл: Асинхронный вызов — это когда делается запрос на выполнение чего-либо (например, на получение данных или запуск задачи), но вместо того, чтобы дождаться его завершения, прежде чем двигаться дальше, программа продолжает выполнять другой код.
  • Ключевая идея: «Не блокируйте, продолжайте работать, пока ждете».
  • Пример:
  • В веб-приложениях: извлечение данных из API без замораживания пользовательского интерфейса.
  • В Python: использование async/await asyncio.
  • В JavaScript: использование Promises or async/await.

Примеры использования: Улучшает производительность и скорость реагирования, не блокируя основной поток.


Потоковые звонки

  • Смысл: Потоковый вызов означает, что вместо того, чтобы ждать готовности всех данных и отправлять их обратно за один раз, сервер отправляет порции данных, как только они становятся доступны.
  • Ключевая идея: «Отправляйте данные по частям, пока они создаются».
  • Пример:
  • Просмотр видео на YouTube до того, как будет загружен весь видеофайл.
  • Приложения для чата в режиме реального времени или обновления биржевых котировок.
  • В API: вместо того, чтобы ждать полного вывода модели, клиент получает слова/токены постепенно (подобно тому, как ChatGPT передает текст в потоковом режиме).

An асинхронный потоковый вызов LiteLLM и CometAPI поддерживают потоковую передачу и асинхронное использование. LiteLLM предоставляет stream=True получить итератор фрагментов и acompletion() для асинхронного использования. Используйте потоковую передачу, когда вам нужны частичные выходные данные с малой задержкой (интерактивность пользовательского интерфейса, потокенная обработка). Запрос выполняется без блокировки, а результаты доставляются постепенно по мере их готовности. Для неблокируемых приложений или приложений реального времени используйте функцию acompletion из LiteLLM для асинхронных вызовов. Это полезно в сочетании с asyncio в Python для обработки параллельных запросов.

Пример:

from litellm import acompletion
import asyncio, os, traceback

async def completion_call():
    try:
        print("Testing asynchronous completion with streaming")
        response = await acompletion(
            model="cometapi/chatgpt-4o-latest", 
            messages=, 
            stream=True  # Enable streaming for chunked responses

        )
        print(f"Response object: {response}")

        # Iterate over the streamed chunks asynchronously

        async for chunk in response:
            print(chunk)
    except Exception:
        print(f"Error occurred: {traceback.format_exc()}")
        pass

# Run the async function

await completion_call()

объяснение:

  • acompletion это асинхронная версия completion.
  • stream=True обеспечивает потоковую передачу, при которой ответ выдается в режиме реального времени.
  • Используйте asyncio для запуска функции (например, в Jupyter Notebook с await или через asyncio.run() в сценариях).
  • Если возникает ошибка, она обнаруживается и выводится для отладки.

Ожидаемый результат:Вы увидите распечатанный объект ответа и отдельные фрагменты, например:

Testing asynchronous completion with streaming
Response object: <async_generator object acompletion at 0x...>
Chunk: {'choices': }
Chunk: {'choices': }
... (full response streamed in parts)

Дополнительные советы

  • Модель не найдена / несоответствие конечной точки: убедитесь, что вы выбрали имя модели, которое существует в CometAPI (в их документации перечислены доступные идентификаторы), и что соглашения о префиксах вашей модели LiteLLM совпадают (например, cometapi/<model> (при необходимости). Модели CometAPI имеют формат cometapi/, например, cometapi/gpt-5, cometapi/gpt-4o, cometapi/chatgpt-4o-latest. Актуальные модели смотрите в документации CometAPI.
  • Обработка ошибок: Всегда заключайте вызовы в блоки try-except для обработки таких проблем, как недействительные ключи или сетевые ошибки.
  • Расширенные функции: LiteLLM поддерживает такие параметры, как температура, max_tokens и top_p, для точной настройки ответов. Добавьте их к вызовам дополнения или акомплементации, например, completion(…, temperature=0.7).
  • 403 / ошибки авторизации — убедитесь, что вы используете правильный ключ CometAPI и отправляете его как api_key в LiteLLM

Заключение

Интеграция LiteLLM с CometAPI Это обеспечивает низкий уровень трения, поскольку обе стороны используют совместимые с OpenAI, хорошо документированные интерфейсы. Используйте LiteLLM для централизации использования LLM в вашей кодовой базе, установите api_base к CometAPI и передайте ключ CometAPI, а также используйте помощников синхронизации/асинхронности/потока LiteLLM для создания адаптивных и гибких приложений.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с Руководство по интеграции LiteLLM для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Читать далее

500+ моделей в одном API

Скидка до 20%