Как установить Qwen2.5-Omni 7B локально с помощью Hugging Face

Qwen2.5-Omni 7B — это усовершенствованная мультимодальная модель, способная обрабатывать и генерировать текст, изображения, аудио и видео. Разработанная с использованием передовых технологий, она обеспечивает надежную производительность в различных тестах. В этом руководстве приведены подробные инструкции по локальной установке Qwen2.5-Omni 7B, что гарантирует эффективное использование ее возможностей.

Qwen2.5-Omni 7B

Что такое Qwen2.5-Omni 7B?

Qwen2.5-Omni 7B — это сквозная мультимодальная модель, разработанная для восприятия различных модальностей, включая текст, изображения, аудио и видео, одновременно генерируя текстовые и естественные речевые ответы в потоковом режиме. Она использует инновационные архитектуры, такие как фреймворк Thinker-Talker, что позволяет одновременно генерировать текст и речь без помех между модальностями. Модель использует блочную обработку для потоковых входов и представляет Time-aligned Multimodal RoPE (TMRoPE) для синхронизированных аудио- и видеовходов.

Как получить доступ к Qwen2.5-Omni 7B?

Чтобы получить доступ к Qwen2.5-Omni 7B, посетите его официальный репозиторий на таких платформах, как Hugging Face или GitHub. Убедитесь, что у вас есть необходимые разрешения и что ваша система соответствует требованиям модели.

Каковы системные требования?

Перед установкой Qwen2.5-Omni 7B убедитесь, что ваша система соответствует следующим требованиям:

Operating System: Рекомендуются системы на базе Linux (Ubuntu 20.04 или более поздней версии).
Аппаратные средства:
ЦП: Многоядерный процессор с не менее чем 16 ядрами.
Оперативная память: Минимум 64 ГБ.
GPU ：: NVIDIA GPU с объемом видеопамяти не менее 24 ГБ (например, RTX 3090 или A100) для эффективной обработки.
Память: Не менее 100 ГБ свободного места на диске.

Убедитесь, что драйверы вашего графического процессора обновлены и совместимы с CUDA 11.6 или более поздней версией.

Как установить Qwen2.5-Omni 7B локально?

Чтобы установить Qwen2.5-Omni 7B на локальный компьютер, выполните следующие действия:

1. Настройте виртуальную среду

Создание виртуальной среды помогает управлять зависимостями и избегать конфликтов:

# Install virtualenv if not already installed

pip install virtualenv

# Create a virtual environment named 'qwen_env'

virtualenv qwen_env

# Activate the virtual environment

source qwen_env/bin/activate

2. Установите необходимые зависимости

Установите необходимые библиотеки и фреймворки:

# Upgrade pip

pip install --upgrade pip

# Install PyTorch with CUDA support

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116

# Install additional dependencies

pip install transformers datasets numpy scipy

3. Загрузите модель Qwen2.5-Omni 7B

Доступ к модели можно получить из ее официального репозитория:

# Install Git LFS if not already installed

sudo apt-get install git-lfs

# Clone the repository

git clone https://huggingface.co/Qwen/Qwen2.5-Omni-7B

# Navigate to the model directory

cd Qwen2.5-Omni-7B

4. Настройте среду

Настройте переменные среды и пути:

# Set the path to the model directory

export MODEL_DIR=$(pwd)

# Add the model directory to the Python path

export PYTHONPATH=$MODEL_DIR:$PYTHONPATH

5. Проверьте установку

Убедитесь, что модель установлена правильно, запустив тестовый скрипт:

# Run the test script

python test_qwen2.5_omni.py

Если установка прошла успешно, вы должны увидеть вывод, указывающий на готовность модели.

Как использовать Qwen2.5-Omni 7B?

После установки вы сможете использовать Qwen2.5-Omni 7B для различных мультимодальных задач:

1. Загрузите модель

В скрипте Python или интерактивном сеансе загрузите модель:

from transformers import AutoModel, AutoTokenizer

# Load the tokenizer

tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen2.5-Omni-7B')

# Load the model

model = AutoModel.from_pretrained('Qwen/Qwen2.5-Omni-7B')

2. Подготовьте входные данные

Форматируйте ваши входные данные в соответствии с требованиями модели. Например, для обработки текстовых и графических входных данных:

from PIL import Image

# Load and preprocess the image

image = Image.open('path_to_image.jpg')
image = preprocess_image(image)  # Define this function based on model specs

# Prepare text input

text = "Describe the content of the image."

# Tokenize inputs

inputs = tokenizer(text, return_tensors='pt')

# Add image to inputs

inputs = image

3. Генерация выходных данных

Пропустите входные данные через модель, чтобы получить выходные данные:

# Generate outputs

outputs = model(**inputs)

# Process outputs as needed

4. Интерпретация результатов

Интерпретируйте выходные данные модели на основе вашего приложения. Например, если модель генерирует текстовые описания изображений, вы можете извлечь и использовать эти описания соответствующим образом.

См. также Qwen 2.5 Coder 32B Инструкция API и API QwQ-32B для получения подробной информации об интеграции.

Более подробную техническую информацию см. API Qwen2.5-Omni-7B

Заключение

Qwen-2.5 Omni 7B представляет собой значительный шаг вперед в области ИИ, легко интегрируя несколько модальностей данных, таких как текст, изображения, аудио и видео, для генерации естественных ответов в реальном времени. Развертывание этой модели на облачной платформе NodeShift расширяет ее возможности, предоставляя безопасную, масштабируемую и экономичную инфраструктуру. NodeShift упрощает процесс развертывания, позволяя разработчикам эффективно обрабатывать весь рабочий процесс и потенциал Qwen-2.5 Omni 7B без сложностей традиционных облачных установок.