Comment installer Qwen2.5-Omni 7B localement avec Hugging Face

Qwen2.5-Omni 7B est un modèle multimodal avancé capable de traiter et de générer du texte, des images, de l'audio et de la vidéo. Développé avec des techniques de pointe, il offre des performances robustes sur divers benchmarks. Ce guide fournit des instructions détaillées pour l'installation locale de Qwen2.5-Omni 7B, vous permettant ainsi d'exploiter pleinement ses fonctionnalités.

Qwen2.5-Omni 7B

Qu'est-ce que Qwen2.5-Omni 7B ?

Qwen2.5-Omni 7B est un modèle multimodal de bout en bout conçu pour percevoir diverses modalités, notamment le texte, les images, l'audio et la vidéo, tout en générant simultanément du texte et des réponses vocales naturelles en streaming. Il utilise des architectures innovantes telles que le framework Thinker-Talker, permettant la génération simultanée de texte et de parole sans interférence entre les modalités. Le modèle utilise le traitement par blocs pour les entrées en streaming et introduit la technologie TMRoPE (Time-aligned Multimodal RoPE) pour les entrées audio et vidéo synchronisées.

Comment accéder à Qwen2.5-Omni 7B ?

Pour accéder à Qwen2.5-Omni 7B, visitez son dépôt officiel sur des plateformes comme Hugging Face ou GitHub. Assurez-vous de disposer des autorisations nécessaires et que votre système répond aux exigences du modèle.

Quelles sont les exigences du système?

Avant d'installer Qwen2.5-Omni 7B, assurez-vous que votre système répond aux exigences suivantes :

Système d'exploitation:Les systèmes basés sur Linux (Ubuntu 20.04 ou version ultérieure) sont recommandés.
Matériel:
Processeur: Processeur multicœur avec au moins 16 cœurs.
RAM: Minimum de 64 Go.
GPU: GPU NVIDIA avec au moins 24 Go de VRAM (par exemple, RTX 3090 ou A100) pour un traitement efficace.
Rangements:Au moins 100 Go d'espace disque libre.

Assurez-vous que vos pilotes GPU sont à jour et compatibles avec CUDA 11.6 ou version ultérieure.

Comment installer Qwen2.5-Omni 7B localement ?

Suivez ces étapes pour installer Qwen2.5-Omni 7B sur votre machine locale :

1. Configurer un environnement virtuel

Créer un environnement virtuel permet de gérer les dépendances et d’éviter les conflits :

# Install virtualenv if not already installed

pip install virtualenv

# Create a virtual environment named 'qwen_env'

virtualenv qwen_env

# Activate the virtual environment

source qwen_env/bin/activate

2. Installer les dépendances requises

Installez les bibliothèques et frameworks nécessaires :

# Upgrade pip

pip install --upgrade pip

# Install PyTorch with CUDA support

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116

# Install additional dependencies

pip install transformers datasets numpy scipy

3. Téléchargez le modèle Qwen2.5-Omni 7B

Accédez au modèle depuis son référentiel officiel :

# Install Git LFS if not already installed

sudo apt-get install git-lfs

# Clone the repository

git clone https://huggingface.co/Qwen/Qwen2.5-Omni-7B

# Navigate to the model directory

cd Qwen2.5-Omni-7B

4. Configurer l'environnement

Configurer les variables d’environnement et les chemins :

# Set the path to the model directory

export MODEL_DIR=$(pwd)

# Add the model directory to the Python path

export PYTHONPATH=$MODEL_DIR:$PYTHONPATH

5. Vérifiez l'installation

Assurez-vous que le modèle est correctement installé en exécutant un script de test :

# Run the test script

python test_qwen2.5_omni.py

Si l'installation réussit, vous devriez voir une sortie indiquant que le modèle est prêt.

Comment utiliser Qwen2.5-Omni 7B ?

Après l'installation, vous pouvez utiliser Qwen2.5-Omni 7B pour diverses tâches multimodales :

1. Chargez le modèle

Dans votre script Python ou votre session interactive, chargez le modèle :

from transformers import AutoModel, AutoTokenizer

# Load the tokenizer

tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen2.5-Omni-7B')

# Load the model

model = AutoModel.from_pretrained('Qwen/Qwen2.5-Omni-7B')

2. Préparer les entrées

Formatez vos entrées selon les exigences du modèle. Par exemple, pour traiter des entrées texte et image :

from PIL import Image

# Load and preprocess the image

image = Image.open('path_to_image.jpg')
image = preprocess_image(image)  # Define this function based on model specs

# Prepare text input

text = "Describe the content of the image."

# Tokenize inputs

inputs = tokenizer(text, return_tensors='pt')

# Add image to inputs

inputs = image

3. Générer des sorties

Transmettez les entrées via le modèle pour obtenir des sorties :

# Generate outputs

outputs = model(**inputs)

# Process outputs as needed

4. Interpréter les résultats

Interprétez les sorties du modèle en fonction de votre application. Par exemple, si le modèle génère des descriptions textuelles d'images, vous pouvez extraire et exploiter ces descriptions en conséquence.

Voir aussi API d'instructions Qwen 2.5 Coder 32B et API QwQ-32B pour les détails d'intégration.

Pour plus de détails techniques, voir API Qwen2.5-Omni-7B

Conclusion

Qwen-2.5 Omni 7B représente une avancée significative en matière d'IA en intégrant facilement de multiples modalités de données, telles que le texte, les images, l'audio et la vidéo, pour générer des réponses naturelles en temps réel. Le déploiement de ce modèle sur la plateforme cloud de NodeShift améliore ses capacités en fournissant une infrastructure sécurisée, évolutive et économique. NodeShift simplifie le processus de déploiement, permettant aux développeurs d'exploiter efficacement l'intégralité du flux de travail et le potentiel de Qwen-2.5 Omni 7B sans la complexité des configurations cloud traditionnelles.