5 min de lecture·Hugging Face Blog·08/04/2026IA générative8/10Élevé
Sentence Transformers v5.4 permet désormais d'encoder et comparer textes, images, audio et vidéos via une API unifiée. Les modèles multimodaux ouvrent des possibilités comme la recherche visuelle ou les pipelines RAG hybrides. L'installation nécessite des dépendances spécifiques selon les modalités.
Que faut-il retenir ?
Sentence Transformers v5.4 supporte textes, images, audio et vidéos via une API commune.
Les modèles nécessitent un GPU avec 8GB VRAM (20GB pour les variants 8B).
Installation via pip avec options spécifiques : [image], [audio] ou [video].
Exemple de code pour encoder des images depuis URLs avec Qwen3-VL-Embedding-2B.
Pourquoi cette nouvelle compte-t-elle ?
Ces avancées permettent des applications concrètes comme la recherche cross-modale ou l'augmentation de RAG avec des données multimodales. Les professionnels gagnent en flexibilité pour traiter des données hétérogènes. La compatibilité avec différents formats (URLs, fichiers locaux, PIL) simplifie l'intégration.
Public concerné : développeurs
Quelles sont les configurations matérielles requises pour utiliser ces modèles multimodaux ?
Les modèles comme Qwen3-VL-2B nécessitent un GPU avec au moins 8GB de VRAM (20GB pour les versions 8B). Sur CPU, les performances sont très limitées - privilégiez alors des modèles text-only ou CLIP.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité