Augmentation de données

Aussi appelé : Data Augmentation · data-augmentation · enrichissement de données · data enhancement

Terme IA Intermédiaire 📊 Données et traitement

Mis à jour le 28 mai 2026

L'augmentation de données est une technique visant à enrichir artificiellement un jeu de données d'entraînement en créant des variations modifiées des exemples existants pour améliorer la robustesse du modèle.

📖 Définition

L'augmentation de données consiste à enrichir un jeu de données d'entraînement en créant des variations des données existantes. En vision par ordinateur : rotations, recadrages, modifications de luminosité. En NLP : reformulations, synonymes, traduction aller-retour. Cette approche améliore la robustesse et la généralisation des modèles, surtout quand les données sont limitées.

💬 En termes simples

C'est comme un professeur de conduite au Québec qui prépare ses élèves à l'examen de la SAAQ en les faisant pratiquer dans toutes les conditions possibles : pluie verglaçante, neige, routes de gravier, circulation dense à Montréal et routes rurales. En multipliant les scénarios, il s'assure que ses élèves seront prêts.

🎯 Exemple concret

Une entreprise d'inspection de ponts québécoise multiplie ses images de fissures sous différents angles et éclairages. Un studio de jeux vidéo montréalais augmente ses enregistrements vocaux pour entraîner un modèle capable de comprendre différents accents du français québécois. Une clinique vétérinaire enrichit ses radiographies animales pour des pathologies rares.

💡 Le saviez-vous ?

L'augmentation peut multiplier la taille d'un jeu de données par un facteur de 10 à 100. Certaines techniques avancées utilisent elles-mêmes des modèles d'IA générative pour créer des données synthétiques réalistes, créant un cercle vertueux.

❓ Questions fréquentes

Pourquoi créer des variations de données existantes ?

Pour éviter que l'IA ne mémorise qu'une seule façon de voir un objet. En faisant pivoter une photo de voiture, en changeant sa couleur ou en ajoutant du flou, vous apprenez à l'IA à reconnaître une voiture dans toutes les conditions possibles (nuit, pluie, angle différent), ce qui la rend beaucoup plus fiable dans la vraie vie.

Comment cela fonctionne-t-il pour le texte ?

On utilise le remplacement par synonymes, la traduction aller-retour (traduire en anglais puis revenir au français) ou le mélange de phrases. Cela permet à l'IA de comprendre que le sens reste le même malgré des formulations différentes, améliorant ainsi sa capacité à traiter la diversité du langage humain.

Quelles sont les limites de l'augmentation automatique ?

Si les transformations sont trop agressives, vous risquez de détruire l'information utile ou d'introduire des erreurs. Par exemple, inverser une image de chiffre « 6 » pourrait le transformer en « 9 », ce qui tromperait l'IA pendant son entraînement. Il faut donc que les règles de variation soient adaptées à votre domaine spécifique.

📚 Sources

TensorFlow - Data Augmentation Guide (Google, 2024)
Wikipedia - Data augmentation (Wikipedia, 2024)

🔗 Termes liés

🏷️ Catégorie parente

Données d'entraînement

Accueil

Outils

Annuaire

Apprendre