Données synthétiques
Aussi appelé : Synthetic Data · données artificielles · synthetic-data · données simulées
Mis à jour le
Les données synthétiques sont des informations générées par un algorithme d'IA qui imitent les propriétés statistiques de données réelles sans contenir d'informations provenant de personnes ou d'événements physiques réels.
📖 Définition
💬 En termes simples
C'est comme les simulateurs de vol utilisés pour former les pilotes : au lieu de risquer un vrai avion et de vrais passagers, on crée un environnement artificiel qui reproduit fidèlement les conditions réelles. Les pilotes acquièrent une expérience précieuse sans jamais quitter le sol.
🎯 Exemple concret
Des hôpitaux québécois génèrent des dossiers médicaux synthétiques pour développer des algorithmes sans compromettre la vie privée des patients. Les constructeurs de véhicules autonomes créent des millions de scénarios routiers incluant les conditions hivernales du Québec. Des institutions financières testent la détection de fraude sur des scénarios extrêmes.
💡 Le saviez-vous ?
Selon Gartner, d'ici 2030, les données synthétiques dépasseront les données réelles en volume pour l'entraînement des modèles d'IA. Elles peuvent parfois produire de meilleurs modèles que les données réelles, car elles permettent de corriger les biais et de représenter équitablement des situations rares.
❓ Questions fréquentes
Pourquoi utiliserait-on des données « fausses » pour entraîner une IA ?
Comment garantit-on que ces données sont utiles ?
Quels sont les dangers des données synthétiques ?
📚 Sources
- NVIDIA - What is Synthetic Data? (NVIDIA, 2024)
- Wikipedia - Synthetic data (Wikipedia, 2024)
🔗 Termes liés
🏷️ Catégorie parente