Étiquetage de données

Aussi appelé : Data Labeling · data-labeling · annotation de données · data tagging

Terme IA Débutant 📊 Données et traitement

Mis à jour le 28 mai 2026

L'étiquetage de données (Data Labeling) est le processus manuel ou semi-automatique consistant à ajouter des métadonnées descriptives à des données brutes pour permettre à une IA d'apprendre par supervision.

📖 Définition

L'étiquetage de données est le processus qui consiste à associer des annotations descriptives à des données brutes pour les rendre exploitables par un modèle d'apprentissage supervisé. Chaque donnée reçoit une étiquette qui indique ce qu'elle représente. La qualité de l'étiquetage influence directement la performance du modèle. Ce processus représente souvent l'étape la plus longue et la plus coûteuse.

💬 En termes simples

C'est comme un archiviste de Bibliothèque et Archives nationales du Québec qui catalogue méticuleusement chaque document en lui attribuant un sujet, une date et une description. Sans ce travail rigoureux, il serait impossible de retrouver quoi que ce soit. Sans étiquetage, un modèle d'IA ne sait tout simplement pas ce qu'il regarde.

🎯 Exemple concret

Une firme de cartographie forestière au Québec emploie des biologistes pour étiqueter des images satellites par essences d'arbres. Une entreprise de véhicules autonomes de Laval annote piétons, cyclistes et obstacles sur des vidéos en toutes saisons. Un centre hospitalier de Trois-Rivières mobilise ses radiologues pour étiqueter des milliers de radiographies.

💡 Le saviez-vous ?

L'étiquetage représente jusqu'à 80 % du temps total d'un projet d'IA. L'industrie mondiale de l'étiquetage emploie des millions de travailleurs et devrait atteindre 17 milliards de dollars d'ici 2028.

❓ Questions fréquentes

Pourquoi l'étiquetage est-il considéré comme le « travail de l'ombre » de l'IA ?

Parce que derrière chaque IA performante, il y a des millions d'heures passées par des humains à entourer des voitures sur des photos ou à classer des textes. Sans ces étiquettes précises (« ceci est une tumeur », « ceci est un courriel malveillant »), l'IA ne pourrait jamais savoir ce qu'elle doit chercher dans les données brutes.

Comment pouvez-vous garantir la qualité de l'étiquetage ?

En utilisant le consensus : vous demandez à trois personnes différentes d'étiqueter la même donnée. Si elles ne sont pas d'accord, un expert tranche. Une mauvaise étiquette est un poison pour l'IA ; elle lui apprend des erreurs systématiques qui seront très difficiles à corriger une fois le modèle entraîné.

Existe-t-il des méthodes pour automatiser ce travail ?

Oui, on utilise l'auto-étiquetage où une IA déjà entraînée aide à classer les nouvelles données, ou l'apprentissage actif où l'IA ne demande l'aide d'un humain que pour les cas où elle est très incertaine. Cela réduit considérablement les coûts et le temps nécessaire pour préparer de grands jeux de données.

📚 Sources

AWS - What is Data Labeling? (Amazon, 2024)
Wikipedia - Data labeling (Wikipedia, 2024)

🔗 Termes liés

🏷️ Catégorie parente

Données d'entraînement

Accueil

Outils

Annuaire

Apprendre