La k-anonymité est une méthode d'anonymisation qui assure qu'au moins k individus partagent les mêmes caractéristiques quasi-identifiantes dans un jeu de données, rendant la réidentification individuelle impossible — une exigence de plus en plus centrale dans les projets de données publiques ou partagées en 2026.
📖 Définition
La k-anonymité est une technique d'anonymisation qui garantit qu'au moins k personnes partagent les mêmes quasi-identifiants (comme l'âge, le sexe ou un code postal tronqué) dans un jeu de données, rendant ainsi impossible l'isolement d'un individu. Inventée par Latanya Sweeney à la fin des années 1990, elle vise à prévenir la réidentification, mais ne suffit pas à protéger contre les attaques d'inférence si k est trop faible ou si les données sont corrélées avec d'autres sources.
💬 En termes simples
C'est comme être dans une foule au centre-ville de Montréal un vendredi midi : si tout le monde porte une tuque noire, un manteau gris et des bottes de neige, impossible de pointer une seule personne du doigt — vous faites partie d'un groupe indiscernable.
🎯 Exemple concret
Dans un jeu de données de santé québécois, on généralise l'âge en tranches (ex. 30-39 ans), on tronque le code postal à trois chiffres (ex. G1K), et on garde le sexe. Avec k=5, chaque combinaison (ex. [30-39, F, G1K]) apparaît au moins cinq fois, empêchant d'associer une fiche médicale à une personne précise.
💡 Le saviez-vous ?
Latanya Sweeney a démontré en 1997 qu'87 % des Américains pouvaient être identifiés de façon unique avec seulement leur date de naissance, leur sexe et leur code postal — un cas de k=1. Cette découverte a directement mené à l'invention du modèle de k-anonymité pour corriger cette vulnérabilité.
❓ Questions fréquentes
Qu'est-ce que k=5 ou k=10 signifie ?
Cela signifie que chaque combinaison de quasi-identifiants (ex. âge tronqué + sexe + code postal partiel) doit apparaître au moins 5 ou 10 fois dans le jeu de données. Ainsi, même si un attaquant connaît ces informations, il ne peut pas distinguer un individu parmi les k équivalents. Plus k est élevé, plus la protection contre la réidentification est forte, mais cela peut réduire l'utilité statistique des données.
K-anonymité est-elle suffisante pour respecter la Loi 25 ?
Non, la k-anonymité seule ne suffit pas. Bien qu'elle empêche l'individualisation directe (un critère clé du CAI Québec), elle ne protège pas contre les attaques par corrélation ou inférence, surtout si k est faible ou si les données sont croisées avec d'autres sources. Une approche combinée (ex. avec la confidentialité différentielle) est souvent nécessaire.
Quels sont les quasi-identifiants ?
Les quasi-identifiants sont des attributs non uniques seuls, mais qui, combinés, peuvent identifier une personne (ex. date de naissance, sexe, code postal, profession, niveau de revenu). Contrairement aux identifiants directs (nom, NAS, courriel), ils ne désignent pas explicitement un individu, mais deviennent dangereux en combinaison — d'où la nécessité de les généraliser ou supprimer pour atteindre la k-anonymité.
Comment atteindre la k-anonymité dans Excel ?
Commencez par supprimer tous les identifiants directs (noms, numéros). Ensuite, généralisez les âges en tranches (ex. 20-29 ans), tronquez les codes postaux à 3 caractères (ex. H3A), et regroupez les catégories rares. Utilisez des tableaux croisés dynamiques pour vérifier que chaque combinaison de quasi-identifiants apparaît au moins k fois. Si ce n'est pas le cas, généralisez davantage ou supprimez les lignes problématiques.
K-anonymity vs differential privacy ?
La k-anonymité modifie les données pour cacher les individus dans des groupes, mais ne protège pas contre les attaques si l'attaquant possède des données externes. La confidentialité différentielle, elle, ajoute du bruit statistique aux résultats (pas aux données brutes) pour garantir qu'un individu ne puisse pas être détecté, même avec une connaissance auxiliaire. Cette dernière offre une garantie mathématique plus forte.
Quelle valeur de k choisir en 2026 ?
En 2026, les bonnes pratiques recommandent k>=5 minimum, et k>=10 pour les secteurs sensibles comme la santé ou les RH. La CNIL et le CAI du Québec insistent sur l'évaluation du risque : plus les données sont sensibles ou corrélables avec des sources publiques, plus k doit être élevé. Il faut aussi évaluer l'impact sur l'utilité des données.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité