Les données personnelles identifiantes sont un concept facile à saisir. Si vous connaissez le téléphone, le numéro de sécurité sociale ou le numéro de carte de crédit de quelqu’un, vous disposez d’un lien direct vers son identité. Les pirates utilisent ces identifiants, avec quelques autres détails personnels, comme clés pour déverrouiller vos données, voler votre identité et au final vous prendre votre argent. Dans des articles récents, j’ai parlé de la façon dont les limites entres données personnelles et autres données avaient tendance à s’estomper. Par exemple : on sait depuis au moins 10 ans qu’il existe certains éléments d’information qui peuvent sembler anonymes mais qui, lorsqu’on les combine, permettent d’identifier une personne aussi efficacement que les données personnelles traditionnelles.
Le plus simple pour comprendre ces données quasi-personnelles est de considérer le trio constitué par la date de naissance, le code postal et le sexe. Si une entreprise publie un ensemble de données qui ont été désidentifiées par suppression des données personnelles évidentes mais où les éléments ci-dessus sont conservés, un pirate intelligent peut en principe retrouver le nom et l’adresse de la personne correspondant aux données.
Pourquoi? En fait, le voleur d’identité fait un travail de détective, parcourant des listes en recherchant des correspondances. Les listes dans ce cas particulier sont les listes électorales, que l’on peut obtenir auprès de la plupart des villes et comtés américains pour un prix modique d’environ 40 dollars. Les listes électorales contiennent le nom, l’adresse et surtout la date de naissance. Les codes postaux peuvent facilement être déterminés à partir de l’adresse. En regardant les dates de naissance et les codes postaux qui correspondent, les voleurs d’identité peuvent réduire leur recherche à un petit nombre de noms. Ajoutez les informations de sexe et pour la plupart des codes postaux américains, les pirates peuvent déterminer un nom unique. Bien sûr, plus on dispose d’informations ou d’indices supplémentaires, notamment recueillis dans les réseaux sociaux ou d’autres sites web, plus il est facile de filtrer et de réduire les noms lorsqu’il y a plus d’un candidat.
Un rapide calcul montre pourquoi une telle approche risque bien d’aboutir. En considérant que l’année a 365 jours, et en multipliant par l’âge moyen de 80 ans, une date de naissance complète donne 29 200 casiers dans lesquels ranger les personnes correspondant à un code postal. Si vous disposez de l’information de sexe, on obtient le double soit un peu plus de 58,000.
J’entends déjà les lecteurs pointilleux remarquer que les listes électorales contiennent uniquement les individus majeurs, donc il faut supprimer 6570 casiers. C’est juste, mais des chercheurs ont montré qu’il est possible d’utiliser la gestion peu rigoureuse que fait Facebook des données des écoliers mineurs pour résoudre en partie ce problème.
Quoi qu’il en soit, à partir du recensement américain, il y a plus de 40000 codes postaux, avec une moyenne de seulement 7000 personnes par code postal. Intuitivement, il semble probable que la plupart de ces 7000 personnes se retrouveront seules dans un de ces 58 000 casiers. En d’autres termes, on peut compter que la plupart d’entre eux n’auront pas à la fois la même date de naissance, le même code postal et le même sexe.
Latanya Sweeney, professeur d’informatique à Carnegie Mellon et experte en confidentialité des données a fait les calculs en 2000: en utilisant les données du recensement de l’époque (segmentées par codes postaux et groupes d’âge), elle a pu identifier 87% des Américains en n’utilisant que ces trois éléments qui en théorie ne constituent pas des données personnelles.
Heureusement, la recherche de Mme Sweeney et les résultats d’autres experts ont été portés à l’attention des décideurs politiques. Par exemple, lorsque des recherches médicales sur des patients sont publiées, les règles libératoires de désidentification du HIPAA stipulent qu’aucune unité géographique inférieure à l’État ne peut être comprise dans des données publiques. Les dates complètes (par exemple d’admission ou de naissance) doivent également être privées de l’année.
Dans la mesure où la réglementation sur les données personnelles varie selon la législation, il ne s’agit pas d’une règle universelle. Cependant, la Federal Trade Commission, un organisme réglementaire important en matière de vie privée, a récemment publié des bonnes pratiques sur la désidentification des données. Cet organisme a demandé à toutes les entreprises d’être « raisonnablement sûres » que leurs données publiques ne peuvent conduire aux individus. Il est clair que la combinaison de date de naissance, code postal et sexe ne remplirait pas ces conditions.
Existe-t-il d’autres données quasi-personnelles ? Bien sûr! Le problème plus large est que les consommateurs partagent toutes sortes d’informations les concernant sur les sites web et autres réseaux sociaux. On peut imaginer un scénario dans lequel un détaillant en ligne recueille des données sur les préférences de ses clients (sports, intérêts, hobbys, etc.) accompagnées des données géographiques et peut-être de revenu.
Ces données ne seraient pas ordinairement considérées comme des données personnelles identifiantes. Imaginons que des pirates accèdent à ces données anonymes grâce à un fichier placé sur un serveur sans les permissions adéquates. Ils pourraient alors explorer différents sites thématiques, à la recherche de personnes correspondant à ces préférences et à ces données géographiques. En cas de correspondance, l’étape suivante pourrait être une attaque de type hameçonnage, où les pirates se feraient passer pour le détaillant.
Pour les entreprises qui souhaitent prendre les devants par rapport aux règles plus strictes de désidentification à venir — en projet aux États-Unis et sans doute bientôt effectives dans l’UE —, elles feraient bien de commencer à envisager soigneusement leurs données non personnelles. Où que ces données se trouvent dans leur système de fichiers.
The post Révélation: des données personnelles secrètes dans vos données non structurées! appeared first on Varonis Français.
Que dois-je faire maintenant ?
Vous trouverez ci-dessous trois solutions pour poursuivre vos efforts visant à réduire les risques liés aux données dans votre entreprise:
Planifiez une démonstration avec nous pour voir Varonis en action. Nous personnaliserons la session en fonction des besoins de votre organisation en matière de sécurité des données et répondrons à vos questions.
Consultez un exemple de notre évaluation des risques liés aux données et découvrez les risques qui pourraient subsister dans votre environnement. Cette évaluation est gratuite et vous montre clairement comment procéder à une remédiation automatisée.
Suivez-nous sur LinkedIn, YouTube et X (Twitter) for pour obtenir des informations sur tous les aspects de la sécurité des données, y compris la DSPM, la détection des menaces, la sécurité de l’IA et plus encore.