Passer au contenu directement.

2021/2022 Bilan et perspectives en Cyber/Données: Utilisations stratégiques de l’anonymisation des données et de la minimisation des données dans le traitement analytique

Le traitement analytique des données se trouve actuellement à un moment charnière à l’échelle internationale qui aura probablement des répercussions sur les normes communes de l’industrie. Au Québec, bien sûr, le projet de loi no 64, assorti de ses pénalités draconiennes, entrera en vigueur, pour l’essentiel, en septembre 2023, ce qui comprend le premier traitement prévu par la loi au Canada des technologies qui permettent, relativement à une personne, « de l’identifier, de la localiser ou d’effectuer un profilage de celle-ci ». L’Europe va encore plus loin : le 23 novembre 2021, la commission du marché intérieur et de la protection du consommateur du Parlement européen a à l’unanimité appuyé le projet de loi sur les marchés numériques, qui interdit l’utilisation de combinaisons de renseignements personnels par les principales plateformes publicitaires pour produire de la publicité ciblée.

Les fournisseurs de données pour la publicité ciblée et de perspectives tirées des données ressentent également la pression exercée par les législateurs concernant le suivi par des tiers qui prend souvent la forme de témoins (cookies) tiers insérés dans les navigateurs qui suivent l’utilisateur pour recueillir de l’information sur ses habitudes et ses intérêts. L’industrie connaît actuellement de grands bouleversements : Firefox et Safari ont totalement bloqué les témoins tiers de leurs navigateurs, Apple a mis en place des paramètres de confidentialité sur ses appareils mobiles par l’intermédiaire d’iOS 14.5 rendant obligatoire le consentement au suivi par des tiers sur les applications mobiles, et Google s’est engagé à éliminer graduellement son système de témoins tiers d’ici 2023.

Le traitement analytique des données est une bataille incessante entre l’utilité et l’anonymat de l’ensemble de données sous-jacent. Les entreprises peuvent à la fois souhaiter anonymiser les renseignements personnels afin de simplifier leurs obligations réglementaires et réduire les risques liés à une contravention, tout en conservant suffisamment de renseignements personnels critiques pour que les données demeurent utiles. Cette situation soulève une question essentielle : comment les entreprises peuvent-elles tirer le maximum d’informations sur les comportements d’un groupe tout en limitant l’information sur chacun des individus qui composent ce groupe?

Soumises à un resserrement du contrôle réglementaire, les entreprises ont élaboré des solutions uniques afin de conserver certains renseignements personnels critiques tout en réduisant les risques d’atteinte à la vie privée qui y sont associés grâce à l’anonymisation. L’application stratégique de techniques d’anonymisation permet aux entreprises de maximiser la valeur analytique des renseignements personnels tout en réduisant au minimum les risques associés à leur conservation. Ces techniques permettent de réduire les risques de préjudice associé aux atteintes à la vie privée, les enquêtes réglementaires et les obligations de divulgation puisque les renseignements personnels détenus par l’entreprise ne permettent plus d’identifier un individu ou diminuent considérablement les préjudices possibles pour ces individus. Nous examinons ces solutions ci-dessous.

TECHNIQUES COURANTES D’ANONYMISATION ET DE MINIMISATION

Les organismes de réglementation en matière de protection de la vie privée encouragent de plus en plus le recours aux techniques d’anonymisation en vue de réduire les risques associés au traitement et à la conservation des renseignements personnels par les entreprises. À titre de guide, la Commission européenne a recensé trois critères permettant d’évaluer la fiabilité d’une technique d’anonymisation : i) est-il toujours possible d’isoler un individu?; ii) est-il toujours possible de relier entre eux les enregistrements relatifs à un individu?; et iii) peut-on déduire des informations concernant un individu?

Dans la pratique, une anonymisation parfaite des données rendrait celles-ci pratiquement inutilisables du point de vue de l’entreprise. Toutefois, les entreprises peuvent mettre en œuvre un large éventail de techniques d’anonymisation et de minimisation permettant de préserver l’utilité analytique des données afin d’en tirer des renseignements commerciaux tout en protégeant les renseignements personnels contre une diffusion à grande échelle. Comme ces techniques permettent la réidentification des données à des fins d’analyses, elles sont désignées sous le terme de « pseudonymisation ». En combinant diverses méthodes de pseudonymisation des renseignements personnels, les entreprises ont trouvé différents moyens créatifs de maximiser l’utilité analytique tout en réduisant le risque juridique associé au traitement des données.

Suppression

La suppression de données consiste à éliminer certaines catégories de données qui ne sont pas pertinentes pour un exercice analytique donné. À titre d’exemple, si le nom complet d’un individu n’est pas pertinent pour le traitement analytique, mais a été recueilli dans le cadre du processus de saisie des informations de paiement, il sera retiré de toute demande de données formulée par l’analyste. Idéalement, la suppression devrait être utilisée lorsqu’une catégorie de renseignements personnels est non pertinente, ou ne peut être convenablement anonymisée par une autre technique, car il n’est plus possible de récupérer les données par la suite.

Masquage

Le masquage est une méthode d’anonymisation des données semblable à la suppression, mais elle est de nature moins permanente. Cette technique consiste à remplacer des caractères des renseignements personnels par des caractères fictifs afin de réduire la possibilité d’un accès non autorisé aux données sensibles. Le recours à des caractères uniformes pour prévenir leur enregistrement (le mot de passe devient • • • • • • • • lorsqu’il est saisi) est un exemple courant. La même pratique est utilisée pour masquer le numéro de carte de crédit, dont les chiffres sont remplacés par XXXX-XXXX-XXX-1234 pour empêcher toute utilisation malveillante. Le masquage peut être utile pour accroître la sécurité en empêchant la diffusion à grande échelle de renseignements personnels sensibles au sein d’une organisation, mais ses effets ne sont pas permanents.

Mélange, brouillage ou brassage

Ce processus consiste à déplacer les lettres ou les chiffres à l’intérieur d’un renseignement personnel ou dans tout l’ensemble de données. En dissociant l’ordre logique dans lequel un ensemble de données est présenté, on réduit significativement la quantité de renseignements identificatoires pouvant être extraits par un acteur malveillant. De plus, le traitement des données par brouillage ou mélange rend plus difficile le repérage des renseignements personnels des autres personnes concernées en tentant de décoder le processus de mélange, car les colonnes ou ensembles de données faisant l’objet d’un tel mélange sont bien souvent choisis au hasard et changent à chaque accès.[1]

Généralisation

La généralisation consiste à réduire délibérément la précision d’un ensemble de données en élargissant sa définition. Les catégories de données qui tirent parti d’une généralisation sont souvent celles dont la valeur analytique est préservée même lorsqu’elles sont condensées jusqu’à un certain degré. Un exemple dans le domaine des offres de services est de remplacer un code postal par les trois premiers caractères de ce code, voire par un indicateur de voisinage encore plus large. Ou encore, le remplacement d’une date de naissance par le mois et l’année de naissance, ou par un âge donné (55) ou par une tranche d’âge (de 50 à 60 ans). La généralisation est particulièrement efficace lorsqu’elle est appliquée de façon sélective, car la mesure dans laquelle une valeur de donnée est généralisée a d’importantes répercussions sur la protection offerte aux individus visés par l’ensemble de données.

Ajout de bruit

L’ajout de bruit permet de dissimuler les renseignements personnels recueillis en y ajoutant des quantités choisies de données factices. Le « bruit » est constitué de points de données ou de champs entiers de données qui ne sont corrélés à aucun individu. Le processus d’ajout de bruit varie considérablement selon les données recueillies, mais le principe général consiste à « dissimuler » des renseignements personnels réels parmi des données générées au hasard n’ayant aucune utilité réelle. Lorsqu’une organisation insère des données fictives parmi des données réelles, il devient beaucoup plus difficile pour les acteurs malveillants d’utiliser l’ensemble de données à des fins nuisibles ou d’analyser par rétro-ingénierie les techniques d’anonymisation susmentionnées à partir de l’intégralité de l’ensemble de données. Une méthode plus récente utilisée par les entreprises, appelée « confidentialité différentielle », décrite plus bas, applique le procédé d’ajout de bruit par des moyens particuliers pour accroître la sécurité des renseignements personnels détenus par une organisation.

Chiffrement

Le chiffrement est un moyen efficace de mettre en œuvre les techniques mentionnées ci-dessus. Ce procédé consiste à filtrer les données recueillies à travers un algorithme de chiffrement qui les rend inutilisables par un lecteur humain; les données peuvent ensuite être déchiffrées à l’aide d’un mot de passe privé. Une méthode courante et facile à utiliser est le chiffrement symétrique, dans lequel les données sont dissimulées par un algorithme au moment de la collecte et ne deviennent lisibles qu’après la saisie du mot de passe d’une clé privée. Le chiffrement existe sous différentes formes, allant du chiffrement simple par clé privée au chiffrement de bout en bout plus complexe, mais son but demeure le même : rendre illisible les renseignements personnels recueillis par l’entreprise pour des acteurs malveillants. Les techniques comme celle du « salage et hachage » rendent beaucoup plus ardue la tâche de percer le code. Toutefois, les analystes autorisés qui ont besoin d’accéder à l’ensemble de données peuvent profiter de l’intérêt analytique des données s’ils ont accès à la clé de déchiffrement.[2]

NOUVELLES TECHNIQUES D’ANONYMISATION ET DE MINIMISATION

Apprentissage fédéré des cohortes (FLoC)

Le FLoC est une technique combinant la généralisation, la suppression et l’ajout de bruit qui consiste à recueillir des renseignements personnels et à les trier selon les facteurs identifiants pour en faire des cohortes anonymisées. Google a mis en oeuvre cette technique en mars 2021 pour remplacer sa technologie de suivi par témoins tiers dans son navigateur Chrome. Les cohortes sont triées selon le type d’activité des utilisateurs sur Internet, ce qui sert de méthode de généralisation et de suppression en ne fournissant aux publicitaires que les catégories de données les plus pertinentes de façon abstraite. De plus, les cohortes contiennent des centaines, voire des milliers d’utilisateurs, ce qui rend le comportement d’un individu difficile à associer à une personne en particulier.

La technique FLoC a été déployée chez les utilisateurs de Chrome dans le cadre d’un projet pilote, ce qui a occasionné un changement radical de l’efficacité des témoins tiers. La boîte à sable de confidentialité de Google fournit le mécanisme qui sous-tend la technique FLoC à code source ouvert, ce qui permet aux entreprises d’examiner si elles peuvent l’utiliser à leurs propres fins. En principe, la technologie liée au FLoC pourrait tout aussi bien être appliquée aux entreprises qui souhaitent généraliser les renseignements personnels qu’elles détiennent afin de se protéger contre toute atteinte à la vie privée, et se retrouver avec uniquement des cohortes abstraites plutôt que des renseignements permettant d’identifier une personne.

Tokénisation

La tokénisation est une méthode de chiffrement et de masquage plus approfondie qui consiste à remplacer des renseignements personnels par une série de jetons numériques qui identifient des éléments précis des renseignements personnels. Ce principe est déjà largement utilisé dans le secteur du traitement des paiements, où les renseignements sur les paiements par carte de crédit sont tokénisés pour permettre les demandes de transfert entre les établissements bancaires acquéreurs, les réseaux de paiement et les établissements bancaires émetteurs sans révéler de renseignements personnels durant les transferts. La tokénisation constitue une étape supplémentaire de masquage où les valeurs des renseignements personnels sont intégralement remplacées. Le processus prévoit l’utilisation d’un « coffre-fort de jetons » qui contient l’algorithme de base utilisé pour produire un large éventail de jetons. Les renseignements personnels qui sont transmis à l’entreprise sont stockés dans le coffre-fort de jetons, et le jeton est ensuite transféré pour servir à diverses fins. Ce n’est que lorsqu’une demande est faite au coffre-fort de jetons que le jeton peut être échangé contre les renseignements personnels qu’il représente. Comme le jeton lui-même ne possède aucune valeur intrinsèque, même si un acteur malveillant parvient à briser le code de chiffrement, le jeton ne révélera aucun renseignement personnel. Un autre avantage de ce système est que toute demande d’échange de jeton contre les renseignements personnels qu’il représente peut faire l’objet d’un suivi par l’entreprise, ce qui facilite l’enquête sur un incident de confidentialité. De plus, les jetons sont fréquemment randomisés chaque fois qu’ils sont entrés, même si le renseignement personnel sous-jacent demeure le même.

La technologie qui sous-tend la tokénisation est un concept ayant largement fait ses preuves et qui a fait l’objet d’innovations constantes grâce à la popularisation de la technologie des chaînes de blocs. Toutefois, la tokénisation est rarement mise en oeuvre comme mesure de sécurité indépendante, elle est souvent assortie à d’autres solutions afin d’offrir un système de protection de la vie privée dont la sécurisation est plus exhaustive. Selon le type de renseignement personnel traité et transigé, la tokénisation peut être un moyen efficace de protéger le transfert de renseignements personnels.

Calcul multipartite sécurisé

Le calcul multipartite sécurisé (ou traitement fractionné) est une solution cryptographique qui permet le partage des résultats du traitement des données tout en gardant secrètes les données utilisées pour produire ces résultats. Auparavant, ce processus nécessitait une « source tierce de confiance » agissant à titre d’intermédiaire. Dans ce processus, deux parties fournissaient des données pertinentes à une tierce partie, qui renvoyait de façon confidentielle les résultats requis sans révéler à aucune des deux parties quelles étaient les valeurs utilisées. Le calcul multipartite sécurisé rend inutile le recours à l’intermédiaire en émulant la tierce partie par un procédé cryptographique avancé. L’entreprise obtient ainsi des renseignements commerciaux précis sans jamais avoir accès aux renseignements personnels d’où ils sont tirés, en particulier pour ce qui est des ensembles de données plus volumineux. Utilisé de façon appropriée, le calcul multipartite sécurisé pourrait offrir aux entreprises un moyen sécurisé de tirer des données de l’information exploitable même lorsque l’environnement opérationnel pose des risques sérieux d’atteinte à la vie privée. Citons par exemple le cas d’un exportateur de données qui souhaite faire traiter des renseignements personnels conjointement par deux prestataires de services situés dans des territoires où l’étendue de la protection juridique des renseignements personnels est limitée. L’exportateur de données peut mettre en œuvre un système de calcul multipartite sécurisé dans lequel les deux prestataires de services traitent simultanément les renseignements personnels sans jamais avoir accès aux ensembles de données en question.

Même si la méthode du calcul multipartite sécurisé existe déjà depuis un certain temps, son application récente aux stratégies de protection des données s’explique principalement par la reconnaissance par les organismes de réglementation à l’échelle internationale de son efficacité comme mesure de protection de la vie privée. Le Comité européen de la protection des données mentionne le calcul multipartite sécurisé comme une mesure supplémentaire efficace pour protéger les données en dehors de l’UE et souligne son potentiel d’utilisation comme technologie applicable aux systèmes adhérant à des normes par défaut en matière de protection de la vie privée. L’International Association of Privacy Professionals rapporte qu’aux États-Unis, les institutions publiques mettent en œuvre le calcul multipartite sécurisé pour protéger les bases de données fédérales et que la Promoting Digital Privacy Technologies Act mentionne le calcul multipartite sécurisé comme une technique cryptographique qui mérite d’être étudiée.

Confidentialité différentielle

La confidentialité différentielle est une technique qui simplifie le processus d’ajout de bruit à un ensemble de données même pour les utilisateurs autorisés. Dans ce modèle, l’analyste est tenu à l’écart de la base de données et il ne peut pas voir les renseignements personnels recueillis par l’entreprise. Lorsqu’un analyste souhaite tirer des conclusions de certaines valeurs de données, il soumet une demande à un logiciel intermédiaire appelé « gardien de la confidentialité ». Le gardien de la confidentialité évalue le risque d’atteinte à la vie privée associé à chaque demande et ajoute un bruit aléatoire pour compenser ce risque avant de fournir une valeur de donnée. Le résultat est que la valeur envoyée à l’analyste est suffisamment proche de la valeur réelle pour être utile, mais elle contient en même temps assez de bruit pour empêcher tout type de rétro-ingénierie qui exposerait les renseignements personnels d’un individu. Certaines entreprises, dont Microsoft, Apple et Google, ont mis en œuvre la technique de confidentialité différentielle avec un certain succès. En ajoutant une quantité de bruit aléatoire proportionnelle au risque pour la vie privée, la technique de confidentialité différentielle peut constituer une solution exhaustive permettant de conserver l’utilité analytique en masquant la valeur réelle des données tout en fournissant une image globale exacte des tendances à l’intérieur d’un ensemble de données.

Données synthétiques

Les données synthétiques sont un complément à la technique d’ajout de bruit susmentionnée. La pratique générale consiste à utiliser un algorithme qui simule les connexions effectuées par l’analyse des renseignements personnels et faire une rétro-ingénierie des conclusions pour générer des ensembles de données fictives. Le MIT a publié le Synthetic Data Vault pour aider les développeurs à cet égard. Lors d’un test de l’utilité des résultats tirés de l’utilisation de données synthétiques comparativement aux ensembles de données réels, les chercheurs ont été en mesure de tirer des conclusions exactes 70 % du temps, même en utilisant des ensembles de données synthétiques.

En principe, les méthodes faisant appel aux données synthétiques pourraient permettre de se passer totalement des renseignements personnels. Les entreprises pourraient tirer des résultats et des analyses utiles d’une simulation du comportement des clients, au lieu de s’exposer à des risques d’atteinte à la vie privée posés par la collecte de données auprès d’individus. Cependant, les solutions faisant appel aux données synthétiques en sont encore aux premiers stades de mise en oeuvre. Selon le type de traitement analytique que l’entreprise souhaite reproduire, les données synthétiques pourraient constituer un moyen coûteux d’anonymiser les données comparativement aux autres méthodes mentionnées dans le présent document.

Identifiant universel

La technologie de l’identifiant universel est une application à la fois du chiffrement et de la suppression qui sert à identifier chaque utilisateur individuel par un nom d’utilisateur générique, au lieu de recueillir un large éventail de renseignements personnels pour les utilisateurs en ligne. La version la plus connue de cette technologie est la plateforme Unified ID 2.0 à code source ouvert, mise au point par TradeDesk et adoptée par Buzzfeed, AMC Networks, Foursquare, Salon et le LA Times. Universal ID propose un nom d’utilisateur à code source ouvert, crypté et unique pour les individus qui visitent les sites Web partenaires. Les utilisateurs qui créent un profil voient leur adresse courriel cryptée et tokénisée (voir les explications plus haut), et le jeton de l’identifiant universel est échangé entre les prestataires de services et les publicitaires afin de permettre à ces derniers d’offrir de la publicité ciblée aux individus sans connaître bon nombre d’attributs non nécessaires sur l’individu pouvant l’exposer aux acteurs malveillants.

Les systèmes à identifiant universel ne sont pas utilisés exclusivement par le secteur privé, car cette technologie a été appliquée avec succès dans le secteur public. Tel est le cas par exemple du programme ID Austria, dont la phase pilote a pris fin à l’automne 2021. Ce système utilise la même méthodologie de tokénisation pour chiffrer les renseignements personnels des citoyens autrichiens, qui peuvent utiliser l’identifiant numérique comme moyen d’accès aux services publics. Si les systèmes d’identifiants universels sont souvent mentionnés dans le contexte de l’applicabilité interentreprise, ils pourraient également être avantageux pour les sociétés ayant une société mère ou des filiales offrant de multiples services. Un exemple concret est l’offre d’identifiant universel de SAP, qui regroupe les offres de services au sein d’un seul et même système.

CONCLUSION

Le traitement analytique des données et des renseignements personnels est un volet incontournable des projections financières pour bon nombre d’entreprises à l’échelle mondiale. Alors que les organismes de réglementation continuent à prendre des mesures sévères et à imposer des normes rigoureuses au traitement des renseignements personnels, pendant que les sanctions pécuniaires atteignent un pourcentage élevé des recettes, l’anonymisation stratégique peut offrir certains avantages pratiques tout en préservant l’utilité des renseignements personnels. Les entreprises devraient prendre en considération les avantages pratiques de la mise en oeuvre d’une ou de plusieurs des techniques abordées plus haut afin d’assurer une conformité d’une façon plus efficace sans nuire à l’efficience des pratiques commerciales.

En 2021, le domaine de la protection des renseignements personnels, de la cybersécurité et du traitement des données a connu des développements importants qui continueront d’avoir une incidence en 2022 et au-delà. Apprenez-en davantage sur les enjeux susceptibles d’influer sur votre entreprise et sur la façon de vous préparer pour l’année à venir. Lisez le rapport de notre groupe Cyber/Données pour connaître les dernières tendances et les principaux développements en matière de protection des renseignements personnels, de gestion des données et de cybersécurité qui peuvent influencer vos décisions commerciales. Téléchargez le rapport : https://bit.ly/3qWo8ay

[1] Un exemple concret de brassage est présenté sur la page d’Imperva "What Is Data Anonymization.”

[2] Il va de soi que les organisations doivent mettre en place des mesures de sécurité internes robustes pour éviter que des acteurs malveillants internes ou externes mettent la main sur ces clés.

Auteurs

Abonnez-vous

Recevez nos derniers billets en français

Inscrivez-vous pour recevoir les analyses de ce blogue.
Pour s’abonner au contenu en français, procédez à votre inscription à partir de cette page.

Veuillez entrer une adresse valide