IA de confiance

AI & Privacy, comment protéger les données ?

La protection des données est au cœur de la sphère numérique depuis des années. Si le RGPD a permis d’encadrer les données personnelles, leur récolte et de sécuriser leur stockage, l’arrivée de l’IA redistribue les cartes. Cette technologie augmente la "surface d’attaque" et crée de nouveaux défis de confidentialité.

Pour aborder le sujet, nous avons eu le plaisir d’accueillir autour d’une table ronde : 

  • ​Paul Mangold - Assistant Professor - École Polytechnique
  • ​Matthieu BOUSSARD - VP AI - Craft AI
  • ​Henri CLAUDOT - Director, innovation & collaborative programs - IDEMIA Public Security
  • ​Isabelle LANDREAU - Chief Privacy officer, Group Data Protection Officer - IDEMIA Public Security
  • ​Jean-Philippe Clement - Deputy Director General of Services in charge of public space and facilities- Ville de Paris 

Mais qu’est-ce qu'une donnée ? 

On entend souvent parler de la nécessité de protéger ses données, de fuites de données ou encore de RGPD… Mais une donnée c’est quoi ? 

Une donnée, c'est tout simplement une information (brute ou un ensemble d’informations) qui peut être stockée puis traitée pour répondre à différents objectifs.  

Aujourd’hui chacun de nous donne ses informations à des centaines de grands acteurs qui les stockent puis les traitent (une donnée n’a de la valeur que si elle peut être traitée ou affinée). 

Les nouveaux enjeux autour de la protection des données

Depuis quelques années, l’intelligence artificielle ne cesse de progresser avec des modèles de plus en plus performants.
Mais cette technologie ne progresse pas par “magie”, en effet les modèles d’IA agrègent de la donnée et sont également entraînés dessus, de plus l’intelligence artificielle générative et son adoption plus ou moins contrôlée renforcent ce besoin de sécurisation de la data. 

Protection des données, privacy, confidentialité… Quelles différences ? 

Aujourd’hui quand on parle de données, beaucoup de termes et de réglementations nous viennent en tête, mais tous ne veulent pas dire la même chose : 

  • La privacy fait référence aux données personnelles. Attention, tous les pays du monde n’ont pas la même définition de ce qu’est une donnée personnelle, (par exemple certains pays considèrent que la religion n’est pas une donnée personnelle alors que d’autres non) et une donnée n'est plus considérée comme personnelle uniquement si elle est réellement anonymisée (lorsqu'il est impossible de réidentifier la personne par la suite).
  • La confidentialité c’est le fait de s’assurer qu’une information n’est accessible qu’aux personnes autorisées (elle n’est pas rendue publique). Cependant ce concept n’est pas défini dans l’IA act (la réglementation européenne destinée à encadrer l’usage de l’IA) seuls quelques articles y sont consacrés et concernent les régimes à haut risque (brevets, marques, informations sensibles) des IA génératives. D’où l’importance du privacy by design qui consiste à intégrer la protection de la vie privée dès les toutes premières étapes de création d'un projet, plutôt que d'y réfléchir après coup. En revanche les organismes “créateurs” de la solution d’IA sont tenus d’informer les utilisateurs sur l’utilisation de leurs données dans une logique de transparence (IA à haut risque ou non) conformément à la réglementation RGPD. 

L’importance de la donnée dans les modèles d’IA et ses applications phares 

Il est d’autant plus important de sécuriser les données dans le cadre d’un projet IA car sans elles, le fonctionnement de l’IA serait impossible, en effet elles sont utiles dans de nombreux cas de figure : 

  • Par exemple les données de l’entreprise “Pay by Phone” (une solution de paiement de stationnement via mobile) sont utilisées pour indiquer des places de stationnement libres. En effet 25% du trafic dans cette zone correspond en réalité à de la recherche de stationnement… Un moyen efficace de réduire et de fluidifier le trafic. 
  • Pour le système Entry Exit d’Idemia installé dans 150 points de passage frontaliers, les données biométriques et personnelles sont utilisées à des fins de sécurité afin de mettre en place un dispositif qui reconnaît les personnes qui sont autorisées ou non à sortir de l’espace Schengen. 

Quels sont les risques en cas de fuite de données ? 

Qui dit base regroupant des millions de données personnelles dit cible de choix pour les cyber attaques… Mais quelles sont les conséquences pour les organismes détenteurs de cette donnée ? 

La fuite de données peut avoir de lourdes conséquences sur les utilisateurs d’une solution (usurpation d’identité, changement de certaines informations…). L’IA act prévoit d’ailleurs des sanctions envers les organismes qui n’ont pas été en mesure de protéger les données de ses utilisateurs, mais au delà des sanctions économiques (qui peut atteindre un pourcentage significatif du chiffre d’affaire de l’entreprise en faute) et administratives, la première conséquence (et la plus lourde) pour ces organismes sera la mauvaise image renvoyée à ses utilisateurs (manque de confiance et de sécurisation). 

Comment sécuriser au mieux la data ?

Afin d’éviter toute fuite de données et de leur utilisation à des fins malveillantes, chaque entreprise agrégeant des données se doit de les sécuriser de différentes manières : 

  • Le privacy by design : en mettant la protection des données au cœur de la conception du système 
  • Utiliser seulement des données réellement utiles en fonction de la solution (pas besoin d’une caméra à haute définition pour simplement savoir si une place de stationnement est pleine ou vide par exemple) et trouver un compromis entre confidentialité et capacité de la solution. C’est ce qu’on appelle plus précisément la “minimisation” des données. 
  • Héberger les données récoltées sur des serveurs européens. 
  • La “differential privacy” : Cette technique mathématique consiste à injecter un léger "bruit" (injection de fausses informations aléatoires qui sert à masquer les données réelles d'un individu) dans les données pour empêcher les attaques par "réidentification". Même en recoupant plusieurs bases de données, un hacker ne pourra pas isoler le profil d'un utilisateur précis au sein d'un modèle d'IA.

En conclusion 

Les données sont utiles sur de nombreux aspects pour les agents IA, mais les organisations et les utilisateurs ont tous deux des bonnes pratiques à respecter afin de garantir la sécurité de l’utilisation d’une solution. 

Pour les entreprises, une bonne sécurisation du système ainsi qu’une collecte “raisonnée” des données et une communication claire sur leur utilisation envers le public est indispensable tandis que les utilisateurs devront se former à une bonne “hygiène numérique” et avoir une utilisation “consciente” de ces solutions (notamment les IA génératives) en ne donnant pas leurs informations personnelles ouvertement dans leurs prompts. 

Pour lancer votre projet d'IA sécurisée contactez nos experts !