summaryrefslogtreecommitdiff
path: root/introduction.tex
blob: 0635e86589321e65774e6e50659b32f9bf0d001f (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
L'intelligence artificielle (IA) est de plus en plus présente dans de nombreux domaines comme la santé~\cite{dildar2021skin,gulshan2016development,quinn2022three}, les médias~\cite{gptjournal} ou les ressources humaines~\cite{ore2022opportunities}. 
Ces technologies induisent des risques pour la confidentialité des données personnelles des utilisateurs~\cite{MehnazAttInf,yeom,shokri2017membership,Song2020Overlearning} et peuvent introduire des biais discriminatoires rendant les décisions automatiques non équitables~\cite{fairmetric,fairmetric2,debiase,reductions}.
Cette inéquité est étudiée à deux niveaux dans la littérature scientifique.
L'équité individuelle cherche à s'assurer que les IA se comportent de la même manière à toutes choses égales, excepté un attribut sensible comme la couleur de peau.
L'équité de groupe, quant à elle, cherche à comprendre les différences de traitement par les IA entre les minorités.

Ma principale contribution vise à comprendre le lien entre l'équité et la confidentialité.
Plus précisement elle étudie en quoi un manque d'équité permet l'inférence d'attribut sensible.
C'est par exemple le cas en reconnaissance faciale : Song et al.~\cite{Song2020Overlearning} ont cherché à inférer le genre et ont montré que, à partir de cette inférence, il est possible de retrouver la couleur de peau à 62.18\%.
Notre approche théorique nous a amené à démontrer que, sous un certain aspect, la confidentialité et l'équité pouvaient travailler de concert pour créer des IA plus fiables.
Nous avons validé ces résultats en suivant une approche expérimentale en étudiant des bases de données et des algorithmes d'apprentissage standards.

J'ai aussi pris part au travaux suivants.
Déjà j'ai pu participer à l'élaboration de MixNN~\cite{Lebrun_2022} : un protocole d'apprentissage fédéré respectueux de la confidentialité des données des participants à l'apprentissage.
Cette solution mélange les couches des mises à jour envoyées par les participants à l'apprentissage fédéré à l'aide d'un serveur intermédiaire~\footnote{\textit{Proxy}}.
J'ai démontré que cette opération n'a pas d'impact sur l'utilité du modèle aggloméré finale.
Ensuite j'ai contribué à une étude théorique du protocole LoraWAN : un protocole de communication de l'internet des objets\footnote{\textit{Internet Of Things}} (IOT).
Les identifiants séquentiels confidentielles\footnote{\textit{Sequential private identifiers}} rendent ce protocole robuste face à la ré-identification des objets connectés~\cite{pelissier2024privacy}.
J'ai vérifié que cette modification n'entraîne pas de collisions de paquets et j'ai précisé les garanties théoriques de confidentialité atteintes.

Je me concentre dans ce manuscrit sur l'étude du lien entre équité et confidentialité dans l'IA.
Pour ce faire nous commencerons par présenter un contexte général dans le Chapitre~\ref{sec:contexte} qui permettra de mieux comprendre ce qu'est l'IA, quels sont les attentes, les enjeux et les régulations.
Nous verrons ainsi que l'équité et la confidentialité sont des points capitaux qu'il faut prendre en compte pour un développement moral de l'IA, aligné avec nos valeurs républicaines, dans le respect des législations européennes et françaises.
Ensuite, je vous présenterai dans le Chapitre~\ref{sec:pre} les notions clefs dont nous allons avoir besoin pour comprendre mes développements nouveaux. 
Il s'agit de fixer les objets mathématiques que nous utiliserons mais aussi de présenter un rapide état de l'art de l'équité et de la confidentialité en IA sur lequel reposent les bases de mes contributions.
Dans le Chapitre~\ref{sec:fini} nous allons construire un nouvel algorithme d'apprentissage automatique optimisé pour des bases de données déséquilibrées vis-à-vis d'un attribut.
Grâce à cet algorithme, nous mettrons en place une attaque d'inférence d'attribut sensible que nous utiliserons au Chapitre~\ref{sec:aia} pour l'étude du lien entre équité et confidentialité.
Les données synthétiques sont utilisées pour contourner les obligations légales de protection des données personnelles.
Nous explorerons donc l’impact de l’utilisation des données synthétiques pour l'entraînement des IA sur l'inférence d'attributs sensibles au Chapitre~\ref{sec:synth}.
Finalement, nous ouvrons de nouvelles pistes de recherche au Chapitre~\ref{sec:per}.