diff options
author | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-02 17:48:17 +0200 |
---|---|---|
committer | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-02 17:48:17 +0200 |
commit | 93757957419c6853210a33f0c61570c2d34c3c77 (patch) | |
tree | 4086a2b946120f2cd025defbe8b260d02ed20c40 | |
parent | 1cd4b331820e3c5a1e1f5f85bce6e1a2e926df3a (diff) |
perspectives et conclusion
-rw-r--r-- | conclusion.tex | 30 | ||||
-rw-r--r-- | perspectives.tex | 55 |
2 files changed, 67 insertions, 18 deletions
diff --git a/conclusion.tex b/conclusion.tex index fdb1810..7692eaf 100644 --- a/conclusion.tex +++ b/conclusion.tex @@ -1,19 +1,19 @@ -L'IA est un enjeu majeur des années à venir comme le prouve les investissement massifs dont font preuve les secteur privée et publique. -Les géants du numérique et la litérature d'ancipation font miroiter un ensemble de téchnologies qui changerait drastiquement notre manière de vivre, aussi bien sur le plan individuel avec de nouveaux outils de travail, que sur le plan institutionel comme dans les domaiens de la santée ,de la justice ou de l'éducation. -Face à de tels attantes il est capitale d'optenir une compréhensio en profondeur des modèle d'apprantissage automatique qui sont la clé de voute de l'IA moderne. -En effet, certain effets indésirable lié à l'utilisation de ces modèles ont été observés. -Les modèles consomment enorement d'énergie, sont suceptibles d'avoir des failles de sécurtié, peuvent réveler des attribut sensibles de personnes réel, créent des prédiction inexplicables et biasé et peuvent être utilsés à des fins illegales. -De plus les implication sociétales d'une potentielle future AGI ne sont pas clairement établies hors du cadre de la science fiction. +L'IA est un enjeu majeur des années à venir comme le prouve les investissements massifs dont font preuve les secteurs privée et publique. +Les géants du numérique et la littérature d'anticipation font miroiter un ensemble de technologies qui changerait drastiquement notre manière de vivre, aussi bien sur le plan individuel avec de nouveaux outils de travail, que sur le plan institutionnel comme dans les domaines de la santé ,de la justice ou de l'éducation. +Face à de telles attentes, il est capitale d'obtenir une compréhension en profondeur des modèles d'apprentissage automatique qui sont la clé de voûte de l'IA moderne. +En effet, certain effets indésirables liés à l'utilisation de ces modèles ont été observés. +Les modèles consomment énormément d'énergie, sont susceptibles d'avoir des failles de sécurité, peuvent révéler des attributs sensibles de personnes réelles, créent des prédictions inexplicables et bissées et peuvent être utilisées à des fins illégales. +De plus les implication sociales d'une potentielle future AGI ne sont pas clairement établies hors du cadre de la science fiction. -Pour palier cela et créer une IA aligné avec les valeurs de République Française il faut des garantie théorique forte couplés à des résultats expérimentaux réalisé sur le long terme avec des bases de données incluant les minoritées victimes de discriminations. -C'est dans cette optique que s'inscrit ce manuscrit, plus précisement : -les interactions entre les différents effets indésirable liste plus haut ne sont pas encore compris dans leur entièreté. -Nous nous somment penché sur les intéractions entre l'équitée et la confidentialité et nous avons démontré que dans une certaine mesure l'équitée pouvai aller de pair avec confidentialité. -Pour cela nous avons crée des attaque ayant la garanté d'êter le plus performante tout en minimisant le coût de calcul. -Cela permetra à des organisations de contrôle comme la Défensseur des droits de mesurer avec certitude si une IA respècte les exigence d'equitée. -Les études théoriques que nous avons produites ont permis aussi de démontrer plusieur résultats qui améliorent la compréhension que nous avons de l'éxactitude équilibrée qui est une manière courante d'évaluer les modèles. +Pour palier cela et créer une IA alignée avec les valeurs de République Française il faut des garanties théoriques fortes couplées à des résultats expérimentaux réalisés sur le long terme avec des bases de données incluant les minorités victimes de discriminations. +C'est dans cette optique que s'inscrit ce manuscrit, plus précisément : +les interactions entre les différents effets indésirables listés plus haut ne sont pas encore compris dans leur entièreté. +Nous nous somment penché sur les interactions entre l'équité et la confidentialité et nous avons démontré que dans une certaine mesure, l'équité pouvais aller de pair avec confidentialité. +Pour cela nous avons crée des attaques ayant la garantie d'être les plus performantes tout en minimisant le coût de calcul. +Cela permettra à des organisations de contrôle, comme la Défenseur des droits, de mesurer avec certitude si une IA respecte les exigences d'équité. +Les études théoriques que nous avons produites ont permis aussi de démontrer plusieurs résultats qui améliorent la compréhension que nous avons de l'exactitude équilibrée : une manière courante d'évaluer les modèles. -Enfin nous nous somme attaqué à l'idée recu que les donnée synthétiques protègent unilatéralement la confidentialitée de utilisateur et leur attributs sensisbles en exhibant des contre exemples. -Néanmoin, modifier les algorithmes de génération de donnée en introduisant des contraintes d'équitée et de confidentialité pourrait permetre des avancé significative vers une IA plus morale. +Enfin nous nous somme attaqué à l'idée reçu que les donnée synthétiques protègent totalement la confidentialité des utilisateurs et leur attributs sensibles en exhibant des contre exemples. +Néanmoins, modifier les algorithmes de génération de donnée en introduisant des contraintes d'équité et de confidentialité pourrait permettre des avancées significative vers une IA plus morale. diff --git a/perspectives.tex b/perspectives.tex index 701bc57..14a8275 100644 --- a/perspectives.tex +++ b/perspectives.tex @@ -1,6 +1,55 @@ -\section{Classification finie} - \subsection{Votation} - \subsection{Neurones aléatoires} +\section{Optimisation de l'exactitude équilibrée pour des données d'entrées dans un ensemble infini} +L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs. +Il faut aussi avoir une base de donnée avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini. +Pour palier cela, nous avons expliqué que notre classifieur peut être utilisé à deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés. +Cependant nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée \section{Génération équitable et confidentielle} +Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible. +Nous avons aussi vu qu'il était possible d'entraîner les générateurs pour qu'ils imposent la confidentialité différentielle. +Cela amène la question suivante : +Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ? +Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question. + +La première solution qui nous viens à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence. +Plutôt nous allons entraîner le générateur pour qu'il génère l'attribut sensible. +Ainsi nous pouvons entraîner le modèle cible pour respecter la parité démographique ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}. +Cependant cette solution dépend de la personne qui vas construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisit et des paramètres des modèles. + +Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA. +On aimerait donc, que si on entraîne un classifieur avec nos données synthétique, ce classifieur soit un CCA pour l'attribut sensible. +On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé. +Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible. +Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes : +\begin{itemize} + \item $X:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$ + \item $Y:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$ + \item $S:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$ +\end{itemize} + +A partir de ces trois variables, notre générateur crée des données synthétiques que nous modélisons de la manière suivante : +\begin{itemize} + \item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$ + \item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$ +\end{itemize} + +Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$. +Pour formaliser cela nous introduisons la notions suivante : + +\begin{equation*} +\forall\varepsilon>0~\exists\delta>0~\forall f\left( +C_{X_s,Y_s}(f)<\delta \implies +d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right) +\right)<\varepsilon +\end{equation*} +Avec $C_{X_s,Y_s}$ la fonction de coût calculé sur les donnée synthétiques : +\begin{equation*} + C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square))) +\end{equation*} + +Nous proposons donc comme perspective d'étudier cette notions. +Déjà nous voyons qu'elle dépend de $d$. +$d$ n'est pas forcément une distance mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$. +Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités. +Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifier que nous avons construire au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibré maximale est moins coûteux en opérations que l'information mutuelle. |