diff options
author | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-02 17:48:17 +0200 |
---|---|---|
committer | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-02 17:48:17 +0200 |
commit | 93757957419c6853210a33f0c61570c2d34c3c77 (patch) | |
tree | 4086a2b946120f2cd025defbe8b260d02ed20c40 /perspectives.tex | |
parent | 1cd4b331820e3c5a1e1f5f85bce6e1a2e926df3a (diff) |
perspectives et conclusion
Diffstat (limited to 'perspectives.tex')
-rw-r--r-- | perspectives.tex | 55 |
1 files changed, 52 insertions, 3 deletions
diff --git a/perspectives.tex b/perspectives.tex index 701bc57..14a8275 100644 --- a/perspectives.tex +++ b/perspectives.tex @@ -1,6 +1,55 @@ -\section{Classification finie} - \subsection{Votation} - \subsection{Neurones aléatoires} +\section{Optimisation de l'exactitude équilibrée pour des données d'entrées dans un ensemble infini} +L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs. +Il faut aussi avoir une base de donnée avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini. +Pour palier cela, nous avons expliqué que notre classifieur peut être utilisé à deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés. +Cependant nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée \section{Génération équitable et confidentielle} +Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible. +Nous avons aussi vu qu'il était possible d'entraîner les générateurs pour qu'ils imposent la confidentialité différentielle. +Cela amène la question suivante : +Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ? +Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question. + +La première solution qui nous viens à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence. +Plutôt nous allons entraîner le générateur pour qu'il génère l'attribut sensible. +Ainsi nous pouvons entraîner le modèle cible pour respecter la parité démographique ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}. +Cependant cette solution dépend de la personne qui vas construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisit et des paramètres des modèles. + +Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA. +On aimerait donc, que si on entraîne un classifieur avec nos données synthétique, ce classifieur soit un CCA pour l'attribut sensible. +On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé. +Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible. +Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes : +\begin{itemize} + \item $X:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$ + \item $Y:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$ + \item $S:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$ +\end{itemize} + +A partir de ces trois variables, notre générateur crée des données synthétiques que nous modélisons de la manière suivante : +\begin{itemize} + \item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$ + \item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$ +\end{itemize} + +Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$. +Pour formaliser cela nous introduisons la notions suivante : + +\begin{equation*} +\forall\varepsilon>0~\exists\delta>0~\forall f\left( +C_{X_s,Y_s}(f)<\delta \implies +d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right) +\right)<\varepsilon +\end{equation*} +Avec $C_{X_s,Y_s}$ la fonction de coût calculé sur les donnée synthétiques : +\begin{equation*} + C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square))) +\end{equation*} + +Nous proposons donc comme perspective d'étudier cette notions. +Déjà nous voyons qu'elle dépend de $d$. +$d$ n'est pas forcément une distance mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$. +Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités. +Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifier que nous avons construire au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibré maximale est moins coûteux en opérations que l'information mutuelle. |