summaryrefslogtreecommitdiff
path: root/perspectives.tex
diff options
context:
space:
mode:
authorJan Aalmoes <jan.aalmoes@inria.fr>2024-10-02 17:48:17 +0200
committerJan Aalmoes <jan.aalmoes@inria.fr>2024-10-02 17:48:17 +0200
commit93757957419c6853210a33f0c61570c2d34c3c77 (patch)
tree4086a2b946120f2cd025defbe8b260d02ed20c40 /perspectives.tex
parent1cd4b331820e3c5a1e1f5f85bce6e1a2e926df3a (diff)
perspectives et conclusion
Diffstat (limited to 'perspectives.tex')
-rw-r--r--perspectives.tex55
1 files changed, 52 insertions, 3 deletions
diff --git a/perspectives.tex b/perspectives.tex
index 701bc57..14a8275 100644
--- a/perspectives.tex
+++ b/perspectives.tex
@@ -1,6 +1,55 @@
-\section{Classification finie}
- \subsection{Votation}
- \subsection{Neurones aléatoires}
+\section{Optimisation de l'exactitude équilibrée pour des données d'entrées dans un ensemble infini}
+L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs.
+Il faut aussi avoir une base de donnée avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini.
+Pour palier cela, nous avons expliqué que notre classifieur peut être utilisé à deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés.
+Cependant nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée
\section{Génération équitable et confidentielle}
+Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible.
+Nous avons aussi vu qu'il était possible d'entraîner les générateurs pour qu'ils imposent la confidentialité différentielle.
+Cela amène la question suivante :
+Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ?
+Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question.
+
+La première solution qui nous viens à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence.
+Plutôt nous allons entraîner le générateur pour qu'il génère l'attribut sensible.
+Ainsi nous pouvons entraîner le modèle cible pour respecter la parité démographique ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}.
+Cependant cette solution dépend de la personne qui vas construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisit et des paramètres des modèles.
+
+Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA.
+On aimerait donc, que si on entraîne un classifieur avec nos données synthétique, ce classifieur soit un CCA pour l'attribut sensible.
+On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé.
+Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible.
+Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes :
+\begin{itemize}
+ \item $X:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
+ \item $Y:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
+ \item $S:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$
+\end{itemize}
+
+A partir de ces trois variables, notre générateur crée des données synthétiques que nous modélisons de la manière suivante :
+\begin{itemize}
+ \item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
+ \item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
+\end{itemize}
+
+Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$.
+Pour formaliser cela nous introduisons la notions suivante :
+
+\begin{equation*}
+\forall\varepsilon>0~\exists\delta>0~\forall f\left(
+C_{X_s,Y_s}(f)<\delta \implies
+d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right)
+\right)<\varepsilon
+\end{equation*}
+Avec $C_{X_s,Y_s}$ la fonction de coût calculé sur les donnée synthétiques :
+\begin{equation*}
+ C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square)))
+\end{equation*}
+
+Nous proposons donc comme perspective d'étudier cette notions.
+Déjà nous voyons qu'elle dépend de $d$.
+$d$ n'est pas forcément une distance mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$.
+Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités.
+Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifier que nous avons construire au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibré maximale est moins coûteux en opérations que l'information mutuelle.