summaryrefslogtreecommitdiff
path: root/perspectives.tex
diff options
context:
space:
mode:
Diffstat (limited to 'perspectives.tex')
-rw-r--r--perspectives.tex30
1 files changed, 15 insertions, 15 deletions
diff --git a/perspectives.tex b/perspectives.tex
index 14a8275..d65c5e0 100644
--- a/perspectives.tex
+++ b/perspectives.tex
@@ -1,8 +1,8 @@
-\section{Optimisation de l'exactitude équilibrée pour des données d'entrées dans un ensemble infini}
+\section{Optimisation de l'exactitude équilibrée pour des données d'entrée dans un ensemble infini}
L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs.
-Il faut aussi avoir une base de donnée avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini.
-Pour palier cela, nous avons expliqué que notre classifieur peut être utilisé à deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés.
-Cependant nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée
+Il faut aussi avoir une base de données avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini.
+Pour pallier cela, nous avons expliqué que notre classifieur peut être utilisé à la deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés.
+Cependant, nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée.
\section{Génération équitable et confidentielle}
Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible.
@@ -11,13 +11,13 @@ Cela amène la question suivante :
Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ?
Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question.
-La première solution qui nous viens à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence.
-Plutôt nous allons entraîner le générateur pour qu'il génère l'attribut sensible.
-Ainsi nous pouvons entraîner le modèle cible pour respecter la parité démographique ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}.
-Cependant cette solution dépend de la personne qui vas construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisit et des paramètres des modèles.
+La première solution qui nous vient à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence.
+Nous allons plutôt entraîner le générateur pour qu'il génère l'attribut sensible.
+Ainsi, nous pouvons entraîner le modèle cible pour respecter la parité démographique, ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}.
+Cependant, cette solution dépend de la personne qui va construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisi et des paramètres des modèles.
Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA.
-On aimerait donc, que si on entraîne un classifieur avec nos données synthétique, ce classifieur soit un CCA pour l'attribut sensible.
+On aimerait donc, si l'on entraîne un classifieur avec nos données synthétiques, que ce classifieur soit un CCA pour l'attribut sensible.
On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé.
Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible.
Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes :
@@ -34,7 +34,7 @@ A partir de ces trois variables, notre générateur crée des données synthéti
\end{itemize}
Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$.
-Pour formaliser cela nous introduisons la notions suivante :
+Pour formaliser cela nous introduisons la notion suivante :
\begin{equation*}
\forall\varepsilon>0~\exists\delta>0~\forall f\left(
@@ -42,14 +42,14 @@ C_{X_s,Y_s}(f)<\delta \implies
d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right)
\right)<\varepsilon
\end{equation*}
-Avec $C_{X_s,Y_s}$ la fonction de coût calculé sur les donnée synthétiques :
+Avec $C_{X_s,Y_s}$ la fonction de coût calculée sur les données synthétiques :
\begin{equation*}
C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square)))
\end{equation*}
-Nous proposons donc comme perspective d'étudier cette notions.
-Déjà nous voyons qu'elle dépend de $d$.
-$d$ n'est pas forcément une distance mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$.
+Nous proposons donc comme perspective d'étudier cette notion.
+Premièrement, nous voyons qu'elle dépend de $d$.
+$d$ n'est pas forcément une distance, mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$.
Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités.
-Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifier que nous avons construire au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibré maximale est moins coûteux en opérations que l'information mutuelle.
+Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifieur que nous avons construit au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibrée maximale est moins coûteux en opérations que l'information mutuelle.