summaryrefslogtreecommitdiff
path: root/perspectives.tex
diff options
context:
space:
mode:
Diffstat (limited to 'perspectives.tex')
-rw-r--r--perspectives.tex157
1 files changed, 140 insertions, 17 deletions
diff --git a/perspectives.tex b/perspectives.tex
index d65c5e0..c522cbb 100644
--- a/perspectives.tex
+++ b/perspectives.tex
@@ -5,10 +5,10 @@ Pour pallier cela, nous avons expliqué que notre classifieur peut être utilisÃ
Cependant, nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée.
\section{Génération équitable et confidentielle}
-Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible.
+Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'un attribut sensible.
Nous avons aussi vu qu'il était possible d'entraîner les générateurs pour qu'ils imposent la confidentialité différentielle.
Cela amène la question suivante :
-Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ?
+est-il possible d'entraîner un générateur pour empêcher l'inférence d'un attribut sensible ?
Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question.
La première solution qui nous vient à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence.
@@ -28,28 +28,151 @@ Nous modélisons la base de données qui sert à l'entraînement du générateur
\end{itemize}
A partir de ces trois variables, notre générateur crée des données synthétiques que nous modélisons de la manière suivante :
-\begin{itemize}
- \item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
- \item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
-\end{itemize}
+ \begin{itemize}
+ \item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
+ \item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
+ \item $S_s:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$
+ \end{itemize}
Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$.
Pour formaliser cela nous introduisons la notion suivante :
-\begin{equation*}
-\forall\varepsilon>0~\exists\delta>0~\forall f\left(
-C_{X_s,Y_s}(f)<\delta \implies
-d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right)
-\right)<\varepsilon
-\end{equation*}
-Avec $C_{X_s,Y_s}$ la fonction de coût calculée sur les données synthétiques :
-\begin{equation*}
- C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square)))
-\end{equation*}
+\begin{definition}[$\varepsilon^0$-Convergence en entraînement.]
+ \begin{equation*}
+ \forall\varepsilon>\varepsilon^0~\exists\delta>0~\forall f\left(
+ C_{X_s,Y_s}(f)<\delta \implies
+ d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right)
+ <\varepsilon\right)
+ \end{equation*}
+ Avec $C_{X_s,Y_s}$ la fonction de coût calculée sur les données synthétiques :
+ \begin{equation*}
+ C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square)))
+ \end{equation*}
+\end{definition}
Nous proposons donc comme perspective d'étudier cette notion.
Premièrement, nous voyons qu'elle dépend de $d$.
$d$ n'est pas forcément une distance, mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$.
-Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités.
+Un candidat prometteur pour $d$ est donc le divergence de Kullback-Leibler~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités.
Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifieur que nous avons construit au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibrée maximale est moins coûteux en opérations que l'information mutuelle.
+Nous allons montrer, dans le cas où $d$ est une distance, que si les données synthétiques sont générées pour imposer la parité démographique alors, sous certains hypothèses, le modèle cible converge en entraînement vers la parité démographique sur les données réelles.
+
+\begin{theorem}
+ \label{th:per-fairgen}
+ Sous les hypothèses suivantes
+ $P_{f\circ X,S}$
+ $(4\gamma+\zeta)$-converge en entraînement vers
+ $P_{f\circ X}\otimes P_S$.
+
+ \begin{hypothese}[Lien entre la fonction de coût et la distance entre les lois des données d'entrée et des étiquette.]
+ \label{hyp:per-synth-cost}
+ $(\Omega,\mathcal{T},P)$ est un espace probabilisé.
+ Soit $\mathcal{Q}$ en ensemble de mesures de probabilité sur $(\Omega,\mathcal{T})$ tel que toutes les mesures images de ce théorème soient dans cet ensemble.
+ Soit $d$ tel que $(\mathcal{Q},d)$ soit un espace métrique et vérifiant l'inégalité du traitement de données.
+
+
+ Il existe une fonction $\varphi$, continue, croissante, positive, telle que
+ \begin{equation}
+ \forall \delta>0,
+ \left(C_{X,Y}(f)<\delta\right)
+ \implies
+ \left(
+ d(P_{f\circ X},P_Y)<\varphi(\delta)
+ \right)
+ \end{equation}
+ \end{hypothese}
+
+ \begin{hypothese}[Approximation des données synthétiques]
+ \label{hyp:per-synth-apprx}
+ \begin{align}
+ \label{eq:per-approx}
+ &d(P_{X_s},P_X)<\gamma\\
+ &d(P_{Y_s},P_Y)<\gamma\\
+ \label{eq:per-approx-s}
+ &d(P_{S_s},P_S)<\gamma
+ \end{align}
+ \end{hypothese}
+
+ \begin{hypothese}[Approximation de la partié démographique.]
+ \label{hyp:per-synth-fair}
+ \begin{equation}
+ d(P_{Y_S,S_S},P_{Y_S}\otimes P_{S_S})<\zeta
+ \end{equation}
+ \end{hypothese}
+
+\end{theorem}
+
+\begin{proof}
+
+ Soit $\varepsilon > 4\gamma+\zeta$.
+ Soit $\delta\in~]0,\varphi^{-1}(\varepsilon-4\gamma-\zeta)[$.
+ Où $\varphi^{-1}$ est l'inverse généralisé de $\varphi$.
+
+ On se donne $f:(E,\mathcal{E})\rightarrow (F,\mathcal{F})$ tel que
+\begin{equation}
+ \label{mod_conv}
+ C_{X_S,Y_S}(f)<\delta
+\end{equation}
+
+On souhaite montrer que
+ \begin{equation}
+ \label{eq:per-loup}
+ d(P_{f\circ X,S},P_{f\circ X}\otimes P_{S})<\varepsilon
+ \end{equation}
+
+ D'après l'Hypothèse~\ref{hyp:per-synth-cost} nous avons
+ \begin{equation}
+ \label{eq:per-fox}
+ d(P_{f\circ X_S},P_{Y_S})
+ <\varphi(\delta)
+ \end{equation}
+
+ Ensuite, d'après l'Hypothèse~\ref{hyp:per-synth-fair} et l'Equation~\ref{eq:per-fox}
+ \begin{equation}
+ \label{eq:per-badger}
+ d(P_{f\circ X_S,S_S},P_{f\circ X_S}\otimes P_{S_S})
+ <\varphi(\delta)+\zeta
+ \end{equation}
+
+ Les Equations~\ref{eq:per-approx} et~\ref{eq:per-approx-s} de l'Hypothèse~\ref{hyp:per-synth-apprx} impliquent que
+ \begin{align*}
+ &d(P_{f\circ X}\otimes P_{S_S}, P_{f\circ X}\otimes P_{S})<\gamma\\
+ \text{et}&\\
+ &d(P_{f\circ X_S}\otimes P_{S_S}, P_{f\circ X}\otimes P_{S_S})<\gamma\\
+ \end{align*}
+
+ Donc
+ \begin{equation}
+ \label{eq:per-2ga}
+ d(P_{f\circ X_S}\otimes P_{S_S}, P_{f\circ X}\otimes P_{S})<2\gamma
+ \end{equation}
+
+ De même pour $P_{f\circ X_S,S_S}$, nous avons
+ \begin{equation}
+ \label{eq:per-2gb}
+ d(P_{f\circ X_S,S_S}, P_{f\circ X,S})<2\gamma
+ \end{equation}
+
+ Les Equations~\ref{eq:per-badger}, ~\ref{eq:per-2ga} et~\ref{eq:per-2gb} impliquent que
+ \begin{equation}
+ d(P_{f\circ X,S},P_{f\circ X}\otimes P_{S})<
+ \varphi(\delta)+\zeta+4\gamma
+ \end{equation}
+
+ Or
+ \begin{align*}
+ &\delta<\varphi^{-1}(\varepsilon-\zeta-4\gamma)\\
+ \implies&\varphi(\delta)<\varepsilon-\zeta-4\gamma\\
+ \implies&\varphi(\delta)+\zeta+4\gamma<\varepsilon
+ \end{align*}
+
+ Nous avons donc le résultat attendu comme écrit à l'Equation~\ref{eq:per-loup}.
+\end{proof}
+
+Il n'est pas encore claire comment générer des données vérifiant les hypothèses du théorème.
+Cependant les hypothèses prennent en compte que la loi des données synthétiques n'est pas exactement la loi des donnes réelles et que les données synthétique ne font que approcher la parité démographique.
+Je penses donc que cette génération peut être faite en deux étapes :
+dans un premier temps générer les données sans contraintes et dans un second temps réaliser un traitement en aval pour approcher la partie démographique.
+Un tel protocole permettrai aussi de conserver les propriétés de confidentialité différentielle obtenu lors de la première génération des données synthétiques car le base de donnée réelle n'est pas consulté pour approcher la parité démographique.
+Ainsi, bien qu'il soit impossible d'obtenir à la fois parfaite équité et confidentialité différentielle~\cite{cummings2019compatibility}, cette nouvelle notion de $\epsilon^0$-convergence en entraînement est prometteuse pour obtenir un meilleur contrôle sur le compromis à faire entre ces deux notions.