perspectives.tex


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178

\section{Optimisation de l'exactitude équilibrée pour des données d'entrée dans un ensemble infini}
L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs.
Il faut aussi avoir une base de données avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini.
Pour pallier cela, nous avons expliqué que notre classifieur peut être utilisé à la deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés.
Cependant, nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée.

\section{Génération équitable et confidentielle}
Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'un attribut sensible.
Nous avons aussi vu qu'il était possible d'entraîner les générateurs pour qu'ils imposent la confidentialité différentielle.
Cela amène la question suivante : 
est-il possible d'entraîner un générateur pour empêcher l'inférence d'un attribut sensible ? 
Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question.

La première solution qui nous vient à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence.
Nous allons plutôt entraîner le générateur pour qu'il génère l'attribut sensible.
Ainsi, nous pouvons entraîner le modèle cible pour respecter la parité démographique, ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}.
Cependant, cette solution dépend de la personne qui va construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisi et des paramètres des modèles.

Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA.
On aimerait donc, si l'on entraîne un classifieur avec nos données synthétiques, que ce classifieur soit un CCA pour l'attribut sensible.
On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé.
Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible.
Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes : 
\begin{itemize}
    \item $X:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
    \item $Y:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
    \item $S:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$
\end{itemize}

A partir de ces trois variables, notre générateur crée des données synthétiques que nous modélisons de la manière suivante :
    \begin{itemize}
        \item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
        \item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
        \item $S_s:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$
    \end{itemize}

Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$.
Pour formaliser cela nous introduisons la notion suivante : 

\begin{definition}[$\varepsilon^0$-Convergence en entraînement.]
    \begin{equation*}
    \forall\varepsilon>\varepsilon^0~\exists\delta>0~\forall f\left(
    C_{X_s,Y_s}(f)<\delta \implies
    d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right)
    <\varepsilon\right)
    \end{equation*}
    Avec $C_{X_s,Y_s}$ la fonction de coût calculée sur les données synthétiques :
    \begin{equation*}
        C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square)))
    \end{equation*}
\end{definition}

Nous proposons donc comme perspective d'étudier cette notion.
Premièrement, nous voyons qu'elle dépend de $d$. 
$d$ n'est pas forcément une distance, mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$.
Un candidat prometteur pour $d$ est donc le divergence de Kullback-Leibler~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités.
Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifieur que nous avons construit au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibrée maximale est moins coûteux en opérations que l'information mutuelle.

Nous allons montrer, dans le cas où $d$ est une distance, que si les données synthétiques sont générées pour imposer la parité démographique alors, sous certains hypothèses, le modèle cible converge en entraînement vers la parité démographique sur les données réelles.

\begin{theorem}
    \label{th:per-fairgen}
    Sous les hypothèses suivantes 
    $P_{f\circ X,S}$
    $(4\gamma+\zeta)$-converge en entraînement vers
    $P_{f\circ X}\otimes P_S$.

    \begin{hypothese}[Lien entre la fonction de coût et la distance entre les lois des données d'entrée et des étiquette.]
        \label{hyp:per-synth-cost}
        $(\Omega,\mathcal{T},P)$ est un espace probabilisé.
        Soit $\mathcal{Q}$ en ensemble de mesures de probabilité sur $(\Omega,\mathcal{T})$ tel que toutes les mesures images de ce théorème soient dans cet ensemble.
        Soit $d$ tel que $(\mathcal{Q},d)$ soit un espace métrique et vérifiant l'inégalité du traitement de données.


        Il existe une fonction $\varphi$, continue, croissante, positive, telle que 
        \begin{equation}
            \forall \delta>0, 
            \left(C_{X,Y}(f)<\delta\right)
            \implies
            \left(
            d(P_{f\circ X},P_Y)<\varphi(\delta)
            \right)
        \end{equation}
    \end{hypothese}

    \begin{hypothese}[Approximation des données synthétiques]
        \label{hyp:per-synth-apprx}
        \begin{align}
            \label{eq:per-approx}
            &d(P_{X_s},P_X)<\gamma\\
            &d(P_{Y_s},P_Y)<\gamma\\
            \label{eq:per-approx-s}
            &d(P_{S_s},P_S)<\gamma
        \end{align}
    \end{hypothese}

    \begin{hypothese}[Approximation de la partié démographique.]
        \label{hyp:per-synth-fair}
        \begin{equation}
            d(P_{Y_S,S_S},P_{Y_S}\otimes P_{S_S})<\zeta
        \end{equation}
    \end{hypothese}

\end{theorem}

\begin{proof}

    Soit $\varepsilon > 4\gamma+\zeta$.
    Soit $\delta\in~]0,\varphi^{-1}(\varepsilon-4\gamma-\zeta)[$.
    Où $\varphi^{-1}$ est l'inverse généralisé de $\varphi$.

    On se donne $f:(E,\mathcal{E})\rightarrow (F,\mathcal{F})$ tel que 
\begin{equation}
    \label{mod_conv}
    C_{X_S,Y_S}(f)<\delta
\end{equation}

On souhaite montrer que 
    \begin{equation}
        \label{eq:per-loup}
        d(P_{f\circ X,S},P_{f\circ X}\otimes P_{S})<\varepsilon
    \end{equation}

    D'après l'Hypothèse~\ref{hyp:per-synth-cost} nous avons 
    \begin{equation}
        \label{eq:per-fox}
        d(P_{f\circ X_S},P_{Y_S})
        <\varphi(\delta)
    \end{equation}

    Ensuite, d'après l'Hypothèse~\ref{hyp:per-synth-fair} et l'Equation~\ref{eq:per-fox}
    \begin{equation}
        \label{eq:per-badger}
        d(P_{f\circ X_S,S_S},P_{f\circ X_S}\otimes P_{S_S})
        <\varphi(\delta)+\zeta
    \end{equation}

    Les Equations~\ref{eq:per-approx} et~\ref{eq:per-approx-s} de l'Hypothèse~\ref{hyp:per-synth-apprx} impliquent que 
    \begin{align*}
        &d(P_{f\circ X}\otimes P_{S_S}, P_{f\circ X}\otimes P_{S})<\gamma\\
        \text{et}&\\
        &d(P_{f\circ X_S}\otimes P_{S_S}, P_{f\circ X}\otimes P_{S_S})<\gamma\\
    \end{align*}

    Donc
    \begin{equation}
        \label{eq:per-2ga}
        d(P_{f\circ X_S}\otimes P_{S_S}, P_{f\circ X}\otimes P_{S})<2\gamma
    \end{equation}
    
    De même pour $P_{f\circ X_S,S_S}$, nous avons 
    \begin{equation}
        \label{eq:per-2gb}
        d(P_{f\circ X_S,S_S}, P_{f\circ X,S})<2\gamma
    \end{equation}
    
    Les Equations~\ref{eq:per-badger}, ~\ref{eq:per-2ga} et~\ref{eq:per-2gb} impliquent que 
    \begin{equation}
        d(P_{f\circ X,S},P_{f\circ X}\otimes P_{S})<
        \varphi(\delta)+\zeta+4\gamma
    \end{equation}

    Or
    \begin{align*}
        &\delta<\varphi^{-1}(\varepsilon-\zeta-4\gamma)\\
        \implies&\varphi(\delta)<\varepsilon-\zeta-4\gamma\\
        \implies&\varphi(\delta)+\zeta+4\gamma<\varepsilon
    \end{align*}

    Nous avons donc le résultat attendu comme écrit à l'Equation~\ref{eq:per-loup}.
\end{proof}

Il n'est pas encore claire comment générer des données vérifiant les hypothèses du théorème.
Cependant les hypothèses prennent en compte que la loi des données synthétiques n'est pas exactement la loi des donnes réelles et que les données synthétique ne font que approcher la parité démographique.
Je penses donc que cette génération peut être faite en deux étapes : 
dans un premier temps générer les données sans contraintes et dans un second temps réaliser un traitement en aval pour approcher la partie démographique.
Un tel protocole permettrai aussi de conserver les propriétés de confidentialité différentielle obtenu lors de la première génération des données synthétiques car le base de donnée réelle n'est pas consulté pour approcher la parité démographique.
Ainsi, bien qu'il soit impossible d'obtenir à la fois parfaite équité et confidentialité différentielle~\cite{cummings2019compatibility}, cette nouvelle notion de $\epsilon^0$-convergence en entraînement est prometteuse pour obtenir un meilleur contrôle sur le compromis à faire entre ces deux notions.