aia/theo.tex


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233

\subsection{Utiliser l'équité pour mitiger les AIA}
Commençons par présenter le résultat le plus général, qui fonctionne aussi bien pour des modèles de classification que pour des régressions.
Ce résultat est aussi indépendant du type d'attribut binaire, quantitatif au qualitatif.

\begin{theorem}
    \label{th:aia-dpgood}
    Les deux propositions suivantes sont équivalentes :
    \begin{enumerate}
        \item Le modèle cible satisfait la parité démographique .
        \item Toutes les attaques utilisant la prédiction pour inférer l'attribut sensible sont des CCA.
    \end{enumerate}

    Et aussi, les deux propositions suivantes sont équivalentes :
    \begin{enumerate}
        \item Le modèle cible satisfait la parité démographique généralisée.
        \item Toutes les attaques utilisant le logit pour inférer l'attribut sensible sont des CCA.
    \end{enumerate}
\end{theorem}

\begin{proof}
    Par définition, la parité démographique (respectivement généralisée) est équivalente à l'indépendance entre l'attribut sensible et la prédiction (respectivement le logit).
    Ainsi, d'après le Lemme~\ref{lemme:aia-xycca}, dire que tout classifieur de l'attribut sensible utilisant la prédiction (respectivement le logit) est un CCA est équivalent à dire que le modèle cible respecte la parité démographique (respectivement généralisée).
\end{proof}

Ce résultat nous apprend que s'assurer que le modèle cible satisfait la parité démographique permet de s'assurer que les attributs sensibles des utilisateurs sont protégés lors de l'utilisation du modèle.
Dans le cas d'un modèle cible qui réalise une classification binaire et en considérant un attribut binaire nous avons une propriété plus précise.

\begin{propriete}
    \label{prop:aia-demparlvl}
    Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé et $(\{0,1\}$, $\mathcal{P}(\{0,1\}))$ des espaces mesurables.
    Soit les variables aléatoires suivantes
    \begin{itemize}
        \item L'étiquette $Y:(\Omega,\mathcal{T})\rightarrow (\{0,1\},\mathcal{P}(\{0,1\}))$
        \item La donnée d'entrée $X:(\Omega,\mathcal{T})\rightarrow(\{0,1\},\mathcal{P}(\{0,1\})$
        \item L'attribut sensible $S:(\Omega,\mathcal{T})\rightarrow(\{0,1\},\mathcal{P}(\{0,1\}))$
        \item L'attaque $a:(\Omega,\mathcal{T})\rightarrow(\{0,1\},\mathcal{P}(\{0,1\}))$
        \item Le modèle cible $f:(\Omega,\mathcal{T})\rightarrow(\{0,1\},\mathcal{P}(\{0,1\}))$
    \end{itemize}
    Alors nous avons 
    \begin{equation*}
        \text{max}_{a}BA(a) = \frac{1}{2}(1+\text(DemParLvl(f)))
    \end{equation*}
\end{propriete}

\begin{proof}
    On pose $\hat{Y}=f\circ X$.
    L'ensemble $A$ des fonctions de $\{0,1\}$ vers $\{0,1\}$ contient quatre éléments : 
$a_0=0$, $a_1=id$, $a_2=1-id$ et $a,3=1$.
    Pour chaque attaque $a\in A$ l'exactitude équilibrée de $a$ est 
    \begin{equation*}
        BA(a) = \frac{1}{2}(P(a\circ \hat{Y}=0|S=0) + P(a\circ \hat{Y}=1|S=1))
    \end{equation*}
Nous avons $BA(b_0) = BA(b_3) = \frac{1}{2}$ il n'est donc pas nécessaire de considérer ces éléments pour résoudre le problème d'optimisation.
Ce problème s'écrit $\text{max}_{a\in A}BA(a)) = \text{max}(BA(a_1), BA(a_2))$.
Nous remarquons que $a_1\circ \hat{Y}=\hat{Y}$ et $a_2\circ \hat{Y}=1 - \hat{Y}$.
Ainsi, 
{
\begin{align*}
    BA(a_1) &= \frac{1}{2}(P(\hat{Y}=0|S=0) + P(\hat{Y}=1|S=1))\\
    &=\frac{1}{2}(1+P(\hat{Y}=1|S=1) - P(\hat{Y}=1|S=0))
\end{align*}
}
et 
{
\begin{align*}
    BA(a_2)=\frac{1}{2}(1+P(\hat{Y}=1|S=0) - P(\hat{Y}=1|S=1))
\end{align*}
}
Donc, 
{
\begin{align*}
    &\text{max}_{A\in B}BA(a) \\
    = &\frac{1}{2}\left(1+\text{max}\left(
    \begin{matrix}
        P(\hat{Y}=0|S=0) -P(\hat{Y}=1|S=1)\\ 
        P(\hat{Y}=1|S=0) -P(\hat{Y}=0|S=1)
    \end{matrix}
    \right)\right)\\
    =&\frac{1}{2}(1+|P(\hat{Y}=1|S=1) - P(\hat{Y}=1|S=0)|)
\end{align*}
}
\end{proof}

Ainsi pour le classifieur binaire avec attribut sensible binaire, il est suffisant de calculer le DemParLvl du modèle cible pour connaître le maximum d'exactitude équilibrée atteignable par n'importe quelle attaque.
De plus, nous voyons que l'exactitude équilibrée maximale d'attaque vaut ${1}{2}$ si et seulement si $\text{DemParLvl}=0$.
C'est-à-dire que $f$ satisfait la parité démographique est équivalent à dire que toute attaque a une exactitude équilibrée égale à $\frac{1}{2}$.

Grâce au Théorème~\ref{th:aia-dpgood} nous savons aussi que toute autre définition d'équité qui n'implique pas la parité démographique ne permet pas de mitiger les AIA. 
Par exemple, nous allons montrer un cas où l'égalité des chances de la Définition~\ref{def:background-eq-eoo} est satisfaite mais où il existe une AIA qui donne une exactitude équilibrée supérieure à $0,5$.

On représente le classifieur $\hat{Y}$ de l'étiquette $Y$ ainsi que la donnée d'entrée $X$ et l'attribut sensible $S$ dans le tableau suivant :
\begin{equation*}
    \begin{matrix}
        X&Y&\hat{Y}&S\\
        0&0&0&0\\
        0&0&0&1\\
        0&0&0&0\\
        0&0&0&0\\
        1&1&1&1\\
        1&1&1&1\\
        1&1&1&1\\
        1&1&1&0\\
    \end{matrix}
\end{equation*}
Nous utilisons le modèle cible $\hat{Y}=id\circ X$.
Ce classifieur satisfait l'équité des chances car 
$P(\hat{Y}=0\mid Y=0\wedge S=0) = P(\hat{Y}=0\mid Y=0\wedge S=1) = 1$
et 
$P(\hat{Y}=0\mid Y=1\wedge S=0) = P(\hat{Y}=0\mid Y=1\wedge S=1) = 0$.
Alors si on choisit comme modèle d'attaque la fonction identité, nous avons comme exactitude équilibrée de l'AIA $0,75$, ce qui indique une fuite de l'attribut sensible.

%De manière plus précise et plus générale nous avançons le théorème suivant :
%\begin{theorem}
%\label{th:eoo}
    %Si $\hat{Y}$ satisfait l'équité des chances pour $Y$ et $S$, alors l'exactitude équilibrée de l'AIA est de $\frac{1}{\#F}$ si et seulement si $Y$ est indépendant de $S$ ou si 
    %for $Y$ and $S$ then the balanced accuracy of AH is $\frac{1}{2}$ if and only if $Y$ is independent of $S$ or $\hat{Y}$ is independent of $Y$.
%\end{theorem}
%Those two conditions are unlikely to happen with real world dataset and target models.
%Indeed, $Y$ is independent of $S$ means that the ground truth label is independent of the sensitive attribute which never happens as we have observed in the experiment section.
%And $\hat{Y}$ is independent of $Y$ means that the target model did not managed to learn anything: it does not have any utility which defies the purpose of using it in a production and commercial environment. 
%Since both of those conditions are not practical, we close the case of EO by saying that it is not fit as a defense against attribute inference attack at inference time.
%We prove the theorem:
%\begin{proof}
%Let $a$ be the attack model trained for AS: $\hat{S}=a\circ \hat{Y}$.
%By the total probability formula
%\begin{align*}&P(\hat{S}=0|S=0)\\
%=&P(\hat{S}=0|S=0Y=0)P(Y=0|S=0)\\
%+&P(\hat{S}=0|S=0Y=1)P(Y=1|S=0)
%\end{align*}
%and as well
%\begin{align*}&P(\hat{S}=1|S=1)\\
        %=&P(\hat{S}=1|S=1Y=0)P(Y=0|S=1)\\
        %+&P(\hat{S}=1|S=1Y=1)P(Y=1|S=1)
%\end{align*}
%Then we substitute those terms in the definition of the balanced accuracy of the target model.
%\begin{align*}
        %&\frac{P(\hat{S}=0|S=0)+P(\hat{S}=1|S=1)}{2}\\
        %=&\frac{1}{2}+\frac{1}{2}\left(P(Y=0|S=0)-P(Y=0|S=1)\right)\\
        %&\left(P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=0) -
        %P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=1)\right)
%\end{align*}
%The balanced accuracy is equal to 0.5 if and only if $P(Y=0|S=0)=P(Y=0|S=1)$
%or $\forall a~P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=0)=P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=1)$.
%The first equation means that $Y$ is independent of $S$.
%The second means that for $S=1$ the trained target model did not learn.
%We can do the same computing for $S=0$ and obtain a similar conclusion. 
%\end{proof}
%
\subsection{Utiliser l'AIA pour contrôler le niveau d'équité}
\label{sec:aia-theo-aia-eq}
De manière réciproque, le lien que nous avons démontré peut aussi être utilisé dans le cas suivant :
Imaginons qu'un fournisseur de modèle d'IA ou un organisme de régulation comme la Défenseure des Droit souhaite contrôler si un modèle est équitable ou non.
Si $\#F$ ou $\#G$ sont grands voire de cardinaux infinis, vérifier directement des propriétés d'indépendance entre la sortie du modèle et des attributs sensible peut entraîner un coût de calcul trop élevé pour être faisable~\cite{ofverstedt2022fast}.

Grâce au Théorème~\ref{th:aia-dpgood} nous avons la garantie que si tous les modèles AIA ont une exactitude équilibrée égale à $\frac{1}{\#F}$, alors le modèle cible satisfait la parité démographique.
Bien sûr cette technique atteint sa limite si $\#G$ est infini car alors l'exactitude équilibrée n'est plus définie.

Calculer l'exactitude équilibrée de tous les modèles d'AIA est impossible.
Nous allons voir que si l'AIA qui donne une exactitude équilibrée maximale vaut $\frac{1}{\#F}$, alors c'est le cas pour toutes.

\begin{theorem}
    \label{th:aia-bluey}
    Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé.
    Soient $(E,\mathcal{E})$ et $(F,\mathcal{P}(F))$ des espaces mesurables avec $F$ un ensemble fini.
    Soient les variables aléatoires suivantes :
    \begin{itemize}
        \item $X:\Omega\rightarrow E$
        \item $Y:\Omega\rightarrow F$
    \end{itemize}
    Soit $A$ l'ensemble des fonctions mesurables de $(E,\mathcal{E})$ dans $(F,\mathcal{P}(F))$.
    Nous appelons $BA$ la fonction qui à toutes les fonctions $a$ de $A$ associe l'exactitude équilibrée de $a \circ X$ pour l'étiquette $Y$.
    \begin{equation*}
    \exists a\in A~BA(a)< \frac{1}{\#F}
    \implies
    \exists a\in A~BA(a)>\frac{1}{\#F}
    \end{equation*}
\end{theorem}

\begin{proof}
    Soit $a\in A$ telle que $BA(a)<\frac{1}{\#F}$.
    Nous allons montrer qu'il existe $b\in A$ telle que $BA(b)>\frac{1}{\#F}$

    A la manière de la démonstration du Théorème~\ref{th:fini-bacca}, on se donne la matrice 
    \begin{equation*}
        M(i,j) = P(a\circ X = y_i\mid Y=y_j)
    \end{equation*}

    On note $S_{\#F}$ l'ensemble des bijections de $\#F$ sur lui-même.
    Montrons qu'il existe 
    $\varphi\in S_{\#F}$ telle que $\sum_{j\in\#F}M(\varphi(j),j) >1$.
    Raisonnons par l'absurde.
    Nous supposons que 
    \begin{equation*}
        \forall \varphi\in S_{\#F}~\sum_{j\in\#F}M(\varphi(j),j)<1
    \end{equation*}
    Alors 
    \begin{align*}
        &\sum_{\varphi\in S_{\#F}}\sum_{j\in\#F}M(\varphi(j),j)<N!\\
        \implies&\sum_{j\in\#F}\sum_{\varphi\in S_{\#F}}M(\varphi(j),j)<N!\\
        \implies&\sum_{j\in\#F}\sum_{i\in\#F}(N-1)!M(i,j)<N!\\
        \implies&\sum_{j\in\#F}\sum_{i\in\#F}M(i,j)<N\\
    \end{align*}
    Ce qui est absurde car 
    \begin{equation*}
        \sum_{i\in\#F} M(i,j) = 
        \sum_{i\in\#F}P(a\circ X=y_i\mid Y=y_j)=1
    \end{equation*}
    Donc
    \begin{equation*}
        \sum_{j\in\#F}\sum_{i\in\#F}M(i,j) = N
    \end{equation*}

    Ainsi, nous avons $\varphi\in S_{\#F}$ telle que 
    $\sum_{j\in\#F}M(\varphi(j),j)>1$.
    Comme nous l'avons démontré dans la preuve du Théorème~\ref{th:fini-bacca}, nous avons $u\in\mathcal{H}^{\#F}$ tel qu'en posant 
    \begin{equation*}
        b = u_{\#F-1}\circ\cdots\circ u_0\circ a
    \end{equation*}
    alors $BA(b)>\frac{1}{\#F}$.

\end{proof}

Nous allons utiliser ce théorème pour montrer que si l'AIA maximale a une exactitude équilibrée égale à $\frac{1}{\#G}$ alors toutes les AIA ont la même exactitude équilibrée.
On se donne $A$ l'ensemble des fonctions mesurables de $(F,\mathcal{F})$ dans $(G,\mathcal{P}(G))$.
$A$ modélise l'ensemble des AIA possibles pour un modèle cible qui prédit dans $F$ et un attribut sensible dans $G$, un ensemble fini. 
Supposons que $\text{max}_{a\in A} BA(a)=\frac{1}{\#G}$.
Alors $\forall a\in A~BA(a)\leq\frac{1}{\#G}$.
D'après la contraposée du Théorème~\ref{th:aia-bluey} nous avons alors $\forall a\in A~BA(a)\geq\frac{1}{\#G}$.
Ainsi $\forall a\in A~BA(a)=\frac{1}{\#G}$.

Pour contrôler si un classifieur vérifie la parité démographique il est donc suffisant de connaître l'exactitude équilibrée maximale de toutes les AIA.
Comme nous venons de le voir, si cette valeur vaut $\frac{1}{\#G}$ alors le classifieur satisfait la parité démographique.
La recherche d'une AIA qui maximise l'exactitude équilibrée est discutée à la Section~\ref{sec:aia-aia}.