1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
|
\section{Optimisation de l'exactitude équilibrée pour des données d'entrée dans un ensemble infini}
L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs.
Il faut aussi avoir une base de données avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini.
Pour pallier cela, nous avons expliqué que notre classifieur peut être utilisé à la deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés.
Cependant, nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée.
\section{Génération équitable et confidentielle}
Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible.
Nous avons aussi vu qu'il était possible d'entraîner les générateurs pour qu'ils imposent la confidentialité différentielle.
Cela amène la question suivante :
Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ?
Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question.
La première solution qui nous vient à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence.
Nous allons plutôt entraîner le générateur pour qu'il génère l'attribut sensible.
Ainsi, nous pouvons entraîner le modèle cible pour respecter la parité démographique, ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}.
Cependant, cette solution dépend de la personne qui va construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisi et des paramètres des modèles.
Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA.
On aimerait donc, si l'on entraîne un classifieur avec nos données synthétiques, que ce classifieur soit un CCA pour l'attribut sensible.
On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé.
Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible.
Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes :
\begin{itemize}
\item $X:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
\item $Y:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
\item $S:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$
\end{itemize}
A partir de ces trois variables, notre générateur crée des données synthétiques que nous modélisons de la manière suivante :
\begin{itemize}
\item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$
\item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$
\end{itemize}
Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$.
Pour formaliser cela nous introduisons la notion suivante :
\begin{equation*}
\forall\varepsilon>0~\exists\delta>0~\forall f\left(
C_{X_s,Y_s}(f)<\delta \implies
d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right)
\right)<\varepsilon
\end{equation*}
Avec $C_{X_s,Y_s}$ la fonction de coût calculée sur les données synthétiques :
\begin{equation*}
C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square)))
\end{equation*}
Nous proposons donc comme perspective d'étudier cette notion.
Premièrement, nous voyons qu'elle dépend de $d$.
$d$ n'est pas forcément une distance, mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$.
Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités.
Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifieur que nous avons construit au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibrée maximale est moins coûteux en opérations que l'information mutuelle.
|