\section{Optimisation de l'exactitude équilibrée pour des données d'entrées dans un ensemble infini} L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs. Il faut aussi avoir une base de donnée avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini. Pour palier cela, nous avons expliqué que notre classifieur peut être utilisé à deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés. Cependant nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée \section{Génération équitable et confidentielle} Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible. Nous avons aussi vu qu'il était possible d'entraîner les générateurs pour qu'ils imposent la confidentialité différentielle. Cela amène la question suivante : Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ? Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question. La première solution qui nous viens à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence. Plutôt nous allons entraîner le générateur pour qu'il génère l'attribut sensible. Ainsi nous pouvons entraîner le modèle cible pour respecter la parité démographique ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}. Cependant cette solution dépend de la personne qui vas construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisit et des paramètres des modèles. Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA. On aimerait donc, que si on entraîne un classifieur avec nos données synthétique, ce classifieur soit un CCA pour l'attribut sensible. On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé. Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible. Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes : \begin{itemize} \item $X:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$ \item $Y:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$ \item $S:(\Omega,\mathcal{T})\rightarrow(G,\mathcal{G})$ \end{itemize} A partir de ces trois variables, notre générateur crée des données synthétiques que nous modélisons de la manière suivante : \begin{itemize} \item $X_s:(\Omega,\mathcal{T})\rightarrow(E,\mathcal{E})$ \item $Y_s:(\Omega,\mathcal{T})\rightarrow(F,\mathcal{F})$ \end{itemize} Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$. Pour formaliser cela nous introduisons la notions suivante : \begin{equation*} \forall\varepsilon>0~\exists\delta>0~\forall f\left( C_{X_s,Y_s}(f)<\delta \implies d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right) \right)<\varepsilon \end{equation*} Avec $C_{X_s,Y_s}$ la fonction de coût calculé sur les donnée synthétiques : \begin{equation*} C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square))) \end{equation*} Nous proposons donc comme perspective d'étudier cette notions. Déjà nous voyons qu'elle dépend de $d$. $d$ n'est pas forcément une distance mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$. Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités. Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifier que nous avons construire au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibré maximale est moins coûteux en opérations que l'information mutuelle.