From 1f2fe7d9faa1900be98946822502aad22640c2da Mon Sep 17 00:00:00 2001 From: cookie Date: Wed, 2 Oct 2024 18:27:27 +0200 Subject: =?UTF-8?q?Correction=20Emeline=20synth=C3=A9tique=20perspective?= =?UTF-8?q?=20conclusion?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- perspectives.tex | 30 +++++++++++++++--------------- 1 file changed, 15 insertions(+), 15 deletions(-) (limited to 'perspectives.tex') diff --git a/perspectives.tex b/perspectives.tex index 14a8275..d65c5e0 100644 --- a/perspectives.tex +++ b/perspectives.tex @@ -1,8 +1,8 @@ -\section{Optimisation de l'exactitude équilibrée pour des données d'entrées dans un ensemble infini} +\section{Optimisation de l'exactitude équilibrée pour des données d'entrée dans un ensemble infini} L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs. -Il faut aussi avoir une base de donnée avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini. -Pour palier cela, nous avons expliqué que notre classifieur peut être utilisé à deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés. -Cependant nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée +Il faut aussi avoir une base de données avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini. +Pour pallier cela, nous avons expliqué que notre classifieur peut être utilisé à la deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés. +Cependant, nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée. \section{Génération équitable et confidentielle} Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible. @@ -11,13 +11,13 @@ Cela amène la question suivante : Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ? Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question. -La première solution qui nous viens à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence. -Plutôt nous allons entraîner le générateur pour qu'il génère l'attribut sensible. -Ainsi nous pouvons entraîner le modèle cible pour respecter la parité démographique ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}. -Cependant cette solution dépend de la personne qui vas construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisit et des paramètres des modèles. +La première solution qui nous vient à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence. +Nous allons plutôt entraîner le générateur pour qu'il génère l'attribut sensible. +Ainsi, nous pouvons entraîner le modèle cible pour respecter la parité démographique, ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}. +Cependant, cette solution dépend de la personne qui va construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisi et des paramètres des modèles. Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA. -On aimerait donc, que si on entraîne un classifieur avec nos données synthétique, ce classifieur soit un CCA pour l'attribut sensible. +On aimerait donc, si l'on entraîne un classifieur avec nos données synthétiques, que ce classifieur soit un CCA pour l'attribut sensible. On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé. Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible. Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes : @@ -34,7 +34,7 @@ A partir de ces trois variables, notre générateur crée des données synthéti \end{itemize} Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$. -Pour formaliser cela nous introduisons la notions suivante : +Pour formaliser cela nous introduisons la notion suivante : \begin{equation*} \forall\varepsilon>0~\exists\delta>0~\forall f\left( @@ -42,14 +42,14 @@ C_{X_s,Y_s}(f)<\delta \implies d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right) \right)<\varepsilon \end{equation*} -Avec $C_{X_s,Y_s}$ la fonction de coût calculé sur les donnée synthétiques : +Avec $C_{X_s,Y_s}$ la fonction de coût calculée sur les données synthétiques : \begin{equation*} C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square))) \end{equation*} -Nous proposons donc comme perspective d'étudier cette notions. -Déjà nous voyons qu'elle dépend de $d$. -$d$ n'est pas forcément une distance mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$. +Nous proposons donc comme perspective d'étudier cette notion. +Premièrement, nous voyons qu'elle dépend de $d$. +$d$ n'est pas forcément une distance, mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$. Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités. -Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifier que nous avons construire au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibré maximale est moins coûteux en opérations que l'information mutuelle. +Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifieur que nous avons construit au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibrée maximale est moins coûteux en opérations que l'information mutuelle. -- cgit v1.2.3