summaryrefslogtreecommitdiff
path: root/background/eq.tex
diff options
context:
space:
mode:
Diffstat (limited to 'background/eq.tex')
-rw-r--r--background/eq.tex86
1 files changed, 43 insertions, 43 deletions
diff --git a/background/eq.tex b/background/eq.tex
index 1bf9b19..5a1a794 100644
--- a/background/eq.tex
+++ b/background/eq.tex
@@ -1,18 +1,18 @@
\label{sec:bck_fair}
L'équité algorithmique a pour but de réduire les biais dans les modèles prédictifs.
-C'est-à-dire, comment peut on faire en sorte que le modèle ne désavantage pas ou n'avantage pas certain sous-groupes ?
-En effet, qu'une donnée appartienne à certaine minorité peut avoir un impacte sur la qualité de la prédiction.
-Par exemple en justice prédictive, la couleur de peau d'un coupable joue un rôle qui n'est pas négligeable dans la prédiction du récidivisme au États Unis~\cite{fairjustice}.
-Pour savoir si un attribut est sensible ou non, nous pouvons nous référer à la liste des vingt-cinq critères de discrimination présenté à la Section~\ref{sec:contexte-legal-discrimination}.
-Ces biais sont appris par le modèle car ils sont présent dans les donnés d'entraînement qui reflètent la population dans laquelle ces donnée ont été prélevés.
-Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une régression logistique peut présenter une différence de traitement entre deux sous groupe de la population.
-Nous observons que comme il y a moins de donnée de femmes, le modèle à appris une courbe qui se rapproche plus des données hommes.
-Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous le points rouges qui correspondent aux femmes passent au dessus du seuil représenté par la ligne horizontale grise.
-Ainsi, bien que les étiquettes soient répartis équitablement chez les hommes et chez les femmes, le modèle classifie toutes les femme dans la classe 1.
-Il s'agit ici d'un cas scolaire sur des données générés mais supposons que la classe 1 soit désavantageuse.
+C'est-à-dire, comment peut-on faire en sorte que le modèle ne désavantage pas ou n'avantage pas certains sous-groupes ?
+En effet, qu'une donnée appartienne à certaines minorités peut avoir un impact sur la qualité de la prédiction.
+Par exemple, en justice prédictive, la couleur de peau d'un coupable joue un rôle qui n'est pas négligeable dans la prédiction du récidivisme aux États-Unis~\cite{fairjustice}.
+Pour savoir si un attribut est sensible ou non, nous pouvons nous référer à la liste des vingt-cinq critères de discrimination présentée à la Section~\ref{sec:contexte-legal-discrimination}.
+Ces biais sont appris par le modèle car ils sont présents dans les données d'entraînement qui reflètent la population dans laquelle ces données ont été prélevées.
+Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une régression logistique peut présenter une différence de traitement entre deux sous-groupes de la population.
+Nous observons que comme il y a moins de données de femmes, le modèle a appris une courbe qui se rapproche plus des données d'hommes.
+Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous les points rouges qui correspondent aux femmes passent au dessus du seuil représenté par la ligne horizontale grise.
+Ainsi, bien que les étiquettes soient réparties équitablement chez les hommes et chez les femmes, le modèle classifie toutes les femme dans la classe 1.
+Il s'agit ici d'un cas scolaire sur des données générées mais supposons que la classe 1 soit désavantageuse.
Par exemple, imaginons que ce modèle soit utilisé dans un programme de recrutement automatique.
La classe 0 implique que le candidat est sélectionné, la classe 1 implique que le candidat est rejeté.
-Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% des homme ont une étiquette qui les rendent admissibles, le programme ne sélectionne que des candidats hommes.
+Alors ce programme serait discriminatoire car bien que 50\% des femmes et 50\% des hommes aient une étiquette qui les rendent admissibles, le programme ne sélectionne que des candidats hommes.
\begin{figure}
\centering
@@ -31,25 +31,25 @@ Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% de
\textbf{Exactitude}&1&0,5&0,92\\
\hline
\end{tabular}
- \caption{Exemple d'une régression logistique qui a une meilleur performance pour les hommes que pour les femmes.
+ \caption{Exemple d'une régression logistique qui a une meilleure performance pour les hommes que pour les femmes.
Les données proviennent d'une génération et servent uniquement à titre d'illustration.
- La régression logistique à bien été optimisé sur les données générés en utilise l'algorithme de scikit learn~\cite{scikit-learn}}
+ La régression logistique a bien été optimisée sur les données générées en utilisant l'algorithme de scikit learn~\cite{scikit-learn}}
\label{fig:background-eq-logi}
\end{figure}
\subsubsection{Définitions de l'équité}
-L'équité en apprentissage automatique se présente sous deux aspects qui mettent lumière deux visions différentes :
+L'équité en apprentissage automatique se présente sous deux aspects qui mettent en lumière deux visions différentes :
\textbf{L'équité individuelle}\footnote{Individual fairness}
-cherche à faire en sorte que deux données, à toutes choses égale excepté l'attribut sensible, produisent la même prédiction.
+cherche à faire en sorte que deux données, à toutes choses égales, excepté l'attribut sensible, produisent la même prédiction.
\textbf{L'équité de groupe}\footnote{Group fairness}
-vient de l'idée que différents sous groupes définis par un critère de discrimination devrait être traite de manière similaire.
+vient de l'idée que différents sous-groupes définis par un critère de discrimination devraient être traités de manière similaire.
Il y a différentes définitions mathématiques de l'équité de groupe.
-Nous allons en regarder trois qui sont bien établis dans la littérature et souvent utilisé : l'effet différencié\footnote{disparate impact} la parité démographique\footnote{Demographic parity} et l'équité des chances\footnote{Equality of odds}.
+Nous allons en regarder trois qui sont bien établies dans la littérature et souvent utilisées : l'effet différencié\footnote{disparate impact} la parité démographique\footnote{Demographic parity} et l'équité des chances\footnote{Equality of odds}.
Pour cela nous allons considérer le cadre suivant :
-Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essai d'inférer l'étiquette $Y$.
+Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essaie d'inférer l'étiquette $Y$.
Ces deux variables prennent leurs valeurs dans un ensemble $F$.
De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs dans $G$.
@@ -62,7 +62,7 @@ De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs
Cette notion ne fonctionne que pour $F=G=\{0,1\}$.
\end{definition}
-Cette définition est utilisé au États Unis pour montrer qu'une structure a une politique discriminatoire à l'encontre d'une minorité comme nous l'avons vus à la Section~\ref{sec:contexte-legal}.
+Cette définition est utilisé aux États-Unis pour montrer qu'une structure a une politique discriminatoire à l'encontre d'une minorité, comme nous l'avons vu à la Section~\ref{sec:contexte-legal}.
\begin{definition}
\label{def:background-eq-dp}
@@ -70,13 +70,13 @@ Cette définition est utilisé au États Unis pour montrer qu'une structure a un
\end{definition}
La parité démographique ne prend pas en compte l'étiquette, cette définition est équivalente à dire que l'attribut sensible est indépendant de la prédiction (même si l'étiquette ne l'est pas).
-Cela peut créer des cas où en cherchant à imposer cette notion, nous obtenons des taux de vrais et de faux positif différents pour les sous groupes~\cite{dpbad}.
-Ainsi, la parité démographique peut être respecté tout en dégradant l'effet différencié.
-Il n'est pas nécessaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parie démographique soit respecté.
+Cela peut créer des cas où, en cherchant à imposer cette notion, nous obtenons des taux de vrais et de faux positifs différents pour les sous-groupes~\cite{dpbad}.
+Ainsi, la parité démographique peut être respectée tout en dégradant l'effet différencié.
+Il n'est pas nécessaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parité démographique soit respectée.
Chercher à imposer cette définition peut revenir à faire de la discrimination positive.
Pour certaines applications cet effet n'est pas souhaitable.
-Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographique pour prendre en compte l'étiquette ce qui donne la définition suivante :
+Ainsi Hardt et al.~\cite{fairmetric2} proposent de modifier la parité démographique pour prendre en compte l'étiquette, ce qui donne la définition suivante :
\begin{definition}
\label{def:background-eq-eoo}
$\hat{Y}$ satisfait l'équité des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad
@@ -84,23 +84,23 @@ Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographi
\end{definition}
\subsubsection{Imposer l'équité comme contrainte d'optimisation}
-Ces définitions peuvent être imposé au modèle de trois manières:
+Ces définitions peuvent être imposées au modèle de trois manières:
\begin{enumerate}
\item Prétraitement\footnote{\textit{Preprocessing}} :
Le prétraitement consiste à modifier les données avant l'entraînement pour en retirer les biais.
- Pour cela le rééquilibrage des poids\footnote{\textit{Reweighting}} attribut un poids à chaque donnée et corrige le déséquilibre en augmentant le poids des certaines données pour qu'elle soient plus pris en compte~\cite{preprocessing}.
+ Pour cela le rééquilibrage des poids\footnote{\textit{Reweighting}} attribue un poids à chaque donnée et corrige le déséquilibre en augmentant le poids de certaines données pour qu'elles soient prises en compte de manière plus forte~\cite{preprocessing}.
\item Entraitement\footnote{\textit{Inprocessing}} :
- Ces algorithmes, comme le rééquilibrage adverse\footnote{\textit{Adversarial debiasing}}~\cite{debiase} ou la descente de gradient exponentiée\footnote{\textit{Exponentiated gradient descent}}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour imposer les définitions d'équité sous forme d'un problème d'optimisation sous contraintes.
+ Ces algorithmes, comme le rééquilibrage adverse\footnote{\textit{Adversarial debiasing}}~\cite{debiase} ou la descente de gradient exponentié\footnote{\textit{Exponentiated gradient descent}}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour imposer les définitions d'équité sous forme d'un problème d'optimisation sous contraintes.
\item Postraitement\footnote{\textit{Postprocessing}} :
Cette méthode consiste à cacher les biais dans la sortie du modèle.
Le modèle est biaisé mais sa sortie est filtrée.
\end{enumerate}
Comme nous nous intéressons aux interactions entre équité et confidentialité, le Chapitre~\ref{sec:aia} s'inscrit dans la lignée de travaux précédents qui se concentrent sur les mécanismes entraitements~\cite{chang2021privacy}.
-Nous allons en présenter deux que nous allons utiliser dans la suite du manuscrit.
+Nous allons en présenter deux, que nous allons utiliser dans la suite du manuscrit.
\paragraph{Descente de gradient exponentié}
-L'approche par réduction pour une classification équitable\footnote{\textit{Reductions approaches for fair classification}} traduit une définition d'équité en terme de contraintes d'inégalités~\cite{reductions}.
-Par exemple la parité démographique peut se reformuler de la manière suivante
+L'approche par réduction pour une classification équitable\footnote{\textit{Reductions approaches for fair classification}} traduit une définition d'équité en termes de contraintes d'inégalités~\cite{reductions}.
+Par exemple, la parité démographique peut se reformuler de la manière suivante
\begin{equation*}
\left\{
\begin{matrix}
@@ -110,22 +110,22 @@ Par exemple la parité démographique peut se reformuler de la manière suivante
\end{matrix}
\right.
\end{equation*}
-Où $\epsilon_0$ et $\epsilon_1$ ont été rajouté pour relaxer la contrainte permettant de contrôler le compromis entre utilité en confidentialité.
-Ensuite ces contraintes sont utilisés avec le problème de minimisation sous la forme d'un lagrangien comme nous l'avons vu à la Section~\ref{sec:background-opti-sous}.
+Où $\epsilon_0$ et $\epsilon_1$ ont été rajoutés pour relaxer la contrainte permettant de contrôler le compromis entre utilité et confidentialité.
+Ensuite, ces contraintes sont utilisées avec le problème de minimisation sous la forme d'un lagrangien comme nous l'avons vu à la Section~\ref{sec:background-opti-sous}.
-Pour trouver le point selle Agarwal et al. utilisent en algorithme qui produit un classifieur stochastique\footnote{\textit{Randomized classifieur}}.
+Pour trouver le point selle Agarwal et al. utilisent un algorithme qui produit un classifieur stochastique\footnote{\textit{Randomized classifieur}}.
C'est un classifieur particulier qui n'est pas déterministe.
-Lors de l'apprentissage, plusieurs solutions approchant le point selle sont trouvé qui correspondent à plusieurs sous-classifieurs.
-Ensuite pour chaque prédiction un choix aléatoire est réalisé pour sélectionner l'un des sous-classifieur qui sera évalué sur la donnée d'entrée.
+Lors de l'apprentissage, plusieurs solutions approchant le point selle sont trouvées qui correspondent à plusieurs sous-classifieurs.
+Ensuite, pour chaque prédiction, un choix aléatoire est réalisé pour sélectionner l'un des sous-classifieurs qui sera évalué sur la donnée d'entrée.
Il s'agit donc d'une méthode d'apprentissage ensembliste.
Le nom de la méthode vient de l'utilisation de l'algorithme \textit{Exponentiated Gradient}~\cite{kivinen1997exponentiated} pour la résolution du problème dual qui accélère le convergence comparativement à l'algorithme de descente de gradient.
\paragraph{Rééquilibrage adverse}\footnote{\textit{Adversarial debiasing}}
Cette méthode prend le problème sous un tout autre angle~\cite{10.1145/3278721.3278779}.
-Au lieu d'intégrer les contraintes d'équités lors de l'apprentissage, elle utilise l'idée suivante :
-La parité démographique signifie que l'attribut sensible est indépendant de la sortie, donc si il est impossible pour un adversaire de prédire l'attribut sensible à partir du logit, le modèle doit satisfaire cette définition.
-C'est une remarque très juste que nous allons étudié en détail et démontrer dans les Chapitres~\ref{sec:fini} et~\ref{sec:aia}.
+Au lieu d'intégrer les contraintes d'équité lors de l'apprentissage, elle utilise l'idée suivante :
+La parité démographique signifie que l'attribut sensible est indépendant de la sortie, donc s'il est impossible pour un adversaire de prédire l'attribut sensible à partir du logit, le modèle doit satisfaire cette définition.
+C'est une remarque très juste que nous allons étudier en détail et démontrer dans les Chapitres~\ref{sec:fini} et~\ref{sec:aia}.
La méthode de Zhan et al. consiste donc à utiliser deux réseaux de neurones.
L'un infère la tâche principale, l'autre utilise le logit du premier pour inférer l'attribut sensible : nous l'appelons adversaire.
@@ -135,12 +135,12 @@ Cela signifie que la fonction de coût est de la forme
\label{eq:background-ml-adv}
C(x) = F(x) - sA(x)
\end{equation}
-Où $F$ est le coût du classifieur principale et $A$ celui de l'adversaire.
-Nous voyons que minimiser $C$ à tendance à minimiser $F$ et maximiser $A$ ce qui signifie trouver les paramètres du classifieur de la tâche principale qui vas réaliser une bonne classification tout en empêchant l'adversaire d'inférer l'attribut sensible.
-L'avantage de cette méthode par rapport aux multiplicateurs de Lagrange est que ici on protège directement le logit au lieu de la prédiction ce qui est plus générale.
-Cela serai impossible et générerai une quantité infinie (non-dénombrable) de contraintes si on devais les écrire sous une forme acceptable pour créer un lagrangien.
+Où $F$ est le coût du classifieur principal et $A$ celui de l'adversaire.
+Nous voyons que minimiser $C$ a tendance à minimiser $F$ et maximiser $A$, ce qui signifie trouver les paramètres du classifieur de la tâche principale qui va réaliser une bonne classification tout en empêchant l'adversaire d'inférer l'attribut sensible.
+L'avantage de cette méthode par rapport aux multiplicateurs de Lagrange est qu'ici on protège directement le logit au lieu de la prédiction, ce qui est plus général.
+Cela serait impossible et générerait une quantité infinie (non-dénombrable) de contraintes si on devait les écrire sous une forme acceptable pour créer un lagrangien.
-Le principale désavantage de cette méthode est dans le paramètre $s$ de l'Equation~\ref{eq:background-ml-adv}.
+Le principal désavantage de cette méthode est dans le paramètre $s$ de l'Equation~\ref{eq:background-ml-adv}.
Ce paramètre sert à avoir un bon équilibre entre la tâche principale et contrer l'adversaire.
-Cependant, comme Zhang et al. le précise, il est très difficile de le trouver et rentre dans la catégorie de l'optimisation des hyperparamètres des réseaux de neurones.
+Cependant, comme Zhang et al. le précisent, il est très difficile de le trouver et rentre dans la catégorie de l'optimisation des hyperparamètres des réseaux de neurones.