diff options
Diffstat (limited to 'background/eq.tex')
-rw-r--r-- | background/eq.tex | 86 |
1 files changed, 43 insertions, 43 deletions
diff --git a/background/eq.tex b/background/eq.tex index 1bf9b19..5a1a794 100644 --- a/background/eq.tex +++ b/background/eq.tex @@ -1,18 +1,18 @@ \label{sec:bck_fair} L'équité algorithmique a pour but de réduire les biais dans les modèles prédictifs. -C'est-à-dire, comment peut on faire en sorte que le modèle ne désavantage pas ou n'avantage pas certain sous-groupes ? -En effet, qu'une donnée appartienne à certaine minorité peut avoir un impacte sur la qualité de la prédiction. -Par exemple en justice prédictive, la couleur de peau d'un coupable joue un rôle qui n'est pas négligeable dans la prédiction du récidivisme au États Unis~\cite{fairjustice}. -Pour savoir si un attribut est sensible ou non, nous pouvons nous référer à la liste des vingt-cinq critères de discrimination présenté à la Section~\ref{sec:contexte-legal-discrimination}. -Ces biais sont appris par le modèle car ils sont présent dans les donnés d'entraînement qui reflètent la population dans laquelle ces donnée ont été prélevés. -Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une régression logistique peut présenter une différence de traitement entre deux sous groupe de la population. -Nous observons que comme il y a moins de donnée de femmes, le modèle à appris une courbe qui se rapproche plus des données hommes. -Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous le points rouges qui correspondent aux femmes passent au dessus du seuil représenté par la ligne horizontale grise. -Ainsi, bien que les étiquettes soient répartis équitablement chez les hommes et chez les femmes, le modèle classifie toutes les femme dans la classe 1. -Il s'agit ici d'un cas scolaire sur des données générés mais supposons que la classe 1 soit désavantageuse. +C'est-à-dire, comment peut-on faire en sorte que le modèle ne désavantage pas ou n'avantage pas certains sous-groupes ? +En effet, qu'une donnée appartienne à certaines minorités peut avoir un impact sur la qualité de la prédiction. +Par exemple, en justice prédictive, la couleur de peau d'un coupable joue un rôle qui n'est pas négligeable dans la prédiction du récidivisme aux États-Unis~\cite{fairjustice}. +Pour savoir si un attribut est sensible ou non, nous pouvons nous référer à la liste des vingt-cinq critères de discrimination présentée à la Section~\ref{sec:contexte-legal-discrimination}. +Ces biais sont appris par le modèle car ils sont présents dans les données d'entraînement qui reflètent la population dans laquelle ces données ont été prélevées. +Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une régression logistique peut présenter une différence de traitement entre deux sous-groupes de la population. +Nous observons que comme il y a moins de données de femmes, le modèle a appris une courbe qui se rapproche plus des données d'hommes. +Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous les points rouges qui correspondent aux femmes passent au dessus du seuil représenté par la ligne horizontale grise. +Ainsi, bien que les étiquettes soient réparties équitablement chez les hommes et chez les femmes, le modèle classifie toutes les femme dans la classe 1. +Il s'agit ici d'un cas scolaire sur des données générées mais supposons que la classe 1 soit désavantageuse. Par exemple, imaginons que ce modèle soit utilisé dans un programme de recrutement automatique. La classe 0 implique que le candidat est sélectionné, la classe 1 implique que le candidat est rejeté. -Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% des homme ont une étiquette qui les rendent admissibles, le programme ne sélectionne que des candidats hommes. +Alors ce programme serait discriminatoire car bien que 50\% des femmes et 50\% des hommes aient une étiquette qui les rendent admissibles, le programme ne sélectionne que des candidats hommes. \begin{figure} \centering @@ -31,25 +31,25 @@ Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% de \textbf{Exactitude}&1&0,5&0,92\\ \hline \end{tabular} - \caption{Exemple d'une régression logistique qui a une meilleur performance pour les hommes que pour les femmes. + \caption{Exemple d'une régression logistique qui a une meilleure performance pour les hommes que pour les femmes. Les données proviennent d'une génération et servent uniquement à titre d'illustration. - La régression logistique à bien été optimisé sur les données générés en utilise l'algorithme de scikit learn~\cite{scikit-learn}} + La régression logistique a bien été optimisée sur les données générées en utilisant l'algorithme de scikit learn~\cite{scikit-learn}} \label{fig:background-eq-logi} \end{figure} \subsubsection{Définitions de l'équité} -L'équité en apprentissage automatique se présente sous deux aspects qui mettent lumière deux visions différentes : +L'équité en apprentissage automatique se présente sous deux aspects qui mettent en lumière deux visions différentes : \textbf{L'équité individuelle}\footnote{Individual fairness} -cherche à faire en sorte que deux données, à toutes choses égale excepté l'attribut sensible, produisent la même prédiction. +cherche à faire en sorte que deux données, à toutes choses égales, excepté l'attribut sensible, produisent la même prédiction. \textbf{L'équité de groupe}\footnote{Group fairness} -vient de l'idée que différents sous groupes définis par un critère de discrimination devrait être traite de manière similaire. +vient de l'idée que différents sous-groupes définis par un critère de discrimination devraient être traités de manière similaire. Il y a différentes définitions mathématiques de l'équité de groupe. -Nous allons en regarder trois qui sont bien établis dans la littérature et souvent utilisé : l'effet différencié\footnote{disparate impact} la parité démographique\footnote{Demographic parity} et l'équité des chances\footnote{Equality of odds}. +Nous allons en regarder trois qui sont bien établies dans la littérature et souvent utilisées : l'effet différencié\footnote{disparate impact} la parité démographique\footnote{Demographic parity} et l'équité des chances\footnote{Equality of odds}. Pour cela nous allons considérer le cadre suivant : -Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essai d'inférer l'étiquette $Y$. +Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essaie d'inférer l'étiquette $Y$. Ces deux variables prennent leurs valeurs dans un ensemble $F$. De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs dans $G$. @@ -62,7 +62,7 @@ De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs Cette notion ne fonctionne que pour $F=G=\{0,1\}$. \end{definition} -Cette définition est utilisé au États Unis pour montrer qu'une structure a une politique discriminatoire à l'encontre d'une minorité comme nous l'avons vus à la Section~\ref{sec:contexte-legal}. +Cette définition est utilisé aux États-Unis pour montrer qu'une structure a une politique discriminatoire à l'encontre d'une minorité, comme nous l'avons vu à la Section~\ref{sec:contexte-legal}. \begin{definition} \label{def:background-eq-dp} @@ -70,13 +70,13 @@ Cette définition est utilisé au États Unis pour montrer qu'une structure a un \end{definition} La parité démographique ne prend pas en compte l'étiquette, cette définition est équivalente à dire que l'attribut sensible est indépendant de la prédiction (même si l'étiquette ne l'est pas). -Cela peut créer des cas où en cherchant à imposer cette notion, nous obtenons des taux de vrais et de faux positif différents pour les sous groupes~\cite{dpbad}. -Ainsi, la parité démographique peut être respecté tout en dégradant l'effet différencié. -Il n'est pas nécessaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parie démographique soit respecté. +Cela peut créer des cas où, en cherchant à imposer cette notion, nous obtenons des taux de vrais et de faux positifs différents pour les sous-groupes~\cite{dpbad}. +Ainsi, la parité démographique peut être respectée tout en dégradant l'effet différencié. +Il n'est pas nécessaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parité démographique soit respectée. Chercher à imposer cette définition peut revenir à faire de la discrimination positive. Pour certaines applications cet effet n'est pas souhaitable. -Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographique pour prendre en compte l'étiquette ce qui donne la définition suivante : +Ainsi Hardt et al.~\cite{fairmetric2} proposent de modifier la parité démographique pour prendre en compte l'étiquette, ce qui donne la définition suivante : \begin{definition} \label{def:background-eq-eoo} $\hat{Y}$ satisfait l'équité des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad @@ -84,23 +84,23 @@ Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographi \end{definition} \subsubsection{Imposer l'équité comme contrainte d'optimisation} -Ces définitions peuvent être imposé au modèle de trois manières: +Ces définitions peuvent être imposées au modèle de trois manières: \begin{enumerate} \item Prétraitement\footnote{\textit{Preprocessing}} : Le prétraitement consiste à modifier les données avant l'entraînement pour en retirer les biais. - Pour cela le rééquilibrage des poids\footnote{\textit{Reweighting}} attribut un poids à chaque donnée et corrige le déséquilibre en augmentant le poids des certaines données pour qu'elle soient plus pris en compte~\cite{preprocessing}. + Pour cela le rééquilibrage des poids\footnote{\textit{Reweighting}} attribue un poids à chaque donnée et corrige le déséquilibre en augmentant le poids de certaines données pour qu'elles soient prises en compte de manière plus forte~\cite{preprocessing}. \item Entraitement\footnote{\textit{Inprocessing}} : - Ces algorithmes, comme le rééquilibrage adverse\footnote{\textit{Adversarial debiasing}}~\cite{debiase} ou la descente de gradient exponentiée\footnote{\textit{Exponentiated gradient descent}}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour imposer les définitions d'équité sous forme d'un problème d'optimisation sous contraintes. + Ces algorithmes, comme le rééquilibrage adverse\footnote{\textit{Adversarial debiasing}}~\cite{debiase} ou la descente de gradient exponentié\footnote{\textit{Exponentiated gradient descent}}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour imposer les définitions d'équité sous forme d'un problème d'optimisation sous contraintes. \item Postraitement\footnote{\textit{Postprocessing}} : Cette méthode consiste à cacher les biais dans la sortie du modèle. Le modèle est biaisé mais sa sortie est filtrée. \end{enumerate} Comme nous nous intéressons aux interactions entre équité et confidentialité, le Chapitre~\ref{sec:aia} s'inscrit dans la lignée de travaux précédents qui se concentrent sur les mécanismes entraitements~\cite{chang2021privacy}. -Nous allons en présenter deux que nous allons utiliser dans la suite du manuscrit. +Nous allons en présenter deux, que nous allons utiliser dans la suite du manuscrit. \paragraph{Descente de gradient exponentié} -L'approche par réduction pour une classification équitable\footnote{\textit{Reductions approaches for fair classification}} traduit une définition d'équité en terme de contraintes d'inégalités~\cite{reductions}. -Par exemple la parité démographique peut se reformuler de la manière suivante +L'approche par réduction pour une classification équitable\footnote{\textit{Reductions approaches for fair classification}} traduit une définition d'équité en termes de contraintes d'inégalités~\cite{reductions}. +Par exemple, la parité démographique peut se reformuler de la manière suivante \begin{equation*} \left\{ \begin{matrix} @@ -110,22 +110,22 @@ Par exemple la parité démographique peut se reformuler de la manière suivante \end{matrix} \right. \end{equation*} -Où $\epsilon_0$ et $\epsilon_1$ ont été rajouté pour relaxer la contrainte permettant de contrôler le compromis entre utilité en confidentialité. -Ensuite ces contraintes sont utilisés avec le problème de minimisation sous la forme d'un lagrangien comme nous l'avons vu à la Section~\ref{sec:background-opti-sous}. +Où $\epsilon_0$ et $\epsilon_1$ ont été rajoutés pour relaxer la contrainte permettant de contrôler le compromis entre utilité et confidentialité. +Ensuite, ces contraintes sont utilisées avec le problème de minimisation sous la forme d'un lagrangien comme nous l'avons vu à la Section~\ref{sec:background-opti-sous}. -Pour trouver le point selle Agarwal et al. utilisent en algorithme qui produit un classifieur stochastique\footnote{\textit{Randomized classifieur}}. +Pour trouver le point selle Agarwal et al. utilisent un algorithme qui produit un classifieur stochastique\footnote{\textit{Randomized classifieur}}. C'est un classifieur particulier qui n'est pas déterministe. -Lors de l'apprentissage, plusieurs solutions approchant le point selle sont trouvé qui correspondent à plusieurs sous-classifieurs. -Ensuite pour chaque prédiction un choix aléatoire est réalisé pour sélectionner l'un des sous-classifieur qui sera évalué sur la donnée d'entrée. +Lors de l'apprentissage, plusieurs solutions approchant le point selle sont trouvées qui correspondent à plusieurs sous-classifieurs. +Ensuite, pour chaque prédiction, un choix aléatoire est réalisé pour sélectionner l'un des sous-classifieurs qui sera évalué sur la donnée d'entrée. Il s'agit donc d'une méthode d'apprentissage ensembliste. Le nom de la méthode vient de l'utilisation de l'algorithme \textit{Exponentiated Gradient}~\cite{kivinen1997exponentiated} pour la résolution du problème dual qui accélère le convergence comparativement à l'algorithme de descente de gradient. \paragraph{Rééquilibrage adverse}\footnote{\textit{Adversarial debiasing}} Cette méthode prend le problème sous un tout autre angle~\cite{10.1145/3278721.3278779}. -Au lieu d'intégrer les contraintes d'équités lors de l'apprentissage, elle utilise l'idée suivante : -La parité démographique signifie que l'attribut sensible est indépendant de la sortie, donc si il est impossible pour un adversaire de prédire l'attribut sensible à partir du logit, le modèle doit satisfaire cette définition. -C'est une remarque très juste que nous allons étudié en détail et démontrer dans les Chapitres~\ref{sec:fini} et~\ref{sec:aia}. +Au lieu d'intégrer les contraintes d'équité lors de l'apprentissage, elle utilise l'idée suivante : +La parité démographique signifie que l'attribut sensible est indépendant de la sortie, donc s'il est impossible pour un adversaire de prédire l'attribut sensible à partir du logit, le modèle doit satisfaire cette définition. +C'est une remarque très juste que nous allons étudier en détail et démontrer dans les Chapitres~\ref{sec:fini} et~\ref{sec:aia}. La méthode de Zhan et al. consiste donc à utiliser deux réseaux de neurones. L'un infère la tâche principale, l'autre utilise le logit du premier pour inférer l'attribut sensible : nous l'appelons adversaire. @@ -135,12 +135,12 @@ Cela signifie que la fonction de coût est de la forme \label{eq:background-ml-adv} C(x) = F(x) - sA(x) \end{equation} -Où $F$ est le coût du classifieur principale et $A$ celui de l'adversaire. -Nous voyons que minimiser $C$ à tendance à minimiser $F$ et maximiser $A$ ce qui signifie trouver les paramètres du classifieur de la tâche principale qui vas réaliser une bonne classification tout en empêchant l'adversaire d'inférer l'attribut sensible. -L'avantage de cette méthode par rapport aux multiplicateurs de Lagrange est que ici on protège directement le logit au lieu de la prédiction ce qui est plus générale. -Cela serai impossible et générerai une quantité infinie (non-dénombrable) de contraintes si on devais les écrire sous une forme acceptable pour créer un lagrangien. +Où $F$ est le coût du classifieur principal et $A$ celui de l'adversaire. +Nous voyons que minimiser $C$ a tendance à minimiser $F$ et maximiser $A$, ce qui signifie trouver les paramètres du classifieur de la tâche principale qui va réaliser une bonne classification tout en empêchant l'adversaire d'inférer l'attribut sensible. +L'avantage de cette méthode par rapport aux multiplicateurs de Lagrange est qu'ici on protège directement le logit au lieu de la prédiction, ce qui est plus général. +Cela serait impossible et générerait une quantité infinie (non-dénombrable) de contraintes si on devait les écrire sous une forme acceptable pour créer un lagrangien. -Le principale désavantage de cette méthode est dans le paramètre $s$ de l'Equation~\ref{eq:background-ml-adv}. +Le principal désavantage de cette méthode est dans le paramètre $s$ de l'Equation~\ref{eq:background-ml-adv}. Ce paramètre sert à avoir un bon équilibre entre la tâche principale et contrer l'adversaire. -Cependant, comme Zhang et al. le précise, il est très difficile de le trouver et rentre dans la catégorie de l'optimisation des hyperparamètres des réseaux de neurones. +Cependant, comme Zhang et al. le précisent, il est très difficile de le trouver et rentre dans la catégorie de l'optimisation des hyperparamètres des réseaux de neurones. |