diff options
Diffstat (limited to 'background/eq.tex')
-rw-r--r-- | background/eq.tex | 128 |
1 files changed, 65 insertions, 63 deletions
diff --git a/background/eq.tex b/background/eq.tex index a53f479..1bf9b19 100644 --- a/background/eq.tex +++ b/background/eq.tex @@ -1,18 +1,18 @@ \label{sec:bck_fair} -L'équitée algorithmique à pour but de réduire les bias dans le modèle prédictif. -C'est-à dire, comment peut on faire en sorte que le modèle ne désavantage pas ou n'avantge pas certain sous-groupes ? -En effet, le fait qu'une donnée appratienne à certainne minorité peut avoir un impacte sur la qualitée de la prédiction. -Par exemple en justice prédictie, la couleur de peau d'un peau d'un coupable jou un rôle qui n'est pas négligable dans la prédiction du récidivisme au Etats Unis~\cite{fairjustice}. -Pour savoir si un attribut est sensible ou non, non pouvon non referer à la liste des vignt-cinq critère de disrimination présenté à la Section~\ref{sec:contexte-legal-discrimination}. -Ces bias sont appris par le modèle car ils sont présent dans les donnés d'entraînement qui reflète la population dans laquelle ces donnée ont été prélevés. -Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une regression logistique peut présenter une différence de traitement entre deux sous groupe de la population. +L'équité algorithmique a pour but de réduire les biais dans les modèles prédictifs. +C'est-à-dire, comment peut on faire en sorte que le modèle ne désavantage pas ou n'avantage pas certain sous-groupes ? +En effet, qu'une donnée appartienne à certaine minorité peut avoir un impacte sur la qualité de la prédiction. +Par exemple en justice prédictive, la couleur de peau d'un coupable joue un rôle qui n'est pas négligeable dans la prédiction du récidivisme au États Unis~\cite{fairjustice}. +Pour savoir si un attribut est sensible ou non, nous pouvons nous référer à la liste des vingt-cinq critères de discrimination présenté à la Section~\ref{sec:contexte-legal-discrimination}. +Ces biais sont appris par le modèle car ils sont présent dans les donnés d'entraînement qui reflètent la population dans laquelle ces donnée ont été prélevés. +Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une régression logistique peut présenter une différence de traitement entre deux sous groupe de la population. Nous observons que comme il y a moins de donnée de femmes, le modèle à appris une courbe qui se rapproche plus des données hommes. -Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous le points rouges qui correspondent au femmes passent au dessus du seuil représenté par la ligne horizontale grise. -Ainsi, bien que les étiquettes soient répartis équitablement chez les hommes et ches les femmes, le modèle classife toutes les femme dans la classe 1. -Il sagit ici d'un cas scolaire sur des données générés mais supposons que la classe 1 soit désavantageuse. -Par exemple, imaginons que ce modèle soit utilisé dans un programme de rectruement automatique. -La classe 0 implique que le candidat est séléctioné, classe 1 implique que le candidat est réjété. -Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% des homme ont une étiquette qui les rendent adminssibles, le programme ne sélectione que des candidats hommes. +Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous le points rouges qui correspondent aux femmes passent au dessus du seuil représenté par la ligne horizontale grise. +Ainsi, bien que les étiquettes soient répartis équitablement chez les hommes et chez les femmes, le modèle classifie toutes les femme dans la classe 1. +Il s'agit ici d'un cas scolaire sur des données générés mais supposons que la classe 1 soit désavantageuse. +Par exemple, imaginons que ce modèle soit utilisé dans un programme de recrutement automatique. +La classe 0 implique que le candidat est sélectionné, la classe 1 implique que le candidat est rejeté. +Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% des homme ont une étiquette qui les rendent admissibles, le programme ne sélectionne que des candidats hommes. \begin{figure} \centering @@ -31,22 +31,22 @@ Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% de \textbf{Exactitude}&1&0,5&0,92\\ \hline \end{tabular} - \caption{Exemple d'un regression logistique qui a une meilleur performance pour le homme que pour les femmes. - Les donnée provienne d'une génération et servent uniquement à titre d'illustration. - La regression logisitque à bien été optimisé sur les donnée générés en utilise l'algorithme de scikit learn~\cite{scikit-learn}} + \caption{Exemple d'une régression logistique qui a une meilleur performance pour les hommes que pour les femmes. + Les données proviennent d'une génération et servent uniquement à titre d'illustration. + La régression logistique à bien été optimisé sur les données générés en utilise l'algorithme de scikit learn~\cite{scikit-learn}} \label{fig:background-eq-logi} \end{figure} -\subsubsection{Définitions de l'équitée} -L'équitée en apprantissag automatique se présente sous deux aspect qui mettent lumière deux visions différentes : +\subsubsection{Définitions de l'équité} +L'équité en apprentissage automatique se présente sous deux aspects qui mettent lumière deux visions différentes : -\textbf{L'équitée individuelle}\footnote{Individual fairness} -cherche à faire en sorte que deux donnée, à toutes choses égale exepté l'attribut sensible, produisent la même prédiction. +\textbf{L'équité individuelle}\footnote{Individual fairness} +cherche à faire en sorte que deux données, à toutes choses égale excepté l'attribut sensible, produisent la même prédiction. -\textbf{L'équitée de groupe}\footnote{Group fairness} -Vient de l'idée que different sous groupes défini par un critère de discrimination devrait être traite de manière similaire. -Il y a différentes définitions mathématiques de l'équite de groupe. -Nous allons en regarder trois qui sont bien établis dans la litérature et souvant utilisé : l'effet différencié\footnote{disparate impact} la paritée demographique\footnote{Demographic parity} et l'équitée de chances\footnote{Equality of odds}. +\textbf{L'équité de groupe}\footnote{Group fairness} +vient de l'idée que différents sous groupes définis par un critère de discrimination devrait être traite de manière similaire. +Il y a différentes définitions mathématiques de l'équité de groupe. +Nous allons en regarder trois qui sont bien établis dans la littérature et souvent utilisé : l'effet différencié\footnote{disparate impact} la parité démographique\footnote{Demographic parity} et l'équité des chances\footnote{Equality of odds}. Pour cela nous allons considérer le cadre suivant : Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essai d'inférer l'étiquette $Y$. @@ -62,46 +62,45 @@ De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs Cette notion ne fonctionne que pour $F=G=\{0,1\}$. \end{definition} -Cette définition est utilisé au Etats Unis pour montrer qu'une structure a une politique de discrimination à l'encontre d'une minorité comme nous l'avons vus à la Section~\ref{sec:contexte-legal}. - +Cette définition est utilisé au États Unis pour montrer qu'une structure a une politique discriminatoire à l'encontre d'une minorité comme nous l'avons vus à la Section~\ref{sec:contexte-legal}. \begin{definition} \label{def:background-eq-dp} $\hat{Y}$ satisfait la \emph{parité démographique} pour $S$ si et seulement si : $\forall (y,s_1,s_2)\in F\times G\times G~P(\hat{Y}=y | S=s_1) = P(\hat{Y}=y | S=s_2)$. \end{definition} -La parité démographique ne prend pas en compte l'étiquette, cette définition est equivalante à dire que l'attribut sensbile est indépendante de la prédiction (même si l'étiquette ne l'est pas). -Cela peut créer de cas où en cherchant à imposer cette metrique, nous obtenons des taux de vrais et de faux positif différents pour les sous groupes~\cite{dpbad}. -Ainsi, la parité demographique peut être repsécté tout en dégradant l'effet différencié. -Il n'est pas nécéssaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parite démographique soit respécté. -Chercher à imposer cette définition revient à faire de la discrimination positive. +La parité démographique ne prend pas en compte l'étiquette, cette définition est équivalente à dire que l'attribut sensible est indépendant de la prédiction (même si l'étiquette ne l'est pas). +Cela peut créer des cas où en cherchant à imposer cette notion, nous obtenons des taux de vrais et de faux positif différents pour les sous groupes~\cite{dpbad}. +Ainsi, la parité démographique peut être respecté tout en dégradant l'effet différencié. +Il n'est pas nécessaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parie démographique soit respecté. +Chercher à imposer cette définition peut revenir à faire de la discrimination positive. -Pour certaines applications cette effet n'est pas souaitable. +Pour certaines applications cet effet n'est pas souhaitable. Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographique pour prendre en compte l'étiquette ce qui donne la définition suivante : \begin{definition} \label{def:background-eq-eoo} - $\hat{Y}$ satisfait l'équitée des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad + $\hat{Y}$ satisfait l'équité des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad P(\hat{Y}=\hat{y} | S=s_1,Y=y) = P(\hat{Y}=\hat{y} | S=s_2,Y=y)$. \end{definition} -\subsubsection{Imposer l'équitée comme contrainte d'optimisation} +\subsubsection{Imposer l'équité comme contrainte d'optimisation} Ces définitions peuvent être imposé au modèle de trois manières: \begin{enumerate} - \item Prétraitement\footnote{Preprocessing} : - Le prétraitement consiste à modifier les données avant l'entraînement pour en retirer les bias. - Pour cela le rééquilibrage des poids\footnote{Reweighing} s'attaque au problème des biais en attribuant un poid à chaque donnée pour corrigier le déséquilibre dans un attribut sensible~\cite{preprocessing}. - \item Entraitement\footnote{Inprocessing} : - Ces algorithmes, comme le rééquilibrage adversariel\footnote{Adversarial debiasing}~\cite{debiase} ou la descente de gradient exponentiée\footnote{Exponentiated gradient descent}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour impose les définitions équité sous forme d'optimisation sous contrainte. - \item Postraitement\footnote{Postprocessing} : - Cette methode consiste à cacher les biais dans la sortie du modèle. + \item Prétraitement\footnote{\textit{Preprocessing}} : + Le prétraitement consiste à modifier les données avant l'entraînement pour en retirer les biais. + Pour cela le rééquilibrage des poids\footnote{\textit{Reweighting}} attribut un poids à chaque donnée et corrige le déséquilibre en augmentant le poids des certaines données pour qu'elle soient plus pris en compte~\cite{preprocessing}. + \item Entraitement\footnote{\textit{Inprocessing}} : + Ces algorithmes, comme le rééquilibrage adverse\footnote{\textit{Adversarial debiasing}}~\cite{debiase} ou la descente de gradient exponentiée\footnote{\textit{Exponentiated gradient descent}}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour imposer les définitions d'équité sous forme d'un problème d'optimisation sous contraintes. + \item Postraitement\footnote{\textit{Postprocessing}} : + Cette méthode consiste à cacher les biais dans la sortie du modèle. Le modèle est biaisé mais sa sortie est filtrée. \end{enumerate} -Comme nous nous intéressons au interaction entre équitée et confidentialité, le Chapitre~\ref{sec:aia} s'inscrit dans la lignée de travaux précédent qui se concentrent sur les méchanismes entraitements~\cite{chang2021privacy}. +Comme nous nous intéressons aux interactions entre équité et confidentialité, le Chapitre~\ref{sec:aia} s'inscrit dans la lignée de travaux précédents qui se concentrent sur les mécanismes entraitements~\cite{chang2021privacy}. Nous allons en présenter deux que nous allons utiliser dans la suite du manuscrit. -\paragraph{Déscente de gradient exponentié} -L'aproche par réduction pour une classification équitable\footnote{\textit{Reductions approaches to fair classification}} traduit une définition d'équité en termé de contraintes d'inégalités~\cite{reductions}. -Par exemple la partié démographique peut se reformuler de la manière suivante +\paragraph{Descente de gradient exponentié} +L'approche par réduction pour une classification équitable\footnote{\textit{Reductions approaches for fair classification}} traduit une définition d'équité en terme de contraintes d'inégalités~\cite{reductions}. +Par exemple la parité démographique peut se reformuler de la manière suivante \begin{equation*} \left\{ \begin{matrix} @@ -112,33 +111,36 @@ Par exemple la partié démographique peut se reformuler de la manière suivante \right. \end{equation*} Où $\epsilon_0$ et $\epsilon_1$ ont été rajouté pour relaxer la contrainte permettant de contrôler le compromis entre utilité en confidentialité. -Ensuite ces contraintes sont utilisés avec le problème de minimisation sous la forme d'une lagrangien comme nous l'avons vu à la Section~\ref{sec:background-opti-sous}. +Ensuite ces contraintes sont utilisés avec le problème de minimisation sous la forme d'un lagrangien comme nous l'avons vu à la Section~\ref{sec:background-opti-sous}. -Pour trouver le point selle Agarwal et al. utilisent en algorithme qui produit un classifieur stochastique\footnote{randomized classifieur}. +Pour trouver le point selle Agarwal et al. utilisent en algorithme qui produit un classifieur stochastique\footnote{\textit{Randomized classifieur}}. C'est un classifieur particulier qui n'est pas déterministe. -Lors de l'apprentissage, plusieurs solutions approchant le point selle sont trouvé qui correspondent à plusieur sous-classifieurs. -Ensuite pour chaque prédiction un choix aléatoire est réalisé pour sélectione l'un des sous-classifieur qui sera évalué sur la donnée d'entré. +Lors de l'apprentissage, plusieurs solutions approchant le point selle sont trouvé qui correspondent à plusieurs sous-classifieurs. +Ensuite pour chaque prédiction un choix aléatoire est réalisé pour sélectionner l'un des sous-classifieur qui sera évalué sur la donnée d'entrée. +Il s'agit donc d'une méthode d'apprentissage ensembliste. + +Le nom de la méthode vient de l'utilisation de l'algorithme \textit{Exponentiated Gradient}~\cite{kivinen1997exponentiated} pour la résolution du problème dual qui accélère le convergence comparativement à l'algorithme de descente de gradient. -\paragraph{Rééquilibrage adversariel}\footnote{\textit{Adversarial debiasing}} +\paragraph{Rééquilibrage adverse}\footnote{\textit{Adversarial debiasing}} Cette méthode prend le problème sous un tout autre angle~\cite{10.1145/3278721.3278779}. -Au lieu d'integrer les contraintes d'équitée lors de l'apprantissage, elle utilise l'idée suivante : -La partié démographique signifie que l'attribut sensible est indépendant de la sortie, donc si il est impossible pour un adversaire de prédire l'attribut sensible à partir du logit, le modèle doit satisfaire cette définition. -Cette une remarque très juste que nous allons étudié en détail et démontrer dans les Chapitres~\ref{sec:fini} et~\ref{sec:aia}. - -La méthode de Zhan et al. consiste donc utiliser deux réseaux de neuronnes. -L'un infére la tâche principle, l'autre utilise le logit du premier pour inférer l'attribut sensible nous l'appelons adversaire. -Ces deux classifieur sont entraîné simultanément dans un contexte adversariel. -Cela signifi que la fonction de cout est de la forme +Au lieu d'intégrer les contraintes d'équités lors de l'apprentissage, elle utilise l'idée suivante : +La parité démographique signifie que l'attribut sensible est indépendant de la sortie, donc si il est impossible pour un adversaire de prédire l'attribut sensible à partir du logit, le modèle doit satisfaire cette définition. +C'est une remarque très juste que nous allons étudié en détail et démontrer dans les Chapitres~\ref{sec:fini} et~\ref{sec:aia}. + +La méthode de Zhan et al. consiste donc à utiliser deux réseaux de neurones. +L'un infère la tâche principale, l'autre utilise le logit du premier pour inférer l'attribut sensible : nous l'appelons adversaire. +Ces deux classifieurs sont entraînés simultanément dans un contexte adverse\footnote{\textit{Adversarial setup}}. +Cela signifie que la fonction de coût est de la forme \begin{equation} \label{eq:background-ml-adv} C(x) = F(x) - sA(x) \end{equation} Où $F$ est le coût du classifieur principale et $A$ celui de l'adversaire. -Nous voyons que minimiser $C$ à tendence à minimiser $F$ et maximiser $A$ ce qui signifie trouver les paramètres du classifieur de la tâche principle qui vas réaliser une bonne classification tout en empêchant l'adversaire d'inférer l'attribut sensible. +Nous voyons que minimiser $C$ à tendance à minimiser $F$ et maximiser $A$ ce qui signifie trouver les paramètres du classifieur de la tâche principale qui vas réaliser une bonne classification tout en empêchant l'adversaire d'inférer l'attribut sensible. L'avantage de cette méthode par rapport aux multiplicateurs de Lagrange est que ici on protège directement le logit au lieu de la prédiction ce qui est plus générale. -Cela serai impossible et génererai une quantité infinie (non-dénombrable) de contraintes si on devais les écrire sous une forme acceptable pour un lagrangien. +Cela serai impossible et générerai une quantité infinie (non-dénombrable) de contraintes si on devais les écrire sous une forme acceptable pour créer un lagrangien. -Le principale désantage de cette methode est dans le paramètre $s$ de l'Equation~\ref{eq:background-ml-adv}. -Ce paramètre sert à avoir un bon équilibre entre la tâche principle et contrer l'adversaire. -Cependant, comme Zhang et al. le précise, il est très dificile de le trouver et rentre dans la catégorire de l'optimisation des hyperparamètre des réseaux de neuronnes. +Le principale désavantage de cette méthode est dans le paramètre $s$ de l'Equation~\ref{eq:background-ml-adv}. +Ce paramètre sert à avoir un bon équilibre entre la tâche principale et contrer l'adversaire. +Cependant, comme Zhang et al. le précise, il est très difficile de le trouver et rentre dans la catégorie de l'optimisation des hyperparamètres des réseaux de neurones. |