diff options
Diffstat (limited to 'background/eq.tex')
-rw-r--r-- | background/eq.tex | 103 |
1 files changed, 103 insertions, 0 deletions
diff --git a/background/eq.tex b/background/eq.tex new file mode 100644 index 0000000..b756361 --- /dev/null +++ b/background/eq.tex @@ -0,0 +1,103 @@ +\label{sec:bck_fair} +L'équitée algorithmique à pour but de réduire les bias dans le modèle prédictif. +C'est-à dire, comment peut on faire en sorte que le modèle ne désavantage pas ou n'avantge pas certain sous-groupes ? +En effet, le fait qu'une donnée appratienne à certainne minorité peut avoir un impacte sur la qualitée de la prédiction. +Par exemple en justice prédictie, la couleur de peau d'un peau d'un coupable jou un rôle qui n'est pas négligable dans la prédiction du récidivisme au Etats Unis~\cite{fairjustice}. +Pour savoir si un attribut est sensible ou non, non pouvon non referer à la liste des vignt-cinq critère de disrimination présenté à la Section~\ref{sec:contexte-legal-discrimination}. +Ces bias sont appris par le modèle car ils sont présent dans les donnés d'entraînement qui reflète la population dans laquelle ces donnée ont été prélevés. +Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une regression logistique peut présenter une différence de traitement entre deux sous groupe de la population. +Nous observons que comme il y a moins de donnée de femmes, le modèle à appris une courbe qui se rapproche plus des données hommes. +Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous le points rouges qui correspondent au femmes passent au dessus du seuil représenté par la ligne horizontale grise. +Ainsi, bien que les étiquettes soient répartis équitablement chez les hommes et ches les femmes, le modèle classife toutes les femme dans la classe 1. +Il sagit ici d'un cas scolaire sur des données générés mais supposons que la classe 1 soit désavantageuse. +Par exemple, imaginons que ce modèle soit utilisé dans un programme de rectruement automatique. +La classe 0 implique que le candidat est séléctioné, classe 1 implique que le candidat est réjété. +Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% des homme ont une étiquette qui les rendent adminssibles, le programme ne sélectione que des candidats hommes. + +\begin{figure} + \centering + \includegraphics[width=0.5\linewidth]{background/figure/eq/reg_unfair.pdf} + \begin{tabular}{|c|c|c|c|} + \hline + &\textbf{Homme}&\textbf{Femme}&\textbf{Total}\\ + \hline + \textbf{Effectif}&100&20&120\\ + \hline + \makecell{ + \textbf{Répartition}\\ + $\#\{Y=0\}/\#\{Y=1\}$} + &10/10&50/50&60/60\\ + \hline + \textbf{Exactitude}&1&0,5&0,92\\ + \hline + \end{tabular} + \caption{Exemple d'un regression logistique qui a une meilleur performance pour le homme que pour les femmes. + Les donnée provienne d'une génération et servent uniquement à titre d'illustration. + La regression logisitque à bien été optimisé sur les donnée générés en utilise l'algorithme de scikit learn~\cite{scikit-learn}} + \label{fig:background-eq-logi} +\end{figure} + +\subsubsection{Définitions de l'équitée} +L'équitée en apprantissag automatique se présente sous deux aspect qui mettent lumière deux visions différentes : + +\textbf{L'équitée individuelle}\footnote{Individual fairness} +cherche à faire en sorte que deux donnée, à toutes choses égale exepté l'attribut sensible, produisent la même prédiction. + +\textbf{L'équitée de groupe}\footnote{Group fairness} +Vient de l'idée que different sous groupes défini par un critère de discrimination devrait être traite de manière similaire. +Il y a différentes définitions mathématiques de l'équite de groupe. +Nous allons en regarder trois qui sont bien établis dans la litérature et souvant utilisé : l'effet différencié\footnote{disparate impact} la paritée demographique\footnote{Demographic parity} et l'équitée de chances\footnote{Equality of odds}. + +Pour cela nous allons considérer le cadre suivant : +Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essai d'inférer l'étiquette $Y$. +Ces deux variables prennent leurs valeurs dans un ensemble $F$. +De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs dans $G$. + +\begin{definition} +\label{def:background-eq-di} + L'\emph{effet différencié} de $\hat{Y}$ est + \begin{equation*} + \frac{P(\hat{Y}=Y\mid S=0)}{P(\hat{Y}=Y\mid S=1)} + \end{equation*} + Cette notion ne fonctionne que pour $F=G=\{0,1\}$. +\end{definition} + +Cette définition est utilisé au Etats Unis pour montrer qu'une structure a une politique de discrimination à l'encontre d'une minorité comme nous l'avons vus à la Section~\ref{sec:contexte-legal}. + + +\begin{definition} +\label{def:background-eq-dp} + $\hat{Y}$ satisfait la \emph{parité démographique} pour $S$ si et seulement si : $\forall (y,s_1,s_2)\in F\times G\times G~P(\hat{Y}=y | S=s_1) = P(\hat{Y}=y | S=s_2)$. +\end{definition} + +La parité démographique ne prend pas en compte l'étiquette, cette définition est equivalante à dire que l'attribut sensbile est indépendante de la prédiction (même si l'étiquette ne l'est pas). +Cela peut créer de cas où en cherchant à imposer cette metrique, nous obtenons des taux de vrais et de faux positif différents pour les sous groupes~\cite{dpbad}. +Ainsi, la parité demographique peut être repsécté tout en dégradant l'effet différencié. +Il n'est pas nécéssaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parite démographique soit respécté. +Chercher à imposer cette définition revient à faire de la discrimination positive. + +Pour certaines applications cette effet n'est pas souaitable. +Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographique pour prendre en compte l'étiquette ce qui donne la définition suivante : +\begin{definition} + \label{def:background-eq-eoo} + $\hat{Y}$ satisfait l'équitée des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad + P(\hat{Y}=\hat{y} | S=s_1,Y=y) = P(\hat{Y}=\hat{y} | S=s_2,Y=y)$. +\end{definition} + +\subsubsection{Imposer l'équitée comme contrainte d'optimisation} +Ces définitions peuvent être imposé au modèle de trois manières: +\begin{enumerate} + \item Prétraitement\footnote{Preprocessing} : + Le prétraitement consiste à modifier les données avant l'entraînement pour en retirer les bias. + Pour cela le rééquilibrage des poids\footnote{Reweighing} s'attaque au problème des biais en attribuant un poid à chaque donnée pour corrigier le déséquilibre dans un attribut sensible~\cite{preprocessing}. + \item Entraitement\footnote{Inprocessing} : + Ces algorithmes, comme le rééquilibrage adversariel\footnote{Adversarial debiasing}~\cite{debiase} ou la descente de gradient exponentiée\footnote{Exponentiated gradient descent}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour impose les définitions équité sous forme d'optimisation sous contrainte. + \item Postraitement\footnote{Postprocessing} : + Cette methode consiste à cacher les biais dans la sortie du modèle. + Le modèle est biaisé mais sa sortie est filtrée. +\end{enumerate} +Comme nous nous intéressons au interaction entre équitée et confidentialité, le Chapitre~\ref{sec:aia} s'inscrit dans la lignée de travaux précédent qui se concentrent sur les méchanismes entraitements~\cite{chang2021privacy}. + +\paragraph{Déscente de gradient exponentiée} + +\paragraph{Rééquilibrage adversariel} |