summaryrefslogtreecommitdiff
path: root/background/eq.tex
diff options
context:
space:
mode:
Diffstat (limited to 'background/eq.tex')
-rw-r--r--background/eq.tex103
1 files changed, 103 insertions, 0 deletions
diff --git a/background/eq.tex b/background/eq.tex
new file mode 100644
index 0000000..b756361
--- /dev/null
+++ b/background/eq.tex
@@ -0,0 +1,103 @@
+\label{sec:bck_fair}
+L'équitée algorithmique à pour but de réduire les bias dans le modèle prédictif.
+C'est-à dire, comment peut on faire en sorte que le modèle ne désavantage pas ou n'avantge pas certain sous-groupes ?
+En effet, le fait qu'une donnée appratienne à certainne minorité peut avoir un impacte sur la qualitée de la prédiction.
+Par exemple en justice prédictie, la couleur de peau d'un peau d'un coupable jou un rôle qui n'est pas négligable dans la prédiction du récidivisme au Etats Unis~\cite{fairjustice}.
+Pour savoir si un attribut est sensible ou non, non pouvon non referer à la liste des vignt-cinq critère de disrimination présenté à la Section~\ref{sec:contexte-legal-discrimination}.
+Ces bias sont appris par le modèle car ils sont présent dans les donnés d'entraînement qui reflète la population dans laquelle ces donnée ont été prélevés.
+Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une regression logistique peut présenter une différence de traitement entre deux sous groupe de la population.
+Nous observons que comme il y a moins de donnée de femmes, le modèle à appris une courbe qui se rapproche plus des données hommes.
+Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous le points rouges qui correspondent au femmes passent au dessus du seuil représenté par la ligne horizontale grise.
+Ainsi, bien que les étiquettes soient répartis équitablement chez les hommes et ches les femmes, le modèle classife toutes les femme dans la classe 1.
+Il sagit ici d'un cas scolaire sur des données générés mais supposons que la classe 1 soit désavantageuse.
+Par exemple, imaginons que ce modèle soit utilisé dans un programme de rectruement automatique.
+La classe 0 implique que le candidat est séléctioné, classe 1 implique que le candidat est réjété.
+Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% des homme ont une étiquette qui les rendent adminssibles, le programme ne sélectione que des candidats hommes.
+
+\begin{figure}
+ \centering
+ \includegraphics[width=0.5\linewidth]{background/figure/eq/reg_unfair.pdf}
+ \begin{tabular}{|c|c|c|c|}
+ \hline
+ &\textbf{Homme}&\textbf{Femme}&\textbf{Total}\\
+ \hline
+ \textbf{Effectif}&100&20&120\\
+ \hline
+ \makecell{
+ \textbf{Répartition}\\
+ $\#\{Y=0\}/\#\{Y=1\}$}
+ &10/10&50/50&60/60\\
+ \hline
+ \textbf{Exactitude}&1&0,5&0,92\\
+ \hline
+ \end{tabular}
+ \caption{Exemple d'un regression logistique qui a une meilleur performance pour le homme que pour les femmes.
+ Les donnée provienne d'une génération et servent uniquement à titre d'illustration.
+ La regression logisitque à bien été optimisé sur les donnée générés en utilise l'algorithme de scikit learn~\cite{scikit-learn}}
+ \label{fig:background-eq-logi}
+\end{figure}
+
+\subsubsection{Définitions de l'équitée}
+L'équitée en apprantissag automatique se présente sous deux aspect qui mettent lumière deux visions différentes :
+
+\textbf{L'équitée individuelle}\footnote{Individual fairness}
+cherche à faire en sorte que deux donnée, à toutes choses égale exepté l'attribut sensible, produisent la même prédiction.
+
+\textbf{L'équitée de groupe}\footnote{Group fairness}
+Vient de l'idée que different sous groupes défini par un critère de discrimination devrait être traite de manière similaire.
+Il y a différentes définitions mathématiques de l'équite de groupe.
+Nous allons en regarder trois qui sont bien établis dans la litérature et souvant utilisé : l'effet différencié\footnote{disparate impact} la paritée demographique\footnote{Demographic parity} et l'équitée de chances\footnote{Equality of odds}.
+
+Pour cela nous allons considérer le cadre suivant :
+Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essai d'inférer l'étiquette $Y$.
+Ces deux variables prennent leurs valeurs dans un ensemble $F$.
+De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs dans $G$.
+
+\begin{definition}
+\label{def:background-eq-di}
+ L'\emph{effet différencié} de $\hat{Y}$ est
+ \begin{equation*}
+ \frac{P(\hat{Y}=Y\mid S=0)}{P(\hat{Y}=Y\mid S=1)}
+ \end{equation*}
+ Cette notion ne fonctionne que pour $F=G=\{0,1\}$.
+\end{definition}
+
+Cette définition est utilisé au Etats Unis pour montrer qu'une structure a une politique de discrimination à l'encontre d'une minorité comme nous l'avons vus à la Section~\ref{sec:contexte-legal}.
+
+
+\begin{definition}
+\label{def:background-eq-dp}
+ $\hat{Y}$ satisfait la \emph{parité démographique} pour $S$ si et seulement si : $\forall (y,s_1,s_2)\in F\times G\times G~P(\hat{Y}=y | S=s_1) = P(\hat{Y}=y | S=s_2)$.
+\end{definition}
+
+La parité démographique ne prend pas en compte l'étiquette, cette définition est equivalante à dire que l'attribut sensbile est indépendante de la prédiction (même si l'étiquette ne l'est pas).
+Cela peut créer de cas où en cherchant à imposer cette metrique, nous obtenons des taux de vrais et de faux positif différents pour les sous groupes~\cite{dpbad}.
+Ainsi, la parité demographique peut être repsécté tout en dégradant l'effet différencié.
+Il n'est pas nécéssaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parite démographique soit respécté.
+Chercher à imposer cette définition revient à faire de la discrimination positive.
+
+Pour certaines applications cette effet n'est pas souaitable.
+Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographique pour prendre en compte l'étiquette ce qui donne la définition suivante :
+\begin{definition}
+ \label{def:background-eq-eoo}
+ $\hat{Y}$ satisfait l'équitée des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad
+ P(\hat{Y}=\hat{y} | S=s_1,Y=y) = P(\hat{Y}=\hat{y} | S=s_2,Y=y)$.
+\end{definition}
+
+\subsubsection{Imposer l'équitée comme contrainte d'optimisation}
+Ces définitions peuvent être imposé au modèle de trois manières:
+\begin{enumerate}
+ \item Prétraitement\footnote{Preprocessing} :
+ Le prétraitement consiste à modifier les données avant l'entraînement pour en retirer les bias.
+ Pour cela le rééquilibrage des poids\footnote{Reweighing} s'attaque au problème des biais en attribuant un poid à chaque donnée pour corrigier le déséquilibre dans un attribut sensible~\cite{preprocessing}.
+ \item Entraitement\footnote{Inprocessing} :
+ Ces algorithmes, comme le rééquilibrage adversariel\footnote{Adversarial debiasing}~\cite{debiase} ou la descente de gradient exponentiée\footnote{Exponentiated gradient descent}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour impose les définitions équité sous forme d'optimisation sous contrainte.
+ \item Postraitement\footnote{Postprocessing} :
+ Cette methode consiste à cacher les biais dans la sortie du modèle.
+ Le modèle est biaisé mais sa sortie est filtrée.
+\end{enumerate}
+Comme nous nous intéressons au interaction entre équitée et confidentialité, le Chapitre~\ref{sec:aia} s'inscrit dans la lignée de travaux précédent qui se concentrent sur les méchanismes entraitements~\cite{chang2021privacy}.
+
+\paragraph{Déscente de gradient exponentiée}
+
+\paragraph{Rééquilibrage adversariel}