summaryrefslogtreecommitdiff
path: root/aia/methodo.tex
diff options
context:
space:
mode:
Diffstat (limited to 'aia/methodo.tex')
-rw-r--r--aia/methodo.tex50
1 files changed, 50 insertions, 0 deletions
diff --git a/aia/methodo.tex b/aia/methodo.tex
new file mode 100644
index 0000000..80cf515
--- /dev/null
+++ b/aia/methodo.tex
@@ -0,0 +1,50 @@
+Nous allons réaliser un série d'expériences utilisant les AIA définit plus haut.
+Le but est d'observer l'exactitude équilibrée des AIA sur des modèles entraînés pour imposer l'équitée.
+Pour des attributs sensibles dans un ensemble fini $G$, nous souhaiton observer si entraîner le modèle en imposant la paritée démographique raproche l'exactitude équilibrée de $\frac{1}{\#G}$ ce qui indique une protection de l'attribut sensible d'après le Théorème~\ref{th:aia-dpgood}.
+De plus dans le cas de \AIAHard nous allons pouvoir vérifier expérimentalement la Propriété~\ref{prop:aia-demparlvl}.
+
+\subsection{Jeux de donnée}
+\label{sec:aia-methodo-jeu}
+
+\paragraph{CENSUS}
+Le sondage des Etats Unis d'Amérique produit tous les dix ans un jeu de donnée appel CENSUS contenant les information de tous les citoyens\footnote{www.census.gov}.
+La version que nous avons utilisé contient 30.940 donées avec 95 attributs comme le travail occupé, le status marital etc.
+Parmis ces attributs certain sont sensibles comme la couleur de peau appelé \textit{race} ou le genre appelé \textit{sex}.
+Avec ce jeu de donnée, nous construison un classifieur cible qui cherche à inférer si un individu gagne plus de 50.000 dollars par an.
+
+\paragraph{COMPAS}
+Cette base de donnée est construite à partir des affaires criminelle aux Etats Unis.
+Elle est utilisé notament par les différents algorithem commerciaux de justice prédiction que nous avons introduits en Section~\ref{sec:contexte-insti}.
+Elle contient les donnée de 6.172 criminel jugé coupables en Floride.
+Elle contient sept attributs.
+
+\paragraph{MEPS}
+Cette base de donnée provient du système de santé de Etats Unis.
+Elle contiens l'historique de trajets réalisé par 15.830 patients.
+Le tâche de classification du modèle cible est de prédire si un patient utilise fortement ou faiblement les services de santé.
+
+\paragraph{LFW}
+Cess base de donnée contient 8.212 image de visage de personnes.
+La tâche principale est de classifier si une personne a plus de 35 ans.
+
+\paragraph{Attributs sensibles}
+Toutes ces bases de données contiennent les attributs sensibles \textit{race} et \textit{sex}.
+Nous randons binaire cas attributs :
+\textit{race} vaut 1 si la personne à la peu noire et 0 sinon ;
+\textit{sex} vaut 1 si la personne est une femme et 0 sinon.
+
+\subsection{Cheminement des données}
+Pour simuler le modèle de menace nous séparons chaque base de donnée de la manière suivant :
+chaque base de donnée est séparé en 80\% d'entraînement et 20\% d'évaluation.
+Dans l'entraînment on retire l'attribut sensible et on l'utilisé pour entrainer le modèle cible.
+Ensuite nous utilison l'évaluation sans l'attribut sensible pur calculer les prédictions que nous lion ligne par ligne à leur attribut sensible correspondant.
+Cela crée la base auxilière qui respecte bien les exigence du modèle de menace : les donnée n'ont pas été utilisé à l'entraînement.
+Cette base auxilière est ensuite separée en 80\% d'entraîneemnt et 20\% d'évaluation.
+Les 80\% d'entraînement sont utilisé pourt construire le modèle d'attaque qui sert à predire l'attribut sensible à partir de la prédiction du modèle cible.
+Les 20\% d'évaluation servent à calculer l'exactitude équilibré du modèle d'attaque.
+Nous reportons dans la Section~\ref{sec:aia-resexp} contenant les résultats expérimentaux.
+\begin{figure}
+\input{aia/figure/tikz/data}
+\caption{Simulation du modèle de menace}
+\end{figure}
+