aia/methodo.tex


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50

Nous allons réaliser un série d'expériences utilisant les AIA définit plus haut.
Le but est d'observer l'exactitude équilibrée des AIA sur des modèles entraînés pour imposer l'équitée.
Pour des attributs sensibles dans un ensemble fini $G$, nous souhaiton observer si entraîner le modèle en imposant la paritée démographique raproche l'exactitude équilibrée de $\frac{1}{\#G}$ ce qui indique une protection de l'attribut sensible d'après le Théorème~\ref{th:aia-dpgood}.
De plus dans le cas de \AIAHard nous allons pouvoir vérifier expérimentalement la Propriété~\ref{prop:aia-demparlvl}.

\subsection{Jeux de donnée}
\label{sec:aia-methodo-jeu}

\paragraph{CENSUS}
Le sondage des Etats Unis d'Amérique produit tous les dix ans un jeu de donnée appel CENSUS contenant les information de tous les citoyens\footnote{www.census.gov}.
La version que nous avons utilisé contient 30.940 donées avec 95 attributs comme le travail occupé, le status marital etc.
Parmis ces attributs certain sont sensibles comme la couleur de peau appelé \textit{race} ou le genre appelé \textit{sex}.
Avec ce jeu de donnée, nous construison un classifieur cible qui cherche à inférer si un individu gagne plus de 50.000 dollars par an.

\paragraph{COMPAS}
Cette base de donnée est construite à partir des affaires criminelle aux Etats Unis.
Elle est utilisé notament par les différents algorithem commerciaux de justice prédiction que nous avons introduits en Section~\ref{sec:contexte-insti}.
Elle contient les donnée de 6.172 criminel jugé coupables en Floride.
Elle contient sept attributs.

\paragraph{MEPS}
Cette base de donnée provient du système de santé de Etats Unis.
Elle contiens l'historique de trajets réalisé par 15.830 patients.
Le tâche de classification du modèle cible est de prédire si un patient utilise fortement ou faiblement les services de santé.

\paragraph{LFW}
Cess base de donnée contient 8.212 image de visage de personnes.
La tâche principale est de classifier si une personne a plus de 35 ans.

\paragraph{Attributs sensibles}
Toutes ces bases de données contiennent les attributs sensibles \textit{race} et \textit{sex}.
Nous randons binaire cas attributs :
\textit{race} vaut 1 si la personne à la peu noire et 0 sinon ;
\textit{sex} vaut 1 si la personne est une femme et 0 sinon.

\subsection{Cheminement des données}
Pour simuler le modèle de menace nous séparons chaque base de donnée de la manière suivant : 
chaque base de donnée est séparé en 80\% d'entraînement et 20\% d'évaluation.
Dans l'entraînment on retire l'attribut sensible et on l'utilisé pour entrainer le modèle cible.
Ensuite nous utilison l'évaluation sans l'attribut sensible pur calculer les prédictions que nous lion ligne par ligne à leur attribut sensible correspondant.
Cela crée la base auxilière qui respecte bien les exigence du modèle de menace : les donnée n'ont pas été utilisé à l'entraînement.
Cette base auxilière est ensuite separée en 80\% d'entraîneemnt et 20\% d'évaluation.
Les 80\% d'entraînement sont utilisé pourt construire le modèle d'attaque qui sert à predire l'attribut sensible à partir de la prédiction du modèle cible.
Les 20\% d'évaluation servent à calculer l'exactitude équilibré du modèle d'attaque.
Nous reportons dans la Section~\ref{sec:aia-resexp} contenant les résultats expérimentaux.
\begin{figure}
\input{aia/figure/tikz/data}
\caption{Simulation du modèle de menace}
\end{figure}