diff options
Diffstat (limited to 'synthetic/methodology.tex')
-rw-r--r-- | synthetic/methodology.tex | 8 |
1 files changed, 4 insertions, 4 deletions
diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex index 34b5e96..c1cd2b8 100644 --- a/synthetic/methodology.tex +++ b/synthetic/methodology.tex @@ -13,8 +13,8 @@ Dans le recensement des États-Unis\footnote{\textit{Census}} l'ethnie est encod Nous transformons l'ethnie en un attribut binaire en encodant les personnes à la peau noire avec un un ($1$) et toutes les autres avec un zéro ($0$). Ainsi, dans les contextes d'une AIA, le but de l'adversaire est d'inférer si une personne a la peau noire. -Nous n'utiliserons pas directement de recensement des États-Unis, mais une version adaptée à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. -Cette version a formaté la base de données que l'on peut télécharger sur le site du gouvernement des États-Unis pour le rendre facilement interfaçable avec des outils standards du langage Python comme pandas, numpy ou scikit-learn. +Nous n'utiliserons pas directement le recensement des États-Unis, mais une version adaptée à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. +Cette version a formaté la base de données que l'on peut télécharger sur le site du gouvernement des États-Unis pour la rendre facilement interfaçable avec des outils standards du langage Python comme pandas, numpy ou scikit-learn. Cela nous permet de sélectionner l'état, l'année, la tâche de classification et les attributs sensibles facilement. Pour des raisons pratiques, principalement de taille de stockage et de puissance de calcul, nous nous limitons aux données de l'Alabama du recensement de 2018. Ce sous-ensemble contient les données de 47.777 personnes. @@ -23,7 +23,7 @@ Ce sous-ensemble contient les données de 47.777 personnes. \label{sec:synth-gen} Dans cette étude, nous considérons une variante du GAN : CTGAN~\cite{ctgan}. -CTAGN est un GAN conditionnel spécialement conçu pour des données tabulaires hétérogènes. +CTGAN est un GAN conditionnel spécialement conçu pour des données tabulaires hétérogènes. Ce générateur prend en considération des attributs aussi bien qualitatifs que quantitatifs. Par exemple, l'attribut \textit{emploi} est qualitatif là où la \textit{taille} est quantitatif. Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synthetic Data Vault} (SDV)~\footnote{sdv.dev}. @@ -130,7 +130,7 @@ Chaque séparation est répétée cinq fois dans une optique de validation crois \label{fig:synth-split} \end{figure} -\subsection{Comparaison entre donnée réelle et synthétique} +\subsection{Comparaison entre données réelles et synthétiques} A la Section~\ref{sec:synth-res}, nous comparons des résultats obtenus en utilisant deux générateurs : l'identité et un GAN. Pour chacune des expériences suivantes, pour comparer les résultats, tous les paramètres sont les mêmes, excepté le générateur. Cela nous permet d'évaluer l'impact des données synthétiques à toutes choses égales. |