diff options
Diffstat (limited to 'synthetic')
-rw-r--r-- | synthetic/introduction.tex | 12 | ||||
-rw-r--r-- | synthetic/methodology.tex | 8 | ||||
-rw-r--r-- | synthetic/related.tex | 8 |
3 files changed, 14 insertions, 14 deletions
diff --git a/synthetic/introduction.tex b/synthetic/introduction.tex index a741559..6440f11 100644 --- a/synthetic/introduction.tex +++ b/synthetic/introduction.tex @@ -1,11 +1,13 @@ -Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : à partir des données synthétiques, que pouvons-nous apprendre des données réelles ? +Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : à partir des données synthétiques, que pouvons nous apprendre des données réelles ? Pour cela, la confidentialité différentielle permet une protection très forte, plus forte que d'autres notions de confidentialité, comme par exemple la limitation des fuites statistiques\footnote{\textit{Statistical disclosure limitation}}~\cite{abowd2008protective}. Il existe ainsi des méthodes pour imposer la confidentialité différentielle dans les GAN~\cite{jordon2018pate} et dans les auto-encodeurs~\cite{abay2019privacy}. - -Ce chapitre est un début de travail sur les liens entre données synthétiques et AIA. +Nous présentons dans ce chapitre un début de travail sur les liens entre données synthétiques et AIA. Nous allons déjà étudier la MIA en utilisant des données synthétiques. Ensuite, nous allons regarder l'impact de l'utilisation des données synthétiques lors de l'entraînement sur le succès de l'AIA. -De manière synthétique nous apportons des premiers éléments de réponse à la question suivante : -Quel est l'impact de l'utilisation des données synthétiques, au lieu de données réelles, lors de l'entraînement de modèles, sur la confidentialité ? +\input{synthetic/related} + +Nous nous plaçons une étape après dans la vie des données synthétiques, c'est-à-dire au moment de l'utilisation de ces données pour l'entraînement de modèles. +Nous apportons donc ici des premiers éléments de réponse à la question suivante : +quel est l'impact sur la confidentialité de l'utilisation des données synthétiques au lieu de données réelles, lors de l'entraînement de modèles ? diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex index 34b5e96..c1cd2b8 100644 --- a/synthetic/methodology.tex +++ b/synthetic/methodology.tex @@ -13,8 +13,8 @@ Dans le recensement des États-Unis\footnote{\textit{Census}} l'ethnie est encod Nous transformons l'ethnie en un attribut binaire en encodant les personnes à la peau noire avec un un ($1$) et toutes les autres avec un zéro ($0$). Ainsi, dans les contextes d'une AIA, le but de l'adversaire est d'inférer si une personne a la peau noire. -Nous n'utiliserons pas directement de recensement des États-Unis, mais une version adaptée à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. -Cette version a formaté la base de données que l'on peut télécharger sur le site du gouvernement des États-Unis pour le rendre facilement interfaçable avec des outils standards du langage Python comme pandas, numpy ou scikit-learn. +Nous n'utiliserons pas directement le recensement des États-Unis, mais une version adaptée à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. +Cette version a formaté la base de données que l'on peut télécharger sur le site du gouvernement des États-Unis pour la rendre facilement interfaçable avec des outils standards du langage Python comme pandas, numpy ou scikit-learn. Cela nous permet de sélectionner l'état, l'année, la tâche de classification et les attributs sensibles facilement. Pour des raisons pratiques, principalement de taille de stockage et de puissance de calcul, nous nous limitons aux données de l'Alabama du recensement de 2018. Ce sous-ensemble contient les données de 47.777 personnes. @@ -23,7 +23,7 @@ Ce sous-ensemble contient les données de 47.777 personnes. \label{sec:synth-gen} Dans cette étude, nous considérons une variante du GAN : CTGAN~\cite{ctgan}. -CTAGN est un GAN conditionnel spécialement conçu pour des données tabulaires hétérogènes. +CTGAN est un GAN conditionnel spécialement conçu pour des données tabulaires hétérogènes. Ce générateur prend en considération des attributs aussi bien qualitatifs que quantitatifs. Par exemple, l'attribut \textit{emploi} est qualitatif là où la \textit{taille} est quantitatif. Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synthetic Data Vault} (SDV)~\footnote{sdv.dev}. @@ -130,7 +130,7 @@ Chaque séparation est répétée cinq fois dans une optique de validation crois \label{fig:synth-split} \end{figure} -\subsection{Comparaison entre donnée réelle et synthétique} +\subsection{Comparaison entre données réelles et synthétiques} A la Section~\ref{sec:synth-res}, nous comparons des résultats obtenus en utilisant deux générateurs : l'identité et un GAN. Pour chacune des expériences suivantes, pour comparer les résultats, tous les paramètres sont les mêmes, excepté le générateur. Cela nous permet d'évaluer l'impact des données synthétiques à toutes choses égales. diff --git a/synthetic/related.tex b/synthetic/related.tex index b99f7ab..96fe892 100644 --- a/synthetic/related.tex +++ b/synthetic/related.tex @@ -1,11 +1,9 @@ -La littérature sur la confidentialité des données synthétiques se concentre sur un problème connexe. -De nos études, les données synthétiques ne sont pas publiques, elle sont utilisées comme intermédiaires entre les données réelles et le modèle cible. -Au contraire, dans la littérature, les données synthétiques ont vocation à être distribuées à des tiers. +Dans la littérature, les données synthétiques ont vocation à être distribuées à des tiers. Le but de cela peut être de contourner la législation sur les données personnelles~\cite{bellovin2019privacy}. -Des travaux précédents ont montré que divulguer des données synthétiques au lieu de données réelles ne protège ni contre les attaques de ré-identification, ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2020synthetic}. +Des travaux précédents ont montré que divulguer des données synthétiques au lieu de données réelles ne protège ni contre les attaques de ré-identification, ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2022synthetic}. Bellocin et al.~\cite{bellovin2019privacy} étudient l'aspect légal du partage de données synthétiques créées à partir de données réelles. Ils viennent à la conclusion qu'un tribunal n'autorisera pas ce partage à cause des nombreux cas et des nombreuses recherches qui prouvent qu'il est possible d'apprendre des informations sur les données réelles à partir des données synthétiques. -Ils supposent aussi que l'utilisation de confidentialité différentielle peut rendre légale le partage, mais en l'absence de jurisprudence, rien n'est certain. +Ils supposent aussi que l'utilisation de confidentialité différentielle peut rendre légal le partage, mais en l'absence de jurisprudence, rien n'est certain. Dans cette optique, des travaux comme ceux de Ping et al.~\cite{ping2017datasynthesizer} cherchent à imposer la confidentialité différentielle lors de la création de données synthétiques. |