diff options
author | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-09-30 21:38:16 +0200 |
---|---|---|
committer | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-09-30 21:38:16 +0200 |
commit | 1cd4b331820e3c5a1e1f5f85bce6e1a2e926df3a (patch) | |
tree | e7718fa2b40faa14af8cf6e137abca299a1c083f | |
parent | ceed4f2894366b4644f271005d5aa1b931797b94 (diff) |
Fin écriture synthétique
-rw-r--r-- | synthetic/conclusion.tex | 3 | ||||
-rw-r--r-- | synthetic/figure/tikz/ovre.tex | 10 | ||||
-rw-r--r-- | synthetic/main.tex | 6 | ||||
-rw-r--r-- | synthetic/related.tex | 45 | ||||
-rw-r--r-- | synthetic/results.tex | 71 |
5 files changed, 56 insertions, 79 deletions
diff --git a/synthetic/conclusion.tex b/synthetic/conclusion.tex index bb6dd17..c5a982f 100644 --- a/synthetic/conclusion.tex +++ b/synthetic/conclusion.tex @@ -1,6 +1,7 @@ + Even though synthetic dataset are promising regarding users' data protection, in itself it does not bring guaranties regarding attribute inference attack. For future work we suggest that applying fairness regularization during the training of the generator could be a way to remove bias toward sensitive attributes. Concerning membership inference attack, synthetic data reduce the overall risk while still leaving an attack surface on some outliers points. Differential privacy is a way to reduce the risk on outliers but removing entirely the risk while keeping some level of utility is impossible. -Hence more work in this direction is required.
\ No newline at end of file +Hence more work in this direction is required. diff --git a/synthetic/figure/tikz/ovre.tex b/synthetic/figure/tikz/ovre.tex index 2ae2645..9fd3e2a 100644 --- a/synthetic/figure/tikz/ovre.tex +++ b/synthetic/figure/tikz/ovre.tex @@ -1,13 +1,13 @@ %Control of the overfitting \input{synthetic/figure/tikz/data} \begin{tikzpicture} - \node[database,label=Input] (in) at (0,1) {}; + \node[database,label=Entrée] (in) at (0,1) {}; \node (i) at (0,0) {$r_0,\cdots, r_{N-1}$}; - \draw[->] (in) to node[midway,right] {sampling} (i); + \draw[->] (in) to node[midway,right] {échantillonage} (i); \node (m) at (0,-1) {$r_0,\cdots, r_{N-1},r_0,\cdots, r_{N-1},\cdots,r_0,\cdots, r_{N-1}$}; - \draw[->] (i) to node[midway,right] {repetition}(m); - \node[rectangle,draw] (shu) at (0,-2) {Shuffle}; + \draw[->] (i) to node[midway,right] {répétition}(m); + \node[rectangle,draw] (shu) at (0,-2) {Mélange}; \draw[->] (m) to (shu); - \node[database,label=below:Output] (out) at (0,-3){}; + \node[database,label=below:Sortie] (out) at (0,-3){}; \draw[->] (shu) to (out); \end{tikzpicture} diff --git a/synthetic/main.tex b/synthetic/main.tex index d63a7d5..ccbd248 100644 --- a/synthetic/main.tex +++ b/synthetic/main.tex @@ -10,8 +10,8 @@ \label{sec:synth-res} \input{synthetic/results} -\section{Related work} +\section{Travaux voisins} \input{synthetic/related} -\section{Conclusion} -\input{synthetic/conclusion} +%\section{Conclusion} +%\input{synthetic/conclusion} diff --git a/synthetic/related.tex b/synthetic/related.tex index 207bdf4..e93edd3 100644 --- a/synthetic/related.tex +++ b/synthetic/related.tex @@ -1,38 +1,11 @@ -The literature on the privacy of synthetic data focuses on a different yet related problem. -In our work, the synthetic data is not released to the public, it is used as a proxy in between the real data and the target model. -In contrary, the literature uses synthetic data as a way to release a dataset to third parties. -The goal of this endeavour is to circumvent legislation on personal data~\cite{bellovin2019privacy}. -Previous work shows that releasing synthetic data instead of the real data does not protect against re-identification nor attribute linkage~\cite{stadler2020synthetic}. - -Bellocin et all.~\cite{bellovin2019privacy} discuss the legal aspect of sharing synthetic data over sharing the real data. -They come to the conclusion that a court will not allow the disclosure of synthetic data because numerous examples show that inferring private attributes of the real data is possible. -They hint that using differential privacy may lead to legislation allowing synthetic data release. -For instance, Ping et all.~\cite{ping2017datasynthesizer} use the GreddyBayes algorithm for tabular data in which they introduce differential privacy. - -%This conclusion transfers to our work because we have shown that using synthetic data to train a model does not full protect againts privacy attack. -%Datasynthesizer: privacy preserving synthetic datasets~\cite{ping2017datasynthesizer}. -%Towards improving privacy of synthetic datasets~\cite{kuppa2021towards}. -%User-Driven Synthetic Dataset Generation with Quantifiable Differential Privacy~\cite{tai2023user}. - - -%Stadler et all~\cite{stadler2020synthetic} focus on releasing to third parties a genertad synthetic dataset instead of the real dataset. -%In countrary to our work where we consider that the generated synthetic dataset is not released but is used to train a machine learning model. -%The study two privacy risks: Reidentification via linkaged and attribute disclosure. -%Reidentification via linkage is somwhat similar to membership inference attack as this kind of attack aims at inferfing if a data record has been used to generated the synthetic dataset. -%Attribute disclosure is closer to attribute inference in the sense that an attacker aims to infer sensitive attribute of user's data. -%The main difference with Stadler et all and our work is that we add in between the synthetic dataset and the attacker a trained machine learning model and the attacker has only a black box acces to this model. -%In our setup, the synthetic dataset is not directly accessible to the attacker. -%The sensitive informations contained in the real dataset are filtred twice: by the generation process and then by the training of the target model. -%In Stadler et all, the sensitive informations are filterd only by the generation process. -% -%Stadler et all show that using synthetic data does not protect user's privacy against neither linkage nor attribute disclosure. -%Our conclusion is that using a synthetic dataset to train a machine learning model does not protect user's privacy against adversaries with black box access to this model. -%Hence Stadlr et all and our work are aligned in showing that synthetic datasets are not a guaranted protection to user's personal data. - -Jordon et all~\cite{jordon2021hide} state that generative approaches can be used to hide the membership status. -Their contribution consists in a data anonymisation challenge where with two track. -The first has to produce an algorithm that generates synthetic data that hides the membership status. -The second produces an algorithm that infers (i.e. an attack) the membership status using synthetic data generated from the algorithms of the first track. -Sadly, their results remains inconclusive because the participants of the first track submitted their work to closely to the deadline which did not leave enough time for the attacker to develop tailored attacks. +La littérature sur la confidentialité des données synthétiques se concentre sur un problème connexe. +Des nous étude, les données synthétique ne sont pas publiques, elle sont utilisé comme intermédiaire entre les données réelles et le modèle cible. +Au contraire, dans la littérature le données synthétique ont vocation à être distribué à des tiers. +Le but de cela peut être de contourner la législation sur les données personnelles~\cite{bellovin2019privacy}. +Des travaux précédent ont montrés que divulguer des données synthétiques au lieu des données réelles ne protège ni contre les attaque de ré-identification ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2020synthetic}. +Bellocin et al.~\cite{bellovin2019privacy} étudient l'aspect légale du partage de données synthétiques crées à partir de données réelles. +Ils viennent à la conclusion qu'un tribunal n'autorisera pas ce partage à cause des nombreux case et des nombreuses recherches qui prouvent qu'il est possible d'apprendre des informations sur les données réelles à partir des données synthétiques. +Ils supposent aussi que l'utilisation de confidentialité différentielle peut rendre légale le partage mais en l'absence de jurisprudence rien n'est certain. +Dans cette optique, des travaux comme ceux de Ping et al.~\cite{ping2017datasynthesizer} cherche à impose la confidentialité différentielle lors de la création de données synthétiques. diff --git a/synthetic/results.tex b/synthetic/results.tex index ec3149a..129b875 100644 --- a/synthetic/results.tex +++ b/synthetic/results.tex @@ -1,54 +1,57 @@ -In this section we analyse the impact of using synthetic data instead of real data on MIA and AIA. -Section~\ref{sec:uti} presents the utility of the target. -This control factor allows us to assess that every model has learned some level of information and is not random guessing the label. +Dans cette section nous allons analyser l'impacte de l'utilisation des données synthétiques sur la MIA et l'AIA. +La Section~\ref{sec:synth-uti} présente l'utilisé du modèle cible. +Ce facteur de contrôle nous permet de nous assurer que nous modèles apprennent de l'information sur la tâche principale et ne sont pas des CCA. - -\subsection{Utility} -\label{sec:uti} +\subsection{Utilité} +\label{sec:synth-uti} \begin{figure} \centering \includegraphics[width=0.45\textwidth]{synthetic/figure/result/adult/utility.pdf} - \caption{Utility of the target model in terms of balanced accuracy evaluated on unseen data. - The "Real" label refers to a generator equal to identity, hence the synthetic data used to train the target model is the real data. - The "Synthetic" label refers to a CGAN generator, hence the synthetic data are sampled according to a distribution learned by the generator model. - In this case the target model is not trained on real date.} - \label{fig:utility} + \caption{ + Utilité du modèle cible en terme d'exactitude équilibrée sur des données non vue à l'entraînement. + Le terme \textit{Real} signifie que le générateur est l'identité, les données synthétiques utilisé pour entraîner le modèle cible sont donc les données réelles. + Le terme \textit{Synthetic} signifie que le générateur est un CGAN. + Dans ce cas le modèle cible n'est pas entraîné sur des données réelles. + } + \label{fig:synth-utility} \end{figure} -Using synthetic dataset degrades the utility of the predictor. -We present the balanced accuracy for both synthetic and real data in Figure~\ref{fig:utility}. +Utiliser les données synthétiques dégrade l'utilité du prédicteur. +Nous présentons l'exactitude équilibrée du modèle cible entraîner avec des données synthétiques et des données réelles dans la Figure~\ref{fig:synth-utility}. -Using synthetic data degrades significatively the utility of the target model by 5\% with an anova p-value of $1.23\times 10^{-5}$. -But with a minimum of 0.68 of balanced accuracy on synthetic data, we argue that the target model has learned a level of information that gives a meaningful result in terms of AIA and MIA. +Utiliser les données synthétiques dégrade significativement l'utilité du modèle cible de cinq points avec une p-valeur de l'ANOVA à $1.23\times 10^{-5}$. +Mais avec un minimum de 0,68 d'exactitude équilibré sur les données synthétiques, nous disons que le modèle cible a appris un niveau significatif d'information ce qui rend sensé l'étude de l'AIA et de la MIA. -\subsection{Membership inference attack} +\subsection{Attaque d'inférence d'appartenance aux données d'entraînement (MIA)} \begin{figure} \centering \includegraphics[width=0.45\textwidth]{synthetic/figure/result/adult/mia.pdf} - \caption{Success of the MIA in terms of balanced accuracy evaluated on the Train part of MIA dataset.} + \caption{ + Succès de la MIA en terme d'exactitude équilibré évalué sur la partie \textit{Évaluation} de la base MIA. + } \end{figure} -We observe a degradation of the balanced accuracy of the MIA of 30\% on average. -An anova p-value of $4.54\times 10^{-12}$ indicates the this difference is significative. -In addition we observe that using synthetic data over real data results in drop of balanced accuracy from 0.86 to 0.55. -We conclude that using synthetic data protects significantly the membership status of the majority of data records. +Nous observons une dégradation de l'exactitude équilibré de la MIA de 30\% en moyenne. +La p-valeur de l'ANOVA à $4.54\times 10^{-12}$ indique que cette différence est significative. +L'exactitude équilibrée de la MIA passe de 0,86 à 0,55 en utilisant des données synthétiques ce qui indique que, dans ce cas, elles ont servi à protéger l'attribut sensible. +Bien entendu, ce résultat ne concerne que cette méthodologie expérimentale et ne permet pas de conclure que de manière générale les données synthétique empêche la MIA. -But this result does not mean that the membership status is protected. -The remaining 5\% left is due to outliers in the dataset that can be identified by an attacker~\cite{carlini2022membershipinferenceattacksprinciples}. +De plus, les 5\% d'inférence de la MIA restante peut être du à des point extrêmes qui peuvent être retrouvé par un adversaire~\cite{carlini2022membershipinferenceattacksprinciples}. -\subsection{Attribute inference attack} +\subsection{Attaque d'inférence d'attribut} \begin{figure} \centering \includegraphics[width=0.45\textwidth]{synthetic/figure/result/adult/aia.pdf} - \caption{Success of the AIA in terms of balanced accuracy evaluated on the Train part of AIA dataset. - The AIA dataset is made of points that have not been seen during training of the target model. - The target model does not use the sensitive attribute.} - - \label{fig:aia} + \caption{ + Exactitude équilibrée de l'AIA sur la partie \textit{Évaluation} de la base AIA. + La base AIA utilise des points qui n'ont pas été vue à l'entraînement du générateur. + Le modèle cible est entraîné sans utiliser l'attribut sensible. + } + \label{fig:synth-aia} \end{figure} -Using synthetic dataset does not have an impact on the success of attribute inference attack. -We present in Figure~\ref{fig:aia} a comparison of AIA between real and synthetic data. +L'utilisation des données synthétiques n'a pas d'impacte sur le succès de l'AIA. +Nous présentons à la Figure~\ref{fig:synth-aia} une comparaison des AIA entre modèle cible ayant utilisé des données synthétiques et modèle cible ayant utilise des données réelles. -With an anova p-value of $8.65\times 10^{-1}$ we observe that whether we use synthetic or real data does not impact attribute privacy inference. -In addition, with an attack balanced accuracy ranging from 0.52 to 0.54, we observe a slight but certain risk for attribute leakage. -Hence, we conclude that using synthetic data does not protect users against AIA. +Avec une p-valeur de l'ANOVA de $8.65\times 10^{-1}$ nous observons qu'il n'y à pas de différence significative entre exactitude équilibrée de l'AIA pour donnée réelles et synthétiques. +De plus l'exactitude équilibrée de l'AIA est entre 0,52 et 0,54, nous observons donc un risque mineur mais existant de fuite de l'attribut sensible. +Notre conclusion est donc que l'utilisation de données synthétiques n'est pas suffisant pour mitiger la fuite d'attribut sensible. |