diff options
author | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-05 19:25:34 +0200 |
---|---|---|
committer | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-05 19:25:34 +0200 |
commit | 411624f6f259084641deb92f20d512908c8b7d4f (patch) | |
tree | c25c1ce9afbb9252217a45deb76b3e63ae648ab9 /synthetic | |
parent | d4021e6f8a0bf771b755d39da8515266ef75e667 (diff) |
Correction maman
Diffstat (limited to 'synthetic')
-rw-r--r-- | synthetic/introduction.tex | 4 | ||||
-rw-r--r-- | synthetic/methodology.tex | 8 | ||||
-rw-r--r-- | synthetic/related.tex | 2 | ||||
-rw-r--r-- | synthetic/results.tex | 2 |
4 files changed, 8 insertions, 8 deletions
diff --git a/synthetic/introduction.tex b/synthetic/introduction.tex index 4645eeb..a741559 100644 --- a/synthetic/introduction.tex +++ b/synthetic/introduction.tex @@ -1,4 +1,4 @@ -Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : a partir des données synthétiques, que pouvons-nous apprendre des données réelles ? +Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : à partir des données synthétiques, que pouvons-nous apprendre des données réelles ? Pour cela, la confidentialité différentielle permet une protection très forte, plus forte que d'autres notions de confidentialité, comme par exemple la limitation des fuites statistiques\footnote{\textit{Statistical disclosure limitation}}~\cite{abowd2008protective}. Il existe ainsi des méthodes pour imposer la confidentialité différentielle dans les GAN~\cite{jordon2018pate} et dans les auto-encodeurs~\cite{abay2019privacy}. @@ -6,6 +6,6 @@ Ce chapitre est un début de travail sur les liens entre données synthétiques Nous allons déjà étudier la MIA en utilisant des données synthétiques. Ensuite, nous allons regarder l'impact de l'utilisation des données synthétiques lors de l'entraînement sur le succès de l'AIA. -De manière synthétiques nous apportons des premiers éléments de réponse à la question suivante : +De manière synthétique nous apportons des premiers éléments de réponse à la question suivante : Quel est l'impact de l'utilisation des données synthétiques, au lieu de données réelles, lors de l'entraînement de modèles, sur la confidentialité ? diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex index 9fd6703..34b5e96 100644 --- a/synthetic/methodology.tex +++ b/synthetic/methodology.tex @@ -33,16 +33,16 @@ Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synt Nous utilisons une forêt aléatoire avec cent arbres pour la tâche de classification du modèle cible : inféré si la personne a un travail. Nous utilisons l'implémentation de scikit-learn de la forêt aléatoire. -Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présenté en Section~\ref{sec:background-ml-classif}. +Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présentée en Section~\ref{sec:background-ml-classif}. \subsection{Modèle d'attaque} Nous étudions deux notions de confidentialité : l'AIA et la MIA. -Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présenté à la Section~\ref{sec:aia-soft}. +Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présentée à la Section~\ref{sec:aia-soft}. \subsubsection{Inférence de l'appartenance (MIA)} Concernant la MIA, nous n'utilisons pas des modèles miroirs, nous adoptons plutôt une approche similaire à celle de Yeom et al.~\cite{yeom}. Nous considérons que l'adversaire a à sa disposition une base de données qui contient les coûts et leur statut d'appartenance correspondant ($m$ or $\bar{m}$). -C'est donc la même méthodologie que celle que nous avons utilisé pour présenter la MIA à la Section~\ref{sec:background-ml-mia}. +C'est donc la même méthodologie que celle que nous avons utilisée pour présenter la MIA à la Section~\ref{sec:background-ml-mia}. Cette méthodologie entraîne un risque plus élevé pour la confidentialité que l'utilisation de modèles miroirs ; c'est donc une évaluation qui permet d'avoir des garanties relativement fortes de protection par rapport aux attaques pratiques. Comme cette étude se concentre sur les données synthétiques, les membres ($m$) sont les points utilisés pour entraîner le générateur et non pas les points utilisés pour entraîner le modèle cible comme nous pouvons le voir sur la Figure~\ref{fig:synth-split}. @@ -63,7 +63,7 @@ Nous appliquons OVR CTRL à la fois sur les données synthétiques et sur les do \label{fig:aia-ovr} \end{figure} -Avant d'utiliser les données réelles pour entraîner le générateur, nous leurs appliquons la fonction OVR CTRL. +Avant d'utiliser les données réelles pour entraîner le générateur, nous leur appliquons la fonction OVR CTRL. Cette fonction contrôle le niveau de sur-ajustement du générateur par de l'échantillonnage, de la répétition et une permutation aléatoire~\footnote{shuffle}. Nous décrivons en détail le fonctionnement de cette fonction dans la Figure~\ref{fig:aia-ovr}. diff --git a/synthetic/related.tex b/synthetic/related.tex index 47d095f..b99f7ab 100644 --- a/synthetic/related.tex +++ b/synthetic/related.tex @@ -1,5 +1,5 @@ La littérature sur la confidentialité des données synthétiques se concentre sur un problème connexe. -De nos études, les données synthétique ne sont pas publiques, elle sont utilisées comme intermédiaires entre les données réelles et le modèle cible. +De nos études, les données synthétiques ne sont pas publiques, elle sont utilisées comme intermédiaires entre les données réelles et le modèle cible. Au contraire, dans la littérature, les données synthétiques ont vocation à être distribuées à des tiers. Le but de cela peut être de contourner la législation sur les données personnelles~\cite{bellovin2019privacy}. Des travaux précédents ont montré que divulguer des données synthétiques au lieu de données réelles ne protège ni contre les attaques de ré-identification, ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2020synthetic}. diff --git a/synthetic/results.tex b/synthetic/results.tex index 0694e82..47a024a 100644 --- a/synthetic/results.tex +++ b/synthetic/results.tex @@ -53,5 +53,5 @@ Nous présentons à la Figure~\ref{fig:synth-aia} une comparaison des AIA entre Avec une p-valeur de l'ANOVA de $8.65\times 10^{-1}$ nous observons qu'il n'y a pas de différence significative entre exactitude équilibrée de l'AIA pour données réelles et synthétiques. De plus, l'exactitude équilibrée de l'AIA est entre 0,52 et 0,54 ; nous observons donc un risque mineur mais existant de fuite de l'attribut sensible. -Notre conclusion est donc que l'utilisation de données synthétiques n'est pas suffisant pour mitiger la fuite d'attribut sensible. +Notre conclusion est donc que l'utilisation de données synthétiques n'est pas suffisante pour mitiger la fuite d'attribut sensible. |