summaryrefslogtreecommitdiff
path: root/synthetic/methodology.tex
diff options
context:
space:
mode:
Diffstat (limited to 'synthetic/methodology.tex')
-rw-r--r--synthetic/methodology.tex8
1 files changed, 4 insertions, 4 deletions
diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex
index 9fd6703..34b5e96 100644
--- a/synthetic/methodology.tex
+++ b/synthetic/methodology.tex
@@ -33,16 +33,16 @@ Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synt
Nous utilisons une forêt aléatoire avec cent arbres pour la tâche de classification du modèle cible : inféré si la personne a un travail.
Nous utilisons l'implémentation de scikit-learn de la forêt aléatoire.
-Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présenté en Section~\ref{sec:background-ml-classif}.
+Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présentée en Section~\ref{sec:background-ml-classif}.
\subsection{Modèle d'attaque}
Nous étudions deux notions de confidentialité : l'AIA et la MIA.
-Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présenté à la Section~\ref{sec:aia-soft}.
+Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présentée à la Section~\ref{sec:aia-soft}.
\subsubsection{Inférence de l'appartenance (MIA)}
Concernant la MIA, nous n'utilisons pas des modèles miroirs, nous adoptons plutôt une approche similaire à celle de Yeom et al.~\cite{yeom}.
Nous considérons que l'adversaire a à sa disposition une base de données qui contient les coûts et leur statut d'appartenance correspondant ($m$ or $\bar{m}$).
-C'est donc la même méthodologie que celle que nous avons utilisé pour présenter la MIA à la Section~\ref{sec:background-ml-mia}.
+C'est donc la même méthodologie que celle que nous avons utilisée pour présenter la MIA à la Section~\ref{sec:background-ml-mia}.
Cette méthodologie entraîne un risque plus élevé pour la confidentialité que l'utilisation de modèles miroirs ; c'est donc une évaluation qui permet d'avoir des garanties relativement fortes de protection par rapport aux attaques pratiques.
Comme cette étude se concentre sur les données synthétiques, les membres ($m$) sont les points utilisés pour entraîner le générateur et non pas les points utilisés pour entraîner le modèle cible comme nous pouvons le voir sur la Figure~\ref{fig:synth-split}.
@@ -63,7 +63,7 @@ Nous appliquons OVR CTRL à la fois sur les données synthétiques et sur les do
\label{fig:aia-ovr}
\end{figure}
-Avant d'utiliser les données réelles pour entraîner le générateur, nous leurs appliquons la fonction OVR CTRL.
+Avant d'utiliser les données réelles pour entraîner le générateur, nous leur appliquons la fonction OVR CTRL.
Cette fonction contrôle le niveau de sur-ajustement du générateur
par de l'échantillonnage, de la répétition et une permutation aléatoire~\footnote{shuffle}.
Nous décrivons en détail le fonctionnement de cette fonction dans la Figure~\ref{fig:aia-ovr}.