diff options
Diffstat (limited to 'synthetic/methodology.tex')
-rw-r--r-- | synthetic/methodology.tex | 8 |
1 files changed, 4 insertions, 4 deletions
diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex index 9fd6703..34b5e96 100644 --- a/synthetic/methodology.tex +++ b/synthetic/methodology.tex @@ -33,16 +33,16 @@ Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synt Nous utilisons une forêt aléatoire avec cent arbres pour la tâche de classification du modèle cible : inféré si la personne a un travail. Nous utilisons l'implémentation de scikit-learn de la forêt aléatoire. -Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présenté en Section~\ref{sec:background-ml-classif}. +Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présentée en Section~\ref{sec:background-ml-classif}. \subsection{Modèle d'attaque} Nous étudions deux notions de confidentialité : l'AIA et la MIA. -Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présenté à la Section~\ref{sec:aia-soft}. +Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présentée à la Section~\ref{sec:aia-soft}. \subsubsection{Inférence de l'appartenance (MIA)} Concernant la MIA, nous n'utilisons pas des modèles miroirs, nous adoptons plutôt une approche similaire à celle de Yeom et al.~\cite{yeom}. Nous considérons que l'adversaire a à sa disposition une base de données qui contient les coûts et leur statut d'appartenance correspondant ($m$ or $\bar{m}$). -C'est donc la même méthodologie que celle que nous avons utilisé pour présenter la MIA à la Section~\ref{sec:background-ml-mia}. +C'est donc la même méthodologie que celle que nous avons utilisée pour présenter la MIA à la Section~\ref{sec:background-ml-mia}. Cette méthodologie entraîne un risque plus élevé pour la confidentialité que l'utilisation de modèles miroirs ; c'est donc une évaluation qui permet d'avoir des garanties relativement fortes de protection par rapport aux attaques pratiques. Comme cette étude se concentre sur les données synthétiques, les membres ($m$) sont les points utilisés pour entraîner le générateur et non pas les points utilisés pour entraîner le modèle cible comme nous pouvons le voir sur la Figure~\ref{fig:synth-split}. @@ -63,7 +63,7 @@ Nous appliquons OVR CTRL à la fois sur les données synthétiques et sur les do \label{fig:aia-ovr} \end{figure} -Avant d'utiliser les données réelles pour entraîner le générateur, nous leurs appliquons la fonction OVR CTRL. +Avant d'utiliser les données réelles pour entraîner le générateur, nous leur appliquons la fonction OVR CTRL. Cette fonction contrôle le niveau de sur-ajustement du générateur par de l'échantillonnage, de la répétition et une permutation aléatoire~\footnote{shuffle}. Nous décrivons en détail le fonctionnement de cette fonction dans la Figure~\ref{fig:aia-ovr}. |