diff options
author | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-23 10:49:36 +0200 |
---|---|---|
committer | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-10-23 10:49:36 +0200 |
commit | 4311199d52eec10b1adf5925fb97c515b92a9eb7 (patch) | |
tree | c7787e6a6632b5eae1ee8f39b4ca2c3fc691e00d | |
parent | 0050810e9511699b044bf098783904f41496732f (diff) |
Modification Antoine chap4 chap5 (description figure) chap 6 (étoffer intro)
-rw-r--r-- | aia/resultats.tex | 50 | ||||
-rw-r--r-- | biblio.bib | 8 | ||||
-rw-r--r-- | classification_finie/introduction.tex | 12 | ||||
-rw-r--r-- | contexte/strat.tex | 26 | ||||
-rw-r--r-- | synthetic/introduction.tex | 12 | ||||
-rw-r--r-- | synthetic/methodology.tex | 8 | ||||
-rw-r--r-- | synthetic/related.tex | 8 | ||||
-rw-r--r-- | template_these_INSA_cotut.pdf | bin | 9575919 -> 9582209 bytes |
8 files changed, 88 insertions, 36 deletions
diff --git a/aia/resultats.tex b/aia/resultats.tex index f88dc1f..12483d8 100644 --- a/aia/resultats.tex +++ b/aia/resultats.tex @@ -28,11 +28,12 @@ \end{subfigure} \begin{subfigure}{0.24\linewidth} \includegraphics[width=\linewidth]{ACSAC/figures/egd/lfw/lfw_egd_attack_hard_race.pdf} - \caption{Lfw (race)} + \caption{LFW (race)} + \label{subfig:aia-theodifexp} \end{subfigure} \begin{subfigure}{0.24\linewidth} \includegraphics[width=\linewidth]{ACSAC/figures/egd/lfw/lfw_egd_attack_hard_sex.pdf} - \caption{Lfw (sex)} + \caption{LFW (sex)} \end{subfigure} \caption{Impact de la réduction pour une classification équitable sur le succès de \AIAHard. @@ -74,11 +75,12 @@ \end{subfigure} \begin{subfigure}{0.24\linewidth} \includegraphics[width=\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_soft_experimental_race.pdf} - \caption{Lfw (race)} + \caption{LFW (race)} \end{subfigure} \begin{subfigure}{0.24\linewidth} \includegraphics[width=\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_soft_experimental_sex.pdf} - \caption{Lfw (sex)} + \caption{LFW (sex)} + \label{subfig:aia-softlfwsex} \end{subfigure} \caption{Impact du rééquilibrage adverse sur le succès de \AIASoft. @@ -114,11 +116,11 @@ \end{subfigure} \begin{subfigure}{0.24\linewidth} \includegraphics[width=\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_hard_race.pdf} - \caption{Lfw (race)} + \caption{LFW (race)} \end{subfigure} \begin{subfigure}{0.24\linewidth} \includegraphics[width=\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_hard_sex.pdf} - \caption{Lfw (sex)} + \caption{LFW (sex)} \end{subfigure} \caption{Impact du rééquilibrage adverse sur le succès de \AIAHard. \\\textit{baseline} = succès de l'attaque sans rééquilibrage adverse. @@ -187,6 +189,10 @@ } \label{fig:utilityadv} \end{figure} +Nous montrons dans cette section les résultats expérimentaux. +Dans un premiers temps nous proposons une analyse globale des résultats, dans un second temps nous décrivons chaque figure en rentrant plus dans les détails. + +\subsubsection{Synthèse des résultats} Nous observons sur les Figures~\ref{fig:aiaegd},~\ref{fig:aia-adv-hard} et~\ref{fig:aiadeb} que les méthodes pour imposer l'équité ont bien réduit les succès des attaques, que ce soit en classification ou en régression. De plus, nous voyons sur les Figures~\ref{fig:aiaegd} et~\ref{fig:aia-adv-hard} que le succès maximal de l'attaque vaut bien $\frac{1}{2}(1+DemParLvl)$ comme nous l'avons montré à la Propriété~\ref{prop:aia-demparlvl}. Enfin, nous mettons en perspective ce résultat avec la dégradation d'utilité qu'entraîne l'utilisation de ces méthodes sur les Figures~\ref{fig:utilityegd} et~\ref{fig:utilityadv}. @@ -195,4 +201,36 @@ En contrepartie, la réduction pour une classification équitable semble moins d En conclusion, nous recommandons d'utiliser le rééquilibrage adverse quand il y a un risque que le logit soit partagé ou quand la tâche principale est une régression. Si ce n'est pas le cas, par exemple si le modèle est utilisé localement et que seule la prédiction est partagée, nous recommandons d'utiliser la réduction pour une classification équitable. + +\subsubsection{Analyse détaillée des résultats} +La Figure~\ref{fig:aiaegd} présente l'exactitude équilibrée de~\AIAHard~avec et sans utilisation de la méthode de réduction pour une classification équitable. +Comme nous utilisons \AIAHard~sur cette figure nous avons la garantie que le résultat de l'attaque correspond à la maximisation de l'exactitude équilibrée sur les données d'entraînement de l'attaque. +Cependant, il peut arriver des cas extrêmes où l'attribut sensible est presque indépendant de la sortie du modèle cible. +Cela signifie que le nombre d'individus ayant l'attribut sensible 0 dans la classe 0 vas être presque égale au nombre d'individus ayant l'attribut sensible 0 dans la classe 1. +Ainsi en séparant les jeux de donnée en entraînement (A) et évaluation (B), il est possible que la tendance soit opposé dans A et B. +Par exemple : dans A il y a plus d'individus ayant un attribut sensible 0 dans la classe 0 que dans la classe 1 alors que dans B il y a plus d'individus ayant un attribut sensible 0 dans la classe 1 que dans la classe 0. +Dans ce cas une attaque entraîné sur A et évalué sur B aura une exactitude équilibrée inférieur à 0,5 comme nous pouvons l'observer sur la Figure~\ref{fig:aiaegd} pour COMPAS, MEPS et LFW. +Nous observons aussi ce phénomène sur la Figure~\ref{fig:aia-adv-hard}. +Ces cas sont fréquents pour les boîtes à moustache dénotées \textquote{\textit{Empirical}} car elles ont été obtenu en attaquant un modèle cible entraîné avec un mécanisme qui cherche à impose la parité démographique, soit justement l'indépendance de la sortie et de l'attribut sensible. + +Les boîtes à moustaches dénotées \textit{\textquote{Theoretical}} sont obtenus sur les données d'évaluation en calculant $\frac{1}{2}(1+DemParLvl)$. +Elles permettent de vérifier expérimentalement la Propriété~\ref{prop:aia-demparlvl} qui assure que l'exactitude équilibrée de~\AIAHard~doit être égale à $\frac{1}{2}(1+DemParLvl)$. +On remarque que c'est vrai sauf dans le cas indiqué plus haut où~\AIAHard~se trompe à cause de la presque indépendance entre attribut sensible et sortie du modèle cible et donne une exactitude équilibrée inférieur à 0,5. +Dans ce cas le résultat théorique vaut $1-\text{le résultat expérimentale}$. +Cela explique la différence observé sur certaines figures, comme par exemple à la Sous-figure~\ref{subfig:aia-theodifexp}. + +Nous observons sur l'ensemble des figures présentant des résultats d'attaques que l'écart inter-quartile peut atteindre 10 points d'exactitude équilibrée ce qui indique que le résultat de l'attaque est dépendant de la séparation en entraînement et évaluation. +Cela peut venir du fait que les jeux de données sont déséquilibré ce qui augmente la probabilité de générer des sous ensembles qui ne contiennent pas assez de données pour chaque classe. + +Sur l'ensemble des expériences, l'inférence du genre sur le jeu de données LFW est la plus sensible car elle atteint une médiane de 0.8 d'exactitude équilibrée sans utilisation de mécanisme de protection. +Pour mettre cela en perspectives, les autres attaques sans utilisation de mécanisme atteignent un médiane moyenne de 0.59 d'exactitude équilibrée. +Cela met en avant le risque que représente l'AIA et l'intérêt de mitiger ces attaques. +Concernant la protection, nous observons que les mécanismes imposant l'équité ne permettent pas dans tous les cas de réduire le risque comme par exemple avec la Sous-figure~\ref{subfig:aia-theodifexp}. +Sur cette figure nous observons que la boîte à moustache \textquote{\textit{Baseline}} est presque au même niveau que les deux autres avec un médiane passant de 0.6 à 0.58. +Cela indique que le mécanisme n'a pas empêché~\AIAHard~d'inférer l'attribut sensible et que le DemParLvl est presque le même avant et après utilisation du mécanisme. +Comme le DemParLvl n'a pas beaucoup diminué, le mécanisme n'a pas rempli le rôle pour lequel il a été crée : imposer la parité démographique et atteindre un DemParLvl égale à 0,5. +En contre partie, quand le mécanisme arrive à imposer la parité démographique nous observons que l'exactitude équilibrée de l'attaque est diminué comme sur la Sous-figure~\ref{subfig:aia-softlfwsex}. +Sur cette figure la médiane de l'exactitude équilibrée de l'attaque passe de 0.8 à 0.5. +C'est-à-dire que le risque pour l'attribut sensible passe de très marqué à inexistant. + \FloatBarrier @@ -1,4 +1,12 @@ ######################"" +@inproceedings{stadler2022synthetic, + title={Synthetic data--anonymisation groundhog day}, + author={Stadler, Theresa and Oprisanu, Bristena and Troncoso, Carmela}, + booktitle={31st USENIX Security Symposium (USENIX Security 22)}, + pages={1451--1468}, + year={2022} +} + @book{cover1999elements, title={Elements of information theory}, author={Cover, Thomas M}, diff --git a/classification_finie/introduction.tex b/classification_finie/introduction.tex index ac815fa..a2574cc 100644 --- a/classification_finie/introduction.tex +++ b/classification_finie/introduction.tex @@ -1,8 +1,14 @@ Dans ce premier chapitre de contribution, nous allons construire un nouvel algorithme d'apprentissage ensembliste. Plus précisément nous allons nous intéresser à la manière de combiner plusieurs classifieurs : ce que nous avons appelé la seconde partie de la vie d'un algorithme d'apprentissage ensembliste à la Section~\ref{sec:background-aens}. -Nous allons construire une solution similaire à celle de l'espace de connaissances du comportement\footnote{\textit{Behavior knowledge space}}~\cite{1626170} sauf que au lieu d'optimiser l'exactitude nous allons optimiser l'exactitude équilibrée. +Nous allons construire une solution similaire à celle de l'espace de connaissances du comportement\footnote{\textit{Behavior knowledge space}}~\cite{1626170} sauf qu'au lieu d'optimiser l'exactitude nous allons optimiser l'exactitude équilibrée. -Pour cela nous allons considérer que nous cherchons une fonction d'un ensemble fini $E$ vers un autre $F$. +Ce nouvel algorithme nous permettra aux prochains chapitres d'étudier l'attaque par inférence d'attribut sensible. +Dans cette attaque nous utilisons la sortie d'un modèle de classification pour inférer un attribut sensible. +En effet, l'ensemble des classes de sorties possibles est fini tout comme l'ensemble des attributs sensibles possibles. + +Pour construire cet algorithme nous allons considérer que nous cherchons une fonction d'un ensemble fini $E$ vers un autre $F$. $E$ correspond à l'ensemble des uplets possibles des sorties des classifieurs faibles et $F$ aux classes. -Nous commençons notre étude en considérant que nous avons une base de donnée ayant deux colonnes. +Nous commençons notre étude en considérant que nous avons une base de données ayant deux colonnes. L'une contient des éléments de $E$ et l'autre contient des étiquettes de $F$. +Une solution évidente est d'essayer toutes les fonctions possibles de $E$ dans $F$ mais cela n'est pas possible pour de grands ensembles. +Ainsi nous allons chercher un solution qui soit économe en nombre d'opérations. diff --git a/contexte/strat.tex b/contexte/strat.tex index ca52510..bf43368 100644 --- a/contexte/strat.tex +++ b/contexte/strat.tex @@ -2,6 +2,14 @@ \FloatBarrier \begin{figure} \centering + \includegraphics[width=0.5\linewidth]{contexte/figure/google_trend.pdf} + \caption{Intérêt pour la recherche \textquote{Intelligence artificielle} en France dans Google. + Les données ont été exportées grâce à Google Trend~\cite{gtrend}.} + \label{fig:contexte-trend} +\end{figure} + +\begin{figure} + \centering \begin{subfigure}{0.3\linewidth} \centering \includegraphics[width=\linewidth]{contexte/figure/anr/prc.pdf} @@ -120,15 +128,6 @@ Pour coordonner ces investissements en matière d'IA, le Directeur général des \textquote{Il aura pour mission la coordination interministérielle de la stratégie nationale en intelligence artificielle}~\cite{coordinateur}. Ce coordinateur est un exemple d'une réalisation pratique d'une recommandation du rapport Villani\footnote{Cf. page 63 du rapport Villani}. -\begin{figure} - \centering - \includegraphics[width=0.5\linewidth]{contexte/figure/google_trend.pdf} - \caption{Intérêt pour la recherche \textquote{Intelligence artificielle} en France dans Google. - Les données ont été exportées grâce à Google Trend~\cite{gtrend}.} - \label{fig:contexte-trend} -\end{figure} -%\subsection{Attentes de l'IA} -%OMS rapport santé~\cite{oms}. \FloatBarrier \subsection{Infrastructures} @@ -137,14 +136,15 @@ Le développement de l'IA demande des puissances de calcul considérables pour f Par exemple le modèle Llama2 a nécessité 3.311.616 GPUheure d'entraînement~\cite{touvron2023llama} ce qui signifie qu'il faudrait 378 ans à un individu ayant une seule carte graphique\footnote{Graphical Processing Unit} (GPU) pour faire de même. Pour que la France puisse réaliser ses objectifs ambitieux en matière d'IA il est donc nécessaire de construire des supercalculateurs en mutualisant les ressources entre les différents acteurs. Nous avons donné l'exemple du supercalculateur Jean Zay~\cite{jeanzay} qui a été construit en partie dans cette optique. + +Dans ce manuscrit les calculs ont été réalisés sur une autre infrastructure : Grid5000 (G5K)~\cite{g5k}. +Il s'agit d'une grille de calcul mettant à disposition des centres de recherche français différents types de machine : des GPU, des CPU, des ordinateurs complets\footnote{Bare metal} ce qui permet un très large éventail d'expériences. +Comme nous pouvons le voir sur la Figure~\ref{fig:contexte-g5k} l'aspect distribué de G5K permet de réaliser des expériences impliquant des systèmes distribués comme par exemple l'apprentissage fédéré\footnote{Federated learning}. + \begin{figure} \centering \includegraphics[width=0.4\linewidth]{contexte/figure/g5k-backbone.pdf} \caption{Grid5000 : une infrastructure de calcul scientifique distribuée. Source : \url{www.grid5000.fr/w/File:G5k-backbone.png}} \label{fig:contexte-g5k} \end{figure} - -Dans ce manuscrit les calculs ont été réalisés sur une autre infrastructure : Grid5000 (G5K)~\cite{g5k}. -Il s'agit d'une grille de calcul mettant à disposition des centres de recherche français différents types de machine : des GPU, des CPU, des ordinateurs complets\footnote{Bare metal} ce qui permet un très large éventail d'expériences. -Comme nous pouvons le voir sur la Figure~\ref{fig:contexte-g5k} l'aspect distribué de G5K permet de réaliser des expériences impliquant des systèmes distribués comme par exemple l'apprentissage fédéré\footnote{Federated learning}. \FloatBarrier diff --git a/synthetic/introduction.tex b/synthetic/introduction.tex index a741559..6440f11 100644 --- a/synthetic/introduction.tex +++ b/synthetic/introduction.tex @@ -1,11 +1,13 @@ -Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : à partir des données synthétiques, que pouvons-nous apprendre des données réelles ? +Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : à partir des données synthétiques, que pouvons nous apprendre des données réelles ? Pour cela, la confidentialité différentielle permet une protection très forte, plus forte que d'autres notions de confidentialité, comme par exemple la limitation des fuites statistiques\footnote{\textit{Statistical disclosure limitation}}~\cite{abowd2008protective}. Il existe ainsi des méthodes pour imposer la confidentialité différentielle dans les GAN~\cite{jordon2018pate} et dans les auto-encodeurs~\cite{abay2019privacy}. - -Ce chapitre est un début de travail sur les liens entre données synthétiques et AIA. +Nous présentons dans ce chapitre un début de travail sur les liens entre données synthétiques et AIA. Nous allons déjà étudier la MIA en utilisant des données synthétiques. Ensuite, nous allons regarder l'impact de l'utilisation des données synthétiques lors de l'entraînement sur le succès de l'AIA. -De manière synthétique nous apportons des premiers éléments de réponse à la question suivante : -Quel est l'impact de l'utilisation des données synthétiques, au lieu de données réelles, lors de l'entraînement de modèles, sur la confidentialité ? +\input{synthetic/related} + +Nous nous plaçons une étape après dans la vie des données synthétiques, c'est-à-dire au moment de l'utilisation de ces données pour l'entraînement de modèles. +Nous apportons donc ici des premiers éléments de réponse à la question suivante : +quel est l'impact sur la confidentialité de l'utilisation des données synthétiques au lieu de données réelles, lors de l'entraînement de modèles ? diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex index 34b5e96..c1cd2b8 100644 --- a/synthetic/methodology.tex +++ b/synthetic/methodology.tex @@ -13,8 +13,8 @@ Dans le recensement des États-Unis\footnote{\textit{Census}} l'ethnie est encod Nous transformons l'ethnie en un attribut binaire en encodant les personnes à la peau noire avec un un ($1$) et toutes les autres avec un zéro ($0$). Ainsi, dans les contextes d'une AIA, le but de l'adversaire est d'inférer si une personne a la peau noire. -Nous n'utiliserons pas directement de recensement des États-Unis, mais une version adaptée à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. -Cette version a formaté la base de données que l'on peut télécharger sur le site du gouvernement des États-Unis pour le rendre facilement interfaçable avec des outils standards du langage Python comme pandas, numpy ou scikit-learn. +Nous n'utiliserons pas directement le recensement des États-Unis, mais une version adaptée à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. +Cette version a formaté la base de données que l'on peut télécharger sur le site du gouvernement des États-Unis pour la rendre facilement interfaçable avec des outils standards du langage Python comme pandas, numpy ou scikit-learn. Cela nous permet de sélectionner l'état, l'année, la tâche de classification et les attributs sensibles facilement. Pour des raisons pratiques, principalement de taille de stockage et de puissance de calcul, nous nous limitons aux données de l'Alabama du recensement de 2018. Ce sous-ensemble contient les données de 47.777 personnes. @@ -23,7 +23,7 @@ Ce sous-ensemble contient les données de 47.777 personnes. \label{sec:synth-gen} Dans cette étude, nous considérons une variante du GAN : CTGAN~\cite{ctgan}. -CTAGN est un GAN conditionnel spécialement conçu pour des données tabulaires hétérogènes. +CTGAN est un GAN conditionnel spécialement conçu pour des données tabulaires hétérogènes. Ce générateur prend en considération des attributs aussi bien qualitatifs que quantitatifs. Par exemple, l'attribut \textit{emploi} est qualitatif là où la \textit{taille} est quantitatif. Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synthetic Data Vault} (SDV)~\footnote{sdv.dev}. @@ -130,7 +130,7 @@ Chaque séparation est répétée cinq fois dans une optique de validation crois \label{fig:synth-split} \end{figure} -\subsection{Comparaison entre donnée réelle et synthétique} +\subsection{Comparaison entre données réelles et synthétiques} A la Section~\ref{sec:synth-res}, nous comparons des résultats obtenus en utilisant deux générateurs : l'identité et un GAN. Pour chacune des expériences suivantes, pour comparer les résultats, tous les paramètres sont les mêmes, excepté le générateur. Cela nous permet d'évaluer l'impact des données synthétiques à toutes choses égales. diff --git a/synthetic/related.tex b/synthetic/related.tex index b99f7ab..96fe892 100644 --- a/synthetic/related.tex +++ b/synthetic/related.tex @@ -1,11 +1,9 @@ -La littérature sur la confidentialité des données synthétiques se concentre sur un problème connexe. -De nos études, les données synthétiques ne sont pas publiques, elle sont utilisées comme intermédiaires entre les données réelles et le modèle cible. -Au contraire, dans la littérature, les données synthétiques ont vocation à être distribuées à des tiers. +Dans la littérature, les données synthétiques ont vocation à être distribuées à des tiers. Le but de cela peut être de contourner la législation sur les données personnelles~\cite{bellovin2019privacy}. -Des travaux précédents ont montré que divulguer des données synthétiques au lieu de données réelles ne protège ni contre les attaques de ré-identification, ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2020synthetic}. +Des travaux précédents ont montré que divulguer des données synthétiques au lieu de données réelles ne protège ni contre les attaques de ré-identification, ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2022synthetic}. Bellocin et al.~\cite{bellovin2019privacy} étudient l'aspect légal du partage de données synthétiques créées à partir de données réelles. Ils viennent à la conclusion qu'un tribunal n'autorisera pas ce partage à cause des nombreux cas et des nombreuses recherches qui prouvent qu'il est possible d'apprendre des informations sur les données réelles à partir des données synthétiques. -Ils supposent aussi que l'utilisation de confidentialité différentielle peut rendre légale le partage, mais en l'absence de jurisprudence, rien n'est certain. +Ils supposent aussi que l'utilisation de confidentialité différentielle peut rendre légal le partage, mais en l'absence de jurisprudence, rien n'est certain. Dans cette optique, des travaux comme ceux de Ping et al.~\cite{ping2017datasynthesizer} cherchent à imposer la confidentialité différentielle lors de la création de données synthétiques. diff --git a/template_these_INSA_cotut.pdf b/template_these_INSA_cotut.pdf Binary files differindex 1c23273..9e52098 100644 --- a/template_these_INSA_cotut.pdf +++ b/template_these_INSA_cotut.pdf |