diff options
author | cookie <cookie@grospc> | 2024-10-02 18:27:27 +0200 |
---|---|---|
committer | cookie <cookie@grospc> | 2024-10-02 18:27:27 +0200 |
commit | 1f2fe7d9faa1900be98946822502aad22640c2da (patch) | |
tree | f36e10733672b3fe39c21424ee72360482d3b459 | |
parent | 93757957419c6853210a33f0c61570c2d34c3c77 (diff) |
Correction Emeline synthétique perspective conclusion
-rw-r--r-- | conclusion.tex | 25 | ||||
-rw-r--r-- | perspectives.tex | 30 | ||||
-rw-r--r-- | synthetic/introduction.tex | 14 | ||||
-rw-r--r-- | synthetic/methodology.tex | 94 | ||||
-rw-r--r-- | synthetic/related.tex | 14 | ||||
-rw-r--r-- | synthetic/results.tex | 32 |
6 files changed, 104 insertions, 105 deletions
diff --git a/conclusion.tex b/conclusion.tex index 7692eaf..487416e 100644 --- a/conclusion.tex +++ b/conclusion.tex @@ -1,19 +1,18 @@ -L'IA est un enjeu majeur des années à venir comme le prouve les investissements massifs dont font preuve les secteurs privée et publique. -Les géants du numérique et la littérature d'anticipation font miroiter un ensemble de technologies qui changerait drastiquement notre manière de vivre, aussi bien sur le plan individuel avec de nouveaux outils de travail, que sur le plan institutionnel comme dans les domaines de la santé ,de la justice ou de l'éducation. -Face à de telles attentes, il est capitale d'obtenir une compréhension en profondeur des modèles d'apprentissage automatique qui sont la clé de voûte de l'IA moderne. -En effet, certain effets indésirables liés à l'utilisation de ces modèles ont été observés. +L'IA est un enjeu majeur des années à venir comme le prouvent les investissements massifs dont font preuve les secteurs privée et publics en la matière. +Les géants du numérique et de la littérature d'anticipation font miroiter un ensemble de technologies qui changeraient drastiquement notre manière de vivre, aussi bien sur le plan individuel avec de nouveaux outils de travail, que sur le plan institutionnel comme dans les domaines de la santé ,de la justice ou de l'éducation. +Face à de telles attentes, il est capital d'obtenir une compréhension en profondeur des modèles d'apprentissage automatique, qui sont la clé de voûte de l'IA moderne. +En effet, certains effets indésirables liés à l'utilisation de ces modèles ont été observés. Les modèles consomment énormément d'énergie, sont susceptibles d'avoir des failles de sécurité, peuvent révéler des attributs sensibles de personnes réelles, créent des prédictions inexplicables et bissées et peuvent être utilisées à des fins illégales. -De plus les implication sociales d'une potentielle future AGI ne sont pas clairement établies hors du cadre de la science fiction. +De plus, les implication sociales d'une potentielle future AGI ne sont pas clairement établies hors du cadre de la science-fiction. -Pour palier cela et créer une IA alignée avec les valeurs de République Française il faut des garanties théoriques fortes couplées à des résultats expérimentaux réalisés sur le long terme avec des bases de données incluant les minorités victimes de discriminations. -C'est dans cette optique que s'inscrit ce manuscrit, plus précisément : -les interactions entre les différents effets indésirables listés plus haut ne sont pas encore compris dans leur entièreté. -Nous nous somment penché sur les interactions entre l'équité et la confidentialité et nous avons démontré que dans une certaine mesure, l'équité pouvais aller de pair avec confidentialité. -Pour cela nous avons crée des attaques ayant la garantie d'être les plus performantes tout en minimisant le coût de calcul. -Cela permettra à des organisations de contrôle, comme la Défenseur des droits, de mesurer avec certitude si une IA respecte les exigences d'équité. +Pour pallier cela et créer une IA alignée avec les valeurs de République Française il faut des garanties théoriques fortes, couplées à des résultats expérimentaux réalisés sur le long terme avec des bases de données incluant les minorités victimes de discriminations. +C'est dans cette optique que s'inscrit ce manuscrit et plus précisément comment les interactions entre les différents effets indésirables listés plus haut ne sont pas encore compris dans leur entièreté. +Nous nous somment penchés sur les interactions entre l'équité et la confidentialité et nous avons démontré que, dans une certaine mesure, l'équité pouvait aller de pair avec confidentialité. +Pour cela, nous avons créé des attaques ayant la garantie d'être les plus performantes tout en minimisant le coût de calcul. +Cela permettra à des organisations de contrôle, comme la Défenseure des droits, de mesurer avec certitude si une IA respecte les exigences d'équité. Les études théoriques que nous avons produites ont permis aussi de démontrer plusieurs résultats qui améliorent la compréhension que nous avons de l'exactitude équilibrée : une manière courante d'évaluer les modèles. -Enfin nous nous somme attaqué à l'idée reçu que les donnée synthétiques protègent totalement la confidentialité des utilisateurs et leur attributs sensibles en exhibant des contre exemples. -Néanmoins, modifier les algorithmes de génération de donnée en introduisant des contraintes d'équité et de confidentialité pourrait permettre des avancées significative vers une IA plus morale. +Enfin, nous nous somme attaqués à l'idée reçue que les données synthétiques protègent totalement la confidentialité des utilisateurs et leur attributs sensibles en exhibant des contre-exemples. +Néanmoins, modifier les algorithmes de génération de données en introduisant des contraintes d'équité et de confidentialité pourrait permettre des avancées significatives vers une IA plus morale. diff --git a/perspectives.tex b/perspectives.tex index 14a8275..d65c5e0 100644 --- a/perspectives.tex +++ b/perspectives.tex @@ -1,8 +1,8 @@ -\section{Optimisation de l'exactitude équilibrée pour des données d'entrées dans un ensemble infini} +\section{Optimisation de l'exactitude équilibrée pour des données d'entrée dans un ensemble infini} L'algorithme que nous avons construit au Chapitre~\ref{sec:fini} ne fonctionne que si les données d'entrée prennent un nombre fini de valeurs. -Il faut aussi avoir une base de donnée avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini. -Pour palier cela, nous avons expliqué que notre classifieur peut être utilisé à deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés. -Cependant nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée +Il faut aussi avoir une base de données avec suffisamment de lignes pour s'assurer d'avoir vu chaque point de l'ensemble $E$ des données d'entrée, sinon le comportement du classifieur n'est pas défini. +Pour pallier cela, nous avons expliqué que notre classifieur peut être utilisé à la deuxième étape du procédé d'apprentissage ensembliste : mélanger les prédictions de classifieurs faibles déjà entraînés. +Cependant, nous n'avons pas précisé comment entraîner les classifieurs faibles pour maximiser l'exactitude équilibrée. \section{Génération équitable et confidentielle} Nous avons vu au Chapitre~\ref{sec:synth} que les données synthétiques ne permettent pas de protéger l'inférence d'attribut sensible. @@ -11,13 +11,13 @@ Cela amène la question suivante : Est-il possible d'entraîner un générateur pour empêcher l'inférence d'attribut sensible ? Nous avons plusieurs pistes à proposer pour tenter de répondre à cette question. -La première solution qui nous viens à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence. -Plutôt nous allons entraîner le générateur pour qu'il génère l'attribut sensible. -Ainsi nous pouvons entraîner le modèle cible pour respecter la parité démographique ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}. -Cependant cette solution dépend de la personne qui vas construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisit et des paramètres des modèles. +La première solution qui nous vient à l'esprit est de ne pas entraîner le générateur pour empêcher l'inférence. +Nous allons plutôt entraîner le générateur pour qu'il génère l'attribut sensible. +Ainsi, nous pouvons entraîner le modèle cible pour respecter la parité démographique, ce qui permet de mitiger l'AIA comme nous l'avons vu au Chapitre~\ref{sec:aia}. +Cependant, cette solution dépend de la personne qui va construire le modèle cible : les mêmes données synthétiques peuvent amener à différentes garanties de protection en fonction de l'algorithme d'équité choisi et des paramètres des modèles. Regardons une condition sur les données synthétiques qui permet d'empêcher les AIA. -On aimerait donc, que si on entraîne un classifieur avec nos données synthétique, ce classifieur soit un CCA pour l'attribut sensible. +On aimerait donc, si l'on entraîne un classifieur avec nos données synthétiques, que ce classifieur soit un CCA pour l'attribut sensible. On se donne $(\Omega, \mathcal{T}, P)$ un espace probabilisé. Nous avons aussi $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables qui représentent respectivement, les données d'entrée du modèle cible, les étiquettes et l'attribut sensible. Nous modélisons la base de données qui sert à l'entraînement du générateur pour les trois variables aléatoires suivantes : @@ -34,7 +34,7 @@ A partir de ces trois variables, notre générateur crée des données synthéti \end{itemize} Nous cherchons donc des conditions sur $(X_s,Y_s)$ pour qu'en entraînant un modèle dessus il respecte la parité démographique sur $(X,Y,S)$. -Pour formaliser cela nous introduisons la notions suivante : +Pour formaliser cela nous introduisons la notion suivante : \begin{equation*} \forall\varepsilon>0~\exists\delta>0~\forall f\left( @@ -42,14 +42,14 @@ C_{X_s,Y_s}(f)<\delta \implies d\left(P_{f\circ X,S}, P_{f\circ X}\otimes P_S\right) \right)<\varepsilon \end{equation*} -Avec $C_{X_s,Y_s}$ la fonction de coût calculé sur les donnée synthétiques : +Avec $C_{X_s,Y_s}$ la fonction de coût calculée sur les données synthétiques : \begin{equation*} C_{X_s,Y_s}(f) = E(l(f(X_s(\square)),Y_s(\square))) \end{equation*} -Nous proposons donc comme perspective d'étudier cette notions. -Déjà nous voyons qu'elle dépend de $d$. -$d$ n'est pas forcément une distance mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$. +Nous proposons donc comme perspective d'étudier cette notion. +Premièrement, nous voyons qu'elle dépend de $d$. +$d$ n'est pas forcément une distance, mais comme nous souhaitons la parité démographique, $d$ doit au moins vérifier la propriété $d(a,b) = 0 \implies a=b$. Un candidat prometteur pour $d$ est donc l'information mutuelle~\cite{cover1999elements} dans le cas où $a$ et $b$ admettent des densités. -Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifier que nous avons construire au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibré maximale est moins coûteux en opérations que l'information mutuelle. +Dans le cas particulier où $\#F<\infty$ et $\#G<\infty$ il peut aussi être intéressant d'utiliser le classifieur que nous avons construit au Chapitre~\ref{sec:fini} car calculer l'exactitude équilibrée maximale est moins coûteux en opérations que l'information mutuelle. diff --git a/synthetic/introduction.tex b/synthetic/introduction.tex index ccf400e..4645eeb 100644 --- a/synthetic/introduction.tex +++ b/synthetic/introduction.tex @@ -1,11 +1,11 @@ -Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considéré du point de vue suivant : a partir des données synthétiques, que pouvons nous apprendre des données réels ? -Pour cela la confidentialité différentielle permet une protection très forte, plus forte que d'autre notions de confidentialité comme par exemple la limitation des fuite statistiques\footnote{\textit{Statistical disclosure limitation}}~\cite{abowd2008protective}. -Il existe ainsi des méthodes pour imposer la confidentialité différentielle dans les GAN~\cite{jordon2018pate} et dans les auto encodeurs~\cite{abay2019privacy}. +Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : a partir des données synthétiques, que pouvons-nous apprendre des données réelles ? +Pour cela, la confidentialité différentielle permet une protection très forte, plus forte que d'autres notions de confidentialité, comme par exemple la limitation des fuites statistiques\footnote{\textit{Statistical disclosure limitation}}~\cite{abowd2008protective}. +Il existe ainsi des méthodes pour imposer la confidentialité différentielle dans les GAN~\cite{jordon2018pate} et dans les auto-encodeurs~\cite{abay2019privacy}. -Ce chapitre est un début de travail sur les liens enter données synthétiques et AIA. +Ce chapitre est un début de travail sur les liens entre données synthétiques et AIA. Nous allons déjà étudier la MIA en utilisant des données synthétiques. -Ensuite nous allons regarder l'impacte de l'utilisation des données synthétiques lors de l'entraînement sur le succès de l'AIA. +Ensuite, nous allons regarder l'impact de l'utilisation des données synthétiques lors de l'entraînement sur le succès de l'AIA. -De manière synthétiques nous apportons des premiers éléments de réponses à la question suivante : -Quel est l'impacte de l'utilisation des données synthétiques, au lieu de données réels, lors de l'entraînement de modèles, sur la confidentialité ? +De manière synthétiques nous apportons des premiers éléments de réponse à la question suivante : +Quel est l'impact de l'utilisation des données synthétiques, au lieu de données réelles, lors de l'entraînement de modèles, sur la confidentialité ? diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex index e2cce7a..9fd6703 100644 --- a/synthetic/methodology.tex +++ b/synthetic/methodology.tex @@ -1,23 +1,23 @@ Dans cette section nous allons discuter de l'approche expérimentale que nous allons suivre pour apporter des éléments de réponse à la question posée précédemment. -Nous commençons par présenter le jeu de donnée et le générateur que nous utilisons. -Ensuite nous parlerons du modèle cible que nous entraînons avec la sortie du générateur. -Ainsi nous pourrons présenter les attaque de confidentialité prises en compte dans cette étude. +Nous commencerons par présenter le jeu de données et le générateur que nous utilisons. +Ensuite, nous parlerons du modèle cible que nous entraînons avec la sortie du générateur. +Ainsi nous pourrons présenter les attaques de confidentialité prises en compte dans cette étude. A la Section~\ref{sec:ovr} nous mettrons en avant une particularité de notre méthodologie : comment nous contrôlons le niveau de sur-ajustement du générateur et du modèle cible. -Finalement, nous montrons une représentation graphique du procédé dans son entièreté, des données réelles jusqu'au résultat expérimentaux dans la Figure~\ref{fig:synth-split}. +Finalement, nous montrerons une représentation graphique du procédé dans son entièreté, des données réelles jusqu'aux résultats expérimentaux dans la Figure~\ref{fig:synth-split}. -\subsection{Jeu de donnée} -Notre étude ce concentre sur Adult que nous avons déjà présenté à la section~\ref{sec:aia-methodo-jeu}. +\subsection{Jeu de données} +Notre étude se concentre sur Adult, que nous avons déjà présenté à la section~\ref{sec:aia-methodo-jeu}. Pour ce chapitre, la tâche de classification que nous allons considérer est la prédiction binaire suivante : est-ce qu'un individu a un travail ou non. Nous étudierons la couleur de peau comme attribut sensible. -Dans le recensement des États Unis\footnote{\textit{Census}} l'ethnie est encodée par neuf classes. -Nous transformons l'ethnie en un attribut binaire en encodant les personnes à la peau noir avec un un ($1$) et toutes les autres avec un zéros ($0$). -Ainsi, dans les contextes d'une AIA, le but de l'adversaire est d'inférer si une personne a la peau noir. +Dans le recensement des États-Unis\footnote{\textit{Census}} l'ethnie est encodée par neuf classes. +Nous transformons l'ethnie en un attribut binaire en encodant les personnes à la peau noire avec un un ($1$) et toutes les autres avec un zéro ($0$). +Ainsi, dans les contextes d'une AIA, le but de l'adversaire est d'inférer si une personne a la peau noire. -Nous n'utiliserons pas directement de recensement des États Unis, nous utiliserons une version adapté à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. -Cette version a formaté la base de donnée que l'on peut télécharger sur le site du gouvernement des États Unis pour le rendre facilement interfacable avec des outils standard du langage Python comme pandas, numpy ou scikit-learn. -Cela nous permet de sélectionner, l'état, l'année, la tâche de classification et les attributs sensibles facilement. +Nous n'utiliserons pas directement de recensement des États-Unis, mais une version adaptée à l'étude de l'équité : \textit{Retiring adult}~\cite{ding2021retiring}. +Cette version a formaté la base de données que l'on peut télécharger sur le site du gouvernement des États-Unis pour le rendre facilement interfaçable avec des outils standards du langage Python comme pandas, numpy ou scikit-learn. +Cela nous permet de sélectionner l'état, l'année, la tâche de classification et les attributs sensibles facilement. Pour des raisons pratiques, principalement de taille de stockage et de puissance de calcul, nous nous limitons aux données de l'Alabama du recensement de 2018. -Ce sous ensemble contient les données de 47.777 presonnes. +Ce sous-ensemble contient les données de 47.777 personnes. \subsection{Entraînement du générateur} \label{sec:synth-gen} @@ -25,15 +25,15 @@ Dans cette étude, nous considérons une variante du GAN : CTGAN~\cite{ctgan}. CTAGN est un GAN conditionnel spécialement conçu pour des données tabulaires hétérogènes. Ce générateur prend en considération des attributs aussi bien qualitatifs que quantitatifs. -Par exemple, l'attribut \textit{emploie} est qualitatif là où la \textit{taille} est quantitatif. -Dans nos expériences nous utilisons l'implémentation de CTGAN du \textit{Synthetic Data Vault} (SDV)~\footnote{sdv.dev}. +Par exemple, l'attribut \textit{emploi} est qualitatif là où la \textit{taille} est quantitatif. +Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synthetic Data Vault} (SDV)~\footnote{sdv.dev}. \subsection{Entraînement du prédicteur} \label{sec:synth-target} Nous utilisons une forêt aléatoire avec cent arbres pour la tâche de classification du modèle cible : inféré si la personne a un travail. Nous utilisons l'implémentation de scikit-learn de la forêt aléatoire. -Pour évaluer les tâches de classifications nous utilisons l'exactitude équilibré que nous avons présenté en Section~\ref{sec:background-ml-classif}. +Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présenté en Section~\ref{sec:background-ml-classif}. \subsection{Modèle d'attaque} Nous étudions deux notions de confidentialité : l'AIA et la MIA. @@ -41,14 +41,14 @@ Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise le \subsubsection{Inférence de l'appartenance (MIA)} Concernant la MIA, nous n'utilisons pas des modèles miroirs, nous adoptons plutôt une approche similaire à celle de Yeom et al.~\cite{yeom}. -Nous considérons que l'adversaire a à sa disposition un base de donnée qui contient les coûts et leurs statut d'appartenance correspondant ($m$ or $\bar{m}$). +Nous considérons que l'adversaire a à sa disposition une base de données qui contient les coûts et leur statut d'appartenance correspondant ($m$ or $\bar{m}$). C'est donc la même méthodologie que celle que nous avons utilisé pour présenter la MIA à la Section~\ref{sec:background-ml-mia}. -Cette méthodologie correspond à un cas pire pour la confidentialité que l'utilisation de modèle miroirs, c'est donc une évaluation qui permet d'avoir des garanties relativement forte de protection par rapport aux attaques pratiques. +Cette méthodologie entraîne un risque plus élevé pour la confidentialité que l'utilisation de modèles miroirs ; c'est donc une évaluation qui permet d'avoir des garanties relativement fortes de protection par rapport aux attaques pratiques. Comme cette étude se concentre sur les données synthétiques, les membres ($m$) sont les points utilisés pour entraîner le générateur et non pas les points utilisés pour entraîner le modèle cible comme nous pouvons le voir sur la Figure~\ref{fig:synth-split}. \subsection{Contrôle du sur-ajustement} -Les attaques MIA donnent habituellement des résultats assez faibles, spécialement pour de faibles taux de faux positif~\cite{stadler2020synthetic}. -Ainsi, pour pouvoir juger de l'impacte des données synthétiques sur le risque de MIA, nous augmentons artificiellement le sur-ajustement avec la fonction OVR CTRL. +Les attaques MIA donnent habituellement des résultats assez faibles, spécialement pour de faibles taux de faux positifs~\cite{stadler2020synthetic}. +Ainsi, pour pouvoir juger de l'impact des données synthétiques sur le risque de MIA, nous augmentons artificiellement le sur-ajustement avec la fonction OVR CTRL. Nous appliquons OVR CTRL à la fois sur les données synthétiques et sur les données réelles ainsi nous obtenons des résultats comparables pour ces deux cas. \label{sec:ovr} \begin{figure} @@ -56,10 +56,10 @@ Nous appliquons OVR CTRL à la fois sur les données synthétiques et sur les do \input{synthetic/figure/tikz/ovre} \caption{Dans cette figure nous détaillons la fonction OVR CTRL. Cette fonction contrôle le niveau de sur-ajustement du modèle cible. - Elle prend en entrée une base de donnée de taille $N$ et en ressort une autre de taille $M$. + Elle prend en entrée une base de données de taille $N$ et en ressort une autre de taille $M$. Dans un premier temps, nous sélectionnons $N$ lignes de manière aléatoire que nous appelons $r_0,\cdots,r_{N-1}$. Ensuite, nous répétons les lignes $\lfloor\frac{M}{N}\rfloor$ fois. - Enfin nous mélangeons la base de donnée obtenue.} + Enfin nous mélangeons la base de données obtenue.} \label{fig:aia-ovr} \end{figure} @@ -67,12 +67,12 @@ Avant d'utiliser les données réelles pour entraîner le générateur, nous leu Cette fonction contrôle le niveau de sur-ajustement du générateur par de l'échantillonnage, de la répétition et une permutation aléatoire~\footnote{shuffle}. Nous décrivons en détail le fonctionnement de cette fonction dans la Figure~\ref{fig:aia-ovr}. -OVR CTRL duplique $N$ donnée réel pour crée une nouvelle base de donnée contenant $M$ lignes. +OVR CTRL duplique $N$ données réelles pour créer une nouvelle base de données contenant $M$ lignes. Quand $N$ est inférieur à $M$, chaque donnée est vue plusieurs fois à chaque époque de l'entraînement. Nous observons empiriquement que le modèle cible sur-ajuste plus pour certaines valeurs de $N$. -Nous représentons cela sur la Figure~\ref{fig:synth-tune_ovr}, sur le jeu Adult, pour 5000 point différent l'utilité et la qualité des données synthétiques sont hautes (supérieur à $0,7$ d'exactitude équilibré) tout en atteignant une MIA de $0,54$ ce qui indique une fuite de la qualité d'appartenance au jeu d'entraînement. -Nous choisissons donc 5000 données différentes ($N=5000$) pour une base de donnée de taille 100000 ($M=100000$). +Nous représentons cela sur la Figure~\ref{fig:synth-tune_ovr}, sur le jeu Adult, pour 5000 points différents, l'utilité et la qualité des données synthétiques sont hautes (supérieures à $0,7$ d'exactitude équilibrée) tout en atteignant une MIA de $0,54$ ce qui indique une fuite de la qualité d'appartenance au jeu d'entraînement. +Nous choisissons donc 5000 données différentes ($N=5000$) pour une base de données de taille 100000 ($M=100000$). \begin{figure} \centering @@ -94,49 +94,49 @@ Nous choisissons donc 5000 données différentes ($N=5000$) pour une base de don \end{subfigure} \caption{Méthodologie de recherche d'un niveau de répétition qui permet de satisfaire une haute utilité et sensibilité à la MIA. Nous utilisons un total de 100.000 points. - Dans cet expérience nous utilisons uniquement le générateur CTGAN.} + Dans cette expérience nous utilisons uniquement le générateur CTGAN.} \label{fig:synth-tune_ovr} \end{figure} \subsection{Cheminement des données} -Dans cette section, nous décrivons les différentes étapes par lesquelles passent les données au travers de notre procédé expérimentale. +Dans cette section, nous décrivons les différentes étapes par lesquelles passent les données au travers de notre procédé expérimental. La Figure~\ref{fig:synth-split} représente ce cheminement. -Nous commençons par les données réelles que nous partageons en un jeu d'entraînement ($m$) et jeu d'évaluation ($\bar{m}$). -Le jeu d'entraînement commence par passer par la fonction OVR CTRL, ensuite il est utilisé pour entraîner un générateur. +Nous commençons par les données réelles que nous partageons en un jeu d'entraînement ($m$) et un jeu d'évaluation ($\bar{m}$). +Le jeu d'entraînement commence par passer par la fonction OVR CTRL. Ensuite il est utilisé pour entraîner un générateur. Si le générateur est l'identité, alors $m$ est aussi la sortie du générateur. Nous utilisons cette sortie pour entraîner le modèle cible. Uniquement $\bar{m}$ est utilisé pour évaluer l'utilité du modèle cible. -Sur la Figure~\ref{fig:synth-split} nous avons appelé \emph{prédiction} la sortie du modèle cible évalue sur $\bar{m}$. +Sur la Figure~\ref{fig:synth-split} nous avons appelé \emph{prédiction} la sortie du modèle cible évaluée sur $\bar{m}$. -Cette prédiction, en plus d'être utilisé pour le calcul de l'utilité, sert à construire la base de donnée qui sert à l'AIA. -Cela assure que le modèle de menace de l'AIA décrit à la Section~\ref{sec:aia-tm} soit respecté, c'est à dire que l'attaquant n'ait accès qu'à des données qui n'ont pas été vus à l'entraînement. -Ensuite nous séparons le jeu de donnée AIA en évaluation et entraînement pour calculer l'exactitude équilibré de cette attaque. +Cette prédiction, en plus d'être utilisée pour le calcul de l'utilité, sert à construire la base de données qui sert à l'AIA. +Cela assure que le modèle de menace de l'AIA décrit à la Section~\ref{sec:aia-tm} soit respecté, c'est-à-dire que l'attaquant n'ait accès qu'à des données qui n'ont pas été vues à l'entraînement. +Ensuite nous séparons le jeu de données AIA en évaluation et entraînement pour calculer l'exactitude équilibrée de cette attaque. -Enfin, nous exécutons la MIA qui est représenté en bas de la Figure~\ref{fig:synth-split}. -En plus de la prédiction, le modèle cible sort les coûts pour $m$ et $\bar{m}$ qui sont utilisés pour pour construire la base de données MIA. -Similairement à l'AIA, nous séparons la base de donnée MIA en entraînement et évaluation. +Enfin, nous exécutons la MIA qui est représentée en bas de la Figure~\ref{fig:synth-split}. +En plus de la prédiction, le modèle cible sort les coûts pour $m$ et $\bar{m}$ qui sont utilisés pour construire la base de données MIA. +Similairement à l'AIA, nous séparons la base de données MIA en entraînement et évaluation. -Chaque séparation et répété cinq fois dans une optique de validation croisée. +Chaque séparation est répétée cinq fois dans une optique de validation croisée. \label{sec:data} \begin{figure} \centering \input{synthetic/figure/tikz/data_split/split} \caption{ - Cette figure présente les sous ensembles des données utilisé pour le calcul des résultats. - Cette figure se lit à partir du coins supérieur gauche avec les données réelles. - Les rectangles représentes des fonctions dont les entrée sont les flèches entrantes le sorties les flèches sortantes. - Si l'entrée d'une fonction est une donnée d'entraînement nous l'indiquons au dessus de la flèche. + Cette figure présente les sous-ensembles des données utilisés pour le calcul des résultats. + Cette figure se lit à partir du coin supérieur gauche avec les données réelles. + Les rectangles représentent des fonctions dont les entrées sont les flèches entrantes et les sorties les flèches sortantes. + Si l'entrée d'une fonction est une donnée d'entraînement, nous l'indiquons au dessus de la flèche. } \label{fig:synth-split} \end{figure} \subsection{Comparaison entre donnée réelle et synthétique} A la Section~\ref{sec:synth-res}, nous comparons des résultats obtenus en utilisant deux générateurs : l'identité et un GAN. -Pour chacune des expériences suivantes, pour comparer les résultats, tous les paramètres sont les même excepté le générateurs. -Cela nous permet d'évaluer l'impacte des données synthétiques à toutes choses égales. +Pour chacune des expériences suivantes, pour comparer les résultats, tous les paramètres sont les mêmes, excepté le générateur. +Cela nous permet d'évaluer l'impact des données synthétiques à toutes choses égales. -Nous répétons chaque expérience avec de la validation croisée, l'utilité est donc calculé cinq fois et les attaque MIA et AIA vingt-cinq fois. +Nous répétons chaque expérience avec de la validation croisée ; l'utilité est donc calculée cinq fois et les attaques MIA et AIA vingt-cinq fois. Nous présentons les résultats sous la forme de boîtes à moustaches. -Nous évaluons si l'écart de résultat entre données réelles et synthétique est significatifs en utilisant un analyse de la variance (ANOVA). -Pour ce test statistique l'hypothèse nulle est la suivante : Les échantillons ont la même moyenne. -Si la p-valeur du test de Fisher est inférieur à 0.01 nous rejetons l'hypothèse nulle et déduisons que l'utilisation des données synthétiques à eu un impacte sur le résultat. +Nous évaluons si l'écart de résultat entre données réelles et synthétiques est significatif en utilisant une analyse de la variance (ANOVA). +Pour ce test statistique, l'hypothèse nulle est la suivante : les échantillons ont la même moyenne. +Si la p-valeur du test de Fisher est inférieure à 0.01, nous rejetons l'hypothèse nulle et déduisons que l'utilisation des données synthétiques a eu un impact sur le résultat. diff --git a/synthetic/related.tex b/synthetic/related.tex index e93edd3..47d095f 100644 --- a/synthetic/related.tex +++ b/synthetic/related.tex @@ -1,11 +1,11 @@ La littérature sur la confidentialité des données synthétiques se concentre sur un problème connexe. -Des nous étude, les données synthétique ne sont pas publiques, elle sont utilisé comme intermédiaire entre les données réelles et le modèle cible. -Au contraire, dans la littérature le données synthétique ont vocation à être distribué à des tiers. +De nos études, les données synthétique ne sont pas publiques, elle sont utilisées comme intermédiaires entre les données réelles et le modèle cible. +Au contraire, dans la littérature, les données synthétiques ont vocation à être distribuées à des tiers. Le but de cela peut être de contourner la législation sur les données personnelles~\cite{bellovin2019privacy}. -Des travaux précédent ont montrés que divulguer des données synthétiques au lieu des données réelles ne protège ni contre les attaque de ré-identification ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2020synthetic}. +Des travaux précédents ont montré que divulguer des données synthétiques au lieu de données réelles ne protège ni contre les attaques de ré-identification, ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2020synthetic}. -Bellocin et al.~\cite{bellovin2019privacy} étudient l'aspect légale du partage de données synthétiques crées à partir de données réelles. -Ils viennent à la conclusion qu'un tribunal n'autorisera pas ce partage à cause des nombreux case et des nombreuses recherches qui prouvent qu'il est possible d'apprendre des informations sur les données réelles à partir des données synthétiques. -Ils supposent aussi que l'utilisation de confidentialité différentielle peut rendre légale le partage mais en l'absence de jurisprudence rien n'est certain. -Dans cette optique, des travaux comme ceux de Ping et al.~\cite{ping2017datasynthesizer} cherche à impose la confidentialité différentielle lors de la création de données synthétiques. +Bellocin et al.~\cite{bellovin2019privacy} étudient l'aspect légal du partage de données synthétiques créées à partir de données réelles. +Ils viennent à la conclusion qu'un tribunal n'autorisera pas ce partage à cause des nombreux cas et des nombreuses recherches qui prouvent qu'il est possible d'apprendre des informations sur les données réelles à partir des données synthétiques. +Ils supposent aussi que l'utilisation de confidentialité différentielle peut rendre légale le partage, mais en l'absence de jurisprudence, rien n'est certain. +Dans cette optique, des travaux comme ceux de Ping et al.~\cite{ping2017datasynthesizer} cherchent à imposer la confidentialité différentielle lors de la création de données synthétiques. diff --git a/synthetic/results.tex b/synthetic/results.tex index 129b875..0694e82 100644 --- a/synthetic/results.tex +++ b/synthetic/results.tex @@ -1,6 +1,6 @@ -Dans cette section nous allons analyser l'impacte de l'utilisation des données synthétiques sur la MIA et l'AIA. -La Section~\ref{sec:synth-uti} présente l'utilisé du modèle cible. -Ce facteur de contrôle nous permet de nous assurer que nous modèles apprennent de l'information sur la tâche principale et ne sont pas des CCA. +Dans cette section nous allons analyser l'impact de l'utilisation des données synthétiques sur la MIA et l'AIA. +La Section~\ref{sec:synth-uti} présente l'utilité du modèle cible. +Ce facteur de contrôle nous permet de nous assurer que nos modèles apprennent de l'information sur la tâche principale et ne sont pas des CCA. \subsection{Utilité} \label{sec:synth-uti} @@ -9,33 +9,33 @@ Ce facteur de contrôle nous permet de nous assurer que nous modèles apprennent \centering \includegraphics[width=0.45\textwidth]{synthetic/figure/result/adult/utility.pdf} \caption{ - Utilité du modèle cible en terme d'exactitude équilibrée sur des données non vue à l'entraînement. - Le terme \textit{Real} signifie que le générateur est l'identité, les données synthétiques utilisé pour entraîner le modèle cible sont donc les données réelles. + Utilité du modèle cible en termes d'exactitude équilibrée sur des données non vues à l'entraînement. + Le terme \textit{Real} signifie que le générateur est l'identité, les données synthétiques utilisées pour entraîner le modèle cible sont donc les données réelles. Le terme \textit{Synthetic} signifie que le générateur est un CGAN. Dans ce cas le modèle cible n'est pas entraîné sur des données réelles. } \label{fig:synth-utility} \end{figure} Utiliser les données synthétiques dégrade l'utilité du prédicteur. -Nous présentons l'exactitude équilibrée du modèle cible entraîner avec des données synthétiques et des données réelles dans la Figure~\ref{fig:synth-utility}. +Nous présentons l'exactitude équilibrée du modèle cible entraîné avec des données synthétiques et des données réelles dans la Figure~\ref{fig:synth-utility}. Utiliser les données synthétiques dégrade significativement l'utilité du modèle cible de cinq points avec une p-valeur de l'ANOVA à $1.23\times 10^{-5}$. -Mais avec un minimum de 0,68 d'exactitude équilibré sur les données synthétiques, nous disons que le modèle cible a appris un niveau significatif d'information ce qui rend sensé l'étude de l'AIA et de la MIA. +Mais avec un minimum de 0,68 d'exactitude équilibrée sur les données synthétiques, nous disons que le modèle cible a appris un niveau significatif d'information, ce qui rend sensé l'étude de l'AIA et de la MIA. \subsection{Attaque d'inférence d'appartenance aux données d'entraînement (MIA)} \begin{figure} \centering \includegraphics[width=0.45\textwidth]{synthetic/figure/result/adult/mia.pdf} \caption{ - Succès de la MIA en terme d'exactitude équilibré évalué sur la partie \textit{Évaluation} de la base MIA. + Succès de la MIA en terme d'exactitude équilibrée évalué sur la partie \textit{Évaluation} de la base MIA. } \end{figure} -Nous observons une dégradation de l'exactitude équilibré de la MIA de 30\% en moyenne. +Nous observons une dégradation de l'exactitude équilibrée de la MIA de 30\% en moyenne. La p-valeur de l'ANOVA à $4.54\times 10^{-12}$ indique que cette différence est significative. L'exactitude équilibrée de la MIA passe de 0,86 à 0,55 en utilisant des données synthétiques ce qui indique que, dans ce cas, elles ont servi à protéger l'attribut sensible. -Bien entendu, ce résultat ne concerne que cette méthodologie expérimentale et ne permet pas de conclure que de manière générale les données synthétique empêche la MIA. +Bien entendu, ce résultat ne concerne que cette méthodologie expérimentale et ne permet pas de conclure que de manière générale les données synthétiques empêche la MIA. -De plus, les 5\% d'inférence de la MIA restante peut être du à des point extrêmes qui peuvent être retrouvé par un adversaire~\cite{carlini2022membershipinferenceattacksprinciples}. +De plus, les 5\% d'inférence de la MIA restante peuvent être dus à des points extrêmes, qui peuvent être retrouvés par un adversaire~\cite{carlini2022membershipinferenceattacksprinciples}. \subsection{Attaque d'inférence d'attribut} \begin{figure} @@ -43,15 +43,15 @@ De plus, les 5\% d'inférence de la MIA restante peut être du à des point extr \includegraphics[width=0.45\textwidth]{synthetic/figure/result/adult/aia.pdf} \caption{ Exactitude équilibrée de l'AIA sur la partie \textit{Évaluation} de la base AIA. - La base AIA utilise des points qui n'ont pas été vue à l'entraînement du générateur. + La base AIA utilise des points qui n'ont pas été vus à l'entraînement du générateur. Le modèle cible est entraîné sans utiliser l'attribut sensible. } \label{fig:synth-aia} \end{figure} -L'utilisation des données synthétiques n'a pas d'impacte sur le succès de l'AIA. -Nous présentons à la Figure~\ref{fig:synth-aia} une comparaison des AIA entre modèle cible ayant utilisé des données synthétiques et modèle cible ayant utilise des données réelles. +L'utilisation des données synthétiques n'a pas d'impact sur le succès de l'AIA. +Nous présentons à la Figure~\ref{fig:synth-aia} une comparaison des AIA entre modèle cible ayant utilisé des données synthétiques et modèle cible ayant utilisé des données réelles. -Avec une p-valeur de l'ANOVA de $8.65\times 10^{-1}$ nous observons qu'il n'y à pas de différence significative entre exactitude équilibrée de l'AIA pour donnée réelles et synthétiques. -De plus l'exactitude équilibrée de l'AIA est entre 0,52 et 0,54, nous observons donc un risque mineur mais existant de fuite de l'attribut sensible. +Avec une p-valeur de l'ANOVA de $8.65\times 10^{-1}$ nous observons qu'il n'y a pas de différence significative entre exactitude équilibrée de l'AIA pour données réelles et synthétiques. +De plus, l'exactitude équilibrée de l'AIA est entre 0,52 et 0,54 ; nous observons donc un risque mineur mais existant de fuite de l'attribut sensible. Notre conclusion est donc que l'utilisation de données synthétiques n'est pas suffisant pour mitiger la fuite d'attribut sensible. |