summaryrefslogtreecommitdiff
path: root/background/conf.tex
diff options
context:
space:
mode:
Diffstat (limited to 'background/conf.tex')
-rw-r--r--background/conf.tex75
1 files changed, 38 insertions, 37 deletions
diff --git a/background/conf.tex b/background/conf.tex
index 52ae9b9..a3f7e83 100644
--- a/background/conf.tex
+++ b/background/conf.tex
@@ -1,22 +1,22 @@
%Attacks which violate privacy and confidentiality in ML infer potentially sensitive unobservable information from observable information (e.g., model predictions).
\label{sec:bck_aia}
-Dans ce manuscrit nous considrons deux types de risques pour la confidentialité.
-Le premier concernce les données qui on servi à l'entraînement du modèle, le second concerne les donnée sui son utilisé lors de l'évaluation.
-Dans le cadre d'attaques nous parlerons de \emph{modèle cible} opour désigner le modèle utilisé par un adversaire pour apprendre des information confidentielles.
+Dans ce manuscrit nous considérons deux types de risques pour la confidentialité.
+Le premier concerne les données qui on servi à l'entraînement du modèle, le second concerne les donnée qui son utilisé lors de l'évaluation.
+Dans le cadre d'attaques nous parlerons de \emph{modèle cible} pour désigner le modèle utilisé par un adversaire pour apprendre des informations confidentielles.
\FloatBarrier
-\subsubsection{Risque sur les données d'entraîenemnt}
-L'attaque d'inférence d'apartenance (MIA) consiste à inférer si une donnée a servi à l'entraîenemnt du modèle cible.
-Cette attaque utilise le fait que le modèles d'apprentissage automatique ont en générale une moins bonne performance sur les donnée qui n'ont pas été utilisé à l'entraînement, c'est le sur-ajustement\footnote{\textit{Overfitting}}~\cite{hawkins2004problem,ying2019overview}.
+\subsubsection{Risque sur les données d'entraînement}
+L'attaque d'inférence d'appartenance (MIA) consiste à inférer si une donnée a servi à l'entraînement du modèle cible.
+Cette attaque utilise le fait que les modèles d'apprentissage automatique ont en générale une moins bonne performance sur les donnée qui n'ont pas été utilisés à l'entraînement, c'est le sur-ajustement\footnote{\textit{Overfitting}}~\cite{hawkins2004problem,ying2019overview}.
Ce problème peut survenir principalement quand le modèle cible est trop complexe par rapport à la tâche qui lui est demandé.
-Pour reprendre les mots de Hawkisn et al. : \textquote{Le sur-ajustement est l'utilisation de modèles ou de procédure qui vont à l'encontre de la parsimonie, c'est-à-dire qui utilisent plus de termes ou qui utilise des approches plus complexes que ce qui est necessaitre}
+Pour reprendre les mots de Hawkisn et al. : \textquote{Le sur-ajustement est l'utilisation de modèles ou de procédures qui vont à l'encontre de la parcimonie, c'est-à-dire qui utilisent plus de termes ou qui utilisent des approches plus complexe que ce qui est nécessaire}
\footnote{\textit{Overfitting is the use of models or procedures that violate
-parsimonysthat is, that include more terms than are neces-
+parsimony, that is, that include more terms than are neces-
sary or use more complicated approaches than are necessary.}}
-Nous voyons sur la Figure~\ref{fig:background-conf-mia} l'écart entre la valeur de fonction de cout évalué sur les données d'entraînement et d'évaluation.
-Le lien est assez claire, un écart significatif indique qu'un classifieur va être capable d'apprandre quel donnée à été utilisé pour l'entraînement.
-Pour vérifer cela, la Sous-figure~\ref{sfig:background-conf-mia-ba} montre comment une forêt aléatoire à put apprendre cette distinction.
+Nous voyons sur la Figure~\ref{fig:background-conf-mia} l'écart entre la valeur de la fonction de coût évalué sur les données d'entraînement et d'évaluation.
+Le lien est assez claire, un écart significatif indique qu'un classifieur va être capable d'apprendre quelles données ont été utilisées pour l'entraînement.
+Pour vérifier cela, la Sous-figure~\ref{sfig:background-conf-mia-ba} montre comment une forêt aléatoire a put apprendre cette distinction.
On observe une exactitude équilibrée autour de 0,625 indiquant une fuite du confidentialité.
\begin{figure}
@@ -24,31 +24,32 @@ On observe une exactitude équilibrée autour de 0,625 indiquant une fuite du co
\begin{subfigure}{0.3\linewidth}
\centering
\includegraphics[width=\linewidth]{background/figure/conf/mia_ba.pdf}
- \caption{Résulat de l'attaque MIA.}
+ \caption{Résultat de l'attaque MIA.}
\label{sfig:background-conf-mia-ba}
\end{subfigure}
\begin{subfigure}{0.65\linewidth}
\centering
\includegraphics[width=\linewidth]{background/figure/conf/mia.pdf}
- \caption{Ecart entre le coût calculer sur les données d'entraînemnt et sur les données d'évaluation.}
+ \caption{Écart entre le coût calculé sur les données d'entraînements et sur les données d'évaluation.}
\end{subfigure}
- \caption{Lien entre sur-ajustement et succès de l'attque MIA.}
+ \caption{Lien entre sur-ajustement et succès de l'attaque MIA.}
\label{fig:background-conf-mia}
\end{figure}
-L'étude de la fonction de cout est une possible quand l'adversaire possède des donnée pour lequelles il sait qu'elle ont apartenu à l'entraîenement.
-Grace à cela il peut construir un classifieur un utilisant cette conaissance comme étiquette.
-Si ce n'est pas le cas, l'adversaire utilise des modèles mirroires\footnote{\textit{Shadow models}} qui simulent le modèle cible est permettent d'apprendre à différencier le cout d'une donéne ayant servit à l'entraîenment d'une donnée jamais observé~\cite{shokri2017membership}.
-Un modèle d'attaque de MIA peut ensuite être utilser comme base pour d'autre type d'attaque comme par exemple reconstruir un attribut sensible de données ayanat servit à l'entraînement~\cite{yeom}.
+L'étude de la fonction de coût est possible quand l'adversaire possède des donnée pour lesquelles il sait qu'elles ont appartenues à l'entraînement.
+Grâce à cela il peut construire un classifieur en utilisant cette connaissance comme étiquette.
+Si ce n'est pas le cas, l'adversaire utilise des modèles miroirs\footnote{\textit{Shadow models}} qui simulent le modèle cible est permettent d'apprendre à différencier le coût d'une donnée ayant servit à l'entraînement d'une donnée jamais observé~\cite{shokri2017membership}.
-La confidentialité diférentielle\footnote{\textit{Differential privacy}} permet d'empêcher les attaque MIA~\cite{}.
-\begin{definition}{Confidentiatlié diferetielle}
+Un modèle d'attaque de MIA peut ensuite être utilisé comme base pour d'autre type d'attaque comme par exemple reconstruire un attribut sensible de données ayant servit à l'entraînement~\cite{yeom}.
+
+La confidentialité différentielle\footnote{\textit{Differential privacy}} permet d'empêcher les attaques MIA~\cite{chen2020differential,rahman2018membership}.
+\begin{definition}{Confidentialité différentielle}
Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé.
- Soit $(S,\mathcal{S})$ un espace mesurable et $\mathcal{V}$ l'ensemble des fonctions de mesurables de $\Omega$ dans $S$.
+ Soit $(S,\mathcal{S})$ un espace mesurable et $\mathcal{V}$ l'ensemble des fonctions mesurables de $\Omega$ dans $S$.
Soient $E$ un ensemble et $M$ une fonction de $E$ dans $\mathcal{V}$.
Soit $R\subset E^2$.
Soient $(\varepsilon,\delta)\in {\mathbb{R}^+}^2$
- Alors $M$ satisfait la $(\varepsilon,\delta)$ confidentialité diférentielle si et seulemnt si
+ Alors $M$ satisfait la $(\varepsilon,\delta)$ confidentialité différentielle si et seulement si
\begin{equation*}
\forall (e_1,e_2,s)\in E\times E\times \mathcal{S}\quad
(e_1,e_2)\in R\implies
@@ -59,32 +60,32 @@ En pratique $E$ représente l'ensemble de toutes les bases de données possibles
$R$ est une relation telle que $(e_1,e_2)\in R$ si et seulement si $e_1$ et $e_2$ différent d'une donnée.
$S$ est l'ensemble des modèles possibles.
$M$ est l'algorithme d'apprentissage qui prend en entrée une basse de donnée et renvoie une variable aléatoire à valeur dans l'espace des modèles $S$.
-Cette définition signifie donc que pour des bases de données de données diférentes d'une ligne, l'algorithme d'apprentissage aura des sorties presques indistinguables l'une de l'autres.
+Cette définition signifie donc que pour des bases de données de données différentes d'une ligne, l'algorithme d'apprentissage aura des sorties presque indistinguables l'une de l'autre.
Le presque étant paramétré par $\varepsilon$ et $\delta$.
\FloatBarrier
\subsubsection{Risque sur les données d'évaluation}
-Le second risque pour la confidentialité que nous allons évoquer concerne les donnée des utilisateur de modèle d'apprentissage et non plus les données d'entraînement.
-Dans ce cas un utilisateur souhaite évalue une donnée sur le modèle cibel et la question que l'on se pose est :
-Que ce passe t'il si la prédiction fuite à un adversaire ?
+Le second risque pour la confidentialité que nous allons évoquer concerne les données des utilisateurs de modèles d'apprentissage et non plus les données d'entraînement.
+Dans ce cas un utilisateur souhaite évaluer une donnée sur le modèle cible et la question que l'on se pose est :
+Que se passe t'il si la prédiction fuite à un adversaire ?
Song et al.~\cite{Song2020Overlearning} introduisent le concept de \emph{sur-apprentissage}\footnote{\textit{Overlearning}}.
Ce terme désigne un modèle cible qui apprend plus que sa tâche principale.
Par exemple un modèle servant à inférer si une personne souris dans une image vas aussi apprendre la couleur de peau~\cite{malekzadeh2021honestbutcurious}.
-Ou encore, utiliser un modèle qui prédise l'admission dans un école ou l'obtention d'un pret pour inférer le genre.
+Ou encore, utiliser un modèle qui prédise l'admission dans une école ou l'obtention d'un prêt pour inférer le genre~\cite{Song2020Overlearning}.
Il s'agit donc d'inférer un attribut sensible en utilisant la prédiction d'un modèle cible qui n'a pas été entraîné pour inférer cet attribut sensible.
-Nous appelerons ce type d'attaque : inférence d'attribut sensible (AIA).
+Nous appellerons ce type d'attaque : inférence d'attribut sensible (AIA).
-Nous considérerons pour la suite que l'adversaire à uniquement accès à la prédiction du modèle cible et non pas à la donnée d'entrée.
-En effet le modèle cible n'ajoute pas plus d'information concernant l'attribut sensible que n'est contenus dans la donnée d'entrée~\cite{jayaraman2022attribute}.
+Nous considérerons pour la suite que l'adversaire a uniquement accès à la prédiction du modèle cible et non pas à la donnée d'entrée.
+En effet le modèle cible n'ajoute pas plus d'information concernant l'attribut sensible que n'en n'est contenus dans la donnée d'entrée~\cite{jayaraman2022attribute}.
-Une AIA qui cherche à inférer un attribut sensible présente dans le données d'entrée est appelé \emph{inversion de modèle}\footnote{\textit{modèle inversion}}.
-En effet comme l'adversaire cherche a inferer une entrée d'un modèle cible à partir de sa sortie, cette attaque est similaire à l'inversion d'un fonction.
-Fredrikson et al.~\cite{fredrikson2} donnent un exemple marquant en pharmacogenetics :
-La molecule Warfarin entre dans le traitement préventif des crises cardiaques cependant son dosage est complexe car il dépend de chaque patient.
-Ainsi des modèles ont été créés pour prédire le dosage à partire des donnée médicales du patient comme son génotype.
-Fredrikson et al. ont réussi à utiliser la prédiction de ces modèles pour retrouver les donnés médicales démontrant ainsi le risque de privacy inhérant aux sortie de modèles.
+Une AIA qui cherche à inférer un attribut sensible présent dans le données d'entrée est appelé \emph{inversion de modèle}\footnote{\textit{modèle inversion}}.
+En effet comme l'adversaire cherche à inférer une entrée d'un modèle cible à partir de sa sortie, cette attaque est similaire à l'inversion d'une fonction.
+Fredrikson et al.~\cite{fredrikson2} donnent un exemple marquant en pharmacogénétique :
+La molécule Warfarin entre dans le traitement préventif des crises cardiaques, cependant son dosage est complexe car il dépend de chaque patient.
+Ainsi des modèles ont été créés pour prédire le dosage à partir des données médicales du patient comme son génotype.
+Fredrikson et al. ont réussi à utiliser la prédiction de ces modèles pour retrouver les donnés médicales démontrant ainsi le risque de perte de confidentialité inhérent aux sorties des modèles.
-Les dévlopements nouveaux que proposent ce manuscrit se concentrerons sur les risque d'inférence liés à des attribut sensibles qui ne sont pas utilisé lors de l'entraînement.
+Les développements nouveaux que proposent ce manuscrit se concentrerons sur les risques d'inférences liés à des attributs sensibles qui ne sont pas utilisés lors de l'entraînement.