diff options
Diffstat (limited to 'background/conf.tex')
-rw-r--r-- | background/conf.tex | 181 |
1 files changed, 85 insertions, 96 deletions
diff --git a/background/conf.tex b/background/conf.tex index 4ee8d9f..52ae9b9 100644 --- a/background/conf.tex +++ b/background/conf.tex @@ -1,101 +1,90 @@ %Attacks which violate privacy and confidentiality in ML infer potentially sensitive unobservable information from observable information (e.g., model predictions). \label{sec:bck_aia} +Dans ce manuscrit nous considrons deux types de risques pour la confidentialité. +Le premier concernce les données qui on servi à l'entraînement du modèle, le second concerne les donnée sui son utilisé lors de l'évaluation. +Dans le cadre d'attaques nous parlerons de \emph{modèle cible} opour désigner le modèle utilisé par un adversaire pour apprendre des information confidentielles. + +\FloatBarrier +\subsubsection{Risque sur les données d'entraîenemnt} +L'attaque d'inférence d'apartenance (MIA) consiste à inférer si une donnée a servi à l'entraîenemnt du modèle cible. +Cette attaque utilise le fait que le modèles d'apprentissage automatique ont en générale une moins bonne performance sur les donnée qui n'ont pas été utilisé à l'entraînement, c'est le sur-ajustement\footnote{\textit{Overfitting}}~\cite{hawkins2004problem,ying2019overview}. +Ce problème peut survenir principalement quand le modèle cible est trop complexe par rapport à la tâche qui lui est demandé. +Pour reprendre les mots de Hawkisn et al. : \textquote{Le sur-ajustement est l'utilisation de modèles ou de procédure qui vont à l'encontre de la parsimonie, c'est-à-dire qui utilisent plus de termes ou qui utilise des approches plus complexes que ce qui est necessaitre} +\footnote{\textit{Overfitting is the use of models or procedures that violate +parsimonysthat is, that include more terms than are neces- +sary or use more complicated approaches than are necessary.}} +Nous voyons sur la Figure~\ref{fig:background-conf-mia} l'écart entre la valeur de fonction de cout évalué sur les données d'entraînement et d'évaluation. +Le lien est assez claire, un écart significatif indique qu'un classifieur va être capable d'apprandre quel donnée à été utilisé pour l'entraînement. +Pour vérifer cela, la Sous-figure~\ref{sfig:background-conf-mia-ba} montre comment une forêt aléatoire à put apprendre cette distinction. +On observe une exactitude équilibrée autour de 0,625 indiquant une fuite du confidentialité. + +\begin{figure} + \centering + \begin{subfigure}{0.3\linewidth} + \centering + \includegraphics[width=\linewidth]{background/figure/conf/mia_ba.pdf} + \caption{Résulat de l'attaque MIA.} + \label{sfig:background-conf-mia-ba} + \end{subfigure} + \begin{subfigure}{0.65\linewidth} + \centering + \includegraphics[width=\linewidth]{background/figure/conf/mia.pdf} + \caption{Ecart entre le coût calculer sur les données d'entraînemnt et sur les données d'évaluation.} + \end{subfigure} + \caption{Lien entre sur-ajustement et succès de l'attque MIA.} + \label{fig:background-conf-mia} +\end{figure} + +L'étude de la fonction de cout est une possible quand l'adversaire possède des donnée pour lequelles il sait qu'elle ont apartenu à l'entraîenement. +Grace à cela il peut construir un classifieur un utilisant cette conaissance comme étiquette. +Si ce n'est pas le cas, l'adversaire utilise des modèles mirroires\footnote{\textit{Shadow models}} qui simulent le modèle cible est permettent d'apprendre à différencier le cout d'une donéne ayant servit à l'entraîenment d'une donnée jamais observé~\cite{shokri2017membership}. +Un modèle d'attaque de MIA peut ensuite être utilser comme base pour d'autre type d'attaque comme par exemple reconstruir un attribut sensible de données ayanat servit à l'entraînement~\cite{yeom}. + +La confidentialité diférentielle\footnote{\textit{Differential privacy}} permet d'empêcher les attaque MIA~\cite{}. +\begin{definition}{Confidentiatlié diferetielle} + Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé. + Soit $(S,\mathcal{S})$ un espace mesurable et $\mathcal{V}$ l'ensemble des fonctions de mesurables de $\Omega$ dans $S$. + Soient $E$ un ensemble et $M$ une fonction de $E$ dans $\mathcal{V}$. + Soit $R\subset E^2$. + Soient $(\varepsilon,\delta)\in {\mathbb{R}^+}^2$ + Alors $M$ satisfait la $(\varepsilon,\delta)$ confidentialité diférentielle si et seulemnt si + \begin{equation*} + \forall (e_1,e_2,s)\in E\times E\times \mathcal{S}\quad + (e_1,e_2)\in R\implies + P(M(e_1)\in s)\leq e^{\varepsilon}P(M(e_2)\in s)+\delta + \end{equation*} +\end{definition} +En pratique $E$ représente l'ensemble de toutes les bases de données possibles. +$R$ est une relation telle que $(e_1,e_2)\in R$ si et seulement si $e_1$ et $e_2$ différent d'une donnée. +$S$ est l'ensemble des modèles possibles. +$M$ est l'algorithme d'apprentissage qui prend en entrée une basse de donnée et renvoie une variable aléatoire à valeur dans l'espace des modèles $S$. +Cette définition signifie donc que pour des bases de données de données diférentes d'une ligne, l'algorithme d'apprentissage aura des sorties presques indistinguables l'une de l'autres. +Le presque étant paramétré par $\varepsilon$ et $\delta$. + +\FloatBarrier +\subsubsection{Risque sur les données d'évaluation} +Le second risque pour la confidentialité que nous allons évoquer concerne les donnée des utilisateur de modèle d'apprentissage et non plus les données d'entraînement. +Dans ce cas un utilisateur souhaite évalue une donnée sur le modèle cibel et la question que l'on se pose est : +Que ce passe t'il si la prédiction fuite à un adversaire ? + +Song et al.~\cite{Song2020Overlearning} introduisent le concept de \emph{sur-apprentissage}\footnote{\textit{Overlearning}}. +Ce terme désigne un modèle cible qui apprend plus que sa tâche principale. +Par exemple un modèle servant à inférer si une personne souris dans une image vas aussi apprendre la couleur de peau~\cite{malekzadeh2021honestbutcurious}. +Ou encore, utiliser un modèle qui prédise l'admission dans un école ou l'obtention d'un pret pour inférer le genre. +Il s'agit donc d'inférer un attribut sensible en utilisant la prédiction d'un modèle cible qui n'a pas été entraîné pour inférer cet attribut sensible. +Nous appelerons ce type d'attaque : inférence d'attribut sensible (AIA). + +Nous considérerons pour la suite que l'adversaire à uniquement accès à la prédiction du modèle cible et non pas à la donnée d'entrée. +En effet le modèle cible n'ajoute pas plus d'information concernant l'attribut sensible que n'est contenus dans la donnée d'entrée~\cite{jayaraman2022attribute}. + +Une AIA qui cherche à inférer un attribut sensible présente dans le données d'entrée est appelé \emph{inversion de modèle}\footnote{\textit{modèle inversion}}. +En effet comme l'adversaire cherche a inferer une entrée d'un modèle cible à partir de sa sortie, cette attaque est similaire à l'inversion d'un fonction. +Fredrikson et al.~\cite{fredrikson2} donnent un exemple marquant en pharmacogenetics : +La molecule Warfarin entre dans le traitement préventif des crises cardiaques cependant son dosage est complexe car il dépend de chaque patient. +Ainsi des modèles ont été créés pour prédire le dosage à partire des donnée médicales du patient comme son génotype. +Fredrikson et al. ont réussi à utiliser la prédiction de ces modèles pour retrouver les donnés médicales démontrant ainsi le risque de privacy inhérant aux sortie de modèles. + +Les dévlopements nouveaux que proposent ce manuscrit se concentrerons sur les risque d'inférence liés à des attribut sensibles qui ne sont pas utilisé lors de l'entraînement. -Attacks which violate privacy and confidentiality in ML infer potentially sensitive information from observable information (e.g., model predictions). -This leakage of information is a privacy risk if adv learns something about $traindata$ -or the inputs- which would be impossible to learn without access to $targetmodel$. This differentiates between a privacy risk and simple statistical inference~\cite{cormode}. -Among the various privacy risks explored in literature pertaining to ML models, attribute inference attacks~\cite{fredrikson2,Mahajan2020DoesLS,yeom,Song2020Overlearning,malekzadeh2021honestbutcurious,MehnazAttInf} infer the specific value of a sensitive attribute for a specific input to ML model given some model observables (e.g., model predictions, parameters, intermediate layerwise outputs) and background information. Based on attack surface being exploited, aia{s} can be categorized into (a) imputation-based attacks and (b) representation-based attacks. - -Let's introduce some notations to guide us in understanding the zoology of those attacks. - -We have a dataset $d:I\rightarrow \mathcal{X}\times\mathcal{S}\times\mathcal{Y}$ containing as column: the features, the sensitive attribute and the ground truth. -$I$ is a finite set of indices. -To access features, sensitive attribute and labels from there indices, we define respectively the following functions: -\begin{itemize} - \item $X:I\rightarrow \mathcal{X},~i\mapsto (d(i))_0$ - \item $S:I\rightarrow \mathcal{S},~i\mapsto (d(i))_1$ - \item $Y:I\rightarrow \mathcal{Y},~i\mapsto (d(i))_2$ -\end{itemize} -Let $(I_0,I_1)$ be a partition of $I$. -$d$ is split in two datasets $d_0 = d_{{|I_0}}$ and $d_1 = d_{{|I_1}}$ which we call respectively the target dataset and the auxiliary dataset. -$d_0$ is used to train a machine learning model to infer the ground truth from the features: we call it the target model $targetmodel$. - -Regarding attribute inference attack, we differentiate between training time attacks that target $d_0$: the dataset used in training. -And inference time attack that target data used as input of an already trained target model. -Our work focuses on the later (see figure \ref{fig:tm2}) but for clear positioning of our contributions, we are going to present both types of attack in this background section. - -\noindent\textbf{\underline{Imputation-based attacks}} assume adv has access to non-sensitive attributes in addition to model's predictions and background information (e.g., marginal prior over sensitive attribute and confusion matrix). We review these different imputation-based attacks below: - - - -\setlength\tabcolsep{3pt} -\begin{table*}[!htb] -\caption{Comparison of prior work based on: attack surface exploited (e.g., model predictions ($targetmodel(X(i))$), $X(i)$, $Y(i)$, distribution over $S(i)$ ($P_S$) and confusion matrix between true and predicted output across all training data records ($C(Y(i),targetmodel(X(i)))$), whether $S(i)$ is censored, i.e., included in $traindata$ or inputs, whether they account for class imbalance in $S(i)$, whether adv is active or passive and whether the threat model is blackbox or whitebox. All the attacks assume the knowledge of auxiliary data $auxdata$.} -\begin{center} -\footnotesize -\begin{tabular}{ |c|c|c|c|c|c| } - \hline - \textbf{Literature} & \textbf{Attack Vector} & \textbf{$S$ is censored?} & \textbf{Imbalance in $S$?} & \textbf{adv} & \textbf{Threat Model} \\ - \hline - \multicolumn{6}{|c|}{\textbf{Imputation-based Attacks}}\\ - \hline - \textbf{Fredrikson et al.}~\cite{fredrikson2} & $X$, $Y$, $targetmodel(X(i))$, \textbf{$P_S$}, $C(Y(i),targetmodel(X(i)))$ & $\checkmark$ & $\times$ & Passive & Blackbox\\ - \textbf{Yeom et al.}~\cite{yeom} & $X(i)$, $Y(i)$, $targetmodel()$, \textbf{$P_S$} & $\checkmark$ & $\times$ & Passive & Blackbox\\ - \textbf{Mehnaz et al.}~\cite{MehnazAttInf} & $X(i)$, $Y(i)$, $targetmodel()$, \textbf{$P_S$}, $C(Y(i),targetmodel(X(i)))$ & $\checkmark$ & $\times$ & Passive & Blackbox\\ - \textbf{Jayaraman and Evans}~\cite{jayaraman2022attribute} & $X(i)$, $Y(i)$, $targetmodel()$, \textbf{$P_S$}, $C(Y(i),targetmodel(X(i)))$ & $\times$, $\checkmark$ & $\times$ & Passive & Whitebox\\ - \hline - \multicolumn{6}{|c|}{\textbf{Representation-based Attacks}}\\ - \hline - \textbf{Song et al.}~\cite{Song2020Overlearning} & $targetmodel(X(i))$ & $\times$ & $\times$ & Passive & Both\\ - \textbf{Mahajan et al.}~\cite{Mahajan2020DoesLS} & $targetmodel(X(i))$ & $\checkmark$ & $\times$ & Passive & Blackbox\\ - \textbf{Malekzadeh et al.}~\cite{malekzadeh2021honestbutcurious} & $targetmodel(X(i))$ & $\times$ & $\times$ & Active & Blackbox\\ - \textbf{Our Work} & $targetmodel(X(i))$ & $\times$, $\checkmark$ & $\checkmark$ & Passive & Blackbox \\ - \hline -\end{tabular} -\end{center} -\label{tab:summary} -\end{table*} - -\label{sec:bck_aia} - -\begin{itemize} - \item \textbf{Fredrikson et al.~\cite{fredrikson2}} assumes that adv has access to $targetmodel(X(i))$. - For this attack it is required that $X$ can be written $X(i) = (\cdots,S(i),\cdots)$. - We will refer to this case as "\textit{S is in the input}". - Fredrikson et al. attack generates an input with different possible values of the sensitive attribute - It then chooses the most likely value based on $targetmodel(X(i))$. - - \item \noindent\textbf{Yeom et al.~\cite{yeom}} assumes a distribution $P_S$ over $S$ which is used to estimate the value of $S$ for an arbitrary data record. They propose three different variants of AS based on assumptions on $P_S$: Attack 1 leverages membership oracle to determine the value of $S(i)$ and Attack 2 and 3 assume different types of distributions over $S$. - For this attack to work, $S$ is in the input and the data points being attacked belong to the target dataset - - \item \textbf{Mehnaz et al.~\cite{MehnazAttInf}} improves upon Fredrikson et al.~\cite{fredrikson1,fredrikson2} by exploiting $targetmodel\circ X$ and $X$, with $S$ in the input. The attack relies on the intuition that $targetmodel$'s output confidence is higher when the input has the correct value of $S$ as $targetmodel$ encountered the target record with that attribute during training. Their attack involves generating multiple instances of input with different values of $S(i)$ (similar to Fredrikson et al.~\cite{fredrikson1,fredrikson2}) and identifying the most likely value of $S$. -\end{itemize} - -An appropriate baseline to identify whether such attacks are indeed a privacy risk is to use data imputation, i.e., train an ML model to infer value of missing attribute from other non-sensitive attributes without $targetmodel(X(i))$~\cite{jayaraman2022attribute}. Jayaraman and Evans~\cite{jayaraman2022attribute} find that existing blackbox imputation-based attacks~\cite{yeom,fredrikson2,MehnazAttInf} do not perform any better than data imputation. In other words, the perceived privacy risk is actually stemming from statistical inference and hence not an actual privacy risk. - -To address this, Jayaraman and Evans~\cite{jayaraman2022attribute} propose a whitebox aia which outperforms prior blackbox attacks as well as data imputation in the setting where there is limited knowledge of data for adv. However, since the attack is in a whitebox setting, we omit a detailed description of the attack. All these attacks require that: - -\begin{itemize} - \item $S$ is in the input data records which is not always the case in realistic settings, - \item $X(i)$ being attacked belong to the target dataset. -\end{itemize} - -\noindent\textbf{\underline{Representation-based attacks}} exploit the distinguishable intermediate layer outputs or predictions for different values of sensitive attributes~\cite{Song2020Overlearning,Mahajan2020DoesLS,malekzadeh2021honestbutcurious}. For instance, the distribution of $targetmodel\circ X$ for \textit{males} is different from the output prediction distribution for \textit{females}. We describe the existing attacks of this category below: - -\begin{itemize} -\item \textbf{Song et al.~\cite{Song2020Overlearning} / Mahajan et al.~\cite{Mahajan2020DoesLS}} assume that $S$ is not in the input. adv only observes $targetmodel\circ X$. adv trains an ML attack model $ackmodel$ to map the output predictions $targetmodel(X(i))$ to $S(i)$. -In other words, the statistic $\hat{S}$ used to infer $S$ is of the form: $ \hat{S} = 1_{[0.5,1]}\circ ackmodel\circ targetmodel\circ X$, where $attackmodel: [0,1]\rightarrow[0,1]$. - - -\item \textbf{Malekzadeh et al.~\cite{malekzadeh2021honestbutcurious}} considers the setting where adv trains $targetmodel$ with a special loss function to explicitly encode information about $S(i)$ in $targetmodel(X(i))$. -It makes it easier to extract the sensitive attribute during inference. In this setting, the model builder is malicious and actively introduces a ``backdoor''. -\end{itemize} - -Our work focuses on representation-based aia in a blackbox setting at inference time. We focus on Song et al.~\cite{Song2020Overlearning} and Mahajan et al.~\cite{Mahajan2020DoesLS} as our baselines. -These attacks do not account for class imbalance in sensitive attribute commonly present in data from real-world applications which could effect adv's attack success~\cite{classIMb1,classIMb2}. -In our evaluation, we consider an aia using an adaptive threshold which outperforms these baselines attacks (Section~\ref{sec:evalAIA}). -Malekzadeh et al.~\cite{malekzadeh2021honestbutcurious} has a different threat model where adv explicitly modifies the training to enhance the leakage of $S$. -We do not assume such access to $targetmodel$ in a blackbox setting. -In addition, these attacks did not take into consideration the possibility to infer the sensitive attribute solely from the hard labels. -We summarize relevant prior work in Table~\ref{tab:summary}. |