1 files changed, 111 insertions, 0 deletions
diff --git a/background/proba.tex b/background/proba.tex
new file mode 100644
index 0000000..1cfe29e
--- /dev/null
+++ b/background/proba.tex
@@ -0,0 +1,111 @@
+
+La théorie des probability est profondément liée à l'apprentissage automatique.
+Les propriétés de modèles comme la confidentialité différencielle, les définitions d'équitée, les métriques d'utilité, etc. que nous aborderons en Section~\ref{sec:background-ml} s'ecrivent en terme de probabilité.
+Ainsi nous présentons les notions de probabitlié et de théorie d la mesure que nous allons utiliser.
+A la manière de la Section~\ref{sec:background-set}, notre présentation à principalement le but de fixer les objets que nous utiliserons dans les prochaines sections et non pas d'être un cours complet. 
+Si le lecteur souhaite en apprendre plus sur la theorie de la mesur nous le renvoyons vers les notes de cours de Thierry Gallay de l'université Joseph Fourrier~\cite{mesure}.
+Si il souhait explorer plus en avant les probabilités il poura consulter les notes de cours de Jean-François Le Gall de l'Ecole Normale Supérieur de Paris~\cite{proba}.
+
+Soit $A$ un ensemble.
+Nous appelons une tribue que nous notons $\mathcal{A}$ un sous esemble de $\mathcal{P}(A)$ qui contien $\emptyset$ et $A$, qui est stable par complémentaire et qui est stable par union dénombrable d'elements de $\mathcal{A}$.
+Nous disons que $(A,\mathcal{A})$ est un espace mesurable.
+Soit maintenant $A\subset\mathcal{P}(A)$, nous appellons $\sigma(A)$ la plus petite tribue pour l'intersection qui contienne tous les élements de $A$.
+
+Nous appelons mesure, une fonction $d$ :$\mathcal{A}$ $\rightarrow$ $[0,+\infty]$ telle que $d(\emptyset) = 0$ et $d\left(\bigcup_{i\in \mathbb{N}} A_i\right) = \sum_{i\in \mathbb{N}}d(A_i)$ pour tout $(A_1, A_2, \cdots) \in \mathcal{A}^\mathbb{N} $ avec $\forall (i,j) A_i\cap A_j = \emptyset$.
+Nous disons alors que $(A, \mathcal{A}, d)$ est un espace mesuré.
+Pour un espace mesurable $(A,\mathcal{P}(A))$, la mesure de dirac est la mesure telle que pour $a\in A$ 
+\begin{equation*}
+    \delta_a : \left\{
+        \begin{matrix}
+        \mathcal{P}(A)\rightarrow \{0,1\}\\
+        B\mapsto\left\{
+            \begin{matrix}
+                1&\text{si}&a\in B\\
+                0&\text{sinon}&
+            \end{matrix}
+            \right.
+        \end{matrix}
+        \right.
+\end{equation*}
+
+Soit $(A, \mathcal{A}, d)$ et $(B, \mathcal{B}, e)$ deux espaces mesurés.
+Nous définissons alors 
+\begin{equation*}
+    \mathcal{A}\otimes\mathcal{B} = \sigma\left(
+    \left\{
+        a\times b \mid a\in\mathcal{A}\wedge b\in\mathcal{B}
+    \right\}\right)
+\end{equation*}
+et de plus la mesure produit de $d$ et $e$, que l'on note $d\otimes e$, est l'unique mesure telle que 
+\begin{equation*}
+    \forall a\in\mathcal{A}\forall b\in\mathcal{B}~d\otimes e(a\times b) = d(a)\cdot e(b)
+\end{equation*}
+Alors l'espace $(A\times B,\mathcal{A}\otimes\mathcal{B},d\otimes e)$ est un espace mesuré.
+
+Nous appelons fonction mesurable, une fonction de $A$ à $B$ telle que  $\forall b\in\mathcal{B}$~$f^{-1}(b)\in\mathcal{A}$.
+Nous notons alors $f:(A, \mathcal{A})\rightarrow (B, \mathcal{B})$ ou $f:(A, \mathcal{A},d)\rightarrow (B, \mathcal{B})$
+Nous definisson la mesure image de $f$ par $d$, que nous notons $d_f$, par l'expression suivante : 
+\begin{equation}
+    d_f:
+    \left\{
+        \begin{matrix}
+            \mathcal{B}\rightarrow [0,+\infty]\\
+            b\mapsto d\left(f^{-1}(b)\right)
+
+        \end{matrix}
+    \right.
+\end{equation}
+
+\begin{definition}{Intégrale}
+    Soient $(E,\mathcal{E},\mu)$ et $(F,\mathcal{F},\nu)$ un espace mesuré.
+    Pour une fonction $f=\sum_{i\in I}\alpha_i 1_{A_i}$, nous dirons étagé, 
+    Avec $\{A_i\mid i\in I\} \subset \mathcal{F}$.
+    Alors $\int_E f d\nu= \sum_{i\in I}\alpha_i \nu(A_i)$.
+
+    Soit $g$ un fonction mesurable.
+    Alors il existe une suite $\{(f_n)\}_{n\in\mathbb{N}}$ de fonctions étagés telle que $lim_{n\rightarrow +\infty} f_n = g$.
+    Voir la Définition~\ref{def:background-dif-lim} pour une définition de la limite.
+    On définit alors 
+    \begin{equation*}
+        \int_{E}gd\nu = lim_{n\rightarrow +\infty}\int_{E}f_n d\nu
+    \end{equation*}
+\end{definition}
+
+Dans le cas particulier où $d(A) = 1$, nous appelons $d$ une mesure de probabilité.
+ $(A,\mathcal{A},d)$ est alors un espace probailisé et les fonctions mesurables sur cet espace sont appelés variables aléatoires.
+Le loi de probabilité d'une variable aléatoire $f$ sur $(X,\mathcal{X})$ est la mesure image de $f$ sur $d$.
+Nous dirons que deux variables aléatoire $f$ et $g$ sont indépendantes si et seulement si la loi de la variables aléatoire $h:\omega\mapsto (f(\omega),g(\omega))$ est la mesur produit de la loi de $f$ et $g$.
+
+De plus, dans le cas des variables aléatoires, il est courant de d'écrir $\{f\in A\}$ pour $f^{-1}(A)$ et $\{f=a\}$ pour $f^{-1}(\{a\})$.
+
+\begin{definition}{Esperence}
+    Pour une variable aléatoire $X$, on définit l'espérence de $X$ par la formule suivante.
+    \begin{equation*}
+        E(X) = \int_{\Omega}X(\omega)dP(\omega)
+    \end{equation*}
+\end{definition}
+
+
+%Having introduced probability theory, we explicit the relation with the ML theory described previously.
+%Let $I$ a finite set, $\mathcal{X}$, $\mathcal{S}$ and $\mathcal{Y}$ the sets of features, sensitive attribute and label.
+%Let $d:I\rightarrow \mathcal{X}\times\mathcal{S}\times\mathcal{Y}$ a dataset.
+%Let $\#$ be the measure on $(I,\mathcal{P}(I))$ which maps to every $a$ in $\mathcal{P}(I)$ the number of elements of $a$.
+%Let $P:\mathcal{P}(I)\rightarrow [0,1]$, $a\mapsto \frac{\#(a)}{\#(I)}$.
+%Then $(I, \mathcal{P}(I), P)$ is a probability space.
+%On this space we can define the following random variables:
+%\begin{itemize}
+%    \item $X:I\rightarrow \mathcal{X},~i\mapsto (d(i))_0$
+%    \item $S:I\rightarrow \mathcal{S},~i\mapsto (d(i))_1$
+%    \item $Y:I\rightarrow \mathcal{Y},~i\mapsto (d(i))_2$
+%\end{itemize}
+%MWhere for a vector $u$, $u_j$ refers to the $j$th element of $u$.
+
+%From there we can define various random variables that will be useful in the rest of the paper.
+%For instance $\hat{Y}=f\circ X$ is random variable that represents the prediction of a trained machine learning model $f$. 
+%We can use it to write the accuracy in a compact way: $P(\hat{Y}=Y)$ by using the well accepted abuse of notations that for a random variable $A$ and an event $a$, 
+%$\{A\in a\} = \{i\in\mathcal{P}(I)~|~A(i)\in a\} = A^{-1}(a)$.
+%The accuracy is a reliable metric of a trained model's utility when $P(Y=0) = P(Y=1) = \frac{1}{2}$ but not so much when there is unbalance in $Y$. 
+%To take into account an eventual unbalanced distribution of the labels, we will consider the balanced accuracy : 
+%$\frac{P(\hat{Y}=0|Y=0) + P(\hat{Y}=1|Y=1)}{2}$.
+%
+%Finally in the context of attribute inference attack at inference time, we define the random variable $\hat{S}=a\circ \hat{Y}$ where here $a$ is a machine learning model trained to infer sensitive attribute from model's output.