diff options
author | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-08-29 10:58:32 +0200 |
---|---|---|
committer | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-08-29 10:58:32 +0200 |
commit | dc5a898dc39326fa3f733f3d9e006bbe3d1f8e4c (patch) | |
tree | 83276ace4e01ebe8a13449282140f2f6260adbc1 | |
parent | 57715cacec8d0f0d3d1436a26f92ae5c0f0e128e (diff) |
Fin ensemble et fonctions, debut ML et Mesure/Proba
-rw-r--r-- | background/main.tex | 14 | ||||
-rw-r--r-- | background/ml.tex | 20 | ||||
-rw-r--r-- | background/proba.tex | 18 | ||||
-rw-r--r-- | background/set.tex | 176 | ||||
-rw-r--r-- | biblio.bib | 20 | ||||
-rw-r--r-- | main.pdf | bin | 4983553 -> 570192 bytes | |||
-rw-r--r-- | main.tex | 4 |
7 files changed, 224 insertions, 28 deletions
diff --git a/background/main.tex b/background/main.tex index 93ee12b..9a9f287 100644 --- a/background/main.tex +++ b/background/main.tex @@ -17,6 +17,7 @@ a & b & a\iff b & a\implies b & a\wedge b & a\vee b & \neg a\\ \end{matrix} \end{equation} \subsection{Ensembles et fonctions} +\label{sec:background-set} \input{background/set} \subsection{Algèbre linéaire} @@ -51,18 +52,7 @@ a & b & a\iff b & a\implies b & a\wedge b & a\vee b & \neg a\\ \section{Apprentissage automatique} \label{sec:background-ml} - \subsection{Principe} - \subsection{Entraîner un modèle} - \subsubsection{Fonction de coût} - \subsection{Evaluer un modèle} - \subsubsection{Classification} - \paragraph{La courbe ROC} - \paragraph{La courbe de precision/recall} - \subsubsection{Regression} - \subsection{Décentralisation} - \subsubsection{Federated learning} - \subsection{Modèles génératifs} - \label{sec:background-generation} + \input{background/ml} \section{Equité} \label{sec:background-eq} diff --git a/background/ml.tex b/background/ml.tex new file mode 100644 index 0000000..2482b40 --- /dev/null +++ b/background/ml.tex @@ -0,0 +1,20 @@ +\subsection{Principe} +\subsection{Entraîner un modèle} + \subsubsection{Fonction de coût} +\subsection{Evaluer un modèle} + Nous appelerons ici évaluation d'un modèle le calcule des metriques qui permettent de juger de son utilité. + Ces métrique varient en fonction du type de modèle et du contexte dans lequel il est utilisé. + Par exemple il est souhaitable qu'un modèle qui permette de prédir l'absence ou la présence d'une maladie ai un faible taux de faux négatifs. + Cela permet d'éviter de penser à tords qu'une patient n'est pas malade ce qui pourrai entraîner un retard dans sa prise en charge. + \subsubsection{Classification} + Les modèles de classification visent à attribuer à chaque point des données ébalué une classe parmis un ensemble fini. + Par exemple, dans le cadre de la justice prédictive, inférer pour chaque coupable si il sera recidivise ou non~\cite{zhiyuan2020limits}. + Quand il y a deux classes, comme dans l'exemple précédent avec \emph{récidivisite} ou \emph{non-récidiviste}, nous dirons que le modèle effectue un classification binaire. + Ce cas est très présent en apprentissage automatique~\cite{} ainsi il existe beaucoup d'outil qui permette d'evaluer ce genre de classifieur. + \paragraph{La courbe ROC} + \paragraph{La courbe de precision/recall} + \subsubsection{Regression} +\subsection{Décentralisation} + \subsubsection{Federated learning} +\subsection{Modèles génératifs} +\label{sec:background-generation} diff --git a/background/proba.tex b/background/proba.tex index bea43e7..6050ef7 100644 --- a/background/proba.tex +++ b/background/proba.tex @@ -1,15 +1,19 @@ -Probability theory is deeply linked with machine learning and most of the properties of machine learning, such as differential privacy, fairness definitions, utility metrics... are often mathematically written within this framework. -This paper does not differ and hence we provide a short background of this field and how it connects with the previously defined notions of ML introduced in section \ref{sec:ml}. +La théorie des probability est profondément liée au machine learning. +Les propriétés de modèles comme la confidentialité différencielle, les définitions d'équitée, les métriques d'utilité, etc. que nous aborderons en Section~\ref{sec:background-ml} s'ecrivent en terme de probabilité. +Ainsi nous présentons les notions de probabitlié et de théorie d la mesure que nous allons utiliser. +A la manière de la Section~\ref{sec:background-set}, notre présentation à principalement le but de fixer les objets que nous utiliserons dans les prochaines sections et nous pas d'être un cours complet. +Si le lecteur souhaite en apprendre plus sur la theorie de la mesur nous le renvoyons vers les notes de cours de Thierry Gallay de l'université Joseph Fourrier~\cite{mesure}. +Si il souhait explorer plus en avant les probabilités il poura consulter les notes de cour de Jean-François Le Gall de l'Ecole Normale Supérieur de Paris~\cite{proba}. Soit $A$ un ensemble. -L'ensemble des parties de $A$ est $\mathcal{P}(A)$. -Chaque élément $a \in \mathcal{P}(A)$ est tel que $a \subset A$. -Une tribue $\mathcal{A}$ est un sous esemble de $\mathcal{P}(A)$ qui contien $\emptyset$, $A$ par complémentaire est union dénombrable. +Nous appelons une tribue que nous notons $\mathcal{A}$ un sous esemble de $\mathcal{P}(A)$ qui contien $\emptyset$ et $A$, qui est stable par complémentaire et qui est stable par union d'un nombre dénombrable d'elements de $\mathcal{A}$. Nous disons que $(A,\mathcal{A})$ est un espace mesurable. -Une mesure $d$ est une fonction $d$:$\mathcal{A}$ $\rightarrow$ $[0,+\infty]$ telle que $d(\emptyset) = 0$ et $d\left(\bigcup_{i\in \mathbb{N}} A_i\right) = \sum_{i\in \mathbb{N}}d(A_i)$ pour chaque $(A_1, A_2, \cdots) \in \mathcal{A}^\mathbb{N} $ avec $\forall (i,j) A_i\cap A_j = \emptyset$. + +Nous appelons mesure, une fonction $d$ :$\mathcal{A}$ $\rightarrow$ $[0,+\infty]$ telle que $d(\emptyset) = 0$ et $d\left(\bigcup_{i\in \mathbb{N}} A_i\right) = \sum_{i\in \mathbb{N}}d(A_i)$ pour tout $(A_1, A_2, \cdots) \in \mathcal{A}^\mathbb{N} $ avec $\forall (i,j) A_i\cap A_j = \emptyset$. Nous disons alors que $(A, \mathcal{A}, d)$ est un espace mesuré. -Nous appelons fonction mesurable un fonction de $A$ à $B$ telle que $\forall b\in\mathcal{B}$~$f^{-1}(b)\in\mathcal{A}$. + +Nous appelons fonction mesurable, une fonction de $A$ à $B$ telle que $\forall b\in\mathcal{B}$~$f^{-1}(b)\in\mathcal{A}$. Nous notons alors $f:(A, \mathcal{A})\rightarrow (B, \mathcal{B})$ ou $f:(A, \mathcal{A},d)\rightarrow (B, \mathcal{B})$ Dans le cas particulier où $d(A) = 1$, nous appelons $d$ une mesure de probabilité. diff --git a/background/set.tex b/background/set.tex index c058648..2e660f6 100644 --- a/background/set.tex +++ b/background/set.tex @@ -42,11 +42,58 @@ Pour tout ensemble $A$ il existe un ensemble $\mathcal{P}(A)$ qui est l'ensemble Pour toute formule $F$ (au sens du clacul des prédicats et du vocabulaire $\in$, $=$) qui ne pédend pas de $B$ et tout ensemble A, il existe un ensemble $B = \{a\in A | F\}$ qui est tel que $\forall b\in B (b\in A \wedge F)$ -\paragraph{Axiome du choix} -\begin{definition}[Fonction] -qsdf +\begin{definition}[Fonctions] + + \textbf{2-uplet.} + Nous définissons pour tout ensemble $A$ et $B$ le \emph{2-uplet} $(A,B)$ par $\{\{A\},\{A,B\}\}$. + + \textbf{Relation.} + Nous appelons \emph{relation} un ensemble de 2-uplets. + L'\emph{ensemble de définision} d'une relation $R$ est + $\mathcal{D}_R = \{x~|~\exists y~(x,y)\in R\}$. + L'\emph{image} d'une relation est $Img(R) = \{y~|~\exists x~(x,y)\in R\}$. + Une relation symmetrique ($\forall x\forall y~(x,y)\in R \iff (y,x)\in R$), + reflexive ($\forall x~(x,x)\in R$) et + transitive ($\forall x\forall y\forall z~(x,y)\in R\wedge (y,z)\in R\implies (x,z)\in R $) + est appelé une \emph{relation d'équivalance}. + Pour tout $a$, nous notons $[a]_R = \{b~|~(a,b)\in R\}$ la \emph{classes d'équivalance} de $a$. + Nous notons $A/R$ l'ensemble des classes d'équivlance d'une relation $R$ sur un ensemble $A$. + + \textbf{Fonction.} + Une \emph{fonction} $f$ est un relation telle que + \begin{equation} + \forall x\in D_f\left((x,y)\in f\wedge (x,z)\in f\implies y=z\right) + \end{equation} + Pour tout ensemble $E$ et $F$ tels que $D_f\subset E$ et $Img(f)\subset F$ nous notons + \begin{equation} + f: + \left\{ + \begin{matrix} + E\rightarrow F\\ + x\mapsto f(x) + \end{matrix} + \right. + \end{equation} + Où la notation $x\mapsto f(x)$ signifie que $(x,f(x))\in f$. + + \textbf{Produit cartésien.} + Soit $A$ un ensemble $f$ une fonctions + \begin{equation} + \bigtimes_{a\in A}f(a) = + \left\{ + g~|~D_g=A\wedge (\forall a\in A~g(i)\in f(i)) + \right\} + \end{equation} + \end{definition} +\paragraph{Axiome du choix} +Cette axiome nous assure qui si tous les termers du produit cartérise sons non-vides alors le produits cartésien est non-vide. +\begin{equation} + \forall a\in A f(a)\neq\emptyset \implies + \bigtimes_{a\in A}f(a) \neq\emptyset +\end{equation} + \paragraph{Axiome de l'infini} \begin{equation} \exists A\forall a\in A~(\emptyset \in A \wedge a^+\in A) @@ -55,6 +102,8 @@ Où $a^+ = a\cup \{a\}$. Nous appelons un tel $A$, un ensemble récursif. \begin{definition}[Ensemble usuels] + + \textbf{Entiers.} Soit $C$ la classe des ensembles récursif. Soit $A$ un ensemble récursif. Nous appelons $\mathbb{N}$ l'ensemble des entier naturels que nous définissons comme suit : @@ -62,16 +111,129 @@ Nous appelons $\mathbb{N}$ l'ensemble des entier naturels que nous définissons \mathbb{N} = \{n\in A~|~\forall c\in C~n\in c\} \end{equation} $\mathbb{N}$ est bien en ensemble d'après l'axiome Aussonderung. -Cette construction permet de définir les opérations d'addition et de multiplication~\cite{enderton1977elements} ainsi que les autres ensembles usuels qui nous utiliserons dans ce manuscrit. -Ainsi nous définisson $\mathbb{Z} = \{$ : l'ensemble des entiers relatifs l'union de $\mathbb{N}$ et de $-\mathbb{N} = \{$ + Cette construction permet de définir les opérations d'addition ($+$) et de multiplication ($\cdot$)~\cite{enderton1977elements}. -\end{definition} +\textbf{Entiers relatifs.} +La relation +\begin{equation} + R = + \left\{ + ((a,b),(c,d))\in{\mathbb{N}^2}^2~|~ + a+d = b+c + \right\} +\end{equation} +est une relation d'équivalance sur $\mathbb{N}^2$. + Nous définissons alors l'ensemble des \emph{entiers relatifs} $\mathbb{Z}=\mathbb{N}^2/R$. -\paragraph{Axiome de remplacement} +\textbf{Nombres rationels.} +La relation +\begin{equation} + S = + \left\{ + ((a,b),(c,d))\in{\left(\mathbb{Z}\times\mathbb{Z}^*\right)}^2~|~ + a\cdot d = b\cdot c + \right\} +\end{equation} + est une relation d'équivalance sur $\mathbb{Z}\times\mathbb{Z}^*$. + Nous définissons alors l'ensemble des \emph{Nombres rationels} $\mathbb{Q}=\left(\mathbb{Z}\times\mathbb{Z}^*\right)/S$. + +\textbf{Nombres réels} + \begin{definition}[Suite de Cauchy] + Une \emph{suite} $u$ sur un ensemble de $A$ est une fonction de $\mathbb{N}$ dans $A$. On note $u(n) = u_n$ pour tout $n\in\mathbb{N}$. + + Une \emph{suite de Cauchy} $u$ sur $\mathbb{Q}$ est elle que + \begin{equation} + \forall \varepsilon\in\mathbb{Q}~ + \exists N\in\mathbb{N}~ + \forall (a,b) \in \mathbb{N}^2~ + a\geq N\wedge b\geq N \implies + |u_a-u_b|\leq\varepsilon + \end{equation} + + Soit $C$ l'ensemble des suite de Cauchy sur $\mathbb{Q}$. + \end{definition} + +La relation +\begin{equation} + T = + \left\{ + (u,v)\in C^2~|~ + \forall\varepsilon~ + \exists N\in\mathbb{N}~ + \forall (a,b)\in\mathbb{N}^2~ + a\geq N\wedge b\geq N \implies + |u_a-v_b|\leq\varepsilon + \right\} +\end{equation} + est une relation d'équivalance sur $C^2$. + Nous définissons alors l'ensemble des \emph{Nombres réels} $\mathbb{R}=C/T$. + +\end{definition} \paragraph{Axiome de régularitée} +Tout ensemble non-vide a un élément disjoint de cet ensemble. +\paragraph{Axiome de remplacement} +Soit $F(a,b)$ un formule qui ne dépend pas de $B$. +\begin{equation} + \forall A\forall y\forall z + \left( + \forall (x\in A~F(x,y)\wedge F(x,z)\implies x=z)\implies + (\exists B~B=\{y~|~\exists x\in A~F(x,y)\}) + \right) +\end{equation} +\subsubsection{Arithmétique} +Avec un niveau d'abstraction supplémentaire, nous considérons désormais que $\mathbb{N}\subset\mathbb{Z}\subset\mathbb{Q}\subset\mathbb{R}$. +Cela est possible grace aux injéctions canoniques suivantes : +\begin{equation} + \left\{ + \begin{matrix} + \mathbb{N}\rightarrow\mathbb{Z}\\ + n\mapsto (n,0) + \end{matrix} + \right. +\end{equation} +\begin{equation} + \left\{ + \begin{matrix} + \mathbb{Z}\rightarrow\mathbb{Q}\\ + (a,b)\mapsto ((a,b),(1,1)) + \end{matrix} + \right. +\end{equation} +\begin{equation} + \left\{ + \begin{matrix} + \mathbb{Q}\rightarrow\mathbb{R}\\ + (a,b)\mapsto + \left[ + \left\{ + \begin{matrix} + \mathbb{N}\rightarrow \mathbb{Q}\\ + n\mapsto (a,b) + \end{matrix} + \right. + \right]_T + \end{matrix} + \right. +\end{equation} +Nous identifions aussi $\mathbb{R}$ aux réprésentation en base 10 de ses éléments. +Et nous utiliserons les opérations usuelles $+$, $\cdot$, $-$ et $/$ ainsi que la relation d'ordre $<$ sur ces représentation. +En générale il est possible de construire ces opérations sans utiliser la représentation en base 10~\cite{enderton1977elements} mais une telle construction est hors de propos pour ce manuscrit. + +\subsubsection{Cardinal} +La notion de cardinal cherche à comparer la taille d'ensembles arbitraires. +Nous n'allons pas ici considérer la théorie de ordinaux de Van Neumann qui compléte notre simplification. +Le lecteur souhaitant aller plus loin et apprendre cette théorie peut se référer aux chapitres 6,7,8 et 9 de \textit{Elements of set thoery} de Herbert B. Enderton~\cite{enderton1977elements}. +Notre simplification est ce suffit à elle même pour les dévelopement qui nous allons présenter dans ce manuscrit. + +Nous dirons donc que tout ensemble $A$ à un cardinal que nous noterons $\#A$. +Si $A$ est en bijection avec $n\in\mathbb{N}$ alors $\#A = n$. +Nous dirons alors que $A$ est un ensemble fini. +Dans le cas contraite nous dirons que $A$ est infini. +Si $A$ est en bijection avec un sous ensemble de $\mathbb{N}$ nous dirons que $A$ est dénombrable et que sons cardinal est $\#A = \aleph_0$. +Enfin nous dirons que deux ensemble arbitraires ont le même cardinal si et seulement si ils sont en bijection. @@ -18,6 +18,26 @@ publisher={Academic press} } +#Mesure +@misc{mesure, + howpublished={\url{https://www-fourier.ujf-grenoble.fr/~edumas/integration.pdf}}, + title={Théorie de la mesure et de l’intégration}, + author={Gallay, Thierry}, + note={Dernier accès: 2024-08-29} +} + +@misc{proba, + title={\url{Intégration, Probabilitées et Processus Aléatoires}}, + howpublished={\url{https://www.imo.universite-paris-saclay.fr/~jean-francois.le-gall/IPPA2.pdf}}, + author={Le Gall, Jean-François}, + note={Dernier accès: 2024-08-29} +} + +#Machine learning + + + + ############################################"" Binary files differ@@ -2,7 +2,7 @@ \usepackage[french]{babel} \usepackage{placeins} -\usepackage{graphicx} +\usepackage[draft]{graphicx} \usepackage{amsmath} \usepackage{amsthm} \usepackage{amsfonts} @@ -16,7 +16,7 @@ \usepackage{hyperref} \usepackage{listings} \usepackage{multirow} - +\usepackage{mathabx} \lstset{ basicstyle=\small\ttfamily, columns=flexible, |