summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorJan Aalmoes <jan.aalmoes@inria.fr>2024-09-26 16:24:21 +0200
committerJan Aalmoes <jan.aalmoes@inria.fr>2024-09-26 16:24:21 +0200
commitf6ace7aef0747c0e47164c57d8e763d336cb7fe7 (patch)
treee839d88363d209c328f99650422fe4d2be5d84fe
parentb984c5fec6a078af385a57ac63066172a5c30bd8 (diff)
Jan check du classification fini
-rw-r--r--classification_finie/ba.tex76
-rw-r--r--classification_finie/finit_classif.tex102
-rw-r--r--classification_finie/introduction.tex9
-rw-r--r--classification_finie/tabular.tex68
4 files changed, 141 insertions, 114 deletions
diff --git a/classification_finie/ba.tex b/classification_finie/ba.tex
index ff0dacd..a9fcb78 100644
--- a/classification_finie/ba.tex
+++ b/classification_finie/ba.tex
@@ -1,17 +1,17 @@
-Le cas d'un classifieur constant, comme nous l'avons à la Section~\ref{sec:backgroung-ml-classif}, n'est qu'un exemple de Classifieur qui réalise un Choix Aléatoire (CCA).
-En anglais la litterature parle en générale de \textit{random guess}~\cite{chicco2021matthews}.
-Cependant, à notre conaissance, il n'y a pas de definition mathématique qui unifie l'idée générale de CCA qui est :
-un classifieur qui se comporte comme si il n'avait aucune conaissance sur sa tâche de classification.
-Un CCA n'est pas un classifieur qui utilise l'aléatoire mais plutot un classifieur hasardeux, comme une personne qui choisirai au hasard.
+Le cas d'un classifieur constant, comme nous l'avons à la Section~\ref{sec:background-ml-classif}, n'est qu'un exemple de Classifieur qui réalise un Choix Aléatoire (CCA).
+En anglais la littérature parle en générale de \textit{random guess}~\cite{chicco2021matthews}.
+Cependant, à notre connaissance, il n'y a pas de définition mathématique qui unifie l'idée générale de CCA qui est :
+un classifieur qui se comporte comme si il n'avait aucune connaissance sur sa tâche de classification.
+Un CCA n'est pas un classifieur qui utilise l'aléatoire mais plutôt un classifieur hasardeux, comme une personne qui choisirai au hasard.
C'est le cas pour un classifieur constant mais aussi pour un classifieur binaire qui tire à pile ou face son résultat.
Nous pourrions dire qu'un CCA est un classifieur qui n'utilise pas les données d'entrée.
Cependant cela ne prend pas un compte le cas où les données d'entrée ne servent à rien pour la tâche de classification.
-Par exemple nous voudrions que notre définition englobe n'importe quelle classifieur qui cherche à prédire la qualitée d'un potimaron à partir la coleur de mes chaussettes le jour pù il a été ramassé.
+Par exemple nous voudrions que notre définition englobe n'importe quelle classifieur qui cherche à prédire la qualité d'un potimarron à partir la couleur de mes chaussettes le jour pu il a été ramassé.
Nous proposons donc la définition suivante :
\begin{definition}
Un CCA est un classifieur ayant une prédiction indépendante de l'étiquette.
- C'est à dire que pour un classifeur $f: E\rightarrow F$.
+ C'est à dire que pour un classifieur $f: E\rightarrow F$.
Avec une étiquette $Y:\Omega\rightarrow F$
et une entrée $X:\Omega\rightarrow E$.
Alors pour $\hat{Y}=f\circ X$, nous avons
@@ -21,7 +21,7 @@ Nous proposons donc la définition suivante :
\label{lemme:aia-xycca}
Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé.
Soient $X:(\Omega,\mathcal{T}) \rightarrow (E,\mathcal{E})$ et $Y:\Omega \rightarrow (F,\mathcal{F})$ des variables aléatoires.
- Les deux propositions suivantes sont équivalantes :
+ Les deux propositions suivantes sont équivalentes :
\begin{enumerate}
\item $P_{(X,Y)} = P_X\otimes P_Y$.
\item Toute fonction mesurable $f:(E,\mathcal{T})\rightarrow (F,\mathcal{F})$ est un CCA pour prédire $Y$ à partir de $X$.
@@ -32,7 +32,7 @@ Nous proposons donc la définition suivante :
Nous allons prouver séparément les deux implications.
\paragraph{$(1)\implies(2)$}
Nous supposons que $P_{(X,Y)} = P_X\otimes P_Y$.
- Soit $f:(E,\mathcal{T})\rightarrow (F,\mathcal{F})$, un fonction mesurerable,
+ Soit $f:(E,\mathcal{T})\rightarrow (F,\mathcal{F})$, un fonction mesurable,
nous allons montrer que $f$ est un CCA, c'est-à dire que $P_{(f\circ X,Y)} = P_{f\circ X}\otimes P_Y$.
Soient $(A,B)\in\mathcal{E}\times\mathcal{F}$
@@ -93,13 +93,13 @@ Nous proposons donc la définition suivante :
\begin{propriete}
\label{prop:CCA_BA}
- Les CCA ayant comme image $ F$ ont une \textit{balanced accuracy} égale à $\frac{1}{\# F}$.
+ Les CCA ayant comme image $ F$ ont une exactitude équilibré égale à $\frac{1}{\# F}$.
\end{propriete}
\begin{proof}
Soit $f: E\rightarrow F$ un CCA.
On pause $\hat{Y} = f\circ X$
- La \textit{balanced accuracy} de $f$ est alors
+ L'exactitude équilibré de $f$ est alors
\begin{align*}
&\frac{1}{\# F}\sum_{y\in F}
P(\hat{Y}=y\mid Y=y)\\
@@ -116,10 +116,10 @@ Nous proposons donc la définition suivante :
\end{align*}
\end{proof}
-La contraposé de la Propositon~\ref{prop:CCA_BA} nous apprend que si la \textit{balanced accuracy} est différente de $0,5$ alors le classifieur n'est pas un CCA.
+La contraposé de la Proposition~\ref{prop:CCA_BA} nous apprend que si l'exactitude équilibré est différente de $0,5$ alors le classifieur n'est pas un CCA.
- Il est interessant de noter que si un classifieur à une \textit{balanced accuracy} de $\frac{1}{\#F}$ il n'est pas necessaire qu'il soit un CCA.
- Pour prouver cette remarque il suffit de trouver un exemple de classifieur ayant une \textit{balanced accuracy} de $\frac{1}{\#F}$ et qui ne soit pas un CCA.
+ Il est intéressant de noter que si un classifieur à une exactitude équilibré de $\frac{1}{\#F}$ il n'est pas nécessaire qu'il soit un CCA.
+ Pour prouver cette remarque il suffit de trouver un exemple de classifieur ayant une exactitude équilibré de $\frac{1}{\#F}$ et qui ne soit pas un CCA.
Nous appelons $r(a,b)$ le reste de la division euclidienne de $a$ par $b$.
Soient les ensembles suivant :
@@ -155,8 +155,8 @@ Ainsi que la fonction mesurable suivante qui est l'exemple de classifieur que no
\right.
\end{equation*}
-Montrons que la \textit{balanced accuracy} de $f$ vaut $\frac{1}{3}$.
-En notant $\hat{Y} = f\circ X$, nous réprésentons cette situation par le tableau suivant.
+Montrons que l'exactitude équilibré de $f$ vaut $\frac{1}{3}$.
+En notant $\hat{Y} = f\circ X$, nous représentons cette situation par le tableau suivant.
\begin{equation*}
\begin{matrix}
X&Y&\hat{Y}\\
@@ -173,14 +173,14 @@ En notant $\hat{Y} = f\circ X$, nous réprésentons cette situation par le table
\end{equation*}
Il nous permet de calculer facilement les quantités suivantes.
-Déjà la \textit{balanced accuracy} est égale à $\frac{1}{3}$ car
+Déjà l'exactitude équilibré est égale à $\frac{1}{3}$ car
$\forall y\in F~P(\hat{Y}=y\mid Y=y)=\frac{1}{3}$.
Enfin nous voyons que $f$ n'est pas un CCA car
$P(\hat{Y}=1\cap Y=2) = 0$ et
$P(\hat{Y}=1)P(Y=2) = \frac{2}{9}\frac{1}{3} = \frac{2}{27}$.
Remarquons que le réciproque de la Propriété~\ref{prop:CCA_BA} est vrai dans le cas d'une classifieur binaire, c'est-à dire $\#F=2$.
-En effet dans ce cas, supposons que la \textit{balanced accuracy} vale $0,5$, alors
+En effet dans ce cas, supposons que l'exactitude équilibré vaille $0,5$, alors
\begin{align*}
&P(f\circ X=0\mid Y=0)+P(f\circ X=1\mid Y=1) = 1\\
\implies&\left\{
@@ -193,12 +193,12 @@ En effet dans ce cas, supposons que la \textit{balanced accuracy} vale $0,5$, al
\implies&\text{$f$ est un CCA}
\end{align*}
-Bien qu'une \textit{balanced accuracy} égale à $\frac{1}{\#F}$ ne soit pas un critère de CCA, nous pouvons utiliser cette métrique pour savoir si il existe un classifieur qui soit un CCA.
-En effet nous avons le resultat suivant :
+Bien qu'une exactitude équilibré égale à $\frac{1}{\#F}$ ne soit pas un critère de CCA, nous pouvons utiliser cette métrique pour savoir si il existe un classifieur qui soit un CCA.
+En effet nous avons le résultat suivant :
\begin{theorem}
\label{th:fini-bacca}
- En notant $BA(f)$ la \textit{balanced accuracy} de $f$.
+ En notant $BA(f)$ l'exactitude équilibré de $f$.
\begin{equation*}
\forall f~BA(f)=\frac{1}{\#F} \iff
\forall f~\text{$f$ est un CCA}
@@ -238,7 +238,7 @@ En effet nous avons le resultat suivant :
P(f\circ X=a\cap Y=b)\neq P(f\circ X=a)P(Y=b)
\end{equation*}
- Nous définisson les fonctions suivante pour tout $z$ et $z'$, éléments de $F$ :
+ Nous définissons les fonctions suivante pour tout $z$ et $z'$, éléments de $F$ :
\begin{equation*}
h_{z,z'}:\left\{
\begin{matrix}
@@ -254,18 +254,18 @@ En effet nous avons le resultat suivant :
\right.
\end{equation*}
- $h_{z,z'}$ vas nous permetre et permuter les inférences faitent par $f$.
+ $h_{z,z'}$ vas nous permettre et permuter les inférences faites par $f$.
Ainsi à partir de $f$ nous créons de nouveaux classifieurs.
- Soit $\mathcal{H}=\{h_{z,z'}\mid (z,z')\in F^2\}$ nous allons montrer qu'il existe $\#F$-uplet de $\mathcal{H}$, $u$, tel que le classifieur $u_{\#F-1}\circ\cdots\circ u_0\circ f$ ai une \textit{balanced accuracy} différent de $\frac{1}{\#F}$.
+ Soit $\mathcal{H}=\{h_{z,z'}\mid (z,z')\in F^2\}$ nous allons montrer qu'il existe $\#F$-uplet de $\mathcal{H}$, $u$, tel que le classifieur $u_{\#F-1}\circ\cdots\circ u_0\circ f$ ai une exactitude équilibré différent de $\frac{1}{\#F}$.
Considérons la matrice
\begin{equation*}
M_f(i,j) = P(f\circ X=y_i\mid Y=y_j)
\end{equation*}
Où $y_\square:\#F\rightarrow F$ est une bijection.
- Alors la \textit{balanced accuracy} de $f$ est égale $\frac{\text{Tr}(M)}{\#F}$.
- $h_{z,z'}$ peut aussi s'exprimer en terme matriciel.
- La fonction suivainte est une bijection :
+ Alors l'exactitude équilibré de $f$ est égale $\frac{\text{Tr}(M)}{\#F}$.
+ $h_{z,z'}$ peut aussi s'exprimer en terme matricielle.
+ La fonction suivante est une bijection :
\begin{equation*}
\Phi:\left\{
\begin{matrix}
@@ -304,7 +304,7 @@ En effet nous avons le resultat suivant :
\end{matrix}
\end{equation*}
- De plus, $M_{h_{y_i,y_j}\circ f}$ correspond à intervertire les lignes des $M_f$,
+ De plus, $M_{h_{y_i,y_j}\circ f}$ correspond à intervertie les lignes des $M_f$,
c'est-à dire que $M_{h_{y_i,y_j}\circ f} = H_{i,j}M_f$.
En effet, $h_{y_i,y_j}$ est une bijection telle que
$h_{y_i,y_j}^{-1} = h_{y_i,y_j}$.
@@ -330,10 +330,10 @@ En effet nous avons le resultat suivant :
&=H_{i,j}M_f(k,l)
\end{align*}
-Ainsi l'existence de $u$ est équivalante à l'existance d'une matrice $H = H_{i_{\#F-1},j_{\#F-1}}\cdots H_{i_0,j_0}$ telle que $\text{Tr}(HM_f)\neq 1$.
+Ainsi l'existence de $u$ est équivalente à l'existence d'une matrice $H = H_{i_{\#F-1},j_{\#F-1}}\cdots H_{i_0,j_0}$ telle que $\text{Tr}(HM_f)\neq 1$.
Montrons l'existence d'une telle matrice $H$.
-Commencons par montrer que pour chaque ligne de $M_f$ il est possible de choisir arbitrairement l'élement de la ligne qui sera dans la diagonale de $HM_f$ tant qu'on ne choisit pas deux fois un élément dans une même colone.
+Commençons par montrer que pour chaque ligne de $M_f$ il est possible de choisir arbitrairement l'élément de la ligne qui sera dans la diagonale de $HM_f$ tant qu'on ne choisit pas deux fois un élément dans une même colonne.
C'est-à dire montrons que
\begin{align*}
\{\{M(i,\varphi(i))\mid i\in\#F\}\mid \text{$\varphi$ est une bijection sur $\#F$}\}\\
@@ -366,7 +366,7 @@ Pour montrer l'inclusion précédente, il suffit alors de montrer que
Montrons donc que
$\forall i\in\#F~M_f(i,\varphi(i))=HM_f(\varphi(i),\varphi(i))$.
Soit $i\in\#F$.
-$H$ intervertis les lignes de $M_f$, la colone $\varphi(i)$ est à la même place dans $M_f$ et dans $HM_f$.
+$H$ intervertis les lignes de $M_f$, la colonne $\varphi(i)$ est à la même place dans $M_f$ et dans $HM_f$.
Il suffit donc de montrer que la $i$ème ligne de $M_f$ est la $\varphi(i)$ème de $HM_f$.
Isolons les termes qui modifient la position de la $i$ème ligne de $H$.
Si $i\geq\varphi(i)$ alors
@@ -384,9 +384,9 @@ si $i<\varphi(i)$ alors
=&M_f(i,\varphi(i))
\end{align*}
-Ainsi grâce à l'Equation~\ref{eq:fini-H}, pour toute bijection sur $\#F$ nous pouvons construir une suite de $\#F$ permutations de lignes telle que la diagonale de la matrice résultante des permutations contienent les éléments sélectionés par la bijections.
-Nous allons montrer qu'il existe une séléction d'éléments telle que la somme de ses éléments soit différente de $1$.
-Pour ce faire, nous allons montrer la proposition ($\dag$) : si toutes les séléctions donnent une somme égale à $1$ alors necessairement tous les élement de chaque ligne de $M_f$ sont égaux entre eux.
+Ainsi grâce à l'Equation~\ref{eq:fini-H}, pour toute bijection sur $\#F$ nous pouvons construire une suite de $\#F$ permutations de lignes telle que la diagonale de la matrice résultante des permutations contiennent les éléments sélectionnés par la bijections.
+Nous allons montrer qu'il existe une sélection d'éléments telle que la somme de ses éléments soit différente de $1$.
+Pour ce faire, nous allons montrer la proposition ($\dag$) : si toutes les sélections donnent une somme égale à $1$ alors nécessairement tous les éléments de chaque ligne de $M_f$ sont égaux entre eux.
Supposons donc, que pour toutes les bijections $\varphi$ sur $\#F$, nous ayons
\begin{equation*}
@@ -399,7 +399,7 @@ De plus,
\sum_{i\in\#F}P(f\circ X=y_i\mid Y=y_j) =1
\end{equation*}
-Ces deux conditions impliquent que pour toute ligne $i$ et colone $j$ :
+Ces deux conditions impliquent que pour toute ligne $i$ et colonne $j$ :
\begin{align*}
&\sum_{\varphi\in B(i,j)}\sum_{k\in\#F}M_f(k,\varphi(k))
+\sum_{k\in\#F}M_f(k,j) = (\#F-1)!+1\\
@@ -439,9 +439,9 @@ Et donc, il existe $k\in\#F$ tel que
\end{equation*}
C'est à dire que $M_f(i,j)=\neq M_f(i,k)$.
-D'après la contraposée de la propostion ($\dag$), nous avons une selection $\varphi$ telle que
+D'après la contraposée de la proposition ($\dag$), nous avons une sélection $\varphi$ telle que
$\sum_{i\in\#F}M(\varphi(i),\varphi(i))\neq 1$.
-Donc en définisant $H$ de la même manière qu'à l'Equation~\ref{eq:fini-H} nous avons $\text{Tr}(HM_f)\neq 1$.
+Donc en définissant $H$ de la même manière qu'à l'Equation~\ref{eq:fini-H} nous avons $\text{Tr}(HM_f)\neq 1$.
Il existe alors un $\#F$-uplet $u\in\mathcal{H}^{\#F}$ tel que
, pour
\begin{equation*}
@@ -455,6 +455,6 @@ Il existe alors un $\#F$-uplet $u\in\mathcal{H}^{\#F}$ tel que
\end{proof}
-Nous allons construire un classifieur qui maximise la \textit{balanced accuracy}.
+Nous allons construire un classifieur qui maximise l'exactitude équilibré.
diff --git a/classification_finie/finit_classif.tex b/classification_finie/finit_classif.tex
index df1fb9f..c7c9fbf 100644
--- a/classification_finie/finit_classif.tex
+++ b/classification_finie/finit_classif.tex
@@ -1,20 +1,9 @@
-
-\subsection{Notations}
-%\begin{itemize}
- %\item $(x_0,x_1,\cdots,x_n)\in X_0\times X_1 \times\cdots\times X_n$
- %\item If $A$ is a finite set, then $\# A$ denotes the cardinal number of $A$
- %\item $f:\left\{\begin{matrix}A&\rightarrow &B\\ a&\mapsto & f(b)\end{matrix}\right.$
- % Denotes a function from $A$ to $B$ mapping each element $a$ in $A$ to $f(a)$ in $B$.
- %\item $f\circ g$ is the composition of $f$ and $g$.
- %\item $f^{-1}$ can be either the inverse function of $f$ if $f$ is a bijection or its inverse image otherwise.
-%\end{itemize}
-
-\subsection{Problem setup}
-Nous nous donnons deux ensembles finits, un ensemble $E$ de données d'entrée et un espace d'étiquette $F$.
+\subsection{Mise en place du problème}
+Nous nous donnons deux ensembles finis, un ensemble $E$ de données d'entrée et un espace d'étiquette $F$.
Nous notons $m=\#E$ et $n=\#F$.
-Soit $\varphi$ une bijection de $E$ dans $[|0,m-1|]$ et $psi$ une bijection de $F$ dans $[|0,n-1|]$.
+Soit $\varphi$ une bijection de $E$ dans $[|0,m-1|]$ et $\psi$ une bijection de $F$ dans $[|0,n-1|]$.
Nous supposons que nous avons un $o$-uplet $d: [|0,o-1] \rightarrow E\times F$.
-$d$ modélise une jeu de donnée en pratique comme il est utilisé en apprantissage automatique.
+$d$ modélise une jeu de donnée en pratique comme il est utilisé en apprentissage automatique.
Nous pouvons alors construire un jeu de donnée d'indices :
\begin{equation*}
d' : \left\{
@@ -27,7 +16,7 @@ Nous pouvons alors construire un jeu de donnée d'indices :
\begin{definition}
\label{def:BA}
- La \textit{balanced accuracy} empirique de $f$ sur le $o$-uplet $d$ relativements à $F$, que l'on appelle $BA_F^d(f)$, est un nombre dans $[0,1]$ tel que
+ L'exactitude équilibré empirique de $f$ sur le $o$-uplet $d$ relativement à $F$, que l'on appelle $BA_F^d(f)$, est un nombre dans $[0,1]$ tel que
\begin{equation*}
BA_F^d(f) = \frac{1}{n}
\sum_{y\in F}
@@ -37,13 +26,12 @@ Nous pouvons alors construire un jeu de donnée d'indices :
{\#\{j\in [|0,o-1|]\quad| d_1(j)=y\}}
\end{equation*}
\end{definition}
-Cette définition est un approximation de la \textit{balanced accuracy} qui nous avons définit plus haut.
-\textbf{Le problème consiste à trouver une application $f:E\rightarrow F$ telle que la \textit{balanced accuracy} de $f$ sur $d$ et maximal.}
-
-\subsection{D'un proclème sur les élément à un problème sur les indices}
+Cette définition est un approximation de l'exactitude équilibré que nous avons définit plus haut.
+\textbf{Le problème consiste à trouver une application $f:E\rightarrow F$ telle que l'exactitude équilibré de $f$ sur $d$ est maximal.}
-Nous commencons par noter par $B_{E\rightarrow F}$ l'ensemble des fonctions de $E$ dans $F$.
-Pour simplifier un peu les notations, nous appelerons $B_{m\rightarrow n}$ l'ensemble des fnoctins de $[|0,m-1|]$ dans $[|0,n-1|]$.
+\subsection{Relation entre éléments et indices}
+Nous commençons par noter par $B_{E\rightarrow F}$ l'ensemble des fonctions de $E$ dans $F$.
+Pour simplifier un peu les notations, nous appellerons $B_{m\rightarrow n}$ l'ensemble des fonctions de $[|0,m-1|]$ dans $[|0,n-1|]$.
\begin{theorem}
\label{th:bij}
@@ -83,33 +71,32 @@ Pour simplifier un peu les notations, nous appelerons $B_{m\rightarrow n}$ l'ens
\psi\circ\psi^{-1}\circ g\circ\varphi\circ\varphi^{-1} = g$
Ainsi $\Phi$ est surjective.
- En conclusion $\Phi$ est à la fois injéctive et surjéctive : c'est une bijection.
+ En conclusion $\Phi$ est à la fois injective et surjective : c'est une bijection.
\end{proof}
-$\varphi$ et $\psi$ peuvent être vus comme des indives sur $E$ et $F$.
-Par exemple, chaque élément $e$ dans $E$ a un unqiue index $\varphi(e)$.
-Cette étape d'abstraction nous permet de contruire des fonctions explicites de $E$ dans $F$ sans prendre en comptes les spécificités de objets mathématiques dans ses ensembles.
+$\varphi$ et $\psi$ peuvent être vus comme des indices sur $E$ et $F$.
+Par exemple, chaque élément $e$ dans $E$ a un unique index $\varphi(e)$.
+Cette étape d'abstraction nous permet de construire des fonctions explicites de $E$ dans $F$ sans prendre en comptes les spécificités de objets mathématiques dans ses ensembles.
En effet, le théorème~\ref{th:bij} nous donne que pour chaque fonction des indices de $E$ vers les indices de $F$ nous pouvons trouver une unique fonction de de $E$ dans $F$.
Et la preuve étant constructive nous indique que pour trouver cette fonction nous pouvons utiliser $\Phi^{-1}$.
- Etudions donc comment se comporte la \textit{balanced accuracy} quand on compose avec $\Phi$.
+ Étudions donc comment se comporte l'exactitude équilibré quand on compose avec $\Phi$.
\begin{theorem}
\label{th:BAphi=BA}
Soit $E$ et $F$ deux ensembles finis.
Soit $d$ un uplet de $E\times F$.
- Alors nous avons l'égalitée suivante :
+ Alors nous avons l'égalité suivante :
\begin{equation*}
BA^{d'}_{[|0,\#F-1|]}\circ\Phi = BA^d_F
\end{equation*}
\end{theorem}
\begin{proof}
- Soit $E$ et $F$ deux ensemle finis.
+ Soit $E$ et $F$ deux ensembles finis.
Nous avons deux bijections :
- We have two bijections :
$\varphi$ de $E$ dans $[|0,\#E-1|]$ et
$\psi$ de $F$ dans $[|0,\#F-1|]$.
- Avec ces deux fonctions nous allons contruire une troisième bijections
+ Avec ces deux fonctions nous allons construire une troisième bijections
$\Phi$ de $B_{E\rightarrow F}$ dans $B_{\#E\rightarrow \#F }$ similaire à celle de la preuve du théorème~\ref{th:bij}.
Soient $o\in\mathbb{N}^*$ et $d$ un $o$-uplet de $E\times F$.
@@ -151,7 +138,7 @@ Et la preuve étant constructive nous indique que pour trouver cette fonction no
\right]
\end{equation}
- De même, passons des indices aux élements sur "$d'_1(j) = i$".
+ De même, passons des indices aux éléments sur "$d'_1(j) = i$".
Let $i\in[|0,\#F-1|]$ and $j\in[|0,o-1|]$.
\begin{align*}
&d'_1(j) = i\\
@@ -159,7 +146,7 @@ Et la preuve étant constructive nous indique que pour trouver cette fonction no
\Leftrightarrow & d_1(j) = \psi^{-1}(i)
\end{align*}
- Ansin avec les equations \ref{eq:BAdp} et \ref{eq:d1j} nous obtenons
+ Ainsi avec les équations \ref{eq:BAdp} et \ref{eq:d1j} nous obtenons
\begin{align}
&\left(BA^{d'}_{[|0,\#F-1|]}\circ\Phi\right)(f) =
\frac{1}{\#F}
@@ -179,10 +166,10 @@ Et la preuve étant constructive nous indique que pour trouver cette fonction no
\label{eq:fini-egaba}
\end{align}
- D'après la définition~\ref{def:BA} l'experession~\ref{eq:fini-egaba} est égale à $BA_F^d(f)$
+ D'après la définition~\ref{def:BA} l'expression~\ref{eq:fini-egaba} est égale à $BA_F^d(f)$
\end{proof}
-En utilisant le théorème~\ref{th:BAphi=BA} nous déduisons le corollère suivant qui jouera un rôle clé dans le recherche de la solution à $\text{argmax}\left(BA_F^d\right)$.
+En utilisant le théorème~\ref{th:BAphi=BA} nous déduisons le corollaire suivant qui jouera un rôle clé dans le recherche de la solution à $\text{argmax}\left(BA_F^d\right)$.
\begin{corollary}
\label{co:argmax}
@@ -199,28 +186,28 @@ En utilisant le théorème~\ref{th:BAphi=BA} nous déduisons le corollère suiva
BA_{[|0,\#F-1|]}^{d'}(f') = BA_F^d(\Phi^{-1}(f'))$
\end{proof}
-Grâce au corollère~\ref{co:argmax} nous avons que, pour résoudres le problème de classification sur n'importe quel ensemble, il est suffisant de le résoudre sur l'ensemble d'indices correspondant.
-L'objetif de la prochaine section est donc la recherche d'un algortihme de résolution d'un tel problème.
+Grâce au corollaire~\ref{co:argmax} nous avons que, pour résoudre le problème de classification sur n'importe quel ensemble, il est suffisant de le résoudre sur l'ensemble d'indices correspondant.
+L'objectif de la prochaine section est donc la recherche d'un algorithme de résolution d'un tel problème.
-\subsection{Contruiction d'un algorithme de classification sur $B_{m\rightarrow n}$}
+\subsection{Maximisation l'exactitude équilibré sur $B_{m\rightarrow n}$}
Soient $m$, $n$ et $p$ des entiers naturels non-nuls.
Soit aussi $d$, un $o$-uplet de $[|0,m-1|]\times[|0,n-1|]$.
-Come nous savons que nous allons travailler sur les indices, nous ne nous préocupons pas d'ensembles quelconqus $E$ et $F$ comme à la section précedente.
+Comme nous savons que nous allons travailler sur les indices, nous ne nous préoccupons pas d'ensembles quelconques $E$ et $F$ comme à la section précédente.
A la place nous prenons $E=\{0,1,\cdots,m-1\}$ and $F=\{0,1,\cdots,n-1\}$.
-L'aproche la plus directe pour maximiser $BA_{[|0,n-1|]}^d$ serait l'algorithme qui consiste à essayer de calculer la \textit{balanced accuracy} pour toutes les fonctions de $B_{m\rightarrow n}$.
-Cette methode est viable pour des petites valeures de $m$ et $n$ mais devient rapidement impossible à calculer pour des grandes valeures.
-En effet, par denombrement nous savons que $B_{m\rightarrow n}$ contiens $n^m$ éléments.
-L'algorithme directe à donc une complexite de $\mathcal{O}(on^m)$ operations.
-Nous allons construire à la place un algoritheme que garantie de maximiser la \textit{balanced accuracy} en $\mathcal{O}(onm)$ operations.
+L'approche la plus directe pour maximiser $BA_{[|0,n-1|]}^d$ serait l'algorithme qui consiste à essayer de calculer l'exactitude équilibré pour toutes les fonctions de $B_{m\rightarrow n}$.
+Cette méthode est viable pour des petites valeurs de $m$ et $n$ mais devient rapidement impossible à calculer pour des grandes valeurs.
+En effet, par dénombrement nous savons que $B_{m\rightarrow n}$ contiens $n^m$ éléments.
+L'algorithme directe a donc une complexité de $\mathcal{O}(on^m)$ opérations.
+Nous allons construire à la place un algorithme que garantie de maximiser l'exactitude équilibré en $\mathcal{O}(onm)$ opérations.
-Pour le constuire nous allons, d'une certaine manière, distribuer l'opératuer argmax, simplifiant ainsi l'expression de la \textit{balanced accuracy} optimale.
-Pour cela, dans le lemme qui suit nous allons reformuler la \textit{balanced accuracy}.
+Pour le construire nous allons, d'une certaine manière, distribuer l'opérateur argmax, simplifiant ainsi l'expression de l'exactitude équilibré optimale.
+Pour cela, dans le lemme qui suit nous allons reformuler l'exactitude équilibré.
\begin{lemma}
\label{lem:sumei}
- Pour tout $i$ dans $[|0,m-1|]$, nous definissons le $n$-uplet suivant.
+ Pour tout $i$ dans $[|0,m-1|]$, nous définissons le $n$-uplet suivant.
\begin{equation*}
e_i:\left\{
\begin{matrix}
@@ -235,12 +222,12 @@ Pour cela, dans le lemme qui suit nous allons reformuler la \textit{balanced acc
\right.
\end{equation*}
- Nous pouvons alors écrir la \textit{balanced accuracy} de la manière suivant :
+ Nous pouvons alors écrire l'exactitude équilibré de la manière suivant :
\begin{equation*}
BA_{[|0,n-1|]}^d(h) = \frac{1}{n}
\sum_{i=0}^{m-1} e_i(h(i))
\end{equation*}
- Where $h\in B_{m\rightarrow n}$.
+ Où $h\in B_{m\rightarrow n}$.
\end{lemma}
\begin{proof}
Soit $l\in[|0,n-1|]$ et $h$, une fonction dans $B_{m\rightarrow n}$.
@@ -276,11 +263,11 @@ Pour cela, dans le lemme qui suit nous allons reformuler la \textit{balanced acc
}
\end{align}
- Dans l'expression précédente, $l$ est un élément de l'ensemble des indeices $F$.
+ Dans l'expression précédente, $l$ est un élément de l'ensemble des indices $F$.
Pour montrer le résultat, on remplace $h(d_0(j))$~\ref{eq:sansi} par une expression qui contient $i$ : un élément de $E$.
- Le but de faire aparaitre la quantité qui nous intersse : $e_{i,j}$.
+ Le but de faire apparaître la quantité qui nous intéresse : $e_{i,j}$.
- Nous commencons par remarquer que pour tout $j$ dans $[|0,o-1|]$
+ Nous commençons par remarquer que pour tout $j$ dans $[|0,o-1|]$
\begin{equation*}
h(d_0(j))=l
\Leftrightarrow d_0(j)\in h^{-1}(\{l\})
@@ -301,7 +288,7 @@ Pour cela, dans le lemme qui suit nous allons reformuler la \textit{balanced acc
\right\}
\end{align*}
- Aninsi, par substitution de $\{j\in[|0,o-1|]\quad| h(d_0(j)) = l\}$ dans l'équation \ref{eq:sansi}, nous obtenons
+ Ainsi, par substitution de $\{j\in[|0,o-1|]\quad| h(d_0(j)) = l\}$ dans l'équation \ref{eq:sansi}, nous obtenons
\begin{align*}
&\frac{
\#\left(
@@ -372,7 +359,7 @@ Pour cela, dans le lemme qui suit nous allons reformuler la \textit{balanced acc
\end{proof}
Ce lemme nous permet de calculer l'argmax souhaité en calculant le entrée de la matrice $M = \left(e_i(l)\right)_{i\in[|0,m-1|],l\in[|0,m-1|]}$
-au lieu de calcule la \textit{balanced accuracy} de toutes le fonctions de $B_{m\rightarrow n}$.
+au lieu de calculer l'exactitude équilibré de toutes le fonctions de $B_{m\rightarrow n}$.
Nous cherchons donc le maximum de chaque ligne de $M$ ce qui fait que nous n'avons qu'a parcourir une fois chaque élément de $M$.
Nous formalisons cette idée dans le théorème suivant :
@@ -406,7 +393,7 @@ Nous formalisons cette idée dans le théorème suivant :
\begin{proof}
Soit $g\in B_{m\rightarrow n}$.
Nous allons montrer que $BA_{[|0,n-1|]}^d(g)\leq BA_{[|0,n-1|]}^d(f)$.
- Nous commencons par dire que
+ Nous commençons par dire que
pour tout $i\in[|0,n-1|]$, $0\leq e_i(g(i))\leq e_i(f(i))$.
Ce qui donne que
\begin{equation*}
@@ -417,10 +404,10 @@ Nous formalisons cette idée dans le théorème suivant :
\frac{1}{n}\sum_{i=0}^{m-1}e_i(g(i)) \leq \frac{1}{n}\sum_{i=0}^{m-1}e_i(f(i))
\end{equation*}
- Enfin, en appliquant le lemme~\ref{lem:sumei} nous avons le résultat attedu.
+ Enfin, en appliquant le lemme~\ref{lem:sumei} nous avons le résultat attendu.
\end{proof}
-En utiliant ce résulat, nous pouvons maintenant écrir l'algorithm suivant en $\mathcal{O}(onm)$ pour résoudre notre problème d'optimisation.
+En utilisant ce résultat, nous pouvons maintenant écrire l'algorithme suivant en $\mathcal{O}(onm)$ pour résoudre notre problème d'optimisation.
\begin{algorithm}
\caption{Optimisation: recherche de l'$\text{argmax}\left(BA^d_{[|0,n-1|]}\right)$}
@@ -450,7 +437,6 @@ En utiliant ce résulat, nous pouvons maintenant écrir l'algorithm suivant en $
\end{algorithm}
\FloatBarrier
-\subsection{Extention to unseen data}
%Alogrithm \ref{algo:argmax} is an efficient algorithm to find a classifier the maximizes balanced accuracy on the set of indices.
%From the result $f$ of this alogrithm we find a classifier that solves the problem of maximizing the balanced accuracy on element by applying the inversse of $\Phi$.
%Hence $\Phi^{-1}(f)$ is solution.
diff --git a/classification_finie/introduction.tex b/classification_finie/introduction.tex
index ab5aaf3..0e3443d 100644
--- a/classification_finie/introduction.tex
+++ b/classification_finie/introduction.tex
@@ -1 +1,8 @@
-intro
+Dans ce premier chapitre de contribution, nous allons construire un nouvel algorithme d'apprentissage ensembliste.
+Plus précisément nous allons nous intéresser à la manière de combiner plusieurs classifieurs : ce que nous avons appelé la seconde partie de la vie d'un algorithme d'apprentissage ensembliste à la Section~\ref{sec:background-aens}.
+Nous allons construire une solution similaire à celle de l'espace de connaissances du comportement\footnote{\textit{Behavior knowledge space}}~\cite{1626170} sauf que au lieu d'optimiser l'exactitude nous allons optimiser l'exactitude équilibré.
+
+Pour cela nous allons considérer que nous cherchons une fonction d'un ensemble fini $E$ vers un autre $F$.
+$E$ correspond à l'ensemble des uplets possibles des sorties des classifieurs faibles et $F$ aux classes.
+Nous commençons notre étude en considérant que nous avons une base de donnée ayant deux colonnes.
+L'une contient des éléments de $E$ et l'autre contient des étiquette de $F$.
diff --git a/classification_finie/tabular.tex b/classification_finie/tabular.tex
index 6112f77..017b250 100644
--- a/classification_finie/tabular.tex
+++ b/classification_finie/tabular.tex
@@ -1,19 +1,32 @@
+Dans cette section nous allons évaluer comme se comporte notre algorithme dans des cas d'usage pratiques.
+
+\subsection{Classification de données tabulaires}
+Nous allons évaluer notre nouvel algorithme sur les jeux de données COMPAS et sur LAW.
+Nous présenterons plus en détail ces bases de données à la Section~\ref{sec:aia-méthodo-jeu}.
+Disons pour le moment que COMPAS est un jeu tabulaire utilisé en justice prédictive pour créer des RAI comme nous les avons présenté en Section~\ref{sec:contexte-insti} et que LAW sert aux école de droit au États Unis pour sélectionner les étudiants en première année.
+Nous allons entraîner notre algorithme ainsi qu'une forêt aléatoire pour prédire si un coupable est récidiviste ou non sur COMPAS et pour prédire si un étudiant en droit va réussir l'examen du barreau par LAW.
+
\begin{figure}
- \centering
- \begin{subfigure}{0.44\textwidth}
- \includegraphics[width=\textwidth]{classification_finie/figure/ba/COMPAS.pdf}
- \caption{COMPAS}
- \end{subfigure}
- \begin{subfigure}{0.44\textwidth}
- \includegraphics[width=\textwidth]{classification_finie/figure/ba/LAW.pdf}
- \caption{LAW}
- \end{subfigure}
+\centering
+\begin{subfigure}{0.44\textwidth}
+ \includegraphics[width=\textwidth]{classification_finie/figure/ba/COMPAS.pdf}
+ \caption{COMPAS}
+\end{subfigure}
+\begin{subfigure}{0.44\textwidth}
+ \includegraphics[width=\textwidth]{classification_finie/figure/ba/LAW.pdf}
+ \caption{LAW}
+\end{subfigure}
- \caption{Comparison of balanced accuracies betwen a random forest and our algorithm.
- On COMPAS the balanced accuray are similar but on LAW we observe that random forest performs slightly better than random guess when our algorithm manages a 64\% balanced accuracy on average}
- \label{fig:ba}
+ \caption{Comparaison de l'exactitude équilibré entre une forêt aléatoire (random forest) et notre algorithme (finit classifier).}
+\label{fig:ba}
\end{figure}
+Nous observons les résultats de l'exactitude équilibré sur la Figure~\ref{fig:ba}.
+Les boîtes à moustache ont été obtenus grâce au processus de validations croisée\footnote{\textit{Cross validation}}.
+Nous, n'observons pas de différence significative d'exactitude équilibré pour COMPAS, en revanche sur LAW notre algorithme est meilleur de plus de 10 points d'exactitude équilibré.
+Sur COMPAS nous observons que pour certaines étapes de validation la forêt aléatoire dépasse notre algorithme.
+Cela ne vas pas à l'encontre du fait que notre algorithme produise la meilleur exactitude équilibré car cette assertion est vrai pour les données d'entraînement et ces résultats sont obtenus sur les donnes d'évaluations qui n'ont jamais été vus à l'entraînement.
+
\begin{figure}
\centering
\begin{subfigure}{0.44\textwidth}
@@ -25,14 +38,35 @@
\caption{LAW}
\end{subfigure}
- \caption{Comparison of computing times betwen a random forest and our algorithm.
- On both dataset, the computing time of our algorithm is multiple factor of magnitude smaller than a random forest.
- }
+ \caption{Comparaison du temps de calcul pour l'entraînement entre une forêt aléatoire (random forest) et notre algorithme (finit classifier).}
\label{fig:time}
\end{figure}
+Comme nous l'avons vu à la Section~\ref{sec:contexte-conso} la consommation d'énergie est un enjeu capitale de l'IA.
+Nous avons donc enregistré le temps que prend l'ordinateur pour apprendre le modèle.
+Nous comparons donc notre algorithme à une forêt aléatoire dans la Figure~\ref{fig:time}.
+Nous utilisons l'implémentation de forêt aléatoire de scikit-learn~\cite{scikit-learn} sur un ordinateur portable Dell Latitude 5420 avec un processeur i7-1165G7 @ 2.8 GHz.
+Notre algorithme est trois fois plus rapide sur LAW et quatre fois plus rapide sur COMPAS.
+
+\FloatBarrier
+\subsection{Classification de données disparates}
+Les données disparates sont de formes et de types hétérogènes comme par exemple des images de dimension différentes.
+C'est un cas courant qui se produit après avoir récupérer des données brute et rend l'application directe de la plus part des algorithme d'apprentissage automatique impossible sans prétraitement\footnote{\textit{Preprocessing}} ou intervention manuelle~\cite{ben2002theoretical}.
+Notre algorithme développé plus haut ne soufre pas de tel problème car il nous travaillons uniquement sur le indices des éléments que l'on souhaite classifier.
+
+Nous explorons cet aspect avec l'expérience suivante : nous avons demandé à un panel d'utilisateur.ice.s de décrire en quelques mots les styles des tableaux de Paul Cezanne, un peintre impressionniste connu principalement pour ses tableaux de Provence.
+Les utilisateur.ices.s ont vu défile les tableaux un-à-un.
+Pour chaque tableau il.elle.s devaient remplir en champ de texte n'imposant aucune restriction.
+Cela a créé des réponses très hétérogènes comme par exemple \textit{Paul Alexis lisant à Émile Zola} montré en Figure~\ref{fig:zola} qui à été classifié comme \textquote{Hôpital psychiatrique}.
+Les utilisateur.rice.s peuvent être vus comme l'ensemble des classifieurs faibles dont notre algorithme vas cumuler les prédiction pour un créer une qui crée consensus au sens de la maximisation de l'exactitude équilibré.
+C'est donc une méthode qui se rapproche de la votation.
+
\begin{figure}
\centering
- \includegraphics[width=\linewidth]{classification_finie/figure/cezanne/colage.png}
- \caption{Classification du style des tableaux de Paul Cezanne}.
+ \includegraphics[width=0.70\linewidth]{classification_finie/figure/cezanne/44.png}
+ \caption{\textit{Paul Alexis lisant à Emile Zola}, Paul Cézanne, 1869-1870 (Huile sur toile) São Paulo, MASP, Museu de Arte de São Paulo Assis Chateaubriand © Museu de Arte, Sao Paulo, Brazil / Giraudon / Bridgeman Giraudon}
\end{figure}
+
+Nous obtenons un exactitude équilibré de 0,48 pour une évaluation sur 20 tableaux, soit un aléatoire à $\frac{1}{20}=0,005$.
+
+\FloatBarrier