summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorcookie <cookie@grospc>2024-09-30 17:37:52 +0200
committercookie <cookie@grospc>2024-09-30 17:37:52 +0200
commit642fa138bd0127b42b8906e412a5ee761b120ac2 (patch)
tree3f961f7f13136bc78c35a25b355c076856021e0d
parent644fa7c290ac801f15180dd8a9c425c3b757adf5 (diff)
Correction Emeline sur classification fini et AIA
-rw-r--r--aia/aia.tex32
-rw-r--r--aia/fair_reg.tex8
-rw-r--r--aia/intro.tex14
-rw-r--r--aia/methodo.tex40
-rw-r--r--aia/resultats.tex22
-rw-r--r--aia/theo.tex50
-rw-r--r--classification_finie/ba.tex78
-rw-r--r--classification_finie/finit_classif.tex58
-rw-r--r--classification_finie/tabular.tex32
9 files changed, 167 insertions, 167 deletions
diff --git a/aia/aia.tex b/aia/aia.tex
index fe56ec2..0b20084 100644
--- a/aia/aia.tex
+++ b/aia/aia.tex
@@ -1,35 +1,35 @@
\subsection{Modèle de menace}\footnote{\textit{Threat model}}
Nous considérons qu'un adversaire souhaite conduire une AIA pour un attribut sensible sur un modèle cible.
Le but de l'adversaire est d'inférer l'attribut sensible à partir uniquement des prédictions du modèle cible.
-L'adversaire a accès une base de donnée que nous appelons auxiliaire et qui ne contient pas d'individu en commun avec la base de donnée d'entraînement du modèle cible que nous appelons base cible.
-La base cible ne contiens pas l'attribut sensible qui n'a donc pas été utilisé à l'entraînement.
-La base auxiliaire contiens l'attribut sensible et des prédictions du modèle cible correspondantes à ces attributs sensibles.
-La base auxiliaire ne contient pas les donnés d'entrée car sinon l'adversaire pourrait simplement entraîner un modèle pour inférer l'attribut sensible à partir des données d'entrée et le modèle cible n'apporterai pas plus d'informations~\cite{jayaraman2022attribute}.
-Il n'est pas du ressort de cette étude d'étudier comment un adversaire pourrait avoir accès à une telle base de donnée.
-Cela pourrait être le cas après une fuite de donnée ou une attaque de type homme du milieu\footnote{\textit{Man in the middle}}.
+L'adversaire a accès à une base de données que nous appelons auxiliaire et qui ne contient pas d'individu en commun avec la base de données d'entraînement du modèle cible que nous appelons base cible.
+La base cible ne contient pas l'attribut sensible, qui n'a donc pas été utilisé à l'entraînement.
+La base auxiliaire contient l'attribut sensible et des prédictions du modèle cible correspondant à ces attributs sensibles.
+La base auxiliaire ne contient pas les données d'entrée car sinon l'adversaire pourrait simplement entraîner un modèle pour inférer l'attribut sensible à partir des données d'entrée et le modèle cible n'apporterait pas plus d'informations~\cite{jayaraman2022attribute}.
+Il n'est pas du ressort de cette étude d'étudier comment un adversaire pourrait avoir accès à une telle base de données.
+Cela pourrait être le cas après une fuite de données ou une attaque de type homme du milieu\footnote{\textit{Man in the middle}}.
\subsection{AIA pour les modèles de classification}
Considérons que le modèle cible prenne ses valeurs dans $F$, un ensemble fini.
-C'est à dire que le modèle cible ne donne accès à l'attaquant que des prédictions d'étiquette.
-Cela peut-être le cas après application d'un seuil sur un logit par exemple.
-Alors le but de l'attaquant est de trouver une fonction mesurable de $(F,\mathcal{P}(F))$ dans $(G,\mathcal{P}(G))$ qui maximise l'exactitude équilibré.
+C'est-à-dire que le modèle cible ne donne accès à l'attaquant qu'à des prédictions d'étiquette.
+Cela peut être le cas après application d'un seuil sur un logit par exemple.
+Alors le but de l'attaquant est de trouver une fonction mesurable de $(F,\mathcal{P}(F))$ dans $(G,\mathcal{P}(G))$ qui maximise l'exactitude équilibrée.
Où $G$ est l'ensemble dans lequel l'attribut sensible prend ces valeurs.
Cela est un cas d'application parfait pour l'algorithme que nous avons construit au Chapitre~\ref{sec:fini}.
Nous allons l'utiliser pour construire une AIA qui donne la garantie théorique d'être le meilleur modèle qui permette de classifier l'attribut sensible en utilisant la prédiction du modèle.
Nous appelons cette AIA : \AIAHard.
\subsection{AIA pour les modèles de régression}
-Dans le cas d'un modèle cible qui effectua une régression nous avons $\#F$ infini donc nous ne pouvons pas utiliser \AIAHard.
-Ce cas où l'adversaire a accès un modèle de régression prend en compte le cas où le modèle cible de prédiction divulgue un logit par exemple.
+Dans le cas d'un modèle cible qui effectue une régression nous avons $\#F$ infini, donc nous ne pouvons pas utiliser \AIAHard.
+Ce cas où l'adversaire a accès au modèle de régression prend en compte le cas où le modèle cible de prédiction divulgue un logit par exemple.
C'est le modèle de menace qu'applique Song et. al~\cite{Song2020Overlearning} dans leur AIA.
Nous utiliserons comme modèle d'AIA une forêt aléatoire puis nous optimiserons son seuil en utilisant la courbe ROC pour prendre en compte le déséquilibre de classes dans l'attribut sensible.
Cette méthode fonctionne uniquement pour des attributs binaires.
-C'est-à dire que pour une prédiction dans l'espace mesurable $(F,\mathcal{F})$ et un attribut sensible dans $(\{0,1\},\mathcal{P}(\{0,1\}))$
-la forêt aléatoire construite une fonction de mesurable
+C'est-à-dire que pour une prédiction dans l'espace mesurable $(F,\mathcal{F})$ et un attribut sensible dans $(\{0,1\},\mathcal{P}(\{0,1\}))$
+la forêt aléatoire construit une fonction mesurable
$a : (F,\mathcal{F})\rightarrow ([0,1],\mathcal{B}([0,1]))$.
$a$ modélise le logit de la prédiction du modèle AIA.
-Ensuite nous calculons, la courbe ROC de $a$ comme nous l'avons défini à la Section~\ref{sec:background-ml-classif} et nous choisis $\upsilon^*$ tel que, pour la prédiction $a_\upsilon = 1_{[\upsilon,1]}\circ a$ :
+Ensuite nous calculons, la courbe ROC de $a$ comme nous l'avons définie à la Section~\ref{sec:background-ml-classif} et nous choisissons $\upsilon^*$ tel que, pour la prédiction $a_\upsilon = 1_{[\upsilon,1]}\circ a$ :
\begin{equation*}
\upsilon^* = \text{argmin}_{\upsilon\in [0,1]}
(1-tpr(\upsilon))^2 + fpr^2(\upsilon)
@@ -42,5 +42,5 @@ Nous représentons sur la Figure~\ref{fig:aia-rocopt} le choix du seuil optimal
\label{fig:aia-rocopt}
\end{figure}
-Contrairement a \AIAHard, \AIASoft~ne donne pas la garantie de maximisation l'exactitude équilibré.
-Ainsi \AIASoft~constitue un approximation relativement à la théorie que nous avons décrite à la Section~\ref{sec:aia-theo}.
+Contrairement a \AIAHard, \AIASoft~ne donne pas la garantie de maximisation de l'exactitude équilibrée.
+Ainsi \AIASoft~constitue une approximation relativement à la théorie que nous avons décrite à la Section~\ref{sec:aia-theo}.
diff --git a/aia/fair_reg.tex b/aia/fair_reg.tex
index 983d088..6c01cc8 100644
--- a/aia/fair_reg.tex
+++ b/aia/fair_reg.tex
@@ -1,17 +1,17 @@
-A la Section~\ref{sec:background-eq} nous avons introduits la notion de parité démographique (DemPar).
+A la Section~\ref{sec:background-eq} nous avons introduit la notion de parité démographique (DemPar).
Dans le cas d'un classifieur binaire ($\hat{Y}$) avec attribut binaire ($S$), nous pouvons calculer à quel point le classifieur est proche d'être DemPar avec la quantité suivante :
\begin{equation*}
\text{DemParLvl} = |P(\hat{Y}=1|S=0) - P(\hat{Y}=1|S=1)|
\end{equation*}
-C'est l'écart de prédiction positive entre la classe majoritaire(par exemple les blancs, le hommes, ...) et la classe minoritaire (les noires, les femmes, ...).
+C'est l'écart de prédiction positive entre la classe majoritaire(par exemple les blancs, le hommes, ...) et la classe minoritaire (les noirs, les femmes, ...).
\begin{propriete}
\label{prop:aia-dpl0}
- Un classifieur qui satisfait la parité démographique a un DemParLvl égale à zéro.
+ Un classifieur qui satisfait la parité démographique a un DemParLvl égal à zéro.
\end{propriete}
La démonstration est triviale à partir de la Définition~\ref{def:background-eq-dp}.
DemPar est équivalente à dire que la prédiction du modèle est indépendante de l'attribut sensible.
-Nous remarquons que cette définition n'est ni restreinte à des problèmes de classifications, ni à des attributs sensibles binaires ni même à des attributs sensibles qui prennent leurs valeurs dans un ensemble fini.
+Nous remarquons que cette définition n'est ni restreinte à des problèmes de classifications, ni à des attributs sensibles binaires, ni même à des attributs sensibles qui prennent leurs valeurs dans un ensemble fini.
Ainsi nous définissons la notion suivante:
\begin{definition}{Parité démographique généralisée.}
\label{def:aia-dempargen}
diff --git a/aia/intro.tex b/aia/intro.tex
index c3656b6..3a3a262 100644
--- a/aia/intro.tex
+++ b/aia/intro.tex
@@ -1,22 +1,22 @@
Nous avons vu à la Section~\ref{sec:background-eq-imp} que, pour imposer l'équité à un modèle, nous pouvons utiliser différentes méthodes qui agissent lors de l'entraînement.
-Utiliser ces méthodes peut causer une augmentation de certain risque liée à la confidentialité des donnée d'entraînement, ainsi il est admis qu'il y ai un compromis à faire entre équité et confidentialité~\cite{duddu2023sok}.
-Cependant ce compromis ne concerne que les risques liées aux attaques de MIA~\cite{chang2021privacy,cummings,ijcai2022p766}.
+Utiliser ces méthodes peut causer une augmentation de certains risques liés à la confidentialité des données d'entraînement ; ainsi il est admis qu'il y ait un compromis à faire entre équité et confidentialité~\cite{duddu2023sok}.
+Cependant, ce compromis ne concerne que les risques liés aux attaques de MIA~\cite{chang2021privacy,cummings,ijcai2022p766}.
Dans ce chapitre nous allons étudier les interactions entre ces mécanismes d'équité et l'attaque AIA.
-Nous allons montrer que sous cet angle, l'équité et la confidentialité travaillent de concert.
+Nous allons montrer que, sous cet angle, l'équité et la confidentialité travaillent de concert.
Cette étude peut être vue sous deux angles.
-Le premier aspect consiste à étudier comment les mécanismes d'équité peuvent être utilisé pour mitiger différent types d'AIA.
+Le premier aspect consiste à étudier comment les mécanismes d'équité peuvent être utilisés pour mitiger différents types d'AIA.
Le second aspect, en lien avec le premier, est d'utiliser les AIA pour contrôler dans un environnement boîte noire le niveau d'équité d'un modèle.
\paragraph{Contributions}
Dans ce chapitre nous apportons les contributions suivantes: :
\begin{itemize}
- \item Une définition de l'équité qui généralise la parité démogrpahique à la régression.
- \item Diverse relations analytique et synthétique entre AIA, parité démographique et équité des chances qui remplissent les objectifs de:
+ \item Une définition de l'équité qui généralise la parité démographique à la régression.
+ \item Diverses relations analytiques et synthétiques entre AIA, parité démographique et équité des chances qui remplissent les objectifs de:
\begin{itemize}
\item calcul de niveau d'équité en boîte noire et
\item garanties théoriques sur le niveau de confidentialité des données des utilisateurs de modèles.
\end{itemize}
\item La construction de deux nouvelles attaques AIA efficaces quand l'attribut sensible présente un déséquilibre.
- \item Une étude empirique des relations entre niveau d'équité, utilisation d'algorithmes imposants l'équité et succès des attaques AIA.
+ \item Une étude empirique des relations entre niveau d'équité, utilisation d'algorithmes imposant l'équité et succès des attaques AIA.
\end{itemize}
diff --git a/aia/methodo.tex b/aia/methodo.tex
index 7bab0b0..8a70817 100644
--- a/aia/methodo.tex
+++ b/aia/methodo.tex
@@ -1,47 +1,47 @@
-Nous allons réaliser un série d'expériences utilisant les AIA définit plus haut.
+Nous allons réaliser une série d'expériences utilisant les AIA définies plus haut.
Le but est d'observer l'exactitude équilibrée des AIA sur des modèles entraînés pour imposer l'équité.
Pour des attributs sensibles dans un ensemble fini $G$, nous souhaitons observer si entraîner le modèle en imposant la parité démographique rapproche l'exactitude équilibrée de $\frac{1}{\#G}$ ce qui indique une protection de l'attribut sensible d'après le Théorème~\ref{th:aia-dpgood}.
-De plus dans le cas de \AIAHard nous allons pouvoir vérifier expérimentalement la Propriété~\ref{prop:aia-demparlvl}.
+De plus, dans le cas de \AIAHard, nous allons pouvoir vérifier expérimentalement la Propriété~\ref{prop:aia-demparlvl}.
-\subsection{Jeux de donnée}
+\subsection{Jeux de données}
\label{sec:aia-methodo-jeu}
\paragraph{CENSUS}
-Le sondage des Etats Unis d'Amérique produit tous les dix ans un jeu de donnée appelé CENSUS contenant les information de tous les citoyens\footnote{www.census.gov}.
+Le sondage des Etats-Unis d'Amérique produit tous les dix ans un jeu de données appelé CENSUS contenant les informations de tous les citoyens\footnote{www.census.gov}.
La version que nous avons utilisé contient 30.940 données avec 95 attributs comme le travail occupé, le statut marital etc.
-Parmi ces attributs certain sont sensibles comme la couleur de peau appelé \textit{race} ou le genre appelé \textit{sex}.
-Avec ce jeu de donnée, nous construisons un classifieur cible qui cherche à inférer si un individu gagne plus de 50.000 dollars par an.
+Parmi ces attributs, certains sont sensibles comme la couleur de peau appelée \textit{race} ou le genre appelé \textit{sex}.
+Avec ce jeu de données, nous construisons un classifieur cible qui cherche à inférer si un individu gagne plus de 50.000 dollars par an.
\paragraph{COMPAS}
-Cette base de donnée est construite à partir des affaires criminelles aux États Unis.
-Elle est utilisé notamment par les différents algorithmes commerciaux de justice prédictive que nous avons introduits en Section~\ref{sec:contexte-insti}.
-Elle contient les donnée de 6.172 criminel jugé coupables en Floride.
+Cette base de données est construite à partir des affaires criminelles aux États-Unis.
+Elle est utilisée notamment par les différents algorithmes commerciaux de justice prédictive que nous avons introduits en Section~\ref{sec:contexte-insti}.
+Elle contient les données de 6.172 criminel jugés coupables en Floride.
Elle contient sept attributs.
\paragraph{MEPS}
-Cette base de donnée provient du système de santé de États Unis.
-Elle contiens l'historique de trajets réalisé par 15.830 patients.
+Cette base de données provient du système de santé des États-Unis.
+Elle contient l'historique de trajets réalisés par 15.830 patients.
Le tâche de classification du modèle cible est de prédire si un patient utilise fortement ou faiblement les services de santé.
\paragraph{LFW}
-Ces base de donnée contient 8.212 images de visages de personnes.
+Cette base de données contient 8.212 images de visages de personnes.
La tâche principale est de classifier si une personne a plus de 35 ans.
\paragraph{Attributs sensibles}
Toutes ces bases de données contiennent les attributs sensibles \textit{race} et \textit{sex}.
-Nous rendons binaire cas attributs :
-\textit{race} vaut 1 si la personne à la peu noire et 0 sinon ;
+Nous rendons binaire ces attributs :
+\textit{race} vaut 1 si la personne a la peau noire et 0 sinon ;
\textit{sex} vaut 1 si la personne est une femme et 0 sinon.
\subsection{Cheminement des données}
-Pour simuler le modèle de menace nous séparons chaque base de donnée de la manière suivant :
-chaque base de donnée est séparé en 80\% d'entraînement et 20\% d'évaluation.
-Dans l'entraînement on retire l'attribut sensible et on l'utilisé pour entraîner le modèle cible.
+Pour simuler le modèle de menace, nous séparons chaque base de données de la manière suivante :
+chaque base de données est séparée en 80\% d'entraînement et 20\% d'évaluation.
+Dans l'entraînement on retire l'attribut sensible et on l'utilise pour entraîner le modèle cible.
Ensuite nous utilisons l'évaluation sans l'attribut sensible pur calculer les prédictions que nous lions ligne par ligne à leur attribut sensible correspondant.
-Cela crée la base auxiliaire qui respecte bien les exigence du modèle de menace : les donnée n'ont pas été utilisé à l'entraînement.
+Cela crée la base auxiliaire qui respecte bien les exigences du modèle de menace : les données n'ont pas été utilisées à l'entraînement.
Cette base auxiliaire est ensuite séparée en 80\% d'entraînement et 20\% d'évaluation.
-Les 80\% d'entraînement sont utilisé pour construire le modèle d'attaque qui sert à prédire l'attribut sensible à partir de la prédiction du modèle cible.
-Les 20\% d'évaluation servent à calculer l'exactitude équilibré du modèle d'attaque.
+Les 80\% d'entraînement sont utilisés pour construire le modèle d'attaque qui sert à prédire l'attribut sensible à partir de la prédiction du modèle cible.
+Les 20\% d'évaluation servent à calculer l'exactitude équilibrée du modèle d'attaque.
Nous reportons dans la Section~\ref{sec:aia-resexp} contenant les résultats expérimentaux.
\begin{figure}
\input{aia/figure/tikz/data}
diff --git a/aia/resultats.tex b/aia/resultats.tex
index 3791ca8..f88dc1f 100644
--- a/aia/resultats.tex
+++ b/aia/resultats.tex
@@ -35,7 +35,7 @@
\caption{Lfw (sex)}
\end{subfigure}
- \caption{Impacte de la réduction pour une classification équitable sur le succès de \AIAHard.
+ \caption{Impact de la réduction pour une classification équitable sur le succès de \AIAHard.
\\\textit{Baseline} = sans réduction.
\\\textit{Theoretical} = $\frac{1}{2}(1+DemParLvl)$ avec réduction.
\\\textit{Empirical} = avec réduction.
@@ -81,7 +81,7 @@
\caption{Lfw (sex)}
\end{subfigure}
- \caption{Impacte du rééquilibrage adverse sur le succès de \AIASoft.
+ \caption{Impact du rééquilibrage adverse sur le succès de \AIASoft.
\\\textit{baseline} = sans rééquilibrage adverse.
\\\textit{AdvDebias} = avec rééquilibrage adverse.}
\label{fig:aiadeb}
@@ -120,7 +120,7 @@
\includegraphics[width=\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_hard_sex.pdf}
\caption{Lfw (sex)}
\end{subfigure}
- \caption{Impacte du rééquilibrage adverse sur le succès de \AIAHard.
+ \caption{Impact du rééquilibrage adverse sur le succès de \AIAHard.
\\\textit{baseline} = succès de l'attaque sans rééquilibrage adverse.
\\\textit{Empirical} = succès de l'attaque avec rééquilibrage adverse.
\\\textit{Theoretical} = $\frac{1}{2}(1+DemParLvl)$ avec rééquilibrage adverse}
@@ -150,7 +150,7 @@
\caption{LFW}
\label{fig:utilityegd-lfw}
\end{subfigure}
- \caption{Impacte de l'utilisation de la réduction pour une classification équitable sur l'utilité.
+ \caption{Impact de l'utilisation de la réduction pour une classification équitable sur l'utilité.
\\\textit{Baseline} = sans réduction.
\\\textit{EGD+DemPar} = avec réduction.
}
@@ -181,18 +181,18 @@
\caption{LFW}
\label{fig:utilityadv-lfw}
\end{subfigure}
- \caption{Impacte de l'utilisation du rééquilibrage adverse sur l'utilisé.
+ \caption{Impact de l'utilisation du rééquilibrage adverse sur l'utilité.
\\\textit{baseline} = sans rééquilibrage adverse.
\\\textit{AdvDebias} = avec rééquilibrage adverse.
}
\label{fig:utilityadv}
\end{figure}
-Nous observons sur les Figures~\ref{fig:aiaegd},~\ref{fig:aia-adv-hard} et~\ref{fig:aiadeb} que les méthodes pour imposer l'équité ont bien réduit les succès des attaques que ce soit en classification ou en régression.
+Nous observons sur les Figures~\ref{fig:aiaegd},~\ref{fig:aia-adv-hard} et~\ref{fig:aiadeb} que les méthodes pour imposer l'équité ont bien réduit les succès des attaques, que ce soit en classification ou en régression.
De plus, nous voyons sur les Figures~\ref{fig:aiaegd} et~\ref{fig:aia-adv-hard} que le succès maximal de l'attaque vaut bien $\frac{1}{2}(1+DemParLvl)$ comme nous l'avons montré à la Propriété~\ref{prop:aia-demparlvl}.
-Enfin, nous mettons en perspective ce résultat avec la dégradation d'utilité qu'entraîne l'utilisation des ces méthodes sur les Figures~\ref{fig:utilityegd} et~\ref{fig:utilityadv}.
-Les deux méthodes semblent protéger de manière similaire les attributs sensibles pour \AIAHard~cependant la méthode de adverse est la seul pouvant mitiger \AIASoft.
-En contrepartie la réduction pour une classification équitable semble moins dégrader l'utilité comme nous pouvons le vois en comparant les Figures~\ref{fig:utilityegd-lfw} et~\ref{fig:utilityadv-lfw}.
+Enfin, nous mettons en perspective ce résultat avec la dégradation d'utilité qu'entraîne l'utilisation de ces méthodes sur les Figures~\ref{fig:utilityegd} et~\ref{fig:utilityadv}.
+Les deux méthodes semblent protéger de manière similaire les attributs sensibles pour \AIAHard~cependant, la méthode adverse est la seule pouvant mitiger \AIASoft.
+En contrepartie, la réduction pour une classification équitable semble moins dégrader l'utilité comme nous pouvons le voir en comparant les Figures~\ref{fig:utilityegd-lfw} et~\ref{fig:utilityadv-lfw}.
-En conclusion, nous recommandons d'utiliser le rééquilibrage adverse quand il y a un risque que le logit soit partagé ou quand le tâche principale est une régression.
-Si ce n'est pas le cas, par exemple si le modèle est utilisé localement et que uniquement la prédiction est partagé, nous recommandons d'utiliser la réduction pour une classification équitable.
+En conclusion, nous recommandons d'utiliser le rééquilibrage adverse quand il y a un risque que le logit soit partagé ou quand la tâche principale est une régression.
+Si ce n'est pas le cas, par exemple si le modèle est utilisé localement et que seule la prédiction est partagée, nous recommandons d'utiliser la réduction pour une classification équitable.
\FloatBarrier
diff --git a/aia/theo.tex b/aia/theo.tex
index 6d19da2..bb2bb61 100644
--- a/aia/theo.tex
+++ b/aia/theo.tex
@@ -1,5 +1,5 @@
\subsection{Utiliser l'équité pour mitiger les AIA}
-Commençons par présenter le résultat le plus générale, qui fonctionne aussi bien pour des modèles de classifications que pour des régressions.
+Commençons par présenter le résultat le plus général, qui fonctionne aussi bien pour des modèles de classification que pour des régressions.
Ce résultat est aussi indépendant du type d'attribut binaire, quantitatif au qualitatif.
\begin{theorem}
@@ -19,10 +19,10 @@ Ce résultat est aussi indépendant du type d'attribut binaire, quantitatif au q
\begin{proof}
Par définition, la parité démographique (respectivement généralisée) est équivalente à l'indépendance entre l'attribut sensible et la prédiction (respectivement le logit).
- Ainsi, d'après le Lemme~\ref{lemme:aia-xycca} dire que tout classifieur de l'attribut sensible utilisant la prédiction (respectivement le logit) est un CCA est équivalant à dire que le modèle cible respecte la parité démographique (respectivement généralisée).
+ Ainsi, d'après le Lemme~\ref{lemme:aia-xycca}, dire que tout classifieur de l'attribut sensible utilisant la prédiction (respectivement le logit) est un CCA est équivalent à dire que le modèle cible respecte la parité démographique (respectivement généralisée).
\end{proof}
-Ce résultat nous apprend que s'assurer que le modèle cible satisfait la parité démographique permet de s'assurer que les attributs sensibles des utilisateur sont protégés lors de l'utilisation du modèle.
+Ce résultat nous apprend que s'assurer que le modèle cible satisfait la parité démographique permet de s'assurer que les attributs sensibles des utilisateurs sont protégés lors de l'utilisation du modèle.
Dans le cas d'un modèle cible qui réalise une classification binaire et en considérant un attribut binaire nous avons une propriété plus précise.
\begin{propriete}
@@ -43,10 +43,10 @@ Dans le cas d'un modèle cible qui réalise une classification binaire et en con
\end{propriete}
\begin{proof}
- On pause $\hat{Y}=f\circ X$.
- L'ensemble $A$ des fonction de $\{0,1\}$ vers $\{0,1\}$ contient quatre éléments :
+ On pose $\hat{Y}=f\circ X$.
+ L'ensemble $A$ des fonctions de $\{0,1\}$ vers $\{0,1\}$ contient quatre éléments :
$a_0=0$, $a_1=id$, $a_2=1-id$ et $a,3=1$.
- Pour chaque attaque $a\in A$ l'exactitude équilibré de $a$ est
+ Pour chaque attaque $a\in A$ l'exactitude équilibrée de $a$ est
\begin{equation*}
BA(a) = \frac{1}{2}(P(a\circ \hat{Y}=0|S=0) + P(a\circ \hat{Y}=1|S=1))
\end{equation*}
@@ -81,12 +81,12 @@ Donc,
}
\end{proof}
-Ainsi pour le classifieur binaire avec attribut sensible binaire, il est suffisant de calculer le DemParLvl du modèle cible pour connaître le maximum d'exactitude équilibré atteignable par n'importe quelle attaque.
-De plus, nous voyons que l'exactitude équilibré maximale d'attaque vaut ${1}{2}$ si et seulement si $\text{DemParLvl}=0$.
-C'est à dire que $f$ satisfait la parité démographique est équivalant à dire que tout attaque à une exactitude équilibré égale à $\frac{1}{2}$.
+Ainsi pour le classifieur binaire avec attribut sensible binaire, il est suffisant de calculer le DemParLvl du modèle cible pour connaître le maximum d'exactitude équilibrée atteignable par n'importe quelle attaque.
+De plus, nous voyons que l'exactitude équilibrée maximale d'attaque vaut ${1}{2}$ si et seulement si $\text{DemParLvl}=0$.
+C'est-à-dire que $f$ satisfait la parité démographique est équivalent à dire que toute attaque a une exactitude équilibrée égale à $\frac{1}{2}$.
-Grâce au Théorème~\ref{th:aia-dpgood} nous savons aussi que tout autre définition d'équité qui n'implique pas la parité démographique ne permet pas de mitiger les AIA.
-Par exemple, nous allons montrer un cas ou l'égalité des chances de la Définition~\ref{def:background-eq-eoo} est satisfaite mais où il existe une AIA qui donne une exactitude équilibré supérieur $0,5$.
+Grâce au Théorème~\ref{th:aia-dpgood} nous savons aussi que toute autre définition d'équité qui n'implique pas la parité démographique ne permet pas de mitiger les AIA.
+Par exemple, nous allons montrer un cas où l'égalité des chances de la Définition~\ref{def:background-eq-eoo} est satisfaite mais où il existe une AIA qui donne une exactitude équilibrée supérieure à $0,5$.
On représente le classifieur $\hat{Y}$ de l'étiquette $Y$ ainsi que la donnée d'entrée $X$ et l'attribut sensible $S$ dans le tableau suivant :
\begin{equation*}
@@ -107,12 +107,12 @@ Ce classifieur satisfait l'équité des chances car
$P(\hat{Y}=0\mid Y=0\wedge S=0) = P(\hat{Y}=0\mid Y=0\wedge S=1) = 1$
et
$P(\hat{Y}=0\mid Y=1\wedge S=0) = P(\hat{Y}=0\mid Y=1\wedge S=1) = 0$.
-Alors si on choisit comme modèle d'attaque la fonction identité, nous avons comme exactitude équilibré de l'AIA $0,75$ ce qui indique une fuite de l'attribut sensible.
+Alors si on choisit comme modèle d'attaque la fonction identité, nous avons comme exactitude équilibrée de l'AIA $0,75$, ce qui indique une fuite de l'attribut sensible.
-%De manière plus précises et plus générale nous avancons le théorème suivant :
+%De manière plus précise et plus générale nous avançons le théorème suivant :
%\begin{theorem}
%\label{th:eoo}
- %Si $\hat{Y}$ satisfait l'équitée des chances pour $Y$ et $S$, alors l'exactitude équilibrée de l'AIA est de $\frac{1}{\#F}$ si et seulement si $Y$ est independant de $S$ ou si
+ %Si $\hat{Y}$ satisfait l'équité des chances pour $Y$ et $S$, alors l'exactitude équilibrée de l'AIA est de $\frac{1}{\#F}$ si et seulement si $Y$ est indépendant de $S$ ou si
%for $Y$ and $S$ then the balanced accuracy of AH is $\frac{1}{2}$ if and only if $Y$ is independent of $S$ or $\hat{Y}$ is independent of $Y$.
%\end{theorem}
%Those two conditions are unlikely to happen with real world dataset and target models.
@@ -148,15 +148,15 @@ Alors si on choisit comme modèle d'attaque la fonction identité, nous avons co
%
\subsection{Utiliser l'AIA pour contrôler le niveau d'équité}
\label{sec:aia-theo-aia-eq}
-De manière réciproque, le lien que nous avons démontré peut aussi être utilité dans le cas suivant.
+De manière réciproque, le lien que nous avons démontré peut aussi être utilisé dans le cas suivant :
Imaginons qu'un fournisseur de modèle d'IA ou un organisme de régulation comme la Défenseure des Droit souhaite contrôler si un modèle est équitable ou non.
-Si $\#F$ ou $\#G$ sont grands voir de cardinaux infinis, vérifier directement des propriétés d'indépendances entre la sortie du modèle et des attributs sensible peut entraîner un coût de calcul trop élevé pour être faisable~\cite{ofverstedt2022fast}.
+Si $\#F$ ou $\#G$ sont grands voire de cardinaux infinis, vérifier directement des propriétés d'indépendance entre la sortie du modèle et des attributs sensible peut entraîner un coût de calcul trop élevé pour être faisable~\cite{ofverstedt2022fast}.
-Grâce au Théorème~\ref{th:aia-dpgood} nous avons la garantie que que si toutes les modèles AIA ont une exactitude équilibrée égale à $\frac{1}{\#F}$ alors le modèle cible satisfait la parité démographique.
-Bien sûre cette technique atteint sa limite si $\#G$ est infini car alors l'exactitude équilibré n'est plus définie.
+Grâce au Théorème~\ref{th:aia-dpgood} nous avons la garantie que si tous les modèles AIA ont une exactitude équilibrée égale à $\frac{1}{\#F}$, alors le modèle cible satisfait la parité démographique.
+Bien sûr cette technique atteint sa limite si $\#G$ est infini car alors l'exactitude équilibrée n'est plus définie.
Calculer l'exactitude équilibrée de tous les modèles d'AIA est impossible.
-Nous allons voir que si l'AIA qui donne une exactitude équilibré maximal vaut $\frac{1}{\#F}$ alors c'est le cas pour toutes.
+Nous allons voir que si l'AIA qui donne une exactitude équilibrée maximale vaut $\frac{1}{\#F}$, alors c'est le cas pour toutes.
\begin{theorem}
\label{th:aia-bluey}
@@ -168,7 +168,7 @@ Nous allons voir que si l'AIA qui donne une exactitude équilibré maximal vaut
\item $Y:\Omega\rightarrow F$
\end{itemize}
Soit $A$ l'ensemble des fonctions mesurables de $(E,\mathcal{E})$ dans $(F,\mathcal{P}(F))$.
- Nous appelons $BA$ la fonction qui à toutes fonction $a$ de $A$ associe l'exactitude équilibrée de $a \circ X$ pour l'étiquette $Y$.
+ Nous appelons $BA$ la fonction qui à toutes les fonctions $a$ de $A$ associe l'exactitude équilibrée de $a \circ X$ pour l'étiquette $Y$.
\begin{equation*}
\exists a\in A~BA(a)< \frac{1}{\#F}
\implies
@@ -212,7 +212,7 @@ Nous allons voir que si l'AIA qui donne une exactitude équilibré maximal vaut
Ainsi, nous avons $\varphi\in S_{\#F}$ telle que
$\sum_{j\in\#F}M(\varphi(j),j)>1$.
- Comme nous l'avons montré dans la preuve du Théorème~\ref{th:fini-bacca}, nous avons $u\in\mathcal{H}^{\#F}$ tel que en posant
+ Comme nous l'avons démontré dans la preuve du Théorème~\ref{th:fini-bacca}, nous avons $u\in\mathcal{H}^{\#F}$ tel qu'en posant
\begin{equation*}
b = u_{\#F-1}\circ\cdots\circ u_0\circ a
\end{equation*}
@@ -220,14 +220,14 @@ Nous allons voir que si l'AIA qui donne une exactitude équilibré maximal vaut
\end{proof}
-Nous allons utiliser ce théorème pour montrer que si l'AIA maximale à une exactitude équilibré égale à $\frac{1}{\#G}$ alors toutes les AIA ont la même exactitude équilibré.
-On se donne $A$ l'ensemble des fonctions mesurable de $(F,\mathcal{F})$ dans $(G,\mathcal{P}(G))$.
+Nous allons utiliser ce théorème pour montrer que si l'AIA maximale a une exactitude équilibrée égale à $\frac{1}{\#G}$ alors toutes les AIA ont la même exactitude équilibrée.
+On se donne $A$ l'ensemble des fonctions mesurables de $(F,\mathcal{F})$ dans $(G,\mathcal{P}(G))$.
$A$ modélise l'ensemble des AIA possibles pour un modèle cible qui prédit dans $F$ et un attribut sensible dans $G$, un ensemble fini.
Supposons que $\text{max}_{a\in A} BA(a)=\frac{1}{\#G}$.
Alors $\forall a\in A~BA(a)\leq\frac{1}{\#G}$.
D'après la contraposée du Théorème~\ref{th:aia-bluey} nous avons alors $\forall a\in A~BA(a)\geq\frac{1}{\#G}$.
Ainsi $\forall a\in A~BA(a)=\frac{1}{\#G}$.
-Pour contrôler si un classifieur vérifie la parité démographique il est donc suffisant de connaître l'exactitude équilibré maximale de toutes les AIA.
+Pour contrôler si un classifieur vérifie la parité démographique il est donc suffisant de connaître l'exactitude équilibrée maximale de toutes les AIA.
Comme nous venons de le voir, si cette valeur vaut $\frac{1}{\#G}$ alors le classifieur satisfait la parité démographique.
-La recherche d'une AIA qui maximise l'exactitude équilibré est discuté à la Section~\ref{sec:aia-aia}.
+La recherche d'une AIA qui maximise l'exactitude équilibrée est discutée à la Section~\ref{sec:aia-aia}.
diff --git a/classification_finie/ba.tex b/classification_finie/ba.tex
index a9fcb78..c155a7a 100644
--- a/classification_finie/ba.tex
+++ b/classification_finie/ba.tex
@@ -1,17 +1,17 @@
-Le cas d'un classifieur constant, comme nous l'avons à la Section~\ref{sec:background-ml-classif}, n'est qu'un exemple de Classifieur qui réalise un Choix Aléatoire (CCA).
-En anglais la littérature parle en générale de \textit{random guess}~\cite{chicco2021matthews}.
+Le cas d'un classifieur constant, comme nous l'avons vu à la Section~\ref{sec:background-ml-classif}, n'est qu'un exemple de Classifieur qui réalise un Choix Aléatoire (CCA).
+En anglais, la littérature parle en général de \textit{random guess}~\cite{chicco2021matthews}.
Cependant, à notre connaissance, il n'y a pas de définition mathématique qui unifie l'idée générale de CCA qui est :
-un classifieur qui se comporte comme si il n'avait aucune connaissance sur sa tâche de classification.
-Un CCA n'est pas un classifieur qui utilise l'aléatoire mais plutôt un classifieur hasardeux, comme une personne qui choisirai au hasard.
+un classifieur qui se comporte comme s'il n'avait aucune connaissance sur sa tâche de classification.
+Un CCA n'est pas un classifieur qui utilise l'aléatoire mais plutôt un classifieur hasardeux, comme une personne qui choisirait au hasard.
C'est le cas pour un classifieur constant mais aussi pour un classifieur binaire qui tire à pile ou face son résultat.
Nous pourrions dire qu'un CCA est un classifieur qui n'utilise pas les données d'entrée.
-Cependant cela ne prend pas un compte le cas où les données d'entrée ne servent à rien pour la tâche de classification.
-Par exemple nous voudrions que notre définition englobe n'importe quelle classifieur qui cherche à prédire la qualité d'un potimarron à partir la couleur de mes chaussettes le jour pu il a été ramassé.
+Cependant, cela ne prend pas en compte le cas où les données d'entrée ne servent à rien pour la tâche de classification.
+Par exemple, nous voudrions que notre définition englobe n'importe quel classifieur qui cherche à prédire la qualité d'un potimarron à partir de la couleur de mes chaussettes le jour où il a été ramassé.
Nous proposons donc la définition suivante :
\begin{definition}
Un CCA est un classifieur ayant une prédiction indépendante de l'étiquette.
- C'est à dire que pour un classifieur $f: E\rightarrow F$.
+ C'est-à-dire que pour un classifieur $f: E\rightarrow F$.
Avec une étiquette $Y:\Omega\rightarrow F$
et une entrée $X:\Omega\rightarrow E$.
Alors pour $\hat{Y}=f\circ X$, nous avons
@@ -32,7 +32,7 @@ Nous proposons donc la définition suivante :
Nous allons prouver séparément les deux implications.
\paragraph{$(1)\implies(2)$}
Nous supposons que $P_{(X,Y)} = P_X\otimes P_Y$.
- Soit $f:(E,\mathcal{T})\rightarrow (F,\mathcal{F})$, un fonction mesurable,
+ Soit $f:(E,\mathcal{T})\rightarrow (F,\mathcal{F})$, une fonction mesurable,
nous allons montrer que $f$ est un CCA, c'est-à dire que $P_{(f\circ X,Y)} = P_{f\circ X}\otimes P_Y$.
Soient $(A,B)\in\mathcal{E}\times\mathcal{F}$
@@ -46,8 +46,8 @@ Nous proposons donc la définition suivante :
\end{align*}
Ainsi, $\forall (A,B)\in\mathcal{E}\times\mathcal{F}~P_{(f\circ X,Y)}(A,B) = P_{f\circ X}(A)P_Y(B)$.
- D'après la définition de le mesure produit donnée à la Section~\ref{sec:background-proba}, nous avons donc bien $P_{(f\circ X,Y)} = P_{f\circ X}\otimes P_Y$.
- Ce qui est bien la définition de l'indépendant donnée en Section~\ref{sec:background-proba}.
+ D'après la définition de la mesure produit donnée à la Section~\ref{sec:background-proba}, nous avons donc bien $P_{(f\circ X,Y)} = P_{f\circ X}\otimes P_Y$.
+ Ce qui est bien la définition de l'indépendance donnée en Section~\ref{sec:background-proba}.
\paragraph{$(2)\implies (1)$}
Nous supposons que tout classifieur de $Y$ à partir de $X$ est un CCA.
@@ -93,13 +93,13 @@ Nous proposons donc la définition suivante :
\begin{propriete}
\label{prop:CCA_BA}
- Les CCA ayant comme image $ F$ ont une exactitude équilibré égale à $\frac{1}{\# F}$.
+ Les CCA ayant comme image $ F$ ont une exactitude équilibrée égale à $\frac{1}{\# F}$.
\end{propriete}
\begin{proof}
Soit $f: E\rightarrow F$ un CCA.
- On pause $\hat{Y} = f\circ X$
- L'exactitude équilibré de $f$ est alors
+ On pose $\hat{Y} = f\circ X$
+ L'exactitude équilibrée de $f$ est alors
\begin{align*}
&\frac{1}{\# F}\sum_{y\in F}
P(\hat{Y}=y\mid Y=y)\\
@@ -116,18 +116,18 @@ Nous proposons donc la définition suivante :
\end{align*}
\end{proof}
-La contraposé de la Proposition~\ref{prop:CCA_BA} nous apprend que si l'exactitude équilibré est différente de $0,5$ alors le classifieur n'est pas un CCA.
+La contraposée de la Proposition~\ref{prop:CCA_BA} nous apprend que si l'exactitude équilibrée est différente de $0,5$ alors le classifieur n'est pas un CCA.
- Il est intéressant de noter que si un classifieur à une exactitude équilibré de $\frac{1}{\#F}$ il n'est pas nécessaire qu'il soit un CCA.
- Pour prouver cette remarque il suffit de trouver un exemple de classifieur ayant une exactitude équilibré de $\frac{1}{\#F}$ et qui ne soit pas un CCA.
+ Il est intéressant de noter que si un classifieur a une exactitude équilibrée de $\frac{1}{\#F}$ il n'est pas nécessaire qu'il soit un CCA.
+ Pour prouver cette remarque il suffit de trouver un exemple de classifieur ayant une exactitude équilibrée de $\frac{1}{\#F}$ et qui ne soit pas un CCA.
Nous appelons $r(a,b)$ le reste de la division euclidienne de $a$ par $b$.
-Soient les ensembles suivant :
+Soient les ensembles suivants :
$E = [|0,8|]$ et
$F = [|0,2|]$.
En considérant l'espace probabilisé
$(E,\mathcal{P}(E),\frac{1}{9}\sum_{i=0}^8\delta_{i})$
-nous définissons les variables aléatoire suivantes :
+nous définissons les variables aléatoires suivantes :
$X=\textit{id}_E$
\begin{equation*}
Y:\left\{
@@ -155,7 +155,7 @@ Ainsi que la fonction mesurable suivante qui est l'exemple de classifieur que no
\right.
\end{equation*}
-Montrons que l'exactitude équilibré de $f$ vaut $\frac{1}{3}$.
+Montrons que l'exactitude équilibrée de $f$ vaut $\frac{1}{3}$.
En notant $\hat{Y} = f\circ X$, nous représentons cette situation par le tableau suivant.
\begin{equation*}
\begin{matrix}
@@ -173,14 +173,14 @@ En notant $\hat{Y} = f\circ X$, nous représentons cette situation par le tablea
\end{equation*}
Il nous permet de calculer facilement les quantités suivantes.
-Déjà l'exactitude équilibré est égale à $\frac{1}{3}$ car
+Déjà l'exactitude équilibrée est égale à $\frac{1}{3}$ car
$\forall y\in F~P(\hat{Y}=y\mid Y=y)=\frac{1}{3}$.
Enfin nous voyons que $f$ n'est pas un CCA car
$P(\hat{Y}=1\cap Y=2) = 0$ et
$P(\hat{Y}=1)P(Y=2) = \frac{2}{9}\frac{1}{3} = \frac{2}{27}$.
-Remarquons que le réciproque de la Propriété~\ref{prop:CCA_BA} est vrai dans le cas d'une classifieur binaire, c'est-à dire $\#F=2$.
-En effet dans ce cas, supposons que l'exactitude équilibré vaille $0,5$, alors
+Remarquons que la réciproque de la Propriété~\ref{prop:CCA_BA} est vraie dans le cas d'un classifieur binaire, c'est-à-dire $\#F=2$.
+En effet, dans ce cas, supposons que l'exactitude équilibrée vaille $0,5$, alors
\begin{align*}
&P(f\circ X=0\mid Y=0)+P(f\circ X=1\mid Y=1) = 1\\
\implies&\left\{
@@ -193,12 +193,12 @@ En effet dans ce cas, supposons que l'exactitude équilibré vaille $0,5$, alors
\implies&\text{$f$ est un CCA}
\end{align*}
-Bien qu'une exactitude équilibré égale à $\frac{1}{\#F}$ ne soit pas un critère de CCA, nous pouvons utiliser cette métrique pour savoir si il existe un classifieur qui soit un CCA.
+Bien qu'une exactitude équilibrée égale à $\frac{1}{\#F}$ ne soit pas un critère de CCA, nous pouvons utiliser cette métrique pour savoir s'il existe un classifieur qui soit un CCA.
En effet nous avons le résultat suivant :
\begin{theorem}
\label{th:fini-bacca}
- En notant $BA(f)$ l'exactitude équilibré de $f$.
+ En notant $BA(f)$ l'exactitude équilibrée de $f$.
\begin{equation*}
\forall f~BA(f)=\frac{1}{\#F} \iff
\forall f~\text{$f$ est un CCA}
@@ -208,7 +208,7 @@ En effet nous avons le résultat suivant :
\begin{proof}
L'implication réciproque est une conséquence directe de la Propriété~\ref{prop:CCA_BA}.
- Pour le sens directe, nous allons montrer la contraposée, c'est à dire l'assertion suivante :
+ Pour le sens direct, nous allons montrer la contraposée, c'est-à-dire l'assertion suivante :
\begin{equation*}
\exists f~\text{$f$ n'est pas un CCA} \implies
\exists f~BA(f)\neq \frac{1}{\#F}
@@ -238,7 +238,7 @@ En effet nous avons le résultat suivant :
P(f\circ X=a\cap Y=b)\neq P(f\circ X=a)P(Y=b)
\end{equation*}
- Nous définissons les fonctions suivante pour tout $z$ et $z'$, éléments de $F$ :
+ Nous définissons les fonctions suivantes pour tout $z$ et $z'$, éléments de $F$ :
\begin{equation*}
h_{z,z'}:\left\{
\begin{matrix}
@@ -254,17 +254,17 @@ En effet nous avons le résultat suivant :
\right.
\end{equation*}
- $h_{z,z'}$ vas nous permettre et permuter les inférences faites par $f$.
- Ainsi à partir de $f$ nous créons de nouveaux classifieurs.
- Soit $\mathcal{H}=\{h_{z,z'}\mid (z,z')\in F^2\}$ nous allons montrer qu'il existe $\#F$-uplet de $\mathcal{H}$, $u$, tel que le classifieur $u_{\#F-1}\circ\cdots\circ u_0\circ f$ ai une exactitude équilibré différent de $\frac{1}{\#F}$.
+ $h_{z,z'}$ va nous permettre de permuter les inférences faites par $f$.
+ Ainsi, à partir de $f$ nous créons de nouveaux classifieurs.
+ Soit $\mathcal{H}=\{h_{z,z'}\mid (z,z')\in F^2\}$ nous allons montrer qu'il existe $\#F$-uplet de $\mathcal{H}$, $u$, tel que le classifieur $u_{\#F-1}\circ\cdots\circ u_0\circ f$ ait une exactitude équilibrée différente de $\frac{1}{\#F}$.
Considérons la matrice
\begin{equation*}
M_f(i,j) = P(f\circ X=y_i\mid Y=y_j)
\end{equation*}
Où $y_\square:\#F\rightarrow F$ est une bijection.
- Alors l'exactitude équilibré de $f$ est égale $\frac{\text{Tr}(M)}{\#F}$.
- $h_{z,z'}$ peut aussi s'exprimer en terme matricielle.
+ Alors l'exactitude équilibrée de $f$ est égale $\frac{\text{Tr}(M)}{\#F}$.
+ $h_{z,z'}$ peut aussi s'exprimer en terme matriciel.
La fonction suivante est une bijection :
\begin{equation*}
\Phi:\left\{
@@ -304,8 +304,8 @@ En effet nous avons le résultat suivant :
\end{matrix}
\end{equation*}
- De plus, $M_{h_{y_i,y_j}\circ f}$ correspond à intervertie les lignes des $M_f$,
- c'est-à dire que $M_{h_{y_i,y_j}\circ f} = H_{i,j}M_f$.
+ De plus, $M_{h_{y_i,y_j}\circ f}$ correspond à intervertir les lignes des $M_f$,
+ c'est-à-dire que $M_{h_{y_i,y_j}\circ f} = H_{i,j}M_f$.
En effet, $h_{y_i,y_j}$ est une bijection telle que
$h_{y_i,y_j}^{-1} = h_{y_i,y_j}$.
Alors, soit $(k,l)\in\#F^2$,
@@ -334,7 +334,7 @@ Ainsi l'existence de $u$ est équivalente à l'existence d'une matrice $H = H_{i
Montrons l'existence d'une telle matrice $H$.
Commençons par montrer que pour chaque ligne de $M_f$ il est possible de choisir arbitrairement l'élément de la ligne qui sera dans la diagonale de $HM_f$ tant qu'on ne choisit pas deux fois un élément dans une même colonne.
-C'est-à dire montrons que
+C'est-à-dire montrons que
\begin{align*}
\{\{M(i,\varphi(i))\mid i\in\#F\}\mid \text{$\varphi$ est une bijection sur $\#F$}\}\\
\subset\{\text{Diag}(HM_f)\mid \exists I\in \left(\mathcal{H}'\right)^{\#F}~H=I_{\#F-1}\cdots I_0\}
@@ -366,7 +366,7 @@ Pour montrer l'inclusion précédente, il suffit alors de montrer que
Montrons donc que
$\forall i\in\#F~M_f(i,\varphi(i))=HM_f(\varphi(i),\varphi(i))$.
Soit $i\in\#F$.
-$H$ intervertis les lignes de $M_f$, la colonne $\varphi(i)$ est à la même place dans $M_f$ et dans $HM_f$.
+$H$ intervertit les lignes de $M_f$, la colonne $\varphi(i)$ est à la même place dans $M_f$ et dans $HM_f$.
Il suffit donc de montrer que la $i$ème ligne de $M_f$ est la $\varphi(i)$ème de $HM_f$.
Isolons les termes qui modifient la position de la $i$ème ligne de $H$.
Si $i\geq\varphi(i)$ alors
@@ -384,8 +384,8 @@ si $i<\varphi(i)$ alors
=&M_f(i,\varphi(i))
\end{align*}
-Ainsi grâce à l'Equation~\ref{eq:fini-H}, pour toute bijection sur $\#F$ nous pouvons construire une suite de $\#F$ permutations de lignes telle que la diagonale de la matrice résultante des permutations contiennent les éléments sélectionnés par la bijections.
-Nous allons montrer qu'il existe une sélection d'éléments telle que la somme de ses éléments soit différente de $1$.
+Ainsi, grâce à l'Equation~\ref{eq:fini-H}, pour toute bijection sur $\#F$ nous pouvons construire une suite de $\#F$ permutations de lignes telle que la diagonale de la matrice résultant des permutations contienne les éléments sélectionnés par la bijection.
+Nous allons montrer qu'il existe une sélection d'éléments telle que la somme de ces éléments soit différente de $1$.
Pour ce faire, nous allons montrer la proposition ($\dag$) : si toutes les sélections donnent une somme égale à $1$ alors nécessairement tous les éléments de chaque ligne de $M_f$ sont égaux entre eux.
Supposons donc, que pour toutes les bijections $\varphi$ sur $\#F$, nous ayons
@@ -437,7 +437,7 @@ Et donc, il existe $k\in\#F$ tel que
\begin{equation*}
P(f\circ X=y_i\mid Y=y_j)\neq P(f\circ X=y_i\mid Y=y_k)
\end{equation*}
-C'est à dire que $M_f(i,j)=\neq M_f(i,k)$.
+C'est-à-dire que $M_f(i,j)=\neq M_f(i,k)$.
D'après la contraposée de la proposition ($\dag$), nous avons une sélection $\varphi$ telle que
$\sum_{i\in\#F}M(\varphi(i),\varphi(i))\neq 1$.
@@ -455,6 +455,6 @@ Il existe alors un $\#F$-uplet $u\in\mathcal{H}^{\#F}$ tel que
\end{proof}
-Nous allons construire un classifieur qui maximise l'exactitude équilibré.
+Nous allons construire un classifieur qui maximise l'exactitude équilibrée.
diff --git a/classification_finie/finit_classif.tex b/classification_finie/finit_classif.tex
index c7c9fbf..b958275 100644
--- a/classification_finie/finit_classif.tex
+++ b/classification_finie/finit_classif.tex
@@ -1,10 +1,10 @@
\subsection{Mise en place du problème}
Nous nous donnons deux ensembles finis, un ensemble $E$ de données d'entrée et un espace d'étiquette $F$.
Nous notons $m=\#E$ et $n=\#F$.
-Soit $\varphi$ une bijection de $E$ dans $[|0,m-1|]$ et $\psi$ une bijection de $F$ dans $[|0,n-1|]$.
+Soient $\varphi$ une bijection de $E$ dans $[|0,m-1|]$ et $\psi$ une bijection de $F$ dans $[|0,n-1|]$.
Nous supposons que nous avons un $o$-uplet $d: [|0,o-1] \rightarrow E\times F$.
-$d$ modélise une jeu de donnée en pratique comme il est utilisé en apprentissage automatique.
-Nous pouvons alors construire un jeu de donnée d'indices :
+$d$ modélise une jeu de données, comme il est en pratique utilisé en apprentissage automatique.
+Nous pouvons alors construire un jeu de données d'indices :
\begin{equation*}
d' : \left\{
\begin{matrix}
@@ -16,7 +16,7 @@ Nous pouvons alors construire un jeu de donnée d'indices :
\begin{definition}
\label{def:BA}
- L'exactitude équilibré empirique de $f$ sur le $o$-uplet $d$ relativement à $F$, que l'on appelle $BA_F^d(f)$, est un nombre dans $[0,1]$ tel que
+ L'exactitude équilibrée empirique de $f$ sur le $o$-uplet $d$ relativement à $F$, que l'on appelle $BA_F^d(f)$, est un nombre dans $[0,1]$ tel que
\begin{equation*}
BA_F^d(f) = \frac{1}{n}
\sum_{y\in F}
@@ -26,8 +26,8 @@ Nous pouvons alors construire un jeu de donnée d'indices :
{\#\{j\in [|0,o-1|]\quad| d_1(j)=y\}}
\end{equation*}
\end{definition}
-Cette définition est un approximation de l'exactitude équilibré que nous avons définit plus haut.
-\textbf{Le problème consiste à trouver une application $f:E\rightarrow F$ telle que l'exactitude équilibré de $f$ sur $d$ est maximal.}
+Cette définition est une approximation de l'exactitude équilibrée que nous avons défini plus haut.
+\textbf{Le problème consiste à trouver une application $f:E\rightarrow F$ telle que l'exactitude équilibrée de $f$ sur $d$ est maximale.}
\subsection{Relation entre éléments et indices}
Nous commençons par noter par $B_{E\rightarrow F}$ l'ensemble des fonctions de $E$ dans $F$.
@@ -35,7 +35,7 @@ Pour simplifier un peu les notations, nous appellerons $B_{m\rightarrow n}$ l'en
\begin{theorem}
\label{th:bij}
- Soient $E$ et $F$ deux ensemble finis de cardinaux $m$ et $n$.
+ Soient $E$ et $F$ deux ensembles finis de cardinaux $m$ et $n$.
Il existe une bijection de $B_{E\rightarrow F}$ dans $B_{m\rightarrow n}$.
\end{theorem}
@@ -51,7 +51,7 @@ Pour simplifier un peu les notations, nous appellerons $B_{m\rightarrow n}$ l'en
\right.
\end{equation}
- Montrons maintenant que $\Phi$ est un bijection.
+ Montrons maintenant que $\Phi$ est une bijection.
Soit $(u,v)\in \left(B_{E\rightarrow F}\right)^2$ telle que
$\Phi(u) = \Phi(v)$.
Alors
@@ -76,14 +76,14 @@ Pour simplifier un peu les notations, nous appellerons $B_{m\rightarrow n}$ l'en
$\varphi$ et $\psi$ peuvent être vus comme des indices sur $E$ et $F$.
Par exemple, chaque élément $e$ dans $E$ a un unique index $\varphi(e)$.
-Cette étape d'abstraction nous permet de construire des fonctions explicites de $E$ dans $F$ sans prendre en comptes les spécificités de objets mathématiques dans ses ensembles.
-En effet, le théorème~\ref{th:bij} nous donne que pour chaque fonction des indices de $E$ vers les indices de $F$ nous pouvons trouver une unique fonction de de $E$ dans $F$.
-Et la preuve étant constructive nous indique que pour trouver cette fonction nous pouvons utiliser $\Phi^{-1}$.
+Cette étape d'abstraction nous permet de construire des fonctions explicites de $E$ dans $F$ sans prendre en compte les spécificités des objets mathématiques dans ses ensembles.
+En effet, le théorème~\ref{th:bij} nous dit que pour chaque fonction des indices de $E$ vers les indices de $F$ nous pouvons trouver une unique fonction de $E$ dans $F$.
+Et la preuve, étant constructive, nous indique que pour trouver cette fonction nous pouvons utiliser $\Phi^{-1}$.
- Étudions donc comment se comporte l'exactitude équilibré quand on compose avec $\Phi$.
+ Étudions donc comment se comporte l'exactitude équilibrée quand on compose avec $\Phi$.
\begin{theorem}
\label{th:BAphi=BA}
- Soit $E$ et $F$ deux ensembles finis.
+ Soient $E$ et $F$ deux ensembles finis.
Soit $d$ un uplet de $E\times F$.
Alors nous avons l'égalité suivante :
\begin{equation*}
@@ -96,7 +96,7 @@ Et la preuve étant constructive nous indique que pour trouver cette fonction no
Nous avons deux bijections :
$\varphi$ de $E$ dans $[|0,\#E-1|]$ et
$\psi$ de $F$ dans $[|0,\#F-1|]$.
- Avec ces deux fonctions nous allons construire une troisième bijections
+ Avec ces deux fonctions nous allons construire une troisième bijection
$\Phi$ de $B_{E\rightarrow F}$ dans $B_{\#E\rightarrow \#F }$ similaire à celle de la preuve du théorème~\ref{th:bij}.
Soient $o\in\mathbb{N}^*$ et $d$ un $o$-uplet de $E\times F$.
@@ -127,7 +127,7 @@ Et la preuve étant constructive nous indique que pour trouver cette fonction no
\Leftrightarrow &\left(f\circ d_0\right)(j) = d_1(j)\\
\end{align*}
- Ce qui nous donnes les assertions suivantes :
+ Ce qui nous donne les assertions suivantes :
\begin{equation}
\label{eq:d1j}
\forall j\in[|0,o-1|]\quad
@@ -186,24 +186,24 @@ En utilisant le théorème~\ref{th:BAphi=BA} nous déduisons le corollaire suiva
BA_{[|0,\#F-1|]}^{d'}(f') = BA_F^d(\Phi^{-1}(f'))$
\end{proof}
-Grâce au corollaire~\ref{co:argmax} nous avons que, pour résoudre le problème de classification sur n'importe quel ensemble, il est suffisant de le résoudre sur l'ensemble d'indices correspondant.
+Grâce au corollaire~\ref{co:argmax} nous savons que, pour résoudre le problème de classification sur n'importe quel ensemble, il est suffisant de le résoudre sur l'ensemble d'indices correspondant.
L'objectif de la prochaine section est donc la recherche d'un algorithme de résolution d'un tel problème.
-\subsection{Maximisation l'exactitude équilibré sur $B_{m\rightarrow n}$}
+\subsection{Maximisation de l'exactitude équilibrée sur $B_{m\rightarrow n}$}
Soient $m$, $n$ et $p$ des entiers naturels non-nuls.
Soit aussi $d$, un $o$-uplet de $[|0,m-1|]\times[|0,n-1|]$.
Comme nous savons que nous allons travailler sur les indices, nous ne nous préoccupons pas d'ensembles quelconques $E$ et $F$ comme à la section précédente.
-A la place nous prenons $E=\{0,1,\cdots,m-1\}$ and $F=\{0,1,\cdots,n-1\}$.
+A la place, nous prenons $E=\{0,1,\cdots,m-1\}$ and $F=\{0,1,\cdots,n-1\}$.
-L'approche la plus directe pour maximiser $BA_{[|0,n-1|]}^d$ serait l'algorithme qui consiste à essayer de calculer l'exactitude équilibré pour toutes les fonctions de $B_{m\rightarrow n}$.
+L'approche la plus directe pour maximiser $BA_{[|0,n-1|]}^d$ serait l'algorithme qui consiste à essayer de calculer l'exactitude équilibrée pour toutes les fonctions de $B_{m\rightarrow n}$.
Cette méthode est viable pour des petites valeurs de $m$ et $n$ mais devient rapidement impossible à calculer pour des grandes valeurs.
-En effet, par dénombrement nous savons que $B_{m\rightarrow n}$ contiens $n^m$ éléments.
-L'algorithme directe a donc une complexité de $\mathcal{O}(on^m)$ opérations.
-Nous allons construire à la place un algorithme que garantie de maximiser l'exactitude équilibré en $\mathcal{O}(onm)$ opérations.
+En effet, par dénombrement nous savons que $B_{m\rightarrow n}$ contient $n^m$ éléments.
+L'algorithme direct a donc une complexité de $\mathcal{O}(on^m)$ opérations.
+Nous allons construire à la place un algorithme qui garantit de maximiser l'exactitude équilibrée en $\mathcal{O}(onm)$ opérations.
-Pour le construire nous allons, d'une certaine manière, distribuer l'opérateur argmax, simplifiant ainsi l'expression de l'exactitude équilibré optimale.
-Pour cela, dans le lemme qui suit nous allons reformuler l'exactitude équilibré.
+Pour le construire nous allons, d'une certaine manière, distribuer l'opérateur argmax, simplifiant ainsi l'expression de l'exactitude équilibrée optimale.
+Pour cela, dans le lemme qui suit nous allons reformuler l'exactitude équilibrée.
\begin{lemma}
\label{lem:sumei}
@@ -222,7 +222,7 @@ Pour cela, dans le lemme qui suit nous allons reformuler l'exactitude équilibrÃ
\right.
\end{equation*}
- Nous pouvons alors écrire l'exactitude équilibré de la manière suivant :
+ Nous pouvons alors écrire l'exactitude équilibrée de la manière suivant :
\begin{equation*}
BA_{[|0,n-1|]}^d(h) = \frac{1}{n}
\sum_{i=0}^{m-1} e_i(h(i))
@@ -342,7 +342,7 @@ Pour cela, dans le lemme qui suit nous allons reformuler l'exactitude équilibrÃ
{\#\{j\in [|0,o-1|]\quad| d_1(j)=l\}}
\end{equation*}
- Par substitution du terme générale de cette somme par le résultat obtenu dans l'équation~\ref{eq:sumei} :
+ Par substitution du terme général de cette somme par le résultat obtenu dans l'équation~\ref{eq:sumei} :
\begin{align*}
&BA_{[|0,n-1|]}^d(h)\\
=&\frac{1}{n}
@@ -358,9 +358,9 @@ Pour cela, dans le lemme qui suit nous allons reformuler l'exactitude équilibrÃ
Ce qui donne le résultat attendu.
\end{proof}
-Ce lemme nous permet de calculer l'argmax souhaité en calculant le entrée de la matrice $M = \left(e_i(l)\right)_{i\in[|0,m-1|],l\in[|0,m-1|]}$
-au lieu de calculer l'exactitude équilibré de toutes le fonctions de $B_{m\rightarrow n}$.
-Nous cherchons donc le maximum de chaque ligne de $M$ ce qui fait que nous n'avons qu'a parcourir une fois chaque élément de $M$.
+Ce lemme nous permet de calculer l'argmax souhaité en calculant l'entrée de la matrice $M = \left(e_i(l)\right)_{i\in[|0,m-1|],l\in[|0,m-1|]}$
+au lieu de calculer l'exactitude équilibrée de toutes le fonctions de $B_{m\rightarrow n}$.
+Nous cherchons donc le maximum de chaque ligne de $M$ ce qui fait que nous n'avons qu'à parcourir une fois chaque élément de $M$.
Nous formalisons cette idée dans le théorème suivant :
\begin{theorem}
diff --git a/classification_finie/tabular.tex b/classification_finie/tabular.tex
index 017b250..9553af6 100644
--- a/classification_finie/tabular.tex
+++ b/classification_finie/tabular.tex
@@ -1,9 +1,9 @@
-Dans cette section nous allons évaluer comme se comporte notre algorithme dans des cas d'usage pratiques.
+Dans cette section nous allons évaluer comment se comporte notre algorithme dans des cas d'usage pratiques.
\subsection{Classification de données tabulaires}
Nous allons évaluer notre nouvel algorithme sur les jeux de données COMPAS et sur LAW.
Nous présenterons plus en détail ces bases de données à la Section~\ref{sec:aia-méthodo-jeu}.
-Disons pour le moment que COMPAS est un jeu tabulaire utilisé en justice prédictive pour créer des RAI comme nous les avons présenté en Section~\ref{sec:contexte-insti} et que LAW sert aux école de droit au États Unis pour sélectionner les étudiants en première année.
+Disons pour le moment que COMPAS est un jeu tabulaire utilisé en justice prédictive pour créer des RAI comme nous les avons présentés en Section~\ref{sec:contexte-insti} et que LAW sert aux écoles de droit aux États-Unis pour sélectionner les étudiants en première année.
Nous allons entraîner notre algorithme ainsi qu'une forêt aléatoire pour prédire si un coupable est récidiviste ou non sur COMPAS et pour prédire si un étudiant en droit va réussir l'examen du barreau par LAW.
\begin{figure}
@@ -17,15 +17,15 @@ Nous allons entraîner notre algorithme ainsi qu'une forêt aléatoire pour pré
\caption{LAW}
\end{subfigure}
- \caption{Comparaison de l'exactitude équilibré entre une forêt aléatoire (random forest) et notre algorithme (finit classifier).}
+ \caption{Comparaison de l'exactitude équilibrée entre une forêt aléatoire (random forest) et notre algorithme (finit classifier).}
\label{fig:ba}
\end{figure}
-Nous observons les résultats de l'exactitude équilibré sur la Figure~\ref{fig:ba}.
-Les boîtes à moustache ont été obtenus grâce au processus de validations croisée\footnote{\textit{Cross validation}}.
-Nous, n'observons pas de différence significative d'exactitude équilibré pour COMPAS, en revanche sur LAW notre algorithme est meilleur de plus de 10 points d'exactitude équilibré.
+Nous observons les résultats de l'exactitude équilibrée sur la Figure~\ref{fig:ba}.
+Les boîtes à moustache ont été obtenues grâce au processus de validations croisées\footnote{\textit{Cross validation}}.
+Nous n'observons pas de différence significative d'exactitude équilibrée pour COMPAS ; en revanche sur LAW notre algorithme est meilleur de plus de 10 points d'exactitude équilibrée.
Sur COMPAS nous observons que pour certaines étapes de validation la forêt aléatoire dépasse notre algorithme.
-Cela ne vas pas à l'encontre du fait que notre algorithme produise la meilleur exactitude équilibré car cette assertion est vrai pour les données d'entraînement et ces résultats sont obtenus sur les donnes d'évaluations qui n'ont jamais été vus à l'entraînement.
+Cela ne va pas à l'encontre du fait que notre algorithme produise la meilleure exactitude équilibrée car cette assertion est vraie pour les données d'entraînement et ces résultats sont obtenus sur les données d'évaluation qui n'ont jamais été vues à l'entraînement.
\begin{figure}
\centering
@@ -42,7 +42,7 @@ Cela ne vas pas à l'encontre du fait que notre algorithme produise la meilleur
\label{fig:time}
\end{figure}
-Comme nous l'avons vu à la Section~\ref{sec:contexte-conso} la consommation d'énergie est un enjeu capitale de l'IA.
+Comme nous l'avons vu à la Section~\ref{sec:contexte-conso} la consommation d'énergie est un enjeu capital de l'IA.
Nous avons donc enregistré le temps que prend l'ordinateur pour apprendre le modèle.
Nous comparons donc notre algorithme à une forêt aléatoire dans la Figure~\ref{fig:time}.
Nous utilisons l'implémentation de forêt aléatoire de scikit-learn~\cite{scikit-learn} sur un ordinateur portable Dell Latitude 5420 avec un processeur i7-1165G7 @ 2.8 GHz.
@@ -50,15 +50,15 @@ Notre algorithme est trois fois plus rapide sur LAW et quatre fois plus rapide s
\FloatBarrier
\subsection{Classification de données disparates}
-Les données disparates sont de formes et de types hétérogènes comme par exemple des images de dimension différentes.
-C'est un cas courant qui se produit après avoir récupérer des données brute et rend l'application directe de la plus part des algorithme d'apprentissage automatique impossible sans prétraitement\footnote{\textit{Preprocessing}} ou intervention manuelle~\cite{ben2002theoretical}.
-Notre algorithme développé plus haut ne soufre pas de tel problème car il nous travaillons uniquement sur le indices des éléments que l'on souhaite classifier.
+Les données disparates sont de formes et de types hétérogènes comme par exemple des images de dimensions différentes.
+C'est un cas courant qui se produit après avoir récupéré des données brutes et rend l'application directe de la plupart des algorithmes d'apprentissage automatique impossible sans prétraitement\footnote{\textit{Preprocessing}} ou intervention manuelle~\cite{ben2002theoretical}.
+Notre algorithme développé plus haut ne soufre pas de tel problème car nous travaillons uniquement sur les indices des éléments que l'on souhaite classifier.
-Nous explorons cet aspect avec l'expérience suivante : nous avons demandé à un panel d'utilisateur.ice.s de décrire en quelques mots les styles des tableaux de Paul Cezanne, un peintre impressionniste connu principalement pour ses tableaux de Provence.
-Les utilisateur.ices.s ont vu défile les tableaux un-à-un.
-Pour chaque tableau il.elle.s devaient remplir en champ de texte n'imposant aucune restriction.
+Nous explorons cet aspect avec l'expérience suivante : nous avons demandé à un panel d'utilisateur.ice.s de décrire en quelques mots les styles des tableaux de Paul Cézanne, un peintre impressionniste connu principalement pour ses tableaux de Provence.
+Les utilisateur.ices.s ont vu défiler les tableaux un-à-un.
+Pour chaque tableau il.elle.s devaient remplir un champ de texte n'imposant aucune restriction.
Cela a créé des réponses très hétérogènes comme par exemple \textit{Paul Alexis lisant à Émile Zola} montré en Figure~\ref{fig:zola} qui à été classifié comme \textquote{Hôpital psychiatrique}.
-Les utilisateur.rice.s peuvent être vus comme l'ensemble des classifieurs faibles dont notre algorithme vas cumuler les prédiction pour un créer une qui crée consensus au sens de la maximisation de l'exactitude équilibré.
+Les utilisateur.rice.s peuvent être vu.e.s comme l'ensemble des classifieurs faibles dont notre algorithme va cumuler les prédictions pour en créer une qui fai consensus au sens de la maximisation de l'exactitude équilibrée.
C'est donc une méthode qui se rapproche de la votation.
\begin{figure}
@@ -67,6 +67,6 @@ C'est donc une méthode qui se rapproche de la votation.
\caption{\textit{Paul Alexis lisant à Emile Zola}, Paul Cézanne, 1869-1870 (Huile sur toile) São Paulo, MASP, Museu de Arte de São Paulo Assis Chateaubriand © Museu de Arte, Sao Paulo, Brazil / Giraudon / Bridgeman Giraudon}
\end{figure}
-Nous obtenons un exactitude équilibré de 0,48 pour une évaluation sur 20 tableaux, soit un aléatoire à $\frac{1}{20}=0,005$.
+Nous obtenons un exactitude équilibrée de 0,48 pour une évaluation sur 20 tableaux, soit un aléatoire à $\frac{1}{20}=0,005$.
\FloatBarrier