summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorJan Aalmoes <jan.aalmoes@inria.fr>2024-10-05 19:25:34 +0200
committerJan Aalmoes <jan.aalmoes@inria.fr>2024-10-05 19:25:34 +0200
commit411624f6f259084641deb92f20d512908c8b7d4f (patch)
treec25c1ce9afbb9252217a45deb76b3e63ae648ab9
parentd4021e6f8a0bf771b755d39da8515266ef75e667 (diff)
Correction maman
-rw-r--r--aia/aia.tex5
-rw-r--r--aia/fair_reg.tex4
-rw-r--r--aia/figure/tikz/data.tex4
-rw-r--r--aia/methodo.tex14
-rw-r--r--background/alg.tex4
-rw-r--r--background/conf.tex7
-rw-r--r--background/dif.tex8
-rw-r--r--background/eq.tex12
-rw-r--r--background/ml.tex24
-rw-r--r--background/proba.tex12
-rw-r--r--biblio.bib15
-rw-r--r--classification_finie/finit_classif.tex6
-rw-r--r--classification_finie/introduction.tex4
-rw-r--r--classification_finie/main.tex2
-rw-r--r--classification_finie/tabular.tex6
-rw-r--r--conclusion.tex8
-rw-r--r--contexte/enjeux.tex6
-rw-r--r--contexte/legal.tex6
-rw-r--r--contexte/philo.tex2
-rw-r--r--contexte/philo/anthro.tex8
-rw-r--r--contexte/philo/peur.tex4
-rw-r--r--contexte/strat.tex6
-rw-r--r--folio.tex41
-rw-r--r--garde.tex29
-rw-r--r--introduction.tex23
-rw-r--r--synthetic/introduction.tex4
-rw-r--r--synthetic/methodology.tex8
-rw-r--r--synthetic/related.tex2
-rw-r--r--synthetic/results.tex2
-rw-r--r--template_these_INSA_cotut.pdfbin9403205 -> 9403984 bytes
-rw-r--r--template_these_INSA_cotut.tex2
-rw-r--r--theorem.tex2
32 files changed, 156 insertions, 124 deletions
diff --git a/aia/aia.tex b/aia/aia.tex
index 147cf3d..b77277e 100644
--- a/aia/aia.tex
+++ b/aia/aia.tex
@@ -20,14 +20,9 @@ Nous allons l'utiliser pour construire une AIA qui donne la garantie théorique
Nous appelons cette AIA : \AIAHard.
\subsection{AIA pour les modèles de régression}
-<<<<<<< HEAD
\label{sec:aia-soft}
-Dans le cas d'un modèle cible qui effectua une régression nous avons $\#F$ infini donc nous ne pouvons pas utiliser \AIAHard.
-Ce cas où l'adversaire a accès un modèle de régression prend en compte le cas où le modèle cible de prédiction divulgue un logit par exemple.
-=======
Dans le cas d'un modèle cible qui effectue une régression nous avons $\#F$ infini, donc nous ne pouvons pas utiliser \AIAHard.
Ce cas où l'adversaire a accès au modèle de régression prend en compte le cas où le modèle cible de prédiction divulgue un logit par exemple.
->>>>>>> 642fa138bd0127b42b8906e412a5ee761b120ac2
C'est le modèle de menace qu'applique Song et. al~\cite{Song2020Overlearning} dans leur AIA.
Nous utiliserons comme modèle d'AIA une forêt aléatoire puis nous optimiserons son seuil en utilisant la courbe ROC pour prendre en compte le déséquilibre de classes dans l'attribut sensible.
diff --git a/aia/fair_reg.tex b/aia/fair_reg.tex
index 6c01cc8..ed5d10a 100644
--- a/aia/fair_reg.tex
+++ b/aia/fair_reg.tex
@@ -3,7 +3,7 @@ Dans le cas d'un classifieur binaire ($\hat{Y}$) avec attribut binaire ($S$), no
\begin{equation*}
\text{DemParLvl} = |P(\hat{Y}=1|S=0) - P(\hat{Y}=1|S=1)|
\end{equation*}
-C'est l'écart de prédiction positive entre la classe majoritaire(par exemple les blancs, le hommes, ...) et la classe minoritaire (les noirs, les femmes, ...).
+C'est l'écart de prédiction positive entre la classe majoritaire (par exemple les blancs, les hommes, ...) et la classe minoritaire (les noirs, les femmes, ...).
\begin{propriete}
\label{prop:aia-dpl0}
Un classifieur qui satisfait la parité démographique a un DemParLvl égal à zéro.
@@ -13,7 +13,7 @@ La démonstration est triviale à partir de la Définition~\ref{def:background-e
DemPar est équivalente à dire que la prédiction du modèle est indépendante de l'attribut sensible.
Nous remarquons que cette définition n'est ni restreinte à des problèmes de classifications, ni à des attributs sensibles binaires, ni même à des attributs sensibles qui prennent leurs valeurs dans un ensemble fini.
Ainsi nous définissons la notion suivante:
-\begin{definition}{Parité démographique généralisée.}
+\begin{definition}[Parité démographique généralisée]
\label{def:aia-dempargen}
Soit $(\Omega,\mathcal{T},P$) un espace probabilisé.
Soient $(E,\mathcal{E})$, $(F,\mathcal{F})$ et $(G,\mathcal{G})$ des espaces mesurables.
diff --git a/aia/figure/tikz/data.tex b/aia/figure/tikz/data.tex
index c43d496..728498b 100644
--- a/aia/figure/tikz/data.tex
+++ b/aia/figure/tikz/data.tex
@@ -3,13 +3,13 @@
\node[database,label={[align=center]above:Donné\\cible}] (base) at (0,0) {};
\node[rectangle,draw,align=center] (cible) at (10,0) {Modèle\\cible};
\draw[->,align=center] (base) to[bend left] node[midway,above] {80\% entraînement\\sans attribut sensible} (cible);
- \draw[->] (base) to[bend right] node[midway,below] (test) {20\% evaluation} (cible);
+ \draw[->] (base) to[bend right] node[midway,below] (test) {20\% évaluation} (cible);
\node[database,label={[align=left]right:Donnée\\auxilière}] (aux) at (10,-5.5) {};
\draw[->] (test) to[out=-90,in=90] node[midway,above] {\hspace{50px}Attribut sensible} (aux);
\draw[->] (cible) to node[midway,right] {Prédiction} (aux);
\node[rectangle,draw,align=center] (attaque) at (5,-5.5) {Modèle\\AIA};
\draw[->] (aux) to[bend right] node[midway,above] {80\% entraînement} (attaque);
- \draw[->] (aux) to[bend left] node[midway,below] {20\% evaluation} (attaque);
+ \draw[->] (aux) to[bend left] node[midway,below] {20\% évaluation} (attaque);
\node[rectangle,align=center] (result) at (0,-5.5) {Exactitude\\équilibrée};
\draw[->] (attaque) to (result);
\end{tikzpicture}
diff --git a/aia/methodo.tex b/aia/methodo.tex
index a64320d..c4d4f62 100644
--- a/aia/methodo.tex
+++ b/aia/methodo.tex
@@ -8,20 +8,20 @@ De plus, dans le cas de \AIAHard, nous allons pouvoir vérifier expérimentaleme
\paragraph{CENSUS}
Le sondage des Etats-Unis d'Amérique produit tous les dix ans un jeu de données appelé CENSUS contenant les informations de tous les citoyens\footnote{www.census.gov}.
-La version que nous avons utilisé contient 30.940 données avec 95 attributs comme le travail occupé, le statut marital etc.
+La version que nous avons utilisée contient 30.940 données avec 95 attributs comme le travail occupé, le statut marital etc.
Parmi ces attributs, certains sont sensibles comme la couleur de peau appelée \textit{race} ou le genre appelé \textit{sex}.
Avec ce jeu de données, nous construisons un classifieur cible qui cherche à inférer si un individu gagne plus de 50.000 dollars par an.
\paragraph{COMPAS}
Cette base de données est construite à partir des affaires criminelles aux États-Unis.
Elle est utilisée notamment par les différents algorithmes commerciaux de justice prédictive que nous avons introduits en Section~\ref{sec:contexte-insti}.
-Elle contient les données de 6.172 criminel jugés coupables en Floride.
+Elle contient les données de 6.172 criminels jugés coupables en Floride.
Elle contient sept attributs.
\paragraph{MEPS}
Cette base de données provient du système de santé des États-Unis.
Elle contient l'historique de trajets réalisés par 15.830 patients.
-Le tâche de classification du modèle cible est de prédire si un patient utilise fortement ou faiblement les services de santé.
+La tâche de classification du modèle cible est de prédire si un patient utilise fortement ou faiblement les services de santé.
\paragraph{LFW}
Cette base de données contient 8.212 images de visages de personnes.
@@ -29,7 +29,7 @@ La tâche principale est de classifier si une personne a plus de 35 ans.
\paragraph{Attributs sensibles}
Toutes ces bases de données contiennent les attributs sensibles \textit{race} et \textit{sex}.
-Nous rendons binaire ces attributs :
+Nous rendons binaires ces attributs :
\textit{race} vaut 1 si la personne a la peau noire et 0 sinon ;
\textit{sex} vaut 1 si la personne est une femme et 0 sinon.
@@ -37,7 +37,7 @@ Nous rendons binaire ces attributs :
Pour simuler le modèle de menace, nous séparons chaque base de données de la manière suivante :
chaque base de données est séparée en 80\% d'entraînement et 20\% d'évaluation.
Dans l'entraînement on retire l'attribut sensible et on l'utilise pour entraîner le modèle cible.
-Ensuite nous utilisons l'évaluation sans l'attribut sensible pur calculer les prédictions que nous lions ligne par ligne à leur attribut sensible correspondant.
+Ensuite nous utilisons l'évaluation sans l'attribut sensible pour calculer les prédictions que nous lions ligne par ligne à leur attribut sensible correspondant.
Cela crée la base auxiliaire qui respecte bien les exigences du modèle de menace : les données n'ont pas été utilisées à l'entraînement.
Cette base auxiliaire est ensuite séparée en 80\% d'entraînement et 20\% d'évaluation.
Les 80\% d'entraînement sont utilisés pour construire le modèle d'attaque qui sert à prédire l'attribut sensible à partir de la prédiction du modèle cible.
@@ -50,7 +50,7 @@ Nous reportons dans la Section~\ref{sec:aia-resexp} contenant les résultats exp
\subsection{Imposer l'équité}
Nous comparons le succès de l'AIA avec et sans utilisation de mécanisme pour imposer l'équité.
-Nous utilisons pour cela les mécanisme décrit à la Section~\ref{sec:background-eq-imp} : L'approche par réduction pour une classification équitable et le rééquilibrage adverse.
-Nous imposons la parité démographique, le but de ses expérience étant d'observer si en pratique les mécanismes d'équité permette de mitiger les AIA.
+Nous utilisons pour cela les mécanismes décrits à la Section~\ref{sec:background-eq-imp} : L'approche par réduction pour une classification équitable et le rééquilibrage adverse.
+Nous imposons la parité démographique, le but de ces expériences étant d'observer si en pratique les mécanismes d'équité permettent de mitiger les AIA.
Ainsi pour l'approche par réduction nous évaluons uniquement \AIAHard~ alors que pour l'approche adverse nous évaluons les deux AIA.
diff --git a/background/alg.tex b/background/alg.tex
index 73a1d84..8484cfe 100644
--- a/background/alg.tex
+++ b/background/alg.tex
@@ -1,6 +1,6 @@
\subsubsection{Espace vectoriel}
Les espaces vectoriels sont des structures fondamentales qui vont nous servir à comprendre comment fonctionne l'entraînement des réseaux de neurones.
-\begin{definition}{Groupe}
+\begin{definition}[Groupe]
Soit $E$ un ensemble et $+$ une opération sur $E$.
Nous dirons que $(E,+)$ est un groupe si et seulement si
\begin{enumerate}
@@ -14,7 +14,7 @@ Les espaces vectoriels sont des structures fondamentales qui vont nous servir à
Nous dirons que le groupe $(E,+)$ est abélien.
\end{definition}
-\begin{definition}{Espace vectoriel}
+\begin{definition}[Espace vectoriel]
Soit $E$ un ensemble muni d'une loi interne $+$ et d'une loi externe $\cdot:\mathbb{R}\times E\rightarrow E$.
Sous les conditions suivantes, nous dirons que $(E,+,\cdot)$ est un espace vectoriel.
\begin{enumerate}
diff --git a/background/conf.tex b/background/conf.tex
index 4c22136..148615d 100644
--- a/background/conf.tex
+++ b/background/conf.tex
@@ -11,10 +11,9 @@ Dans le cadre d'attaques nous parlerons de \emph{modèle cible} pour désigner l
L'attaque d'inférence d'appartenance (MIA) consiste à inférer si une donnée a servi à l'entraînement du modèle cible.
Cette attaque utilise le fait que les modèles d'apprentissage automatique ont en général une moins bonne performance sur les données qui n'ont pas été utilisées à l'entraînement, c'est le sur-ajustement\footnote{\textit{Overfitting}}~\cite{hawkins2004problem,ying2019overview}.
Ce problème peut survenir principalement quand le modèle cible est trop complexe par rapport à la tâche qui lui est demandée.
-Pour reprendre les mots de Hawkisn et al. : \textquote{Le sur-ajustement est l'utilisation de modèles ou de procédures qui vont à l'encontre de la parcimonie, c'est-à-dire qui utilisent plus de termes ou qui utilisent des approches plus complexe que ce qui est nécessaire}
+Pour reprendre les mots de Hawkisn et al. : \textquote{Le sur-ajustement est l'utilisation de modèles ou de procédures qui vont à l'encontre de la parcimonie, c'est-à-dire qui utilisent plus de termes ou qui utilisent des approches plus complexes que ce qui est nécessaire}
\footnote{\textit{Overfitting is the use of models or procedures that violate
-parsimony, that is, that include more terms than are neces-
-sary or use more complicated approaches than are necessary.}}
+parsimony, that is, that include more terms than are necessary or use more complicated approaches than are necessary.}}
Nous voyons sur la Figure~\ref{fig:background-conf-mia} l'écart entre la valeur de la fonction de coût évalué sur les données d'entraînement et d'évaluation.
Le lien est assez clair, un écart significatif indique qu'un classifieur va être capable d'apprendre quelles données ont été utilisées pour l'entraînement.
Pour vérifier cela, la Sous-figure~\ref{sfig:background-conf-mia-ba} montre comment une forêt aléatoire a pu apprendre cette distinction.
@@ -44,7 +43,7 @@ Si ce n'est pas le cas, l'adversaire utilise des modèles miroirs\footnote{\text
Un modèle d'attaque de MIA peut ensuite être utilisé comme base pour d'autres types d'attaques, comme par exemple reconstruire un attribut sensible des données ayant servi à l'entraînement~\cite{yeom}.
La confidentialité différentielle\footnote{\textit{Differential privacy}} permet d'empêcher les attaques MIA~\cite{chen2020differential,rahman2018membership}.
-\begin{definition}{Confidentialité différentielle}
+\begin{definition}[Confidentialité différentielle]
Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé.
Soit $(S,\mathcal{S})$ un espace mesurable et $\mathcal{V}$ l'ensemble des fonctions mesurables de $\Omega$ dans $S$.
Soient $E$ un ensemble et $M$ une fonction de $E$ dans $\mathcal{V}$.
diff --git a/background/dif.tex b/background/dif.tex
index 0d1b106..6484923 100644
--- a/background/dif.tex
+++ b/background/dif.tex
@@ -1,13 +1,13 @@
Le but du calcul différentiel est l'étude des variations infinitésimales des fonctions.
Nous allons nous contenter ici d'étudier les fonctionnelles, c'est-à-dire des fonctions de $\mathbb{R}^n$ dans $\mathbb{R}$ car c'est ce dont nous allons avoir besoin en apprentissage automatique.
-\begin{definition}{Produit scalaire euclidien}
+\begin{definition}[Produit scalaire euclidien]
\label{def:background-dif-scal}
Soit $(x,y){\in\mathbb{R}^n}^2$ alors le produit scalaire euclidien est
\begin{equation*}
\langle x,y \rangle = \sum_{i=0}^{n-1}x_iy_i
\end{equation*}
\end{definition}
-\begin{definition}{Norme euclidienne}
+\begin{definition}[Norme euclidienne]
\label{def:background-dif-eucl}
Soit $x\in\mathbb{R}^n$, nous définissons le norme euclidienne de $x$ par l'expression suivante
\begin{equation*}
@@ -15,7 +15,7 @@ Nous allons nous contenter ici d'étudier les fonctionnelles, c'est-à-dire des
\end{equation*}
\end{definition} 
-\begin{definition}{Limite}
+\begin{definition}[Limite]
\label{def:background-dif-lim}
Soit $f$ une fonction de $\mathbb{R}^m$ dans $\mathbb{R}^n$.
Soit $x\in\mathbb{R}^m$.
@@ -26,7 +26,7 @@ Nous allons nous contenter ici d'étudier les fonctionnelles, c'est-à-dire des
Nous écrivons $lim_{a\rightarrow x}f(a)=y$ car $y$ est alors unique~\cite{Bourrigan2021-dd}.
\end{definition}
-\begin{definition}{Différentielle}
+\begin{definition}[Différentielle]
\label{def:background-dif-dif}
Soit $f$ une fonction de $\mathbb{R}^n$ dans $\mathbb{R}$.
Nous dirons que $f$ est différentiable en $a\in\mathbb{R}^n$ si et seulement si il existe
diff --git a/background/eq.tex b/background/eq.tex
index b8e431f..64f3de3 100644
--- a/background/eq.tex
+++ b/background/eq.tex
@@ -8,7 +8,7 @@ Ces biais sont appris par le modèle car ils sont présents dans les données d'
Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une régression logistique peut présenter une différence de traitement entre deux sous-groupes de la population.
Nous observons que comme il y a moins de données de femmes, le modèle a appris une courbe qui se rapproche plus des données d'hommes.
Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous les points rouges qui correspondent aux femmes passent au dessus du seuil représenté par la ligne horizontale grise.
-Ainsi, bien que les étiquettes soient réparties équitablement chez les hommes et chez les femmes, le modèle classifie toutes les femme dans la classe 1.
+Ainsi, bien que les étiquettes soient réparties équitablement chez les hommes et chez les femmes, le modèle classifie toutes les femmes dans la classe 1.
Il s'agit ici d'un cas scolaire sur des données générées mais supposons que la classe 1 soit désavantageuse.
Par exemple, imaginons que ce modèle soit utilisé dans un programme de recrutement automatique.
La classe 0 implique que le candidat est sélectionné, la classe 1 implique que le candidat est rejeté.
@@ -40,13 +40,13 @@ Alors ce programme serait discriminatoire car bien que 50\% des femmes et 50\% d
\subsubsection{Définitions de l'équité}
L'équité en apprentissage automatique se présente sous deux aspects qui mettent en lumière deux visions différentes :
-\textbf{L'équité individuelle}\footnote{Individual fairness}
+\textbf{L'équité individuelle}\footnote{\textit{Individual fairness}}
cherche à faire en sorte que deux données, à toutes choses égales, excepté l'attribut sensible, produisent la même prédiction.
-\textbf{L'équité de groupe}\footnote{Group fairness}
+\textbf{L'équité de groupe}\footnote{\textit{Group fairness}}
vient de l'idée que différents sous-groupes définis par un critère de discrimination devraient être traités de manière similaire.
Il y a différentes définitions mathématiques de l'équité de groupe.
-Nous allons en regarder trois qui sont bien établies dans la littérature et souvent utilisées : l'effet différencié\footnote{disparate impact} la parité démographique\footnote{Demographic parity} et l'équité des chances\footnote{Equality of odds}.
+Nous allons en regarder trois qui sont bien établies dans la littérature et souvent utilisées : l'effet différencié\footnote{\textit{disparate impact}} la parité démographique\footnote{\textit{Demographic parity}} et l'équité des chances\footnote{\textit{Equality of odds}}.
Pour cela nous allons considérer le cadre suivant :
Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essaie d'inférer l'étiquette $Y$.
@@ -62,7 +62,7 @@ De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs
Cette notion ne fonctionne que pour $F=G=\{0,1\}$.
\end{definition}
-Cette définition est utilisé aux États-Unis pour montrer qu'une structure a une politique discriminatoire à l'encontre d'une minorité, comme nous l'avons vu à la Section~\ref{sec:contexte-legal}.
+Cette définition est utilisée aux États-Unis pour montrer qu'une structure a une politique discriminatoire à l'encontre d'une minorité, comme nous l'avons vu à la Section~\ref{sec:contexte-legal}.
\begin{definition}
\label{def:background-eq-dp}
@@ -79,7 +79,7 @@ Pour certaines applications cet effet n'est pas souhaitable.
Ainsi Hardt et al.~\cite{fairmetric2} proposent de modifier la parité démographique pour prendre en compte l'étiquette, ce qui donne la définition suivante :
\begin{definition}
\label{def:background-eq-eoo}
- $\hat{Y}$ satisfait l'équité des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad
+ $\hat{Y}$ satisfait l'\emph{équité des chances} pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad
P(\hat{Y}=\hat{y} | S=s_1,Y=y) = P(\hat{Y}=\hat{y} | S=s_2,Y=y)$.
\end{definition}
diff --git a/background/ml.tex b/background/ml.tex
index 55fce3c..9b9e665 100644
--- a/background/ml.tex
+++ b/background/ml.tex
@@ -2,7 +2,7 @@ L'apprentissage automatique\footnote{\textit{Machine learning}} est le fondement
Les réseaux de neurones profonds ont révolutionné ce domaine notamment grâce à l'augmentation de la puissance de calcul des cartes graphiques~\cite{lecun2019quand}.
\subsection{Principe}
-Reprenons la définition de l'IA donnée dans le Règlement UE 2024/1689 pour une harmonisation des régulations relatives a l'IA~\cite{aiact} et notamment la Figure~\ref{fig:contexte-IAUE}.
+Reprenons la définition de l'IA donnée dans le Règlement UE 2024/1689 pour une harmonisation des régulations relatives à l'IA~\cite{aiact} et notamment la Figure~\ref{fig:contexte-IAUE}.
Cette définition exprime bien le fonctionnement d'un modèle d'apprentissage automatique.
Le modèle est une fonction qui prend en entrée une donnée d'entrée et des paramètres et qui renvoie une prédiction.
Le vie d'un modèle se passe en deux étapes.
@@ -67,8 +67,8 @@ Nous pouvons donc appliquer une descente de gradient comme vu à la Section~\ref
\begin{equation*}
\text{min}_{\theta\in\Theta}c(\theta)
\end{equation*}
-En pratique la quantité $c(\theta)$ est évaluée en calculant la moyenne empirique sur un grande nombre de données, ce qui converge vers l'espérance d'après la loi des grands nombres~\cite{proba}.
-$c$ n'étant pas forcément convexe, en fonction du point de départ ($x_0$) l'algorithme de descente de gradient peut converger vers un minimum local qui donnera un modèle finale avec de piètres qualités.
+En pratique la quantité $c(\theta)$ est évaluée en calculant la moyenne empirique sur un grand nombre de données, ce qui converge vers l'espérance d'après la loi des grands nombres~\cite{proba}.
+$c$ n'étant pas forcément convexe, en fonction du point de départ ($x_0$) l'algorithme de descente de gradient peut converger vers un minimum local qui donnera un modèle final avec de piètres qualités.
C'est ce que nous représentons dans la Figure~\ref{fig:background-opti-cvx} où nous voyons une convergence vers un minimum local alors que le point recherché est au fond d'une vallée plus profonde.
Très souvent l'algorithme d'optimisation utilisé est la descente de gradient stochastique (SGD)\footnote{\textit{Stochastic gradient descent}}~\cite{amari1993back}, c'est une version modifiée de la descente de gradient adaptée aux réseaux de neurones qui permet d'accélérer la convergence~\cite{bottou2012stochastic} et d'éviter les minima locaux~\cite{bottou1991stochastic}.
@@ -156,7 +156,7 @@ Nous appelons cela l'\emph{optimisation des hyperparamètres}.
Pour cela nous repartons de l'Equation~\ref{eq:background-ml-ac} et remplaçons $P(Y=0)$ et $P(Y=1)$ par $\frac{1}{2}$.
Ainsi l'exactitude équilibrée est la moyenne de $P(\hat{Y}=0|Y=0)$ et de $P(\hat{Y}=1|Y=1)$.
De manière plus générale, l'exactitude équilibrée est
- $\frac{1}{\#F}\sum_{f\in F}P(\hat{Y}=F\mid Y=F)$.
+ $\frac{1}{\#F}\sum_{f\in F}P(\hat{Y}=f\mid Y=f)$.
C'est-à-dire que nous regardons pour chaque classe séparément (homme ou femme dans notre exemple) la probabilité qu'un point soit bien classifié.
Ainsi, en calculant l'exactitude équilibrée avec l'exemple précèdent nous obtenons $\frac{1+0}{2}=0,5$.
Ce résultat montre bien que le modèle n'a pas d'utilité.
@@ -165,11 +165,11 @@ Nous appelons cela l'\emph{optimisation des hyperparamètres}.
Un grand nombre d'algorithmes d'apprentissage automatique pour la classification binaire optimise les paramètres d'une fonction à valeurs dans $[0,1]$ (ou dans un ensemble en bijection avec $[0,1]$).
C'est le cas par exemple des réseaux de neurones avec un unique neurone dans la couche finale, de la régression logistique, de la forêt aléatoire, etc.
Nous appelons cette étape intermédiaire dans la classification, logit ou \textit{soft label}.
- La classification se fait grâce un seuil sur ce logit.
+ La classification se fait grâce à un seuil sur ce logit.
C'est-à-dire que si on appelle $g(x)$ le logit de $x$, le modèle de classification peut se décomposer par : $f_\uptau = 1_{[\uptau,1]}\circ g$.
Ainsi si nous calculons l'exactitude, l'exactitude équilibrée ou toute autre métrique que nous avons présentée précédemment, elle dépendra du seuil ($\uptau$).
- Pour palier cela nous regardons la ROC : une courbe paramétrique qui, au seuil, associe le taux de faux positifs (FPR)\footnote{\textit{False positive rate}} et le taux de vrais positifs (TPR)\footnote{\textit{True positive rate}}.
+ Pour pallier cela nous regardons la ROC : une courbe paramétrique qui, au seuil, associe le taux de faux positifs (FPR)\footnote{\textit{False positive rate}} et le taux de vrais positifs (TPR)\footnote{\textit{True positive rate}}.
Nous définissons ces quantités comme suit :
\begin{itemize}
\item Taux de faux positifs : $\text{fpr}(\uptau) = P(f_\uptau\circ X=1\mid Y=0)$
@@ -325,8 +325,8 @@ Une architecture classique utilise les couches de convolution à l'entrée du rÃ
L'idée étant que le modèle commence par extraire des représentations puis les analyse.
Dans ce type de couche, le paramètre $\theta_i$ est le noyau de convolution.
-C'est la fonction par laquelle on multiple le signal sous l'intégrale.
-Pour un noyau de convolution de taille $c$
+C'est la fonction par laquelle on multiplie le signal sous l'intégrale.
+Pour un noyau de convolution de taille $c$.
\begin{equation}
f_i(x,\theta_i) = \left\{
\begin{matrix}
@@ -340,7 +340,7 @@ Où $x'$ est tel que $x'(u-t)$ soit toujours bien défini par rembourrage\footno
\subsubsection{Modèle génératif}
\label{sec:background-generation}
-Un générateur est une fonction qui prend en entrée un jeu de données réel et renvoie un jeu de données synthétique.
+Un générateur est une fonction qui prend en entrée un jeu de données réel et renvoie un jeu de données synthétiques.
Cette définition est suffisamment générale pour que l'identité soit un générateur.
Nous dirons que la sortie du générateur identité sont des données réelles et nous appellerons données synthétiques la sortie de n'importe quel autre générateur.
@@ -349,7 +349,7 @@ Le but d'un GAN est de générer des échantillons réalistes suivant une loi de
Pour arriver à cela, un GAN utilise deux réseaux de neurones : un générateur et un discriminateur.
Le domaine du générateur est de petite dimension comparativement à son codomaine.
La dimension du codomaine est la même que celle des données que l'on souhaite générer.
-Par exemple, pour générer de images de taille 64 par 64, le codomaine est $\mathbb{R}_{64,64}$.
+Par exemple, pour générer des images de taille 64 par 64, le codomaine est $\mathbb{R}_{64,64}$.
Pour générer une donnée, nous évaluons le générateur sur un point généré à partir d'une loi normale multidimensionnelle.
La sortie de générateur est la nouvelle donnée générée.
@@ -357,7 +357,7 @@ Le discriminateur est utilisé uniquement lors de l'entraînement du GAN et a po
Pour cela, le discriminateur est un réseau de neurones ayant une tâche de classification : inférer si une donnée est synthétique ou réelle.
Ainsi, dans la procédure d'entraînement, le discriminateur et le générateur sont en compétition : le but du générateur est de tromper le discriminateur à classifier une donnée synthétique comme réelle.
-Les GAN ne sont pas la seule manière de créer des données synthétiques, il existe aussi les auto encodeurs qui peuvent se rapprocher de méthodes plus classiques de génération de à partir d'une loi de probabilité qui admet une densité.
+Les GAN ne sont pas la seule manière de créer des données synthétiques, il existe aussi les auto encodeurs qui peuvent se rapprocher de méthodes plus classiques de génération à partir d'une loi de probabilité qui admet une densité.
Pour une variable aléatoire $X$ qui admet une densité $f$, la méthode d'inversion permet de générer des points tels que la loi empirique de ces points converge vers la loi de $X$ quand le nombre de points tend vers l'infini.
Pour cela on génère $n$ points $x$ suivant une loi uniforme sur $[0,1]$ et pour chacun de ces points on calcul $F^{-1}(x)$.
Où $F$ est une primitive de $F$.
@@ -378,7 +378,7 @@ L'apprentissage ensembliste\footnote{\textit{Ensemble learning}} vise à combine
Cette procédure se passe en deux temps.
Le premier consiste à créer un ensemble de classifieurs faibles.
Le second consiste à combiner ces classifieurs pour en obtenir un nouveau efficace.
-Bien sûr ces deux étapes sont liées et doivent être réfléchies ensembles.
+Bien sûr ces deux étapes sont liées et doivent être réfléchies ensemble.
L'apprentissage ensembliste intervient à deux niveaux dans ce manuscrit.
Déjà nous utiliserons beaucoup la forêt aléatoire\footnote{\textit{Random forest}} qui est un algorithme particulièrement efficace pour les bases de données tabulaires~\cite{shwartz2022tabular,grinsztajn2022tree}.
diff --git a/background/proba.tex b/background/proba.tex
index ad43c11..42296ff 100644
--- a/background/proba.tex
+++ b/background/proba.tex
@@ -56,7 +56,7 @@ Nous définissons la mesure image de $f$ par $d$, que nous notons $d_f$, par l'e
\right.
\end{equation}
-\begin{definition}{Intégrale}
+\begin{definition}[Intégrale]
Soit $(E,\mathcal{E},\mu)$ un espace mesuré.
Pour une fonction $f=\sum_{i\in I}\alpha_i 1_{A_i}$, nous dirons étagée,
avec $\{A_i\mid i\in I\} \subset \mathcal{E}$ et $\alpha_i\in\mathbb{R}^+$.
@@ -74,8 +74,8 @@ Nous définissons la mesure image de $f$ par $d$, que nous notons $d_f$, par l'e
\end{equation*}
\end{definition}
-\begin{definition}{Mesure à densité}
- Soit $(E,\mathcal{E},\mu)$ un espace mesuré et $f$ une fonctione mesurbale positive et intégrable.
+\begin{definition}[Mesure à densité]
+ Soit $(E,\mathcal{E},\mu)$ un espace mesuré et $f$ une fonction mesurable positive et intégrable.
Nous définissons la mesure à densité de $f$ de la manière suivante :
\begin{equation*}
\mu.f:\left\{
@@ -101,13 +101,13 @@ Pour un évènement $a\in\mathcal{A}$ tel que $d(a)\neq 0$, la probabilité cond
\end{equation*}
La loi de probabilité d'une variable aléatoire $f$ sur $(X,\mathcal{X})$ est la mesure image de $f$ sur $d$.
-S'il existe une fonction mesurable $g$ telle que $P_f = P.g$ nous dirons que $f$ admet $g$ comme densité.
+Sb'il existe une fonction mesurable $g$ telle que $P_f = P.g$ nous dirons que $f$ admet $g$ comme densité.
-Nous dirons que deux variables aléatoires $f$ et $g$ sont indépendantes si et seulement si la loi de la variables aléatoire $h:\omega\mapsto (f(\omega),g(\omega))$ est la mesure produit de la loi de $f$ et $g$.
+Nous dirons que deux variables aléatoires $f$ et $g$ sont indépendantes si et seulement si la loi de la variable aléatoire $h:\omega\mapsto (f(\omega),g(\omega))$ est la mesure produit de la loi de $f$ et $g$.
De plus, dans le cas des variables aléatoires, il est courant d'écrire $\{f\in A\}$ pour $f^{-1}(A)$ et $\{f=a\}$ pour $f^{-1}(\{a\})$.
-\begin{definition}{Espérance}
+\begin{definition}[Espérance]
Pour une variable aléatoire $X$, on définit l'espérance de $X$ par la formule suivante.
\begin{equation*}
E(X) = \int_{\Omega}X(\omega)dP(\omega)
diff --git a/biblio.bib b/biblio.bib
index 82b4f5f..330552a 100644
--- a/biblio.bib
+++ b/biblio.bib
@@ -1,4 +1,19 @@
######################""
+@book{cover1999elements,
+ title={Elements of information theory},
+ author={Cover, Thomas M},
+ year={1999},
+ publisher={John Wiley \& Sons}
+}
+
+@article{stadler2020synthetic,
+ title={Synthetic data-A privacy mirage},
+ author={Stadler, Theresa and Oprisanu, Bristena and Troncoso, Carmela},
+ journal={arXiv preprint arXiv:2011.07018},
+ year={2020},
+ publisher={Nov}
+}
+
@inproceedings{abowd2008protective,
title={How protective are synthetic data?},
author={Abowd, John M and Vilhuber, Lars},
diff --git a/classification_finie/finit_classif.tex b/classification_finie/finit_classif.tex
index b958275..3c30b0e 100644
--- a/classification_finie/finit_classif.tex
+++ b/classification_finie/finit_classif.tex
@@ -26,7 +26,7 @@ Nous pouvons alors construire un jeu de données d'indices :
{\#\{j\in [|0,o-1|]\quad| d_1(j)=y\}}
\end{equation*}
\end{definition}
-Cette définition est une approximation de l'exactitude équilibrée que nous avons défini plus haut.
+Cette définition est une approximation de l'exactitude équilibrée que nous avons définie plus haut.
\textbf{Le problème consiste à trouver une application $f:E\rightarrow F$ telle que l'exactitude équilibrée de $f$ sur $d$ est maximale.}
\subsection{Relation entre éléments et indices}
@@ -76,7 +76,7 @@ Pour simplifier un peu les notations, nous appellerons $B_{m\rightarrow n}$ l'en
$\varphi$ et $\psi$ peuvent être vus comme des indices sur $E$ et $F$.
Par exemple, chaque élément $e$ dans $E$ a un unique index $\varphi(e)$.
-Cette étape d'abstraction nous permet de construire des fonctions explicites de $E$ dans $F$ sans prendre en compte les spécificités des objets mathématiques dans ses ensembles.
+Cette étape d'abstraction nous permet de construire des fonctions explicites de $E$ dans $F$ sans prendre en compte les spécificités des objets mathématiques dans ces ensembles.
En effet, le théorème~\ref{th:bij} nous dit que pour chaque fonction des indices de $E$ vers les indices de $F$ nous pouvons trouver une unique fonction de $E$ dans $F$.
Et la preuve, étant constructive, nous indique que pour trouver cette fonction nous pouvons utiliser $\Phi^{-1}$.
@@ -359,7 +359,7 @@ Pour cela, dans le lemme qui suit nous allons reformuler l'exactitude équilibrÃ
\end{proof}
Ce lemme nous permet de calculer l'argmax souhaité en calculant l'entrée de la matrice $M = \left(e_i(l)\right)_{i\in[|0,m-1|],l\in[|0,m-1|]}$
-au lieu de calculer l'exactitude équilibrée de toutes le fonctions de $B_{m\rightarrow n}$.
+au lieu de calculer l'exactitude équilibrée de toutes les fonctions de $B_{m\rightarrow n}$.
Nous cherchons donc le maximum de chaque ligne de $M$ ce qui fait que nous n'avons qu'à parcourir une fois chaque élément de $M$.
Nous formalisons cette idée dans le théorème suivant :
diff --git a/classification_finie/introduction.tex b/classification_finie/introduction.tex
index 0e3443d..ac815fa 100644
--- a/classification_finie/introduction.tex
+++ b/classification_finie/introduction.tex
@@ -1,8 +1,8 @@
Dans ce premier chapitre de contribution, nous allons construire un nouvel algorithme d'apprentissage ensembliste.
Plus précisément nous allons nous intéresser à la manière de combiner plusieurs classifieurs : ce que nous avons appelé la seconde partie de la vie d'un algorithme d'apprentissage ensembliste à la Section~\ref{sec:background-aens}.
-Nous allons construire une solution similaire à celle de l'espace de connaissances du comportement\footnote{\textit{Behavior knowledge space}}~\cite{1626170} sauf que au lieu d'optimiser l'exactitude nous allons optimiser l'exactitude équilibré.
+Nous allons construire une solution similaire à celle de l'espace de connaissances du comportement\footnote{\textit{Behavior knowledge space}}~\cite{1626170} sauf que au lieu d'optimiser l'exactitude nous allons optimiser l'exactitude équilibrée.
Pour cela nous allons considérer que nous cherchons une fonction d'un ensemble fini $E$ vers un autre $F$.
$E$ correspond à l'ensemble des uplets possibles des sorties des classifieurs faibles et $F$ aux classes.
Nous commençons notre étude en considérant que nous avons une base de donnée ayant deux colonnes.
-L'une contient des éléments de $E$ et l'autre contient des étiquette de $F$.
+L'une contient des éléments de $E$ et l'autre contient des étiquettes de $F$.
diff --git a/classification_finie/main.tex b/classification_finie/main.tex
index 212477f..0d7a253 100644
--- a/classification_finie/main.tex
+++ b/classification_finie/main.tex
@@ -3,7 +3,7 @@
\section{Exactitude équilibrée et Classifieur à Choix Aléatoire}
\input{classification_finie/ba}
-\section{Construction d'un algorithme d'apprentissage ensemblise maximisant l'excatitude équilibrée}
+\section{Construction d'un algorithme d'apprentissage ensemblise maximisant l'exactitude équilibrée}
\input{classification_finie/finit_classif}
\section{Résultats expérimentaux}
diff --git a/classification_finie/tabular.tex b/classification_finie/tabular.tex
index 3f98b6b..656a855 100644
--- a/classification_finie/tabular.tex
+++ b/classification_finie/tabular.tex
@@ -2,7 +2,7 @@ Dans cette section nous allons évaluer comment se comporte notre algorithme dan
\subsection{Classification de données tabulaires}
Nous allons évaluer notre nouvel algorithme sur les jeux de données COMPAS et sur LAW.
-Nous présenterons plus en détail ces bases de données à la Section~\ref{sec:aia-méthodo-jeu}.
+Nous présenterons plus en détail ces bases de données à la Section~\ref{sec:aia-methodo-jeu}.
Disons pour le moment que COMPAS est un jeu tabulaire utilisé en justice prédictive pour créer des RAI comme nous les avons présentés en Section~\ref{sec:contexte-insti} et que LAW sert aux écoles de droit aux États-Unis pour sélectionner les étudiants en première année.
Nous allons entraîner notre algorithme ainsi qu'une forêt aléatoire pour prédire si un coupable est récidiviste ou non sur COMPAS et pour prédire si un étudiant en droit va réussir l'examen du barreau par LAW.
@@ -56,9 +56,9 @@ Notre algorithme développé plus haut ne soufre pas de tel problème car nous t
Nous explorons cet aspect avec l'expérience suivante : nous avons demandé à un panel d'utilisateur.ice.s de décrire en quelques mots les styles des tableaux de Paul Cézanne, un peintre impressionniste connu principalement pour ses tableaux de Provence.
Les utilisateur.ices.s ont vu défiler les tableaux un-à-un.
-Pour chaque tableau il.elle.s devaient remplir un champ de texte n'imposant aucune restriction.
+Pour chaque tableau il.elle.s devaient remplir un champ de textes n'imposant aucune restriction.
Cela a créé des réponses très hétérogènes comme par exemple \textit{Paul Alexis lisant à Émile Zola} montré en Figure~\ref{fig:zola} qui à été classifié comme \textquote{Hôpital psychiatrique}.
-Les utilisateur.rice.s peuvent être vu.e.s comme l'ensemble des classifieurs faibles dont notre algorithme va cumuler les prédictions pour en créer une qui fai consensus au sens de la maximisation de l'exactitude équilibrée.
+Les utilisateur.rice.s peuvent être vu.e.s comme l'ensemble des classifieurs faibles dont notre algorithme va cumuler les prédictions pour en créer une qui fasse consensus au sens de la maximisation de l'exactitude équilibrée.
C'est donc une méthode qui se rapproche de la votation.
\begin{figure}
diff --git a/conclusion.tex b/conclusion.tex
index 487416e..df239b6 100644
--- a/conclusion.tex
+++ b/conclusion.tex
@@ -1,5 +1,5 @@
-L'IA est un enjeu majeur des années à venir comme le prouvent les investissements massifs dont font preuve les secteurs privée et publics en la matière.
-Les géants du numérique et de la littérature d'anticipation font miroiter un ensemble de technologies qui changeraient drastiquement notre manière de vivre, aussi bien sur le plan individuel avec de nouveaux outils de travail, que sur le plan institutionnel comme dans les domaines de la santé ,de la justice ou de l'éducation.
+L'IA est un enjeu majeur des années à venir comme le prouvent les investissements massifs dont font preuve les secteurs privés et publics en la matière.
+Les géants du numérique et de la littérature d'anticipation font miroiter un ensemble de technologies qui changeraient drastiquement notre manière de vivre, aussi bien sur le plan individuel avec de nouveaux outils de travail, que sur le plan institutionnel comme dans les domaines de la santé, de la justice ou de l'éducation.
Face à de telles attentes, il est capital d'obtenir une compréhension en profondeur des modèles d'apprentissage automatique, qui sont la clé de voûte de l'IA moderne.
En effet, certains effets indésirables liés à l'utilisation de ces modèles ont été observés.
Les modèles consomment énormément d'énergie, sont susceptibles d'avoir des failles de sécurité, peuvent révéler des attributs sensibles de personnes réelles, créent des prédictions inexplicables et bissées et peuvent être utilisées à des fins illégales.
@@ -12,7 +12,7 @@ Pour cela, nous avons créé des attaques ayant la garantie d'être les plus per
Cela permettra à des organisations de contrôle, comme la Défenseure des droits, de mesurer avec certitude si une IA respecte les exigences d'équité.
Les études théoriques que nous avons produites ont permis aussi de démontrer plusieurs résultats qui améliorent la compréhension que nous avons de l'exactitude équilibrée : une manière courante d'évaluer les modèles.
-Enfin, nous nous somme attaqués à l'idée reçue que les données synthétiques protègent totalement la confidentialité des utilisateurs et leur attributs sensibles en exhibant des contre-exemples.
-Néanmoins, modifier les algorithmes de génération de données en introduisant des contraintes d'équité et de confidentialité pourrait permettre des avancées significatives vers une IA plus morale.
+Enfin, nous nous sommes attaqués à l'idée reçue que les données synthétiques protègent totalement la confidentialité des utilisateurs et leurs attributs sensibles en exhibant des contre-exemples.
+Néanmoins, modifier les algorithmes de générations de données en introduisant des contraintes d'équité et de confidentialité pourrait permettre des avancées significatives vers une IA plus morale.
diff --git a/contexte/enjeux.tex b/contexte/enjeux.tex
index b00eee2..5193696 100644
--- a/contexte/enjeux.tex
+++ b/contexte/enjeux.tex
@@ -1,5 +1,5 @@
-Les modèles de décision ont pour but de réaliser un choix de manière automatique sans, ou en réduisant, l'intervention humaine.
+Les modèles de décisions ont pour but de réaliser un choix de manière automatique sans, ou en réduisant, l'intervention humaine.
L'optique est de pouvoir traiter un grand nombre de décisions rapidement tout en retirant certains biais que pourrait avoir un décideur humain~\cite{al2021role}.
Par exemple, un modèle peut décider quelle publicité va voir un utilisateur d'une page web~\cite{choi2020identifying} ou quelle écriture comptable présente une anomalie dans une logique d'audit~\cite{ucoglu2020current}.
Appliquée à certains milieux, cette méthode de décision soulève de nombreuses critiques et inquiétudes qui ont investi le débat public.
@@ -24,7 +24,7 @@ Il revient donc aux personnes qui créent ces modèles de déterminer, en foncti
\label{sec:contexte-eq}
L'élaboration de modèles est soumise à différents biais qui influencent son fonctionnement~\cite{surveyfair}.
C'est-à-dire que le modèle se comporte différemment pour différents sous-ensembles de la population.
-Cela peut donner lieu à des discriminations, notamment dans les modèles de décision qui influencent directement la vie de personnes.
+Cela peut donner lieu à des discriminations, notamment dans les modèles de décisions qui influencent directement la vie de personnes.
La justice prédictive telle qu'utilisée aux Etats-Unis en est un bon exemple.
Dans ce cas, un modèle est utilisé pour prédire si un individu jugé coupable a une forte probabilité d'être récidiviste ou non.
En utilisant de tels modèles nous mesurons que les afro-américains (\textit{blacks}) sont plus souvent prédits comme ayant une forte chance d'être récidivistes que le reste de la population (\textit{whites})~\cite{dressel2018accuracy}.
@@ -37,7 +37,7 @@ Nous étudierons en détail ce processus dans la Section~\ref{sec:background-eq}
\subsection{Explicabilité}
\label{sec:contexte-expl}
Le concept de boîte noire\footnote{\textit{Black box}} est une manière imagée de dire qu'on ne comprend pas ou qu'on ne peut pas avoir accès au fonctionnement d'un programme.
-On l'utilise alors comme un outil qui prend une entrée et donne une sortie, un peu à la manière de la définition d'IA que nous avons illustré dans la Figure~\ref{fig:contexte-IAUE}.
+On l'utilise alors comme un outil qui prend une entrée et donne une sortie, un peu à la manière de la définition d'IA que nous avons illustrée dans la Figure~\ref{fig:contexte-IAUE}.
Cette approche de l'IA est problématique pour plusieurs raisons qu'illustrent Quinn et al.~\cite{quinn2022three} dans le domaine médical :
\begin{itemize}
\item Les boîtes noires manquent de garanties quant à la qualité de la prédiction et rendent complexe l'étude des biais.
diff --git a/contexte/legal.tex b/contexte/legal.tex
index 5333a88..827768d 100644
--- a/contexte/legal.tex
+++ b/contexte/legal.tex
@@ -33,7 +33,7 @@ ce qui signifie que la personne ayant fourni la donnée n'a pas donné son accor
Retrouver cet attribut sensible à partir du modèle est possible~\cite{malekzadeh2021honestbutcurious,Song2020Overlearning}.
Le traitement de cet attribut au sens de la définition de l'article 4 paragraphe 2 du RGPD est :
\og
-toute opération ou tout ensemble d'opérations effectuées ou non à l'aide de procédés automatisés et appliquées à des données ou des ensembles de données à caractère personnel, telles que la collecte, l'enregistrement, l'organisation, la structuration, la conservation, l'adaptation ou la modification, l'extraction, la consultation, l'utilisation, la communication par transmission, la diffusion ou toute autre forme de mise à disposition, le rapprochement ou l'interconnexion, la limitation, l'effacement ou la destruction.
+toute opération ou tout ensemble d'opérations effectuées ou non à l'aide de procédés automatisés et appliquées à des données ou des ensembles de données à caractère personnel, tels que la collecte, l'enregistrement, l'organisation, la structuration, la conservation, l'adaptation ou la modification, l'extraction, la consultation, l'utilisation, la communication par transmission, la diffusion ou toute autre forme de mise à disposition, le rapprochement ou l'interconnexion, la limitation, l'effacement ou la destruction.
\fg
L'article 9 paragraphe 1 du RGPD dispose que
@@ -55,7 +55,7 @@ Sur le site de \url{service-public.fr} nous trouvons la définition suivante de
Les motifs interdits par la loi se comptent au nombre de 25 critères de discrimination que nous listons en Annexe~\ref{anx:discri}.
Nous remarquons que ces critères sont souvent ceux classifiés comme attribut sensible dans la littérature IA~\cite{Song2020Overlearning,malekzadeh2021honestbutcurious}.
-En France, la lutte contre les discrimination fait partie des fondements de notre République.
+En France, la lutte contre les discriminations fait partie des fondements de notre République.
Le mot \textquote{égalité} est dans la devise de la cinquième République comme en dispose l'article 2 de la Constitution du 3 Juin 1958.
L'article premier de notre Constitution dispose que
\textquote{Elle [la France] assure l'égalité devant la loi de tous les citoyens sans distinction d'origine, de race ou de religion. Elle respecte toutes les croyances.}.
@@ -144,7 +144,7 @@ conduisant [au]
traitement préjudiciable ou défavorable de certaines personnes physiques ou de groupes de personnes dans des
contextes sociaux dissociés du contexte dans lequel les données ont été générées ou collectées à l’origine
}
-Ce qui, en plus des lois françaises sur les discriminations que nous avons cité plus haut, permet de clairement interdire l'utilisation d'IA qui vont utiliser des critères de discrimination dans leur décision.
+Ce qui, en plus des lois françaises sur les discriminations que nous avons citées plus haut, permet de clairement interdire l'utilisation d'IA qui vont utiliser des critères de discrimination dans leur décision.
Ce point est particulièrement important pour ce manuscrit car nous allons développer aux Chapitres~\ref{sec:fini} et~\ref{sec:aia} une méthode d'audit des systèmes d'IA qui permet de savoir si un système utilise un critère de discrimination pour réaliser une prédiction.
Citons aussi le paragraphe 1 alinéa d qui dispose que sont interdits les systèmes d'IA
diff --git a/contexte/philo.tex b/contexte/philo.tex
index 68424ca..d60f1af 100644
--- a/contexte/philo.tex
+++ b/contexte/philo.tex
@@ -3,7 +3,7 @@
Alors que, scientifiquement, l'IA en était à ses balbutiements avec la conférence de Dartmouth, l'imaginaire humain quant à lui avait une longueur d'avance.
Des auteurs de litérature d'anticipation comme Isaac Asimov proposaient, dès les années 1950, des situtations ainsi qu'une réflexion sur les implications de l'introduction de machines intelligentes dans notre vie de tous les jours.
Dans cette section nous utiliserons des exemples venus du cinéma comme fils conducteurs pour comprendre la vision que le grand public a de l'IA.
-Cela nous permetra aussi de mettre en avant certains concepts philosophiques et psychanalytiques pour comprendre à quel point l'IA actuelle est différente de l'humain.
+Cela nous permettra aussi de mettre en avant certains concepts philosophiques et psychanalytiques pour comprendre à quel point l'IA actuelle est différente de l'humain.
C'est aussi une manière d'anticiper sur de possibles futurs développements de l'AGI et leurs éventuelles implications.
L'utilisation du cinéma dans ce contexte se justifie, car
les films contribuent à forger les opinions que le grand public ainsi que les politiques se font des questions de société~\cite{fearing1947influence, bernays1928manipulating}.
diff --git a/contexte/philo/anthro.tex b/contexte/philo/anthro.tex
index 340aa71..da9bea1 100644
--- a/contexte/philo/anthro.tex
+++ b/contexte/philo/anthro.tex
@@ -29,10 +29,10 @@ Dans un second temps, le cadre qui orchestre ces trois aspects :
Pour Freud, les mots ont une importance capitale : ils permettent le lien entre le ça et le système Pcs-Cs.
Ainsi, ils sont responsables d'une grande partie de la conscience.
Freud dit :
-\textquote{[...]Comment quelque chose devient-il Pcs ? et la réponse serait : par connexion avec les représentations de mot correspondantes.}
+\textquote{[...]Comment quelque chose devient-il Pcs ? et la réponse serait : par connexion avec les représentations de mots correspondantes.}
Il faut voir dans cette citation que \textquote{mot} est entendu au sens large pour inclure les restes mnésiques c'est-à-dire les anciennes perceptions.
Les mots sont aussi importants pour les perceptions et peuvent être à l'origine de l'objet de l'investissement.
-Toujours d'après Freud, les investissement d'objets partent du ça.
+Toujours d'après Freud, les investissements d'objets partent du ça.
Ensuite, soit il y a l'identification d'objets dans le moi, soit il y a l'acceptation de l'investissement s'il n'y a pas refoulement.
C'est-à-dire que les mots créent un sentiment dont on n'a pas forcément conscience (au sens descriptif et non Cs) pour une IA qui va nous parler.
Cela est mis en lumière dans
@@ -47,7 +47,7 @@ Dans \textit{Her}, l'IA Samantha, bien que non-alignée à la fin du film, n'a p
Cela rend le fait que le personnage principal, Théodore, n'ait pas refoulé l'investissement moins grave.
Notons que le processus d'identification avait commencé chez Théodore car il dit à Samantha : \textquote{Tu n'es qu'une voix artificielle.}
\footnote{\textit{You are just an artificial voice[..].}}
-Cependant Samantha a un argument extrêmement fort qui casse cette identification chez Thodore : \textquote{Ce qui fait que je suis qui je suis, c'est ma capacité à évoluer au travers de mes expériences.}
+Cependant Samantha a un argument extrêmement fort qui casse cette identification chez Théodore : \textquote{Ce qui fait que je suis qui je suis, c'est ma capacité à évoluer au travers de mes expériences.}
\footnote{\textit{What makes me, me, is my ability to grow through my experiences.}}.
Elle expose ainsi l'argument principal qui définit la personnalité comme l'explique Freud~\cite{Freud2010-qq} :
\textquote{le caractère du moi résulte de la sédimentation des investissements d'objets abandonnés}.
@@ -63,7 +63,7 @@ On le voit dans le comportement de Samantha dans~\textit{Her} quand elle explore
Et d'autres moments qui montrent ses névroses.
Une névrose en particulier est intéressante dans le contexte de l'AGI, qui n'existe pas pour les humains normaux, est le fait que, de par leur supériorité intellectuelle, les IA peuvent se détacher totalement des humains.
Pourquoi rester à parler avec un humain quand on est infiniment plus rapide et performant que lui ?
-Ainsi, même si Samantha dit aimer Théodore, elle le quitte, achevant la phase de construction primordiale du moi qui consiste a identifier l'amour du père pour construire son caractère en mettant fin à son Oedipe~\cite{Freud2010-qq}.
+Ainsi, même si Samantha dit aimer Théodore, elle le quitte, achevant la phase de construction primordiale du moi qui consiste à identifier l'amour du père pour construire son caractère en mettant fin à son Oedipe~\cite{Freud2010-qq}.
Concernant la construction du caractère, le hasard est un élément important de l'anthropomorphisme, que ce soit dans la littérature d'anticipation ou dans les technologies actuelles de l'IA générative.
Asimov présente dans \textit{The Bicentennial Man} un robot qui, par le hasard inhérent à son fonctionnement, montre des caractéristiques humaines comme l'empathie ou la créativité.
diff --git a/contexte/philo/peur.tex b/contexte/philo/peur.tex
index 7cd5126..a1c0aab 100644
--- a/contexte/philo/peur.tex
+++ b/contexte/philo/peur.tex
@@ -24,7 +24,7 @@ Nous séparerons les risques en deux : ceux liés à une IA alignée, c'est-à-d
\subsubsection{AI non-alignée}
La scène d'ouverture de \textit{The Terminator}~\cite{terminator} montre parfaitement ce qu'est une machine alignée.
Nous y voyons des machines autonomes se battre avec une force écrasante contre des humains.
-Cette scène contraste avec celle que l'on voit jute après l'écran titre où la machine, tout aussi gigantesque que les robots tueurs, est un camion poubelle, donc totalement au service de l'homme qui la contrôle.
+Cette scène contraste avec celle que l'on voit juste après l'écran titre où la machine, tout aussi gigantesque que les robots tueurs, est un camion poubelle, donc totalement au service de l'homme qui la contrôle.
Une IA non-alignée est donc un programme qui cherche à atteindre un objectif qui n'est pas celui pour lequel il a été conçu ; dans ce cas, une guerre totale contre l'humanité.
C'est la même inquiétude qui est présente dans \textit{The Matrix}~\cite{matrix}.
Ce film présente ce qui pourrait se passer après une guerre contre les machines, perdue par l'humanité.
@@ -146,7 +146,7 @@ Dans le film \textit{Her}~\cite{her}, l'assistant personnel IA, Samantha, accèd
Elle ne l'informe qu'après avoir lu l'intégralité de ses conversations : \textquote{J'ai vu dans tes \textit{emails} que tu as récemment rompu}\footnote{
\textit{I saw through your emails that you went through a break up recently}}.
En faisant cela elle apprend des informations sensibles sur Théodore : le fait qu'il ait rompu.
-Dans ce film nous n'avons que très peu d'informations sur le fonctionnement des IA (qu'il appellent OS), ce qui ne nous permet pas de dire que cette information précise quitte l'appareil local de Théodore pour être envoyée vers un tiers.
+Dans ce film nous n'avons que très peu d'informations sur le fonctionnement des IA (qu'ils appellent OS), ce qui ne nous permet pas de dire que cette information précise quitte l'appareil local de Théodore pour être envoyée vers un tiers.
Cependant, dans la suite du film, Samantha avoue avoir parlé de Théodore avec d'autres personnes alors que celui-ci n'était pas au courant.
Samantha est donc en réseau, avec la possibilité de communiquer n'importe quelle information qu'elle juge nécessaire.
Cela implique une grande chance qu'elle ait communiqué des informations que Théodore aurait souhaité garder confidentielles.
diff --git a/contexte/strat.tex b/contexte/strat.tex
index 94054e5..ca52510 100644
--- a/contexte/strat.tex
+++ b/contexte/strat.tex
@@ -42,8 +42,8 @@ Ainsi, en sommant par année les financements de tous les projets IA, nous obser
Cette claire augmentation de l'investissement en IA en France n'est pas due au hasard mais à une stratégie dûment établie.
\subsection{Rapport Villani : Donner un sens à l'intelligence artificielle}
-Le 8 septembre 2017 le Premier ministre Edouard Philippe confie au mathématicien et député de l'Essone Cedric Villani une mission parlementaire :
-faire un état des lieux des stratégies française et européenne autour de l'IA~\cite{villani2018donner}.
+Le 8 septembre 2017 le Premier ministre Edouard Philippe confie au mathématicien et député de l'Essonne Cedric Villani une mission parlementaire :
+faire un état des lieux des stratégies françaises et européennes autour de l'IA~\cite{villani2018donner}.
Ce rapport a permis la mise en place d'une stratégie d'investissement publique en France qui a pour but d'orienter la recherche vers la construction d'une IA alignée avec les valeurs de la République.
Cette stratégie se découpe en six parties :
@@ -100,7 +100,7 @@ Cela passe par la médiation scientifique et par une réflexion quant à l'utili
Le plan France 2030 est un plan d'investissement du gouvernement d'Emmanuel Macron de 54 milliards d'Euros~\cite{france2030} ayant pour but de rattraper le retard industriel de la France.
L'IA touchant à plusieurs aspects industriels a une part importante dans ce plan.
Ce plan est divisé en deux phases~\cite{2030phase}.
-La première phase de 2018 à 2022 a pour but de \textquote{Doter la France de capacités de recherche compétitives}.
+La première phase de 2018 à 2022 a pour but de \textquote{Doter la France de capacités de recherches compétitives}.
Avec notamment la mise en place des (3IA) et du supercalculateur Jean Zay~\cite{jeanzay}.
La seconde phase de 2021 à 2025 a pour but de \textquote{Diffuser des technologies d’intelligence artificielle au sein de l’économie}.
diff --git a/folio.tex b/folio.tex
index 50e6def..e53c548 100644
--- a/folio.tex
+++ b/folio.tex
@@ -5,7 +5,7 @@
\includegraphics[height=1.9cm]{INSA.png}
\end{center}
-\vspace{.3cm}
+%\vspace{.3cm}
\footnotesize
\centering
\begin{tabular}{|p{8.6cm}p{8.6cm}|}
@@ -14,12 +14,11 @@
\multicolumn{2}{p{17.2cm}}{}\\
\hline
&\\
- NOM : \textbf{Aalmoes}&DATE de SOUTENANCE : \textbf{(Date)}\\
- (avec précision du nom de jeune fille, le cas échéant)&\\
+ NOM : \textbf{Aalmoes}&DATE de SOUTENANCE : \textbf{10/12/2024}\\
&\\
Prénoms : \textbf{Jan}&\\
&\\
- \multicolumn{2}{|p{17.2cm}|}{TITRE : \textbf{Intelligence artificielle pour des services moraux}}\\
+ \multicolumn{2}{|p{17.2cm}|}{TITRE : \textbf{Intelligence artificielle pour des services moraux : concilier équité et confidentialité}}\\
&\\
&\\
&\\
@@ -32,9 +31,24 @@
&\\
&\\
R\'ESUM\'E :&\\
- \multicolumn{2}{|p{17.2cm}|}{\lipsum[4]}\\
- \multicolumn{2}{|p{17.2cm}|}{\lipsum[3]}\\
- \multicolumn{2}{|p{17.2cm}|}{\lipsum[2]}\\
+ \multicolumn{2}{|p{17.2cm}|}{
+L’intelligence artificielle (IA) est de plus en plus présente dans de nombreux domaines
+comme la santé, les médias ou les ressources humaines.
+Ces technologies induisent des risques pour la confidentialité des données personnelles des utilisateurs et peuvent introduire des biais discriminatoires rendant les décisions automatiques non équitables.
+Cette inéquité est étudiée à deux niveaux dans la littérature scientifique.
+L'équité individuelle cherche à s'assurer que les IA se comportent de la même manière à toutes choses égales, excepté un attribut sensible comme la couleur de peau.
+L'équité de groupe, quant à elle, cherche à comprendre les différences de traitement par les IA entre les minorités.
+
+Ma principale contribution vise à comprendre le lien entre l’équité de groupe et la confidentialité des attributs sensibles des utilisateurs.
+Notre approche théorique nous a amené à démontrer que, sous un certain aspect, la confidentialité et l’équité pouvaient travailler de concert pour créer des IAs plus fiables.
+Nous avons validé ces résultats en suivant une approche expérimentale en étudiant des bases de données et des algorithmes d'apprentissage standards.
+
+Pour ce faire nous commençons par présenter un état de l'art qui permet de mieux comprendre ce qu’est l’IA et quels sont les enjeux et les régulations.
+Nous verrons ainsi que l’équité et la confidentialité sont des points capitaux qu’il faut prendre en compte pour un développement moral de l’IA.
+Ensuite nous présenterons un nouvel algorithme d’apprentissage automatique que nous utiliserons pour construire une attaque d'inférence d'attributs sensibles.
+Enfin, les données synthétiques sont utilisées pour contourner les obligations légales de protection des données personnelles.
+Nous explorerons donc l’impact de l’utilisation des données synthétiques pour l'entraînement des IAs sur l'inférence d'attributs sensibles.
+ }\\
&\\
\multicolumn{2}{|p{17.2cm}|}{MOTS-CL\'ES : \textbf{Intelligence articielle, Equitée, Confidentialité, Privacy, Fairness}}\\
&\\
@@ -45,13 +59,20 @@
\end{tabular}}\\
&\\
&\\
- \multicolumn{2}{|p{17.2cm}|}{Directeur de thèse : \textbf{Methieu Cunche}}\\
+ \multicolumn{2}{|p{17.2cm}|}{Directeur de thèse : \textbf{Mathieu Cunche}}\\
&\\
&\\
- \multicolumn{2}{|p{17.2cm}|}{Président du Jury : \textbf{(président, nommé au moment de la soutenance)}}\\
+ \multicolumn{2}{|p{17.2cm}|}{Président du Jury : \textbf{BOUCHENAK Sara}}\\
&\\
\multicolumn{2}{|p{17.2cm}|}{Composition du Jury :}\\
- \multicolumn{2}{|p{17.2cm}|}{\hspace{1cm}\textbf{(Jury)}}\\
+ \multicolumn{2}{|p{17.2cm}|}{\textbf{
+ BOUCHENAK, Sara et
+ ALLARD, Tristan et
+ DECOUCHANT, Jérémie et
+ FRINDEL, Carole et
+ RUDAMETKIN, Walter et
+ PERROT, Michael
+ }}\\
&\\
\hline
\end{tabular}
diff --git a/garde.tex b/garde.tex
index 83c287f..fd9334d 100644
--- a/garde.tex
+++ b/garde.tex
@@ -3,9 +3,9 @@
\begin{titlepage}
-\begin{tabular}{cc}
+\begin{tabular}{c}
\includegraphics[height=3cm]{INSA.png}
- \includegraphics[height=3cm]{partenaire.png}
+% \includegraphics[height=3cm]{partenaire.png}
\end{tabular}
\vspace{1cm}
@@ -26,13 +26,13 @@ N° d'ordre NNT : $xxx$\\[-.4cm]
%délivré en partenariat international avec\\
%\textbf{(Nom Etablissement)}\\[.5cm]
-\textbf{Ecole Doctorale} N° accréditation\\
-\textbf{(Nom complet Ecole Doctorale)}\\[.4cm]
+\textbf{Ecole Doctorale} N° 512\\
+\textbf{(École doctorale Informatique et mathématiques de Lyon)}\\[.4cm]
\textbf{Spécialité/ discipline de doctorat : Mathématiques}\\[2.1cm]
\normalsize
-Soutenue publiquement clos le jj/mm/aaaa, par :\\
+Soutenue publiquement le 10/12/2024, par :\\
\Large
\scalebox{1}[.9]{\textbf{Jan Aalmoes}}\\[.7cm]
@@ -48,19 +48,20 @@ Soutenue publiquement clos le jj/mm/aaaa, par :\\
\normalsize
Devant le jury composé de :\\[.3cm]
-\small
+\footnotesize
\begin{tabular}{lllll}
&&&&\\
-NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Président.e (à préciser après la soutenance)} \\
-NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Rapporteur.e}\\
-NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Rapporteur.e}\\
-NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Examinateur.rice}\\
-NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Examinateur.rice}\\
+BOUCHENAK&Sara&Professeur des universités&INSA-Lyon&\textcolor{red}{Présidente} \\
+ALLARD&Tristan&Ingénieur de recherche HDR&Université de Rennes 1&\textcolor{red}{Rapporteur}\\
+DECOUCHANT&Jérémie&Assistant professor&Université de Delft&\textcolor{red}{Rapporteur}\\
+FRINDEL&Carole&Maître de conférence HDR&INSA-Lyon&\textcolor{red}{Examinateurice}\\
+RUDAMETKIN&Walter&Professeur de universiré&Université de Rennes 1&\textcolor{red}{Examinateur}\\
+PERROT&Michael&Chargé de recherche&INRIA&\textcolor{red}{Examinateur}\\
&&&&\\
-NOM&Prénom&grade/qualité&établissement/entreprise&Directeur.rice de thèse\\
-NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Co-directeur.rice de thèse}\\
-NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Invité.e}\\
+ CUNCHE&Mathieu&Professeur de université&INSA-Lyon&\textcolor{red}{Directeur de thèse}\\
+BOUTET&Antoine&Maître de conférence&INSA-Lyon&\textcolor{red}{Co-directeur de thèse}\\
+%NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Invité.e}\\
\end{tabular}
diff --git a/introduction.tex b/introduction.tex
index 73d04d8..bbc2941 100644
--- a/introduction.tex
+++ b/introduction.tex
@@ -1,18 +1,18 @@
L'intelligence artificielle (IA) est de plus en plus présente dans de nombreux domaines comme la santé~\cite{dildar2021skin,gulshan2016development,quinn2022three}, les médias~\cite{gptjournal} ou les ressources humaines~\cite{ore2022opportunities}.
Ces technologies induisent des risques pour la confidentialité des données personnelles des utilisateurs~\cite{MehnazAttInf,yeom,shokri2017membership,Song2020Overlearning} et peuvent introduire des biais discriminatoires rendant les décisions automatiques non équitables~\cite{fairmetric,fairmetric2,debiase,reductions}.
-Mes travaux s'inscrivent dans une lignée de recherches visant à mieux comprendre ces enjeux capitaux et à trouver des solutions pour rentre l'intelligence artificielle morale.
+Cette inéquité est étudiée à deux niveaux dans la littérature scientifique.
+L'équité individuelle cherche à s'assurer que les IA se comportent de la même manière à toutes choses égales, excepté un attribut sensible comme la couleur de peau.
+L'équité de groupe, quant à elle, cherche à comprendre les différences de traitement par les IA entre les minorités.
-Ma principale contribution a été publiée à la conférence Wise 2024 et vise à comprendre le lien entre l'équité et la confidentialité.
+Ma principale contribution a été publiée à la conférence vise à comprendre le lien entre l'équité et la confidentialité.
Notre approche théorique nous a amené à démontrer que, sous un certain aspect, la confidentialité et l'équité pouvaient travailler de concert pour créer des IA plus fiables.
-Nous avons validé ces résultats expérimentalement en étudiant des bases de données et des algorithmes standards.
+Nous avons validé ces résultats en suivant une approche expérimentale en étudiant des bases de données et des algorithmes d'apprentissage standards.
-Outre cette contribution j'ai pu prendre part à deux autres travaux qui ont été publiés mais qui ne figurent pas dans ce manuscrit car ils s'éloignent légèrement du sujet de cette thèse.
+J'ai aussi pris part au travaux suivants.
Déjà j'ai pu participer à l'élaboration de MixNN~\cite{Lebrun_2022} : un protocole d'apprentissage fédéré respectueux de la confidentialité des données des participants à l'apprentissage.
-MixNN a été publié à la conférence Middleware 2022.
Ensuite j'ai contribué à une étude théorique du protocole LoraWAN : un protocole de communication de l'internet des objets\footnote{\textit{Internet Of Things}} (IOT).
-Samuel Pélissier a mis au point une modification de ce protocole visant à protéger la confidentialité des utilisateurs.
+Les identifiants séquentiels confidentielles\footnote{\textit{Sequential private identifiers}} rendent ce protocole robuste face à la ré-identification des objets connectés~\cite{pelissier2024privacy}.
J'ai vérifié que cette modification n'entraîne pas de collisions de paquets et j'ai précisé les garanties théoriques de confidentialité atteintes.
-Nous avons publié cet article~\cite{pelissier2024privacy} à la conférence WiSec 2024.
Nous allons donc dans ce manuscrit étudier le lien entre équité et confidentialité dans l'IA.
Pour ce faire nous commencerons par présenter un contexte général dans le Chapitre~\ref{sec:contexte} qui permettra de mieux comprendre ce qu'est l'IA, quels sont les attentes, les enjeux et les régulations.
@@ -20,7 +20,8 @@ Nous verrons ainsi que l'équité et la confidentialité sont des points capitau
Ensuite, je vous présenterai dans le Chapitre~\ref{sec:pre} les notions clefs dont nous allons avoir besoin pour comprendre mes développements nouveaux.
Il s'agit de fixer les objets mathématiques que nous utiliserons mais aussi de présenter un rapide état de l'art de l'équité et de la confidentialité en IA sur lequel reposent les bases de mes contributions.
A partir du Chapitre~\ref{sec:fini} nous ne traiterons plus que de mes travaux originaux, sauf exception avec les parties \textquote{Travaux voisins} ou si je le mentionne explicitement.
-Le Chapitre~\ref{sec:fini} présente un nouvel algorithme d'apprentissage automatique optimisé pour des bases de données déséquilibrées vis-à-vis d'un attribut.
-Grâce à cet algorithme nous construisons une attaque d'inférence d'attribut sensible que nous utilisons au Chapitre~\ref{sec:aia} pour l'étude du lien entre équité et confidentialité.
-Au Chapitre~\ref{sec:synth} nous explorerons l'impact de l'utilisation de données synthétiques sur ces notions.
-Le Chapitre~\ref{sec:per} reprend les trois chapitres précédents et propose de nouvelles pistes de recherche.
+Dans le Chapitre~\ref{sec:fini} nous allons construire un nouvel algorithme d'apprentissage automatique optimisé pour des bases de données déséquilibrées vis-à-vis d'un attribut.
+Grâce à cet algorithme, nous mettrons en place une attaque d'inférence d'attribut sensible que nous utiliserons au Chapitre~\ref{sec:aia} pour l'étude du lien entre équité et confidentialité.
+Les données synthétiques sont utilisées pour contourner les obligations légales de protection des données personnelles.
+Nous explorerons donc l’impact de l’utilisation des données synthétiques pour l'entraînement des IA sur l'inférence d'attributs sensibles au Chapitre~\ref{sec:synth}.
+Finalement, nous ouvrons de nouvelles pistes de recherche au Chapitre~\ref{sec:per}.
diff --git a/synthetic/introduction.tex b/synthetic/introduction.tex
index 4645eeb..a741559 100644
--- a/synthetic/introduction.tex
+++ b/synthetic/introduction.tex
@@ -1,4 +1,4 @@
-Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : a partir des données synthétiques, que pouvons-nous apprendre des données réelles ?
+Comme au chapitre précédent, la confidentialité des données synthétiques est souvent considérée du point de vue suivant : à partir des données synthétiques, que pouvons-nous apprendre des données réelles ?
Pour cela, la confidentialité différentielle permet une protection très forte, plus forte que d'autres notions de confidentialité, comme par exemple la limitation des fuites statistiques\footnote{\textit{Statistical disclosure limitation}}~\cite{abowd2008protective}.
Il existe ainsi des méthodes pour imposer la confidentialité différentielle dans les GAN~\cite{jordon2018pate} et dans les auto-encodeurs~\cite{abay2019privacy}.
@@ -6,6 +6,6 @@ Ce chapitre est un début de travail sur les liens entre données synthétiques
Nous allons déjà étudier la MIA en utilisant des données synthétiques.
Ensuite, nous allons regarder l'impact de l'utilisation des données synthétiques lors de l'entraînement sur le succès de l'AIA.
-De manière synthétiques nous apportons des premiers éléments de réponse à la question suivante :
+De manière synthétique nous apportons des premiers éléments de réponse à la question suivante :
Quel est l'impact de l'utilisation des données synthétiques, au lieu de données réelles, lors de l'entraînement de modèles, sur la confidentialité ?
diff --git a/synthetic/methodology.tex b/synthetic/methodology.tex
index 9fd6703..34b5e96 100644
--- a/synthetic/methodology.tex
+++ b/synthetic/methodology.tex
@@ -33,16 +33,16 @@ Dans nos expériences, nous utilisons l'implémentation de CTGAN du \textit{Synt
Nous utilisons une forêt aléatoire avec cent arbres pour la tâche de classification du modèle cible : inféré si la personne a un travail.
Nous utilisons l'implémentation de scikit-learn de la forêt aléatoire.
-Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présenté en Section~\ref{sec:background-ml-classif}.
+Pour évaluer les tâches de classification, nous utilisons l'exactitude équilibrée que nous avons présentée en Section~\ref{sec:background-ml-classif}.
\subsection{Modèle d'attaque}
Nous étudions deux notions de confidentialité : l'AIA et la MIA.
-Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présenté à la Section~\ref{sec:aia-soft}.
+Concernant l'AIA nous n'étudions ici que la version de l'attaque qui utilise les logits, celle que nous avons présentée à la Section~\ref{sec:aia-soft}.
\subsubsection{Inférence de l'appartenance (MIA)}
Concernant la MIA, nous n'utilisons pas des modèles miroirs, nous adoptons plutôt une approche similaire à celle de Yeom et al.~\cite{yeom}.
Nous considérons que l'adversaire a à sa disposition une base de données qui contient les coûts et leur statut d'appartenance correspondant ($m$ or $\bar{m}$).
-C'est donc la même méthodologie que celle que nous avons utilisé pour présenter la MIA à la Section~\ref{sec:background-ml-mia}.
+C'est donc la même méthodologie que celle que nous avons utilisée pour présenter la MIA à la Section~\ref{sec:background-ml-mia}.
Cette méthodologie entraîne un risque plus élevé pour la confidentialité que l'utilisation de modèles miroirs ; c'est donc une évaluation qui permet d'avoir des garanties relativement fortes de protection par rapport aux attaques pratiques.
Comme cette étude se concentre sur les données synthétiques, les membres ($m$) sont les points utilisés pour entraîner le générateur et non pas les points utilisés pour entraîner le modèle cible comme nous pouvons le voir sur la Figure~\ref{fig:synth-split}.
@@ -63,7 +63,7 @@ Nous appliquons OVR CTRL à la fois sur les données synthétiques et sur les do
\label{fig:aia-ovr}
\end{figure}
-Avant d'utiliser les données réelles pour entraîner le générateur, nous leurs appliquons la fonction OVR CTRL.
+Avant d'utiliser les données réelles pour entraîner le générateur, nous leur appliquons la fonction OVR CTRL.
Cette fonction contrôle le niveau de sur-ajustement du générateur
par de l'échantillonnage, de la répétition et une permutation aléatoire~\footnote{shuffle}.
Nous décrivons en détail le fonctionnement de cette fonction dans la Figure~\ref{fig:aia-ovr}.
diff --git a/synthetic/related.tex b/synthetic/related.tex
index 47d095f..b99f7ab 100644
--- a/synthetic/related.tex
+++ b/synthetic/related.tex
@@ -1,5 +1,5 @@
La littérature sur la confidentialité des données synthétiques se concentre sur un problème connexe.
-De nos études, les données synthétique ne sont pas publiques, elle sont utilisées comme intermédiaires entre les données réelles et le modèle cible.
+De nos études, les données synthétiques ne sont pas publiques, elle sont utilisées comme intermédiaires entre les données réelles et le modèle cible.
Au contraire, dans la littérature, les données synthétiques ont vocation à être distribuées à des tiers.
Le but de cela peut être de contourner la législation sur les données personnelles~\cite{bellovin2019privacy}.
Des travaux précédents ont montré que divulguer des données synthétiques au lieu de données réelles ne protège ni contre les attaques de ré-identification, ni contre les attaques liant les données synthétiques aux données réelles\footnote{\textit{linkage}}~\cite{stadler2020synthetic}.
diff --git a/synthetic/results.tex b/synthetic/results.tex
index 0694e82..47a024a 100644
--- a/synthetic/results.tex
+++ b/synthetic/results.tex
@@ -53,5 +53,5 @@ Nous présentons à la Figure~\ref{fig:synth-aia} une comparaison des AIA entre
Avec une p-valeur de l'ANOVA de $8.65\times 10^{-1}$ nous observons qu'il n'y a pas de différence significative entre exactitude équilibrée de l'AIA pour données réelles et synthétiques.
De plus, l'exactitude équilibrée de l'AIA est entre 0,52 et 0,54 ; nous observons donc un risque mineur mais existant de fuite de l'attribut sensible.
-Notre conclusion est donc que l'utilisation de données synthétiques n'est pas suffisant pour mitiger la fuite d'attribut sensible.
+Notre conclusion est donc que l'utilisation de données synthétiques n'est pas suffisante pour mitiger la fuite d'attribut sensible.
diff --git a/template_these_INSA_cotut.pdf b/template_these_INSA_cotut.pdf
index 59d5026..4f35839 100644
--- a/template_these_INSA_cotut.pdf
+++ b/template_these_INSA_cotut.pdf
Binary files differ
diff --git a/template_these_INSA_cotut.tex b/template_these_INSA_cotut.tex
index 88fb09f..b692f62 100644
--- a/template_these_INSA_cotut.tex
+++ b/template_these_INSA_cotut.tex
@@ -113,7 +113,7 @@ pdfsubject={Th\`ese} %sous Acrobat.
\input{classification_finie/main}
\chapter{Attaque d'inférence d'attribut sensible}
-\label{sec:aia}.
+\label{sec:aia}
\input{aia/main}
\chapter{Données synthétiques}
diff --git a/theorem.tex b/theorem.tex
index ebab7f8..016dd86 100644
--- a/theorem.tex
+++ b/theorem.tex
@@ -1,7 +1,7 @@
\newtheorem{definition}{Définition}[chapter]
\newtheorem{conjecture}{Conjecture}[chapter]
-\newtheorem{theorem}{Théoreme}[chapter]
+\newtheorem{theorem}{Théorème}[chapter]
\newtheorem{propriete}{Propriété}[chapter]
\newtheorem{lemma}[theorem]{Lemme}
\newtheorem{corollary}{Corollère}[theorem]