From 4aae3ea0427a6c9e9a8519a38d9d9d0ac5f0ec9c Mon Sep 17 00:00:00 2001 From: Jan Aalmoes Date: Sat, 21 Sep 2024 16:27:27 +0200 Subject: fin intro --- ACSAC/tables/tab_datasets.tex | 2 +- UDLISNA/ED.aux | 25 + UDLISNA/ED.tex | 215 +++++++ UDLISNA/INSA.png | Bin 0 -> 64064 bytes UDLISNA/UDL_INSA_couverture_these_latex.zip | Bin 0 -> 198403 bytes UDLISNA/folio.aux | 25 + UDLISNA/folio.tex | 57 ++ UDLISNA/garde.aux | 25 + UDLISNA/garde.tex | 68 ++ UDLISNA/partenaire.png | Bin 0 -> 4610 bytes UDLISNA/template_these_INSA_cotut.aux | 19 + UDLISNA/template_these_INSA_cotut.log | 714 +++++++++++++++++++++ UDLISNA/template_these_INSA_cotut.out | 2 + UDLISNA/template_these_INSA_cotut.pdf | Bin 0 -> 152970 bytes UDLISNA/template_these_INSA_cotut.tcp | 12 + UDLISNA/template_these_INSA_cotut.tex | 61 ++ UDLISNA/template_these_INSA_cotut.toc | 3 + UDLISNA/template_these_INSA_cotut.tps | 80 +++ aia/< | 14 + aia/a.tex | 72 +++ aia/aia.tex | 46 ++ aia/b.tex | 36 ++ aia/conclusion.tex | 0 aia/figure/rocr.pdf | Bin 0 -> 15450 bytes aia/figure/tikz/data.tex | 15 + aia/main.tex | 26 +- aia/methodo.tex | 50 ++ aia/related.tex | 0 aia/theo.tex | 146 ++++- annexe/crit_discri.tex | 27 + avertissement.tex | 12 +- background/alg.tex | 99 +++ background/dif.tex | 95 +++ background/eq | 0 background/eq.tex | 99 ++- background/figure/eq/reg_unfair.pdf | Bin 0 -> 17023 bytes background/main.tex | 21 +- background/ml.tex | 63 +- background/opti.tex | 59 +- background/proba.tex | 22 + background/set.tex | 17 + classification_finie/ba.tex | 3 +- classification_finie/figure/ba/COMPAS.pdf | Bin 0 -> 13097 bytes classification_finie/figure/ba/LAW.pdf | Bin 0 -> 12684 bytes .../figure/cezanne/cezanne/colage.png | Bin 0 -> 27809765 bytes .../figure/cezanne/cezanne/collage.svg | 77 +++ classification_finie/figure/cezanne/colage.png | Bin 0 -> 27809765 bytes classification_finie/figure/cezanne/collage.svg | 77 +++ classification_finie/figure/time/COMPAS.pdf | Bin 0 -> 12220 bytes classification_finie/figure/time/LAW.pdf | Bin 0 -> 12458 bytes classification_finie/main.tex | 1 + classification_finie/tabular.tex | 16 +- conclusion.tex | 20 +- contexte/< | 106 +++ contexte/background | 0 contexte/ckoi.tex | 4 +- contexte/enjeux.tex | 67 +- contexte/figure/g5k-backbone.pdf | Bin 0 -> 40313 bytes contexte/figure/g5k.svg | 123 ++++ contexte/legal.tex | 113 +++- contexte/philo/anthro.tex | 8 +- contexte/philo/mu.tex | 0 contexte/strat.tex | 124 +++- introduction.tex | 26 + main.tex | 7 +- notations.tex | 55 +- notes.tex | 20 +- perspectives.tex | 1 + remerciements.tex | 9 +- template_these_INSA_cotut.pdf | Bin 5219296 -> 45804005 bytes template_these_INSA_cotut.tex | 39 +- theorem.tex | 1 + 72 files changed, 2945 insertions(+), 179 deletions(-) create mode 100644 UDLISNA/ED.aux create mode 100644 UDLISNA/ED.tex create mode 100644 UDLISNA/INSA.png create mode 100644 UDLISNA/UDL_INSA_couverture_these_latex.zip create mode 100644 UDLISNA/folio.aux create mode 100644 UDLISNA/folio.tex create mode 100644 UDLISNA/garde.aux create mode 100644 UDLISNA/garde.tex create mode 100644 UDLISNA/partenaire.png create mode 100644 UDLISNA/template_these_INSA_cotut.aux create mode 100644 UDLISNA/template_these_INSA_cotut.log create mode 100644 UDLISNA/template_these_INSA_cotut.out create mode 100644 UDLISNA/template_these_INSA_cotut.pdf create mode 100644 UDLISNA/template_these_INSA_cotut.tcp create mode 100644 UDLISNA/template_these_INSA_cotut.tex create mode 100644 UDLISNA/template_these_INSA_cotut.toc create mode 100644 UDLISNA/template_these_INSA_cotut.tps create mode 100644 aia/< create mode 100644 aia/a.tex create mode 100644 aia/aia.tex create mode 100644 aia/b.tex create mode 100644 aia/conclusion.tex create mode 100644 aia/figure/rocr.pdf create mode 100644 aia/figure/tikz/data.tex create mode 100644 aia/methodo.tex create mode 100644 aia/related.tex create mode 100644 annexe/crit_discri.tex create mode 100644 background/alg.tex create mode 100644 background/dif.tex create mode 100644 background/eq create mode 100644 background/figure/eq/reg_unfair.pdf create mode 100644 classification_finie/figure/ba/COMPAS.pdf create mode 100644 classification_finie/figure/ba/LAW.pdf create mode 100644 classification_finie/figure/cezanne/cezanne/colage.png create mode 100644 classification_finie/figure/cezanne/cezanne/collage.svg create mode 100644 classification_finie/figure/cezanne/colage.png create mode 100644 classification_finie/figure/cezanne/collage.svg create mode 100644 classification_finie/figure/time/COMPAS.pdf create mode 100644 classification_finie/figure/time/LAW.pdf create mode 100644 contexte/< create mode 100644 contexte/background create mode 100644 contexte/figure/g5k-backbone.pdf create mode 100644 contexte/figure/g5k.svg delete mode 100644 contexte/philo/mu.tex create mode 100644 introduction.tex create mode 100644 perspectives.tex diff --git a/ACSAC/tables/tab_datasets.tex b/ACSAC/tables/tab_datasets.tex index 3dfe024..8b8e675 100644 --- a/ACSAC/tables/tab_datasets.tex +++ b/ACSAC/tables/tab_datasets.tex @@ -14,4 +14,4 @@ \end{tabular} \end{center} \label{tab:summary} -\end{table} \ No newline at end of file +\end{table} diff --git a/UDLISNA/ED.aux b/UDLISNA/ED.aux new file mode 100644 index 0000000..1901cd8 --- /dev/null +++ b/UDLISNA/ED.aux @@ -0,0 +1,25 @@ +\relax +\providecommand\hyper@newdestlabel[2]{} +\@setckpt{ED}{ +\setcounter{page}{3} +\setcounter{equation}{0} +\setcounter{enumi}{0} +\setcounter{enumii}{0} +\setcounter{enumiii}{0} +\setcounter{enumiv}{0} +\setcounter{footnote}{0} +\setcounter{mpfootnote}{0} +\setcounter{part}{0} +\setcounter{chapter}{0} +\setcounter{section}{0} +\setcounter{subsection}{0} +\setcounter{subsubsection}{0} +\setcounter{paragraph}{0} +\setcounter{subparagraph}{0} +\setcounter{figure}{0} +\setcounter{table}{0} +\setcounter{section@level}{0} +\setcounter{Item}{0} +\setcounter{Hfootnote}{0} +\setcounter{bookmark@seq@number}{0} +} diff --git a/UDLISNA/ED.tex b/UDLISNA/ED.tex new file mode 100644 index 0000000..bea74ca --- /dev/null +++ b/UDLISNA/ED.tex @@ -0,0 +1,215 @@ +\pagestyle{empty} + +\begin{center} +\large\textbf{Département FEDORA – INSA Lyon - Ecoles Doctorales} +\end{center} + +%\scriptsize +\fontsize{7.2pt}{7.2pt}\selectfont +\begin{center} +\begin{tabular}{|>{\centering}>{\columncolor[rgb]{0.90, 0.87, 0.93}}>{\color{txtED}}b{1.9cm}|b{7.2cm}|b{6.9cm}|} +\hline\vspace{.05cm} +\textbf{SIGLE}&\textbf{ECOLE DOCTORALE}&\textbf{NOM ET COORDONNEES DU RESPONSABLE}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 206\\ + \\ + CHIMIE\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{CHIMIE DE LYON}}\\[.2cm] + \textcolor{siteED}{\textbf{https://www.edchimie-lyon.fr}}\\ + Sec. : Renée EL MELHEM\\ + Bât. Blaise PASCAL, 3e étage\\ + \textcolor{blue}{\underline{\textbf{secretariat@edchimie-lyon.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{M. Stéphane DANIELE}}\\ + C2P2-CPE LYON-UMR 5265\\ + Bâtiment F308, BP 2077\\ + 43 Boulevard du 11 novembre 1918\\ + 69616 Villeurbanne\\ + \textcolor{blue}{\underline{\textbf{directeur@edchimie-lyon.fr}}}\\ + \end{tabular}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 341\\ + \\ + E2M2\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{ÉVOLUTION, ÉCOSYSTÈME, MICROBIOLOGIE, MODÉLISATION}}\\[.2cm] + \textcolor{siteED}{\textbf{http://e2m2.universite-lyon.fr }}\\ + Sec. : Bénédicte LANZA\\ + Bât. Atrium, UCB Lyon 1\\ + Tél : 04.72.44.83.62\\ + \textcolor{blue}{\underline{\textbf{secretariat.e2m2@univ-lyon1.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{Mme Sandrine CHARLES }}\\ + Université Claude Bernard Lyon 1\\ + UFR Biosciences\\ + Bâtiment Mendel\\ + 43, boulevard du 11 Novembre 1918\\ + 69622 Villeurbanne CEDEX\\ + \textcolor{blue}{\underline{\textbf{e2m2.codir@listes.univ-lyon1.fr}}}\\ + \end{tabular}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 205\\ + \\ + EDISS\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{INTERDISCIPLINAIRE SCIENCES-SANTÉ}}\\[.2cm] + \textcolor{siteED}{\textbf{http://ediss.universite-lyon.fr}}\\ + Sec. : Bénédicte LANZA\\ + Bât. Atrium, UCB Lyon 1\\ + Tél : 04.72.44.83.62\\ + \textcolor{blue}{\underline{\textbf{secretariat.ediss@univ-lyon1.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{Mme Sylvie RICARD-BLUM}}\\ + Laboratoire ICBMS - UMR 5246 CNRS - Université Lyon 1\\ + Bâtiment Raulin - 2ème étage Nord\\ + 43 Boulevard du 11 novembre 1918\\ + 69622 Villeurbanne Cedex\\ + Tél : +33(0)4 72 44 82 32\\ + \textcolor{blue}{\underline{\textbf{sylvie.ricard-blum@univ-lyon1.fr}}}\\ + \end{tabular}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 34\\ + \\ + EDML\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{MATÉRIAUX DE LYON}}\\[.2cm] + \textcolor{siteED}{\textbf{http://ed34.universite-lyon.fr}}\\ + Sec. : Yann DE ORDENANA\\ + Tél : 04.72.18.62.44\\ + \\ + \textcolor{blue}{\underline{\textbf{yann.de-ordenana@ec-lyon.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{M. Stéphane BENAYOUN}}\\ + Ecole Centrale de Lyon\\ + Laboratoire LTDS\\ + 36 avenue Guy de Collongue\\ + 69134 Ecully CEDEX\\ + Tél : 04.72.18.64.37\\ + \textcolor{blue}{\underline{\textbf{stephane.benayoun@ec-lyon.fr}}}\\ + \end{tabular}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 160\\ + \\ + EEA\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{ÉLECTRONIQUE, ÉLECTROTECHNIQUE, AUTOMATIQUE}}\\[.2cm] + \textcolor{siteED}{\textbf{https://edeea.universite-lyon.fr}}\\ + Sec. : Philomène TRECOURT\\ + Bâtiment Direction INSA Lyon\\ + Tél : 04.72.43.71.70\\ + \\ + \textcolor{blue}{\underline{\textbf{secretariat.edeea@insa-lyon.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{M. Philippe DELACHARTRE}}\\ + INSA LYON\\ + Laboratoire CREATIS\\ + Bâtiment Blaise Pascal, 7 avenue Jean Capelle\\ + 69621 Villeurbanne CEDEX\\ + Tél : 04.72.43.88.63\\ + \textcolor{blue}{\underline{\textbf{philippe.delachartre@insa-lyon.fr}}}\\ + \end{tabular}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 512\\ + \\ + INFOMATHS\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{INFORMATIQUE ET MATHÉMATIQUES}}\\[.2cm] + \textcolor{siteED}{\textbf{http://edinfomaths.universite-lyon.fr}}\\ + Sec. : Renée EL MELHEM\\ + Bât. Blaise PASCAL, 3e étage\\ + Tél : 04.72.43.80.46\\ + \textcolor{blue}{\underline{\textbf{infomaths@univ-lyon1.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{M. Hamamache KHEDDOUCI}}\\ + Université Claude Bernard Lyon 1\\ + Bât. Nautibus\\ + 43, Boulevard du 11 novembre 1918\\ + 69 622 Villeurbanne Cedex France\\ + Tél : 04.72.44.83.69\\ + \textcolor{blue}{\underline{\textbf{direction.infomaths@listes.univ-lyon1.fr}}}\\ + \end{tabular}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 162\\ + \\ + MEGA\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{MÉCANIQUE, ÉNERGÉTIQUE, GÉNIE CIVIL, ACOUSTIQUE}}\\[.2cm] + \textcolor{siteED}{\textbf{http://edmega.universite-lyon.fr}}\\ + Sec. : Philomène TRECOURT\\ + Tél : 04.72.43.71.70\\ + Bâtiment Direction INSA Lyon\\ + \textcolor{blue}{\underline{\textbf{mega@insa-lyon.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{M. Etienne PARIZET}}\\ + INSA Lyon\\ + Laboratoire LVA\\ + Bâtiment St. Exupéry\\ + 25 bis av. Jean Capelle\\ + 69621 Villeurbanne CEDEX\\ + \textcolor{blue}{\underline{\textbf{etienne.parizet@insa-lyon.fr}}}\\ + \end{tabular}\\ + +\hline + \begin{tabular}{@{}c@{}} + ED 483\\ + \\ + ScSo\end{tabular}& + \begin{tabular}{@{}l@{}} + \\ + \textbf{\underline{ScSo}}\footnotemark[1]\\[.2cm] + \textcolor{siteED}{\textbf{https://edsciencessociales.universite-lyon.fr}}\\ + Sec. : Mélina FAVETON\\ + Tél : 04.78.69.77.79\\ + \textcolor{blue}{\underline{\textbf{melina.faveton@univ-lyon2.fr}}}\\ + \\ + \end{tabular}& + \begin{tabular}{@{}l@{}} + \textcolor{txtED}{\textbf{M. Bruno MILLY}} (INSA : J.Y. TOUSSAINT)\\ + Univ. Lyon 2 Campus Berges du Rhône\\ + 18, quai Claude Bernard\\ + 69365 LYON CEDEX 07\\ + Bureau BEL 319\\ + \textcolor{blue}{\underline{\textbf{bruno.milly@univ-lyon2.fr}}}\\ + \end{tabular}\\ + + \hline +\end{tabular} +\end{center} + +\footnotetext[1]{\scriptsize ScSo : Histoire, Géographie, Aménagement, Urbanisme, Archéologie, Science politique, Sociologie, Anthropologie } diff --git a/UDLISNA/INSA.png b/UDLISNA/INSA.png new file mode 100644 index 0000000..b4055ca Binary files /dev/null and b/UDLISNA/INSA.png differ diff --git a/UDLISNA/UDL_INSA_couverture_these_latex.zip b/UDLISNA/UDL_INSA_couverture_these_latex.zip new file mode 100644 index 0000000..945c365 Binary files /dev/null and b/UDLISNA/UDL_INSA_couverture_these_latex.zip differ diff --git a/UDLISNA/folio.aux b/UDLISNA/folio.aux new file mode 100644 index 0000000..822f8a0 --- /dev/null +++ b/UDLISNA/folio.aux @@ -0,0 +1,25 @@ +\relax +\providecommand\hyper@newdestlabel[2]{} +\@setckpt{folio}{ +\setcounter{page}{13} +\setcounter{equation}{0} +\setcounter{enumi}{0} +\setcounter{enumii}{0} +\setcounter{enumiii}{0} +\setcounter{enumiv}{0} +\setcounter{footnote}{0} +\setcounter{mpfootnote}{0} +\setcounter{part}{0} +\setcounter{chapter}{1} +\setcounter{section}{1} +\setcounter{subsection}{0} +\setcounter{subsubsection}{0} +\setcounter{paragraph}{0} +\setcounter{subparagraph}{0} +\setcounter{figure}{0} +\setcounter{table}{0} +\setcounter{section@level}{1} +\setcounter{Item}{0} +\setcounter{Hfootnote}{0} +\setcounter{bookmark@seq@number}{2} +} diff --git a/UDLISNA/folio.tex b/UDLISNA/folio.tex new file mode 100644 index 0000000..03dadf4 --- /dev/null +++ b/UDLISNA/folio.tex @@ -0,0 +1,57 @@ + +\newgeometry{top=.8cm,bottom=1cm,right=1.5cm,left=1.5cm} + +\begin{center} +\includegraphics[height=1.9cm]{INSA.png} +\end{center} + +\vspace{.3cm} +\footnotesize +\centering +\begin{tabular}{|p{8.6cm}p{8.6cm}|} + \multicolumn{2}{p{17.2cm}}{\center{\normalsize{\underline{FOLIO ADMINISTRATIF}}}}\\[-.2cm] + \multicolumn{2}{p{17.2cm}}{\center{\normalsize{\dotuline{THESE DE L’INSA LYON, MEMBRE DE L’UNIVERSITE DE LYON}}}}\\ + \multicolumn{2}{p{17.2cm}}{}\\ + \hline + &\\ + NOM : \textbf{(NOM)}&DATE de SOUTENANCE : \textbf{(Date)}\\ + (avec précision du nom de jeune fille, le cas échéant)&\\ + &\\ + Prénoms : \textbf{(Prénoms)}&\\ + &\\ + \multicolumn{2}{|p{17.2cm}|}{TITRE : \textbf{(TITRE)}}\\ + &\\ + &\\ + &\\ + &\\ + NATURE : \textbf{Doctorat}&Numéro d'ordre : \textbf{(donné au moment du dépôt)}\\ + &\\ + \multicolumn{2}{|p{17.2cm}|}{\'Ecole Doctorale : \textbf{\'Electronique, \'Electrotechnique et Automatique de Lyon}}\\ + &\\ + Spécialité : \textbf{\'Energie et Syst\`emes}&\\ + &\\ + &\\ + R\'ESUM\'E :&\\ + \multicolumn{2}{|p{17.2cm}|}{\lipsum[4]}\\ + \multicolumn{2}{|p{17.2cm}|}{\lipsum[3]}\\ + \multicolumn{2}{|p{17.2cm}|}{\lipsum[2]}\\ + &\\ + \multicolumn{2}{|p{17.2cm}|}{MOTS-CL\'ES : \textbf{(mots-clés)}}\\ + &\\ + &\\ + \multicolumn{2}{|p{17.2cm}|}{ + \begin{tabular}{@{}ll}%@{} pour avoir aucune bordure + Laboratoire(s) de recherche : &\textbf{(laboratoire(s))}\\ + \end{tabular}}\\ + &\\ + &\\ + \multicolumn{2}{|p{17.2cm}|}{Directeur de thèse : \textbf{(Directeur)}}\\ + &\\ + &\\ + \multicolumn{2}{|p{17.2cm}|}{Président du Jury : \textbf{(président, nommé au moment de la soutenance)}}\\ + &\\ + \multicolumn{2}{|p{17.2cm}|}{Composition du Jury :}\\ + \multicolumn{2}{|p{17.2cm}|}{\hspace{1cm}\textbf{(Jury)}}\\ + &\\ + \hline +\end{tabular} diff --git a/UDLISNA/garde.aux b/UDLISNA/garde.aux new file mode 100644 index 0000000..a9f4860 --- /dev/null +++ b/UDLISNA/garde.aux @@ -0,0 +1,25 @@ +\relax +\providecommand\hyper@newdestlabel[2]{} +\@setckpt{garde}{ +\setcounter{page}{2} +\setcounter{equation}{0} +\setcounter{enumi}{0} +\setcounter{enumii}{0} +\setcounter{enumiii}{0} +\setcounter{enumiv}{0} +\setcounter{footnote}{0} +\setcounter{mpfootnote}{0} +\setcounter{part}{0} +\setcounter{chapter}{0} +\setcounter{section}{0} +\setcounter{subsection}{0} +\setcounter{subsubsection}{0} +\setcounter{paragraph}{0} +\setcounter{subparagraph}{0} +\setcounter{figure}{0} +\setcounter{table}{0} +\setcounter{section@level}{0} +\setcounter{Item}{0} +\setcounter{Hfootnote}{0} +\setcounter{bookmark@seq@number}{0} +} diff --git a/UDLISNA/garde.tex b/UDLISNA/garde.tex new file mode 100644 index 0000000..0950dbe --- /dev/null +++ b/UDLISNA/garde.tex @@ -0,0 +1,68 @@ +\newgeometry{top=1.85cm,bottom=2.5cm,right=1.6cm,left=1.85cm} + + +\begin{titlepage} + +\begin{tabular}{cc} + \includegraphics[height=3cm]{INSA.png} + \includegraphics[height=3cm]{partenaire.png} +\end{tabular} + +\vspace{1cm} + +\small +N° d'ordre NNT : $xxx$\\[-.4cm] + + +\begin{center} + +\Large + +\scalebox{1}[.9]{\textbf{THESE de DOCTORAT DE L’INSA LYON,}}\\[-.2cm] +\scalebox{1}[.9]{\textbf{membre de l’Université de Lyon}}\\[.5cm] + +\normalsize + +délivré en partenariat international avec\\ +\textbf{(Nom Etablissement)}\\[.5cm] + +\textbf{Ecole Doctorale} N° accréditation\\ +\textbf{(Nom complet Ecole Doctorale)}\\[.4cm] +\textbf{Spécialité/ discipline de doctorat :}\\[2.1cm] + + +\normalsize +Soutenue publiquement/à huis clos le jj/mm/aaaa, par :\\ +\Large +\scalebox{1}[.9]{\textbf{(Prénoms Nom)}}\\[.7cm] + +\hrulefill\\[.3cm] +\Huge +\textbf{Titre de la thèse} + +\hrulefill\\[2cm] + + +\end{center} + +\normalsize +Devant le jury composé de :\\[.3cm] + +\small + +\begin{tabular}{lllll} +&&&&\\ +NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Président.e (à préciser après la soutenance)} \\ +NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Rapporteur.e}\\ +NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Rapporteur.e}\\ +NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Examinateur.rice}\\ +NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Examinateur.rice}\\ +&&&&\\ +NOM&Prénom&grade/qualité&établissement/entreprise&Directeur.rice de thèse\\ +NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Co-directeur.rice de thèse}\\ +NOM&Prénom&grade/qualité&établissement/entreprise&\textcolor{red}{Invité.e}\\ +\end{tabular} + + + +\end{titlepage} diff --git a/UDLISNA/partenaire.png b/UDLISNA/partenaire.png new file mode 100644 index 0000000..8c8fa9f Binary files /dev/null and b/UDLISNA/partenaire.png differ diff --git a/UDLISNA/template_these_INSA_cotut.aux b/UDLISNA/template_these_INSA_cotut.aux new file mode 100644 index 0000000..65e8375 --- /dev/null +++ b/UDLISNA/template_these_INSA_cotut.aux @@ -0,0 +1,19 @@ +\relax +\providecommand\hyper@newdestlabel[2]{} +\providecommand\HyField@AuxAddToFields[1]{} +\providecommand\HyField@AuxAddToCoFields[2]{} +\providecommand\babel@aux[2]{} +\@nameuse{bbl@beforestart} +\catcode `:\active +\catcode `;\active +\catcode `!\active +\catcode `?\active +\@input{garde.aux} +\babel@aux{french}{} +\@input{ED.aux} +\@writefile{toc}{\contentsline {chapter}{\numberline {1}Titre chapitre}{5}{chapter.1}\protected@file@percent } +\@writefile{lof}{\addvspace {10\p@ }} +\@writefile{lot}{\addvspace {10\p@ }} +\@writefile{toc}{\contentsline {section}{\numberline {1.1}Titre section}{6}{section.1.1}\protected@file@percent } +\@input{folio.aux} +\gdef \@abspage@last{12} diff --git a/UDLISNA/template_these_INSA_cotut.log b/UDLISNA/template_these_INSA_cotut.log new file mode 100644 index 0000000..7910941 --- /dev/null +++ b/UDLISNA/template_these_INSA_cotut.log @@ -0,0 +1,714 @@ +This is pdfTeX, Version 3.141592653-2.6-1.40.26 (TeX Live 2024/Arch Linux) (preloaded format=pdflatex 2024.6.8) 5 SEP 2024 14:00 +entering extended mode + restricted \write18 enabled. + %&-line parsing enabled. +**template_these_INSA_cotut.tex +(./template_these_INSA_cotut.tex +LaTeX2e <2023-11-01> patch level 1 +L3 programming layer <2024-02-20> +(/usr/share/texmf-dist/tex/latex/base/report.cls +Document Class: report 2023/05/17 v1.4n Standard LaTeX document class +(/usr/share/texmf-dist/tex/latex/base/size12.clo +File: size12.clo 2023/05/17 v1.4n Standard LaTeX file (size option) +) +\c@part=\count188 +\c@chapter=\count189 +\c@section=\count190 +\c@subsection=\count191 +\c@subsubsection=\count192 +\c@paragraph=\count193 +\c@subparagraph=\count194 +\c@figure=\count195 +\c@table=\count196 +\abovecaptionskip=\skip48 +\belowcaptionskip=\skip49 +\bibindent=\dimen140 +) +(/usr/share/texmf-dist/tex/latex/graphics/graphicx.sty +Package: graphicx 2021/09/16 v1.2d Enhanced LaTeX Graphics (DPC,SPQR) + +(/usr/share/texmf-dist/tex/latex/graphics/keyval.sty +Package: keyval 2022/05/29 v1.15 key=value parser (DPC) +\KV@toks@=\toks17 +) +(/usr/share/texmf-dist/tex/latex/graphics/graphics.sty +Package: graphics 2022/03/10 v1.4e Standard LaTeX Graphics (DPC,SPQR) + +(/usr/share/texmf-dist/tex/latex/graphics/trig.sty +Package: trig 2021/08/11 v1.11 sin cos tan (DPC) +) +(/usr/share/texmf-dist/tex/latex/graphics-cfg/graphics.cfg +File: graphics.cfg 2016/06/04 v1.11 sample graphics configuration +) +Package graphics Info: Driver file: pdftex.def on input line 107. + +(/usr/share/texmf-dist/tex/latex/graphics-def/pdftex.def +File: pdftex.def 2022/09/22 v1.2b Graphics/color driver for pdftex +)) +\Gin@req@height=\dimen141 +\Gin@req@width=\dimen142 +) +(/usr/share/texmf-dist/tex/latex/xcolor/xcolor.sty +Package: xcolor 2023/11/15 v3.01 LaTeX color extensions (UK) + +(/usr/share/texmf-dist/tex/latex/graphics-cfg/color.cfg +File: color.cfg 2016/01/02 v1.6 sample color configuration +) +Package xcolor Info: Driver file: pdftex.def on input line 274. + +(/usr/share/texmf-dist/tex/latex/graphics/mathcolor.ltx) +Package xcolor Info: Model `cmy' substituted by `cmy0' on input line 1350. +Package xcolor Info: Model `hsb' substituted by `rgb' on input line 1354. +Package xcolor Info: Model `RGB' extended on input line 1366. +Package xcolor Info: Model `HTML' substituted by `rgb' on input line 1368. +Package xcolor Info: Model `Hsb' substituted by `hsb' on input line 1369. +Package xcolor Info: Model `tHsb' substituted by `hsb' on input line 1370. +Package xcolor Info: Model `HSB' substituted by `hsb' on input line 1371. +Package xcolor Info: Model `Gray' substituted by `gray' on input line 1372. +Package xcolor Info: Model `wave' substituted by `hsb' on input line 1373. +) +(/usr/share/texmf-dist/tex/latex/geometry/geometry.sty +Package: geometry 2020/01/02 v5.9 Page Geometry + +(/usr/share/texmf-dist/tex/generic/iftex/ifvtex.sty +Package: ifvtex 2019/10/25 v1.7 ifvtex legacy package. Use iftex instead. + +(/usr/share/texmf-dist/tex/generic/iftex/iftex.sty +Package: iftex 2022/02/03 v1.0f TeX engine tests +)) +\Gm@cnth=\count197 +\Gm@cntv=\count198 +\c@Gm@tempcnt=\count199 +\Gm@bindingoffset=\dimen143 +\Gm@wd@mp=\dimen144 +\Gm@odd@mp=\dimen145 +\Gm@even@mp=\dimen146 +\Gm@layoutwidth=\dimen147 +\Gm@layoutheight=\dimen148 +\Gm@layouthoffset=\dimen149 +\Gm@layoutvoffset=\dimen150 +\Gm@dimlist=\toks18 +) +(/usr/share/texmf-dist/tex/latex/hyperref/hyperref.sty +Package: hyperref 2024-01-20 v7.01h Hypertext links for LaTeX + +(/usr/share/texmf-dist/tex/latex/kvsetkeys/kvsetkeys.sty +Package: kvsetkeys 2022-10-05 v1.19 Key value parser (HO) +) +(/usr/share/texmf-dist/tex/generic/kvdefinekeys/kvdefinekeys.sty +Package: kvdefinekeys 2019-12-19 v1.6 Define keys (HO) +) +(/usr/share/texmf-dist/tex/generic/pdfescape/pdfescape.sty +Package: pdfescape 2019/12/09 v1.15 Implements pdfTeX's escape features (HO) + +(/usr/share/texmf-dist/tex/generic/ltxcmds/ltxcmds.sty +Package: ltxcmds 2023-12-04 v1.26 LaTeX kernel commands for general use (HO) +) +(/usr/share/texmf-dist/tex/generic/pdftexcmds/pdftexcmds.sty +Package: pdftexcmds 2020-06-27 v0.33 Utility functions of pdfTeX for LuaTeX (HO +) + +(/usr/share/texmf-dist/tex/generic/infwarerr/infwarerr.sty +Package: infwarerr 2019/12/03 v1.5 Providing info/warning/error messages (HO) +) +Package pdftexcmds Info: \pdf@primitive is available. +Package pdftexcmds Info: \pdf@ifprimitive is available. +Package pdftexcmds Info: \pdfdraftmode found. +)) +(/usr/share/texmf-dist/tex/latex/hycolor/hycolor.sty +Package: hycolor 2020-01-27 v1.10 Color options for hyperref/bookmark (HO) +) +(/usr/share/texmf-dist/tex/latex/auxhook/auxhook.sty +Package: auxhook 2019-12-17 v1.6 Hooks for auxiliary files (HO) +) +(/usr/share/texmf-dist/tex/latex/hyperref/nameref.sty +Package: nameref 2023-11-26 v2.56 Cross-referencing by name of section + +(/usr/share/texmf-dist/tex/latex/refcount/refcount.sty +Package: refcount 2019/12/15 v3.6 Data extraction from label references (HO) +) +(/usr/share/texmf-dist/tex/generic/gettitlestring/gettitlestring.sty +Package: gettitlestring 2019/12/15 v1.6 Cleanup title references (HO) + +(/usr/share/texmf-dist/tex/latex/kvoptions/kvoptions.sty +Package: kvoptions 2022-06-15 v3.15 Key value format for package options (HO) +)) +\c@section@level=\count266 +) +(/usr/share/texmf-dist/tex/latex/etoolbox/etoolbox.sty +Package: etoolbox 2020/10/05 v2.5k e-TeX tools for LaTeX (JAW) +\etb@tempcnta=\count267 +) +\@linkdim=\dimen151 +\Hy@linkcounter=\count268 +\Hy@pagecounter=\count269 + +(/usr/share/texmf-dist/tex/latex/hyperref/pd1enc.def +File: pd1enc.def 2024-01-20 v7.01h Hyperref: PDFDocEncoding definition (HO) +Now handling font encoding PD1 ... +... no UTF-8 mapping file for font encoding PD1 +) +(/usr/share/texmf-dist/tex/generic/intcalc/intcalc.sty +Package: intcalc 2019/12/15 v1.3 Expandable calculations with integers (HO) +) +\Hy@SavedSpaceFactor=\count270 + +(/usr/share/texmf-dist/tex/latex/hyperref/puenc.def +File: puenc.def 2024-01-20 v7.01h Hyperref: PDF Unicode definition (HO) +Now handling font encoding PU ... +... no UTF-8 mapping file for font encoding PU +) +Package hyperref Info: Option `colorlinks' set `false' on input line 4062. +Package hyperref Info: Hyper figures OFF on input line 4179. +Package hyperref Info: Link nesting OFF on input line 4184. +Package hyperref Info: Hyper index ON on input line 4187. +Package hyperref Info: Plain pages OFF on input line 4194. +Package hyperref Info: Backreferencing OFF on input line 4199. +Package hyperref Info: Implicit mode ON; LaTeX internals redefined. +Package hyperref Info: Bookmarks ON on input line 4446. +\c@Hy@tempcnt=\count271 + +(/usr/share/texmf-dist/tex/latex/url/url.sty +\Urlmuskip=\muskip16 +Package: url 2013/09/16 ver 3.4 Verb mode for urls, etc. +) +LaTeX Info: Redefining \url on input line 4784. +\XeTeXLinkMargin=\dimen152 + +(/usr/share/texmf-dist/tex/generic/bitset/bitset.sty +Package: bitset 2019/12/09 v1.3 Handle bit-vector datatype (HO) + +(/usr/share/texmf-dist/tex/generic/bigintcalc/bigintcalc.sty +Package: bigintcalc 2019/12/15 v1.5 Expandable calculations on big integers (HO +) +)) +\Fld@menulength=\count272 +\Field@Width=\dimen153 +\Fld@charsize=\dimen154 +Package hyperref Info: Hyper figures OFF on input line 6063. +Package hyperref Info: Link nesting OFF on input line 6068. +Package hyperref Info: Hyper index ON on input line 6071. +Package hyperref Info: backreferencing OFF on input line 6078. +Package hyperref Info: Link coloring OFF on input line 6083. +Package hyperref Info: Link coloring with OCG OFF on input line 6088. +Package hyperref Info: PDF/A mode OFF on input line 6093. + +(/usr/share/texmf-dist/tex/latex/base/atbegshi-ltx.sty +Package: atbegshi-ltx 2021/01/10 v1.0c Emulation of the original atbegshi +package with kernel methods +) +\Hy@abspage=\count273 +\c@Item=\count274 +\c@Hfootnote=\count275 +) +Package hyperref Info: Driver: hpdftex. + +(/usr/share/texmf-dist/tex/latex/hyperref/hpdftex.def +File: hpdftex.def 2024-01-20 v7.01h Hyperref driver for pdfTeX + +(/usr/share/texmf-dist/tex/latex/base/atveryend-ltx.sty +Package: atveryend-ltx 2020/08/19 v1.0a Emulation of the original atveryend pac +kage +with kernel methods +) +\Fld@listcount=\count276 +\c@bookmark@seq@number=\count277 + +(/usr/share/texmf-dist/tex/latex/rerunfilecheck/rerunfilecheck.sty +Package: rerunfilecheck 2022-07-10 v1.10 Rerun checks for auxiliary files (HO) + +(/usr/share/texmf-dist/tex/generic/uniquecounter/uniquecounter.sty +Package: uniquecounter 2019/12/15 v1.4 Provide unlimited unique counter (HO) +) +Package uniquecounter Info: New unique counter `rerunfilecheck' on input line 2 +85. +) +\Hy@SectionHShift=\skip50 +) +(/usr/share/texmf-dist/tex/generic/babel/babel.sty +Package: babel 2024/02/07 v24.2 The Babel package +\babel@savecnt=\count278 +\U@D=\dimen155 +\l@unhyphenated=\language7 + +(/usr/share/texmf-dist/tex/generic/babel/txtbabel.def) +\bbl@readstream=\read2 +\bbl@dirlevel=\count279 + +(/usr/share/texmf-dist/tex/generic/babel-french/french.ldf +Language: french 2024-02-29 v3.5s French support from the babel system +Package babel Info: Hyphen rules for 'acadian' set to \l@french +(babel) (\language6). Reported on input line 91. +Package babel Info: Hyphen rules for 'canadien' set to \l@french +(babel) (\language6). Reported on input line 92. +\FB@stdchar=\count280 +Package babel Info: Making : an active character on input line 420. +Package babel Info: Making ; an active character on input line 421. +Package babel Info: Making ! an active character on input line 422. +Package babel Info: Making ? an active character on input line 423. +\FBguill@level=\count281 +\FBold@everypar=\toks19 +\FB@Mht=\dimen156 +\mc@charclass=\count282 +\mc@charfam=\count283 +\mc@charslot=\count284 +\std@mcc=\count285 +\dec@mcc=\count286 +\FB@parskip=\dimen157 +\listindentFB=\dimen158 +\descindentFB=\dimen159 +\labelindentFB=\dimen160 +\labelwidthFB=\dimen161 +\leftmarginFB=\dimen162 +\parindentFFN=\dimen163 +\FBfnindent=\dimen164 +)) +(/usr/share/texmf-dist/tex/generic/babel/locale/fr/babel-french.tex +Package babel Info: Importing font and identification data for french +(babel) from babel-fr.ini. Reported on input line 11. +) +(/usr/share/texmf-dist/tex/latex/carlisle/scalefnt.sty) +(/usr/share/texmf-dist/tex/latex/base/fontenc.sty +Package: fontenc 2021/04/29 v2.0v Standard LaTeX package +) +(/usr/share/texmf-dist/tex/latex/psnfss/helvet.sty +Package: helvet 2020/03/25 PSNFSS-v9.3 (WaS) +) +(/usr/share/texmf-dist/tex/latex/colortbl/colortbl.sty +Package: colortbl 2024/02/20 v1.0g Color table columns (DPC) + +(/usr/share/texmf-dist/tex/latex/tools/array.sty +Package: array 2023/10/16 v2.5g Tabular extension package (FMi) +\col@sep=\dimen165 +\ar@mcellbox=\box51 +\extrarowheight=\dimen166 +\NC@list=\toks20 +\extratabsurround=\skip51 +\backup@length=\skip52 +\ar@cellbox=\box52 +) +\everycr=\toks21 +\minrowclearance=\skip53 +\rownum=\count287 +) +(/usr/share/texmf-dist/tex/generic/ulem/ulem.sty +\UL@box=\box53 +\UL@hyphenbox=\box54 +\UL@skip=\skip54 +\UL@hook=\toks22 +\UL@height=\dimen167 +\UL@pe=\count288 +\UL@pixel=\dimen168 +\ULC@box=\box55 +Package: ulem 2019/11/18 +\ULdepth=\dimen169 +) +(/usr/share/texmf-dist/tex/latex/lipsum/lipsum.sty +(/usr/share/texmf-dist/tex/latex/l3packages/l3keys2e/l3keys2e.sty +(/usr/share/texmf-dist/tex/latex/l3kernel/expl3.sty +Package: expl3 2024-02-20 L3 programming layer (loader) + +(/usr/share/texmf-dist/tex/latex/l3backend/l3backend-pdftex.def +File: l3backend-pdftex.def 2024-02-20 L3 backend support: PDF output (pdfTeX) +\l__color_backend_stack_int=\count289 +\l__pdf_internal_box=\box56 +)) +Package: l3keys2e 2024-02-18 LaTeX2e option processing using LaTeX3 keys +) +Package: lipsum 2021-09-20 v2.7 150 paragraphs of Lorem Ipsum dummy text +\g__lipsum_par_int=\count290 +\l__lipsum_a_int=\count291 +\l__lipsum_b_int=\count292 + +(/usr/share/texmf-dist/tex/latex/lipsum/lipsum.ltd.tex)) +LaTeX Font Info: Trying to load font information for T1+phv on input line 21 +. + +(/usr/share/texmf-dist/tex/latex/psnfss/t1phv.fd +File: t1phv.fd 2020/03/25 scalable font definitions for T1/phv. +) +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 11.39996pt on input line 21. + +No file template_these_INSA_cotut.aux. +\openout1 = `template_these_INSA_cotut.aux'. + +LaTeX Font Info: Checking defaults for OML/cmm/m/it on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for OMS/cmsy/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for OT1/cmr/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for T1/cmr/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for TS1/cmr/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for OMX/cmex/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for U/cmr/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for PD1/pdf/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +LaTeX Font Info: Checking defaults for PU/pdf/m/n on input line 21. +LaTeX Font Info: ... okay on input line 21. +(/usr/share/texmf-dist/tex/context/base/mkii/supp-pdf.mkii +[Loading MPS to PDF converter (version 2006.09.02).] +\scratchcounter=\count293 +\scratchdimen=\dimen170 +\scratchbox=\box57 +\nofMPsegments=\count294 +\nofMParguments=\count295 +\everyMPshowfont=\toks23 +\MPscratchCnt=\count296 +\MPscratchDim=\dimen171 +\MPnumerator=\count297 +\makeMPintoPDFobject=\count298 +\everyMPtoPDFconversion=\toks24 +) (/usr/share/texmf-dist/tex/latex/epstopdf-pkg/epstopdf-base.sty +Package: epstopdf-base 2020-01-24 v2.11 Base part for package epstopdf +Package epstopdf-base Info: Redefining graphics rule for `.eps' on input line 4 +85. + +(/usr/share/texmf-dist/tex/latex/latexconfig/epstopdf-sys.cfg +File: epstopdf-sys.cfg 2010/07/13 v1.3 Configuration of (r)epstopdf for TeX Liv +e +)) +*geometry* driver: auto-detecting +*geometry* detected driver: pdftex +*geometry* verbose mode - [ preamble ] result: +* driver: pdftex +* paper: a4paper +* layout: +* layoutoffset:(h,v)=(0.0pt,0.0pt) +* modes: twoside +* h-part:(L,W,R)=(71.13188pt, 455.24411pt, 71.13188pt) +* v-part:(T,H,B)=(71.13188pt, 702.78308pt, 71.13188pt) +* \paperwidth=597.50787pt +* \paperheight=845.04684pt +* \textwidth=455.24411pt +* \textheight=702.78308pt +* \oddsidemargin=-1.1381pt +* \evensidemargin=-1.1381pt +* \topmargin=-38.1381pt +* \headheight=12.0pt +* \headsep=25.0pt +* \topskip=12.0pt +* \footskip=30.0pt +* \marginparwidth=85.0pt +* \marginparsep=10.0pt +* \columnsep=10.0pt +* \skip\footins=10.8pt plus 4.0pt minus 2.0pt +* \hoffset=0.0pt +* \voffset=0.0pt +* \mag=1000 +* \@twocolumnfalse +* \@twosidetrue +* \@mparswitchtrue +* \@reversemarginfalse +* (1in=72.27pt=25.4mm, 1cm=28.453pt) + +Package hyperref Info: Link coloring OFF on input line 21. +\@outlinefile=\write3 +\openout3 = `template_these_INSA_cotut.out'. + +LaTeX Info: Redefining \degres on input line 21. +LaTeX Info: Redefining \up on input line 21. +\openout2 = `garde.aux'. + +(./garde.tex +*geometry* verbose mode - [ newgeometry ] result: +* driver: pdftex +* paper: a4paper +* layout: +* layoutoffset:(h,v)=(0.0pt,0.0pt) +* modes: twoside +* h-part:(L,W,R)=(52.63777pt, 499.34552pt, 45.52458pt) +* v-part:(T,H,B)=(52.63777pt, 721.27719pt, 71.13188pt) +* \paperwidth=597.50787pt +* \paperheight=845.04684pt +* \textwidth=499.34552pt +* \textheight=721.27719pt +* \oddsidemargin=-19.63222pt +* \evensidemargin=-26.7454pt +* \topmargin=-56.63222pt +* \headheight=12.0pt +* \headsep=25.0pt +* \topskip=12.0pt +* \footskip=30.0pt +* \marginparwidth=85.0pt +* \marginparsep=10.0pt +* \columnsep=10.0pt +* \skip\footins=10.8pt plus 4.0pt minus 2.0pt +* \hoffset=0.0pt +* \voffset=0.0pt +* \mag=1000 +* \@twocolumnfalse +* \@twosidetrue +* \@mparswitchtrue +* \@reversemarginfalse +* (1in=72.27pt=25.4mm, 1cm=28.453pt) + +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <12> on input line 6. +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <8> on input line 6. +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <6> on input line 6. + +File: INSA.png Graphic file (type png) + +Package pdftex.def Info: INSA.png used on input line 7. +(pdftex.def) Requested size: 301.19356pt x 85.35826pt. + +File: partenaire.png Graphic file (type png) + +Package pdftex.def Info: partenaire.png used on input line 8. +(pdftex.def) Requested size: 190.23538pt x 85.35826pt. + +Overfull \hbox (24.8773pt too wide) in paragraph at lines 6--10 +[][] + [] + +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 10.40245pt on input line 13. +LaTeX Font Info: Trying to load font information for TS1+phv on input line 1 +4. +(/usr/share/texmf-dist/tex/latex/psnfss/ts1phv.fd +File: ts1phv.fd 2020/03/25 scalable font definitions for TS1/phv. +) +LaTeX Font Info: Font shape `TS1/phv/m/n' will be +(Font) scaled to size 10.40245pt on input line 14. +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <10.95> on input line 14. + +Underfull \hbox (badness 10000) in paragraph at lines 14--15 + + [] + +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 16.41594pt on input line 19. +LaTeX Font Info: Font shape `T1/phv/b/n' will be +(Font) scaled to size 16.41594pt on input line 21. +LaTeX Font Info: Font shape `T1/phv/b/n' will be +(Font) scaled to size 11.39996pt on input line 27. +LaTeX Font Info: Font shape `TS1/phv/m/n' will be +(Font) scaled to size 11.39996pt on input line 29. +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 23.63593pt on input line 40. +LaTeX Font Info: Font shape `T1/phv/b/n' will be +(Font) scaled to size 23.63593pt on input line 41. + +Underfull \hbox (badness 10000) in paragraph at lines 49--50 + + [] + + +Overfull \hbox (16.81996pt too wide) in paragraph at lines 53--65 +[][] + [] + +[1 + + + +{/var/lib/texmf/fonts/map/pdftex/updmap/pdftex.map}{/usr/share/texmf-dist/fonts +/enc/dvips/base/8r.enc} <./INSA.png> <./partenaire.png>]) +*geometry* verbose mode - [ newgeometry ] result: +* driver: pdftex +* paper: a4paper +* layout: +* layoutoffset:(h,v)=(0.0pt,0.0pt) +* modes: twoside +* h-part:(L,W,R)=(71.13188pt, 455.24411pt, 71.13188pt) +* v-part:(T,H,B)=(71.13188pt, 702.78308pt, 71.13188pt) +* \paperwidth=597.50787pt +* \paperheight=845.04684pt +* \textwidth=455.24411pt +* \textheight=702.78308pt +* \oddsidemargin=-1.1381pt +* \evensidemargin=-1.1381pt +* \topmargin=-38.1381pt +* \headheight=12.0pt +* \headsep=25.0pt +* \topskip=12.0pt +* \footskip=30.0pt +* \marginparwidth=85.0pt +* \marginparsep=10.0pt +* \columnsep=10.0pt +* \skip\footins=10.8pt plus 4.0pt minus 2.0pt +* \hoffset=0.0pt +* \voffset=0.0pt +* \mag=1000 +* \@twocolumnfalse +* \@twosidetrue +* \@mparswitchtrue +* \@reversemarginfalse +* (1in=72.27pt=25.4mm, 1cm=28.453pt) + +\openout2 = `ED.aux'. + + (./ED.tex +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 13.67995pt on input line 4. +LaTeX Font Info: Font shape `T1/phv/b/n' will be +(Font) scaled to size 13.67995pt on input line 4. +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 6.83997pt on input line 8. +LaTeX Font Info: Calculating math sizes for size <7.2> on input line 10. + + +LaTeX Font Warning: Font shape `OT1/cmr/m/n' in size <3.59999> not available +(Font) size <5> substituted on input line 10. + + +LaTeX Font Warning: Font shape `OML/cmm/m/it' in size <3.59999> not available +(Font) size <5> substituted on input line 10. + + +LaTeX Font Warning: Font shape `OMS/cmsy/m/n' in size <3.59999> not available +(Font) size <5> substituted on input line 10. + +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <7.2> on input line 10. +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <5.03996> on input line 10. +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <3.59999> on input line 10. +LaTeX Font Info: Font shape `T1/phv/b/n' will be +(Font) scaled to size 6.83997pt on input line 12. + +Overfull \hbox (1.5543pt too wide) in paragraph at lines 42--51 +[]|[]| + [] + +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 4.78795pt on input line 195. + +Overfull \hbox (37.5995pt too wide) in paragraph at lines 10--213 + [] + [] + +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 9.49997pt on input line 215. +LaTeX Font Info: Font shape `T1/phv/m/n' will be +(Font) scaled to size 7.59998pt on input line 215. +) [2 + + + + +] +No file template_these_INSA_cotut.toc. +\tf@toc=\write4 +\openout4 = `template_these_INSA_cotut.toc'. + +[3 + + + +] [4 + +] +Chapitre 1. + +Package lipsum Warning: Unknown language 'latin'. Hyphenation patterns for +(lipsum) 'french' will be used instead. + +[5{/usr/share/texmf-dist/fonts/enc/dvips/cm-super/cm-super-t1.enc}] [6] +[7] [8 + +] [9] [10 + +] [11] +\openout2 = `folio.aux'. + + (./folio.tex +*geometry* verbose mode - [ newgeometry ] result: +* driver: pdftex +* paper: a4paper +* layout: +* layoutoffset:(h,v)=(0.0pt,0.0pt) +* modes: twoside +* h-part:(L,W,R)=(42.67912pt, 512.14963pt, 42.67912pt) +* v-part:(T,H,B)=(22.76228pt, 793.83182pt, 28.45274pt) +* \paperwidth=597.50787pt +* \paperheight=845.04684pt +* \textwidth=512.14963pt +* \textheight=793.83182pt +* \oddsidemargin=-29.59087pt +* \evensidemargin=-29.59087pt +* \topmargin=-86.5077pt +* \headheight=12.0pt +* \headsep=25.0pt +* \topskip=12.0pt +* \footskip=30.0pt +* \marginparwidth=85.0pt +* \marginparsep=10.0pt +* \columnsep=10.0pt +* \skip\footins=10.8pt plus 4.0pt minus 2.0pt +* \hoffset=0.0pt +* \voffset=0.0pt +* \mag=1000 +* \@twocolumnfalse +* \@twosidetrue +* \@mparswitchtrue +* \@reversemarginfalse +* (1in=72.27pt=25.4mm, 1cm=28.453pt) + +File: INSA.png Graphic file (type png) + +Package pdftex.def Info: INSA.png used on input line 5. +(pdftex.def) Requested size: 190.75993pt x 54.06006pt. +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <7> on input line 11. +LaTeX Font Info: External font `cmex10' loaded for size +(Font) <5> on input line 11. +LaTeX Font Info: Font shape `T1/phv/b/n' will be +(Font) scaled to size 9.49997pt on input line 17. +) +Overfull \hbox (2.03809pt too wide) in paragraph at lines 11--58 + [][] + [] + +[12 + + +] (./template_these_INSA_cotut.aux (./garde.aux) (./ED.aux) (./folio.aux)) + *********** +LaTeX2e <2023-11-01> patch level 1 +L3 programming layer <2024-02-20> + *********** + + +LaTeX Font Warning: Size substitutions with differences +(Font) up to 1.40001pt have occurred. + + +Package rerunfilecheck Warning: File `template_these_INSA_cotut.out' has change +d. +(rerunfilecheck) Rerun to get outlines right +(rerunfilecheck) or use package `bookmark'. + +Package rerunfilecheck Info: Checksums for `template_these_INSA_cotut.out': +(rerunfilecheck) Before: +(rerunfilecheck) After: 060BC25C280311525CA4FC023B16CA27;238. + ) +Here is how much of TeX's memory you used: + 12205 strings out of 476047 + 192749 string characters out of 5792627 + 1955187 words of memory out of 5000000 + 34135 multiletter control sequences out of 15000+600000 + 602829 words of font info for 80 fonts, out of 8000000 for 9000 + 14 hyphenation exceptions out of 8191 + 79i,21n,93p,277b,517s stack positions out of 10000i,1000n,20000p,200000b,200000s + +Output written on template_these_INSA_cotut.pdf (12 pages, 152970 bytes). +PDF statistics: + 96 PDF objects out of 1000 (max. 8388607) + 69 compressed objects within 1 object stream + 18 named destinations out of 1000 (max. 500000) + 11 words of extra memory for PDF output out of 10000 (max. 10000000) + diff --git a/UDLISNA/template_these_INSA_cotut.out b/UDLISNA/template_these_INSA_cotut.out new file mode 100644 index 0000000..4d50a5f --- /dev/null +++ b/UDLISNA/template_these_INSA_cotut.out @@ -0,0 +1,2 @@ +\BOOKMARK [0][-]{chapter.1}{\376\377\000T\000i\000t\000r\000e\000\040\000c\000h\000a\000p\000i\000t\000r\000e}{}% 1 +\BOOKMARK [1][-]{section.1.1}{\376\377\000T\000i\000t\000r\000e\000\040\000s\000e\000c\000t\000i\000o\000n}{chapter.1}% 2 diff --git a/UDLISNA/template_these_INSA_cotut.pdf b/UDLISNA/template_these_INSA_cotut.pdf new file mode 100644 index 0000000..3b06508 Binary files /dev/null and b/UDLISNA/template_these_INSA_cotut.pdf differ diff --git a/UDLISNA/template_these_INSA_cotut.tcp b/UDLISNA/template_these_INSA_cotut.tcp new file mode 100644 index 0000000..fa003ab --- /dev/null +++ b/UDLISNA/template_these_INSA_cotut.tcp @@ -0,0 +1,12 @@ +[FormatInfo] +Type=TeXnicCenterProjectInformation +Version=4 + +[ProjectInfo] +MainFile=template_these_INSA_cotut.tex +UseBibTeX=0 +UseMakeIndex=0 +ActiveProfile=LaTeX ⇨ PDF +ProjectLanguage=en +ProjectDialect=US + diff --git a/UDLISNA/template_these_INSA_cotut.tex b/UDLISNA/template_these_INSA_cotut.tex new file mode 100644 index 0000000..bcb90b9 --- /dev/null +++ b/UDLISNA/template_these_INSA_cotut.tex @@ -0,0 +1,61 @@ +\documentclass[a4paper,titlepage,12pt,french,twoside,openright]{report} + +\usepackage{graphicx} +\usepackage{xcolor} +\usepackage[paper=a4paper,margin=2.5cm]{geometry}% http://ctan.org/pkg/geometry +\usepackage[pdftex,colorlinks=false]{hyperref} +\usepackage[french]{babel} +\usepackage[T1]{fontenc} +\usepackage[scaled]{helvet} +\renewcommand*{\familydefault}{\sfdefault} +\usepackage{colortbl} +\usepackage{ulem} +\usepackage{lipsum} + +\definecolor{tabED}{rgb}{0.90, 0.87, 0.93} +\definecolor{txtED}{rgb}{0.60, 0.28, 0.02} +\definecolor{siteED}{rgb}{0.04, 0.27, 0.47} + + + +\begin{document} + +\hypersetup{ +pdftitle={Titre de la thèse}, %informations dans le titre +pdfauthor={Auteur}, %dans les informations du document +pdfsubject={Th\`ese} %sous Acrobat. +} + +\include{garde} + +\newgeometry{top=2.5cm,bottom=2.5cm,right=2.5cm,left=2.5cm} + + +\include{ED} + +\normalsize +\normalfont +\rmfamily + +\tableofcontents +\newpage + +\chapter{Titre chapitre} +\textit{\lipsum[1-2]} + +\newpage +\section{Titre section} +\lipsum[3-12] + +\newpage +\chapter*{Liste des figures} + +\newpage +\chapter*{Liste des tableaux} + +\newpage +\sffamily +\include{folio} + + +\end{document} diff --git a/UDLISNA/template_these_INSA_cotut.toc b/UDLISNA/template_these_INSA_cotut.toc new file mode 100644 index 0000000..2a14803 --- /dev/null +++ b/UDLISNA/template_these_INSA_cotut.toc @@ -0,0 +1,3 @@ +\babel@toc {french}{}\relax +\contentsline {chapter}{\numberline {1}Titre chapitre}{5}{chapter.1}% +\contentsline {section}{\numberline {1.1}Titre section}{6}{section.1.1}% diff --git a/UDLISNA/template_these_INSA_cotut.tps b/UDLISNA/template_these_INSA_cotut.tps new file mode 100644 index 0000000..5aaed3b --- /dev/null +++ b/UDLISNA/template_these_INSA_cotut.tps @@ -0,0 +1,80 @@ +[FormatInfo] +Type=TeXnicCenterProjectSessionInformation +Version=2 + +[Frame0] +Flags=0 +ShowCmd=1 +MinPos.x=-1 +MinPos.y=-1 +MaxPos.x=-1 +MaxPos.y=-1 +NormalPos.left=4 +NormalPos.top=26 +NormalPos.right=1635 +NormalPos.bottom=601 +Class=LaTeXView +Document=template_these_INSA_cotut.tex + +[Frame0_View0,0] +TopLine=7 +Cursor=845 + +[Frame1] +Flags=0 +ShowCmd=1 +MinPos.x=-1 +MinPos.y=-1 +MaxPos.x=-1 +MaxPos.y=-1 +NormalPos.left=4 +NormalPos.top=26 +NormalPos.right=1635 +NormalPos.bottom=601 +Class=LaTeXView +Document=garde.tex + +[Frame1_View0,0] +TopLine=9 +Cursor=460 + +[Frame2] +Flags=0 +ShowCmd=1 +MinPos.x=-1 +MinPos.y=-1 +MaxPos.x=-1 +MaxPos.y=-1 +NormalPos.left=4 +NormalPos.top=26 +NormalPos.right=1635 +NormalPos.bottom=601 +Class=LaTeXView +Document=ED.tex + +[Frame2_View0,0] +TopLine=0 +Cursor=0 + +[Frame3] +Flags=0 +ShowCmd=1 +MinPos.x=-1 +MinPos.y=-1 +MaxPos.x=-1 +MaxPos.y=-1 +NormalPos.left=4 +NormalPos.top=26 +NormalPos.right=1635 +NormalPos.bottom=601 +Class=LaTeXView +Document=folio.tex + +[Frame3_View0,0] +TopLine=0 +Cursor=0 + +[SessionInfo] +FrameCount=4 +ActiveFrame=1 + diff --git a/aia/< b/aia/< new file mode 100644 index 0000000..9b2b48a --- /dev/null +++ b/aia/< @@ -0,0 +1,14 @@ +Nous avons vu à la Section~\ref{} que, pour imposer l'équitée à un modèle, nous pouvons utiliser différentes méthodes qui agissent lors de l'entraînement. +Utiliser ces méthodes peut causer une augmentation de certain risque liée à la confidentialité des donnée d'entraînement, ainsi il est admis qu'il y ai un compromis à faire enre equitée et confidentialitée~\cite{dudu2023sok}. +Cependant ce compromis ne concerne que les risquées liée aux attaque de MIA et rentre en coflit avec la confidentialité diférentielles~\cite{chang2021privacy,cummings,ijcai2022p766}. + +Dans ce chapitre nous allons étudier les intéractions entre ces mécanismes d'équitée et l'attaque AIA. +Nous allons montrer que sous cet angle, l'équitée et la confidentialitée travailent de concert. +Cette étude peut être vue sous deux angles. +Le premier aspect consiste à étudier comment les mécanisme d'équitée peuvent être utilisé pour mitiger différent types d'AIA. +Le second aspect, en lien avec le primer, est d'utiliser les AIA pour contrôler dans un environement boîte noire le niveau d'équitée d'un modèle. + +\subsection{Contributions} +Dans ce chaptre nous apportons les contributions suivante : +\begin{itemize} + \itme diff --git a/aia/a.tex b/aia/a.tex new file mode 100644 index 0000000..5d25e64 --- /dev/null +++ b/aia/a.tex @@ -0,0 +1,72 @@ + +\begin{figure*}[!htb] + \centering + \footnotesize + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/census/census_advdeb_attack_soft_experimental_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/census/census_advdeb_attack_soft_experimental_sex.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/census/census_advdeb_attack_hard_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/census/census_advdeb_attack_hard_sex.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/compas/compas_advdeb_attack_soft_experimental_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/compas/compas_advdeb_attack_soft_experimental_sex.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/compas/compas_advdeb_attack_hard_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/compas/compas_advdeb_attack_hard_sex.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/meps/meps_advdeb_attack_soft_experimental_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/meps/meps_advdeb_attack_soft_experimental_sex.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/meps/meps_advdeb_attack_hard_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/meps/meps_advdeb_attack_hard_sex.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_soft_experimental_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_soft_experimental_sex.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_hard_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewdith} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_hard_sex.pdf} + \caption{Census (race)} + \end{subfigure} + + \caption{For both \AIASoft and \AIAHard, Adversarial debisaing reduces the attack accuracy to random guess ($\sim$50\%). For \AIAHard, the theoretical bound on attack accuracy matches with the empirical results.} + \label{fig:AdaptAIADebias} +\end{figure*} diff --git a/aia/aia.tex b/aia/aia.tex new file mode 100644 index 0000000..39db20b --- /dev/null +++ b/aia/aia.tex @@ -0,0 +1,46 @@ +\subsection{Modèle de menace}\footnote{\textit{Threat model}} +Nous considéront qu'un adversaire souhatie conduire une AIA pour un attribute sensible sur un modèle cible. +Le but de l'adversaire est d'inférer l'attribut sensible à partir uniquement des prédictions du modèle cible. +L'adversaire a accès une base de donnée que nous appelons auxillière et qui ne contient pas d'individu en commun avec la base de donée d'entraînement du modèle cible que nous appelon base cible. +La base cible ne contiens pas l'attribut sensible qui n'a donc pas été utilisé à l'entraînement. +La base auxilière contiens l'attribut sensible et des prédictions du modèle cible correspondantes à ces attributs sensibles. +La base auxilmière ne contient pas les donnés d'entrée car sinon l'adversaire pourrait simplement entraîner un modèle pour inférer l'attribut sensible à partir des données d'entrée et le modèle cible n'aporterai pas plus d'informations~\cite{jayaraman2022attribute}. +Il n'est pas du ressort de cette étude d'étudier commen un adversaire pourrait avoir accès à une telle base de donnée. +Cela pourrait être le cas après une fuite de donnée ou une attaque de type homme du milieu\footnote{\textit{Man in the middle}}. + +\subsection{AIA pour les modèles de classification} +Considérons que le modèle cible prennet ses valeurs dans $F$, un ensemble fini. +C'est à dire que le modèle cible ne donne accès à l'attaquant que des prédictions d'étiquette. +Cela peut-être le cas après application d'un seuil sur un logit par exemple. +Alors le but de l'attaquant est de trouver une fonction mesutable de $(F,\mathcal{P}(F))$ dans $(G,\mathcal{P}(G))$ qui maximise l'exactitude équilibrée. +Où $G$ est l'ensemble dans lequel l'attribut sensible prend ces valeurs. +Cela est un cas d'application parfait pour l'algorithme que nous avons construit au Chapitre~\ref{sec:fini}. +Nous allons l'utiliser pour construir une AIA qui donne la garantie théorique d'être le meilleur modèle qui permette de classifier l'attribut sensible en utilisant la prédiction du modèle. +Nous appelons cette AIA : \AIAHard. + +\subsection{AIA pour les modèles de regression} +Dans le cas d'un modèle cible qui effectu une regression nous avons $\#F$ infini donc nous ne pouvons pas utiliser \AIAHard. +Ce cas où l'adversaire a accès un modèle de regression prend en compte le cas où le modèle cible de prédiction divulgue un logit par exemple. +C'est le modèle de menace qu'applique Song et. al~\cite{Song2020Overlearning} dans leur AIA. + +Nous utiliserons comme modèle d'AIA une forêt aléatoire puis nous optimiserons son seuil en utilisant la courbe ROC pour prendre en compte le déséquilibre de classses dans l'attribut sensible. +Cette methode fonctione uniquement pour des attributs binaires. +C'est-à dire que pour une prédiction dans l'espace mesurable $(F,\mathcal{F})$ et un attribut sensible dans $(\{0,1\},\mathcal{P}(\{0,1\})$ +la forêt aléatoire construit une fonction de mesurbale +$a : (F,\mathcal{F})\rightarrow ([0,1],\mathcal{B}([0,1]))$. +$a$ modélise le logit de la prédiction du modèle AIA. +Ensuite nous calculons, la courbe ROC de $a$ comme nous l'avons défini à la Section~\ref{sec:background-ml-classif} et nous choisis $\upsilon^*$ tel que, pour la prédiction $a_\upsilon = 1_{[\upsilon,1]}\circ a$ : +\begin{equation*} + \upsilon^* = \text{argmin}_{\upsilon\in [0,1]} + (1-tpr(\upsilon))^2 + fpr^2(\upsilon) +\end{equation*} +Nous réprésenton sur la Figure~\ref{fig:aia-rocopt} le choix du seuil optimal et du seuil par rapport au seuil par défaut fixé à $0,5$. +\begin{figure} + \centering + \includegraphics[width=0.45\linewidth]{aia/figure/rocr.pdf} + \caption{Optimisation du seuil du modèle d'attaque \AIASoft.} + \label{fig:aia-rocopt} +\end{figure} + +Contrairement a \AIAHard, \AIASoft~ne donne pas la garantie de maximisaion l'exactitude équilibré. +Ainsi \AIASoft~constitue un approximation relativement à la théorie que nous avons décrite à la Section~\ref{sec:aia-theo}. diff --git a/aia/b.tex b/aia/b.tex new file mode 100644 index 0000000..608a632 --- /dev/null +++ b/aia/b.tex @@ -0,0 +1,36 @@ +\begin{figure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/census/census_advdeb_attack_hard_race.pdf} + \caption{Census (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/census/census_advdeb_attack_hard_sex.pdf} + \caption{Census (sex)} + \end{subfigure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/compas/compas_advdeb_attack_hard_race.pdf} + \caption{Compas (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/compas/compas_advdeb_attack_hard_sex.pdf} + \caption{Compas (sex)} + \end{subfigure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/meps/meps_advdeb_attack_hard_race.pdf} + \caption{Meps (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/meps/meps_advdeb_attack_hard_sex.pdf} + \caption{Meps (sex)} + \end{subfigure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_hard_race.pdf} + \caption{Lfw (race)} + \end{subfigure} + \begin{subfigure}{0.48\linewidth} + \includegraphics[width=0.48\linewidth]{ACSAC/figures/advdebias/lfw/lfw_advdeb_attack_hard_sex.pdf} + \caption{Lfw (sex)} + \end{subfigure} + \caption{adverarial debiasing hard} + \label{fig:aia-adv-hard} +\end{figure} diff --git a/aia/conclusion.tex b/aia/conclusion.tex new file mode 100644 index 0000000..e69de29 diff --git a/aia/figure/rocr.pdf b/aia/figure/rocr.pdf new file mode 100644 index 0000000..fc23efd Binary files /dev/null and b/aia/figure/rocr.pdf differ diff --git a/aia/figure/tikz/data.tex b/aia/figure/tikz/data.tex new file mode 100644 index 0000000..c43d496 --- /dev/null +++ b/aia/figure/tikz/data.tex @@ -0,0 +1,15 @@ +\input{synthetic/figure/tikz/data} +\begin{tikzpicture} + \node[database,label={[align=center]above:Donné\\cible}] (base) at (0,0) {}; + \node[rectangle,draw,align=center] (cible) at (10,0) {Modèle\\cible}; + \draw[->,align=center] (base) to[bend left] node[midway,above] {80\% entraînement\\sans attribut sensible} (cible); + \draw[->] (base) to[bend right] node[midway,below] (test) {20\% evaluation} (cible); + \node[database,label={[align=left]right:Donnée\\auxilière}] (aux) at (10,-5.5) {}; + \draw[->] (test) to[out=-90,in=90] node[midway,above] {\hspace{50px}Attribut sensible} (aux); + \draw[->] (cible) to node[midway,right] {Prédiction} (aux); + \node[rectangle,draw,align=center] (attaque) at (5,-5.5) {Modèle\\AIA}; + \draw[->] (aux) to[bend right] node[midway,above] {80\% entraînement} (attaque); + \draw[->] (aux) to[bend left] node[midway,below] {20\% evaluation} (attaque); + \node[rectangle,align=center] (result) at (0,-5.5) {Exactitude\\équilibrée}; + \draw[->] (attaque) to (result); +\end{tikzpicture} diff --git a/aia/main.tex b/aia/main.tex index 8e6059c..5d5a58f 100644 --- a/aia/main.tex +++ b/aia/main.tex @@ -5,20 +5,22 @@ \input{aia/fair_reg} \section{Etude théorique de la relation entre AIA et équitée} +\label{sec:aia-theo} \input{aia/theo} -\section{Regression} -\label{sec:aia-soft} +\section{Construction de modèles d'AIA} +\label{sec:aia-aia} +\input{aia/aia} -\section{AIA} -\section{Modèle de menace} -threat model -\label{sec:aia-tm} -\section{Méthodologie} -\subsection{Jeux de donné} -\label{sec:aia-methodo-jeu} -The US census is a snapshot of the US adult population that is done every ten year by the US government\footnote{www.census.gov}. -It produces a database where each row is an individual and each column is an attribute that describe people. +\section{Méthodologie experimentale} +\input{aia/methodo} -\section{Résultats} +\section{Résultats experimentaux} +\label{sec:aia-resexp} \input{aia/resultats} + +\section{Travaux voisins} +\input{aia/related} + +\section{Conclusion} +\input{aia/conclusion} diff --git a/aia/methodo.tex b/aia/methodo.tex new file mode 100644 index 0000000..80cf515 --- /dev/null +++ b/aia/methodo.tex @@ -0,0 +1,50 @@ +Nous allons réaliser un série d'expériences utilisant les AIA définit plus haut. +Le but est d'observer l'exactitude équilibrée des AIA sur des modèles entraînés pour imposer l'équitée. +Pour des attributs sensibles dans un ensemble fini $G$, nous souhaiton observer si entraîner le modèle en imposant la paritée démographique raproche l'exactitude équilibrée de $\frac{1}{\#G}$ ce qui indique une protection de l'attribut sensible d'après le Théorème~\ref{th:aia-dpgood}. +De plus dans le cas de \AIAHard nous allons pouvoir vérifier expérimentalement la Propriété~\ref{prop:aia-demparlvl}. + +\subsection{Jeux de donnée} +\label{sec:aia-methodo-jeu} + +\paragraph{CENSUS} +Le sondage des Etats Unis d'Amérique produit tous les dix ans un jeu de donnée appel CENSUS contenant les information de tous les citoyens\footnote{www.census.gov}. +La version que nous avons utilisé contient 30.940 donées avec 95 attributs comme le travail occupé, le status marital etc. +Parmis ces attributs certain sont sensibles comme la couleur de peau appelé \textit{race} ou le genre appelé \textit{sex}. +Avec ce jeu de donnée, nous construison un classifieur cible qui cherche à inférer si un individu gagne plus de 50.000 dollars par an. + +\paragraph{COMPAS} +Cette base de donnée est construite à partir des affaires criminelle aux Etats Unis. +Elle est utilisé notament par les différents algorithem commerciaux de justice prédiction que nous avons introduits en Section~\ref{sec:contexte-insti}. +Elle contient les donnée de 6.172 criminel jugé coupables en Floride. +Elle contient sept attributs. + +\paragraph{MEPS} +Cette base de donnée provient du système de santé de Etats Unis. +Elle contiens l'historique de trajets réalisé par 15.830 patients. +Le tâche de classification du modèle cible est de prédire si un patient utilise fortement ou faiblement les services de santé. + +\paragraph{LFW} +Cess base de donnée contient 8.212 image de visage de personnes. +La tâche principale est de classifier si une personne a plus de 35 ans. + +\paragraph{Attributs sensibles} +Toutes ces bases de données contiennent les attributs sensibles \textit{race} et \textit{sex}. +Nous randons binaire cas attributs : +\textit{race} vaut 1 si la personne à la peu noire et 0 sinon ; +\textit{sex} vaut 1 si la personne est une femme et 0 sinon. + +\subsection{Cheminement des données} +Pour simuler le modèle de menace nous séparons chaque base de donnée de la manière suivant : +chaque base de donnée est séparé en 80\% d'entraînement et 20\% d'évaluation. +Dans l'entraînment on retire l'attribut sensible et on l'utilisé pour entrainer le modèle cible. +Ensuite nous utilison l'évaluation sans l'attribut sensible pur calculer les prédictions que nous lion ligne par ligne à leur attribut sensible correspondant. +Cela crée la base auxilière qui respecte bien les exigence du modèle de menace : les donnée n'ont pas été utilisé à l'entraînement. +Cette base auxilière est ensuite separée en 80\% d'entraîneemnt et 20\% d'évaluation. +Les 80\% d'entraînement sont utilisé pourt construire le modèle d'attaque qui sert à predire l'attribut sensible à partir de la prédiction du modèle cible. +Les 20\% d'évaluation servent à calculer l'exactitude équilibré du modèle d'attaque. +Nous reportons dans la Section~\ref{sec:aia-resexp} contenant les résultats expérimentaux. +\begin{figure} +\input{aia/figure/tikz/data} +\caption{Simulation du modèle de menace} +\end{figure} + diff --git a/aia/related.tex b/aia/related.tex new file mode 100644 index 0000000..e69de29 diff --git a/aia/theo.tex b/aia/theo.tex index 2a826b1..3b8e49d 100644 --- a/aia/theo.tex +++ b/aia/theo.tex @@ -26,6 +26,7 @@ Ce résultat nous apprend que s'assurer que le modèle cible satisfait la \texti Dans le cas d'un modèle cible qui réalise une classifiction binaire et en considérant un attribut binaire nous avons une propriété plus précise. \begin{propriete} + \label{prop:aia-demparlvl} Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé et $(\{0,1\}$, $\mathcal{P}(\{0,1\}))$ des espaces mesurables. Soit les variables aléatoires suivantes \begin{itemize} @@ -83,7 +84,148 @@ De plus, nous voyons que la \textit{balanced accuracy} maximial d'attaque vaut $ C'est à dire que $f$ satisfait DemPar est équivalant à dire que tout attaque à une \textit{balanced accuracy} égale à $\frac{1}{2}$. Grâce au Théorème~\ref{th:aia-dpgood} nous savons aussi que tout autre définition d'équtiée qui n'implique pas la paritée démographique ne permet pas de mitiger les AIA. -Par exemple, nous allons montrer que l'égalitée de chances de la Définition~\ref{def:background-eq-eoo} en permet pas de mitiger l'AIA dans le cas binaire que nous avons étuié précédement. +Par exemple, nous allons montrer un cas ou l'égalitée des chances de la Définition~\ref{def:background-eq-eoo} est satisfaite mais om il existe une AIA qui donne une exactitude équillibrée suppérieur $0,5$. -\subsection{Utiliser l'AIA pour contrôler le niveau d'équitée}. +On représente le classifieur $\hat{Y}$ de l'étiquette $Y$ ainsi que la donnée d'entrée $X$ et l'attribut sensible $S$ dans le tableau suivant : +\begin{equation*} + \begin{matrix} + X&Y&\hat{Y}&S\\ + 0&0&0&0\\ + 0&0&0&1\\ + 0&0&0&0\\ + 0&0&0&0\\ + 1&1&1&1\\ + 1&1&1&1\\ + 1&1&1&1\\ + 1&1&1&0\\ + \end{matrix} +\end{equation*} +Nous utilisons le modèle cible utilisé est $\hat{Y}=id\circ X$. +Ce classifieur satisfait l'équitée des chances car +$P(\hat{Y}=0\mid Y=0\wedge S=0) = P(\hat{Y}=0\mid Y=0\wedge S=1) = 1$ +et +$P(\hat{Y}=0\mid Y=1\wedge S=0) = P(\hat{Y}=0\mid Y=1\wedge S=1) = 0$. +Alors si on choisit comme modèle d'attaque la fonctione identitée, nous avont comme accuracy de l'AIA $0,75$ ce qui indique une fuite de l'attribut sensible. + +%De manière plus précises et plus générale nous avancons le théorème suivant : +%\begin{theorem} +%\label{th:eoo} + %Si $\hat{Y}$ satisfait l'équitée des chances pour $Y$ et $S$, alors l'exactitude équilibrée de l'AIA est de $\frac{1}{\#F}$ si et seulement si $Y$ est independant de $S$ ou si + %for $Y$ and $S$ then the balanced accuracy of AH is $\frac{1}{2}$ if and only if $Y$ is independent of $S$ or $\hat{Y}$ is independent of $Y$. +%\end{theorem} +%Those two conditions are unlikely to happen with real world dataset and target models. +%Indeed, $Y$ is independent of $S$ means that the ground truth label is independent of the sensitive attribute which never happens as we have observed in the experiment section. +%And $\hat{Y}$ is independent of $Y$ means that the target model did not managed to learn anything: it does not have any utility which defies the purpose of using it in a production and commercial environment. +%Since both of those conditions are not practical, we close the case of EO by saying that it is not fit as a defense against attribute inference attack at inference time. +%We prove the theorem: +%\begin{proof} +%Let $a$ be the attack model trained for AS: $\hat{S}=a\circ \hat{Y}$. +%By the total probability formula +%\begin{align*}&P(\hat{S}=0|S=0)\\ +%=&P(\hat{S}=0|S=0Y=0)P(Y=0|S=0)\\ +%+&P(\hat{S}=0|S=0Y=1)P(Y=1|S=0) +%\end{align*} +%and as well +%\begin{align*}&P(\hat{S}=1|S=1)\\ + %=&P(\hat{S}=1|S=1Y=0)P(Y=0|S=1)\\ + %+&P(\hat{S}=1|S=1Y=1)P(Y=1|S=1) +%\end{align*} +%Then we substitute those terms in the definition of the balanced accuracy of the target model. +%\begin{align*} + %&\frac{P(\hat{S}=0|S=0)+P(\hat{S}=1|S=1)}{2}\\ + %=&\frac{1}{2}+\frac{1}{2}\left(P(Y=0|S=0)-P(Y=0|S=1)\right)\\ + %&\left(P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=0) - + %P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=1)\right) +%\end{align*} +%The balanced accuracy is equal to 0.5 if and only if $P(Y=0|S=0)=P(Y=0|S=1)$ +%or $\forall a~P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=0)=P(\hat{Y}\in a^{-1}(\{1\})|S=1Y=1)$. +%The first equation means that $Y$ is independent of $S$. +%The second means that for $S=1$ the trained target model did not learn. +%We can do the same computing for $S=0$ and obtain a similar conclusion. +%\end{proof} +% +\subsection{Utiliser l'AIA pour contrôler le niveau d'équitée} +\label{sec:aia-theo-aia-eq} +De manière réciproque, le lien que nous avons démontré peut ausi être utilié dans le cas suivant. +Imaginons qu'un fournisseur de modèle d'IA ou un organisme de régulation comme la Défensseure des Droit souhaite contrôler si un modèle est équitable ou non. +Si $\#F$ ou $\#G$ sont grands voir de cardinaux infinis, vérifier diréctement des propriétés d'indépendances entre la sortie du modèle et des attributs sensible peut entraîner un coût de calcul trop élevé pour être faisable~\cite{ofverstedt2022fast}. + +Grâce au Théorème~\ref{th:aia-dpgood} nous avons la garantie que que si toutes les modèles AIA ont une exactitude équilibrée égale à $\frac{1}{\#F}$ alors le modèle cible satisfait la parité démographique. +Bien sûre cette technique atteint sa limite si $\#G$ est infini car alors l'exactitude équliibrée n'est plus définie. + +Calculer l'exactitude équilibrée de toutes les modèles d'AIA est impossible. +Nous allons voir que si l'AIA qui donne une exactitdue équilibrée maximal vaut $\frac{1}{\#F}$ alors c'est le cas pour toutes. + +\begin{theorem} + \label{th:aia-bluey} + Soit $(\Omega,\mathcal{T},P)$ un espace probabilisé. + Soient $(E,\mathcal{E})$ et $(F,\mathcal{P}(F))$ des espaces mesurables avec $F$ un esemble fini. + Soient les varibles aléatoires suivantes : + \begin{itemize} + \item $X:\Omega\rightarrow E$ + \item $Y:\Omega\rightarrow F$ + \end{itemize} + Soit $A$ l'ensemble des fonctions mesurables de $(E,\mathcal{E})$ dans $(F,\mathcal{P}(F))$. + Nous appelons $BA$ la fonction qui à toutes fonction $a$ de $A$ associe l'exactitude équilibrée de $a \circ X$ pour l'étiquette $Y$. + \begin{equation*} + \exists a\in A~BA(a)< \frac{1}{\#F} + \implies + \exists a\in A~BA(a)>\frac{1}{\#F} + \end{equation*} +\end{theorem} + +\begin{proof} + Soit $a\in A$ telle que $BA(a)<\frac{1}{\#F}$. + Nous allons montrer qu'il existe $b\in A$ telle que $BA(b)>\frac{1}{\#F}$ + + A la manière de la démonstration du Théorème~\ref{th:fini-bacca}, on se donne la matrice + \begin{equation*} + M(i,j) = P(a\circ X = y_i\mid Y=y_j) + \end{equation*} + + On note $S_{\#F}$ l'ensemble des bijections de $\#F$ sur lui-même. + Montrons qu'il existe + $\varphi\in S_{\#F}$ telle que $\sum_{j\in\#F}M(\varphi(j),j) >1$. + Raisonons par l'absurde. + Nous supposont que + \begin{equation*} + \forall \varphi\in S_{\#F}~\sum_{j\in\#F}M(\varphi(j),j)<1 + \end{equation*} + Alors + \begin{align*} + &\sum_{\varphi\in S_{\#F}}\sum_{j\in\#F}M(\varphi(j),j)1$. + Comme nous l'avons montré dans la preuve du Théorème~\ref{th:fini-bacca}, nous avons $u\in\mathcal{H}^{\#F}$ tel que en posant + \begin{equation*} + b = u_{\#F-1}\circ\cdots\circ u_0\circ a + \end{equation*} + alors $BA(b)>\frac{1}{\#F}$. + +\end{proof} + +Nous allons utiliser ce théorème pour montrer que si l'AIA maximale à une exactidue équilibrée égale à $\frac{1}{\#G}$ alors toutes les AIA ont la même éxactiture equilibrée. +On se donne $A$ l'ensemble des fonctions mesurable de $(F,\mathcal{F}$ dans $(G,\mathcal{P}(G)$. +$A$ modélise l'ensemble des AIA possibles pour un modèle cible qui prédit dans $F$ et un attribut sensible dans $G$, un ensemble fini. +Supposons que $\text{max}_{a\in A} BA(a)=\frac{1}{\#G}$. +Alors $\forall a\in A~BA(a)\leq\frac{1}{\#G}$. +D'après la contraposée du Théorème~\ref{th:aia-bluey} nous avons alors $\forall a\in A~BA(a)\geq\frac{1}{\#G}$. +Ainsi $\forall a\in A~BA(a)=\frac{1}{\#G}$. +Pour contrôler si un classifieur vérifie la paritée demographique il est donc suffisant de connaitre l'exactitude équilibrée maximial de toutes les AIA. +Comme nous venons de le voir, si cette valuer vaut $\frac{1}{\#G}$ alors le classifieur satisfait la paritée démographique. +La recherche d'une AIA qui maximise l'exactitude équilibrée est discuté à la Section~\ref{sec:aia-aia}. diff --git a/annexe/crit_discri.tex b/annexe/crit_discri.tex new file mode 100644 index 0000000..81b397a --- /dev/null +++ b/annexe/crit_discri.tex @@ -0,0 +1,27 @@ +\begin{verbatim} + Origine + Sexe + Situation de famille + Grossesse + Apparence physique + Vulnérabilité particulière liée à la situation économique + Nom + Lieu de résidence + État de santé + Perte d'autonomie + Handicap + Caractéristiques génétiques + Mœurs + Orientation sexuelle + Identité de genre + Âge + Opinions politiques + Activités syndicales + Qualité de lanceur d'alerte + Qualité de facilitateur de lanceur d'alerte ou de personne en lien avec un lanceur d'alerte + Langue parlée (capacité à s'exprimer dans une langue autre que le français) + Ethnie + Nation + Race prétendue + Religion +\end{verbatim} diff --git a/avertissement.tex b/avertissement.tex index 1c5d88f..ab4a014 100644 --- a/avertissement.tex +++ b/avertissement.tex @@ -1,7 +1,7 @@ -Ce manuscrit aborde des notions de discirimination notament de genre, d'origine et de couleur de peau. -En France, les statistiques éthnique sont intérdites~\cite{} ce qui n'est pas le cas aux USA. -Les résultats de statistiques descriptives, nottament sur les crimes comis en fonction de la couleur de peau, sont à mettre en parallèle avec un grand nombre de facteurs socio-économiques~\cite{} -Ainsi, ils ne doivent pas être interprété comme indiquant une différence de comportement social entre sous groupes ethniques. +Ce manuscrit aborde des notions de discriminations notamment de genre, d'origine et de couleur de peau. +En France, les statistiques ethniques sont interdites~\cite{stateth} ce qui n'est pas le cas aux USA. +Les résultats de statistiques descriptives, notamment sur les crimes commis en fonction de la couleur de peau, sont à mettre en parallèle avec un grand nombre de facteurs socio-économiques~\cite{howard2000race,williams1996race,green1972race,walsh2007psychopathy}. +Ainsi, ils ne doivent pas être interprétés comme indiquant une différence de comportement social entre sous groupes ethniques. -De plus, la Seciont~\ref{sec:contexte-phi} invite le lecteur à des expériences de pensées qui peuvent être angoissantes pour certaines personnes~\cite{}. -Nous invitons donc le lecteur à ne pas s'attarder sur cette section si il ne se juge pas émotionelement prêt. +De plus, la Section~\ref{sec:contexte-phi} invite le lecteur à des expériences de pensées qui peuvent être angoissantes pour certaines personnes~\cite{singler2017roko}. +Nous invitons donc le.a lecteur.ice à ne pas s'attarder sur cette section si il.elle ne se juge pas émotionnellement prêt.te. diff --git a/background/alg.tex b/background/alg.tex new file mode 100644 index 0000000..b2f6418 --- /dev/null +++ b/background/alg.tex @@ -0,0 +1,99 @@ +\subsubsection{Espace vecotriel} +Les espaces vectoriels sont des structure fondamentales qui vont nous servir à comprendre comment fonctionne l'entraînement des réseaux de neurones. +\begin{definition}{Groupe} + Soit $E$ un ensemble et $+$ une opération sur $E$. + Nous dirons que $(E,+)$ est un groupe si et seulement si + \begin{enumerate} + \item $\forall (e,f)\in E^2~e+f\in E$ (loi interne) + \item $\forall (e,f,g)\in E^2~(e+f)+g=e+(f+g)$ + \item $\exists 0\in E~\forall e\in E~e+0=e\wedge0+e=e$ + \item $\forall a\in E\exists b\in E~a+b=e\wedge b+e=e$ + \end{enumerate} + Dans le cas où en plus de ces trois points + $\forall (e,f)\in E^2~e+f=f+e$ + Nous dirons que le groupe $(E,+)$ est abélien. +\end{definition} + +\begin{definition}{Espace vectoriel} + Soit $E$ un ensemble munit d'une loi interne $+$ et d'une loi externe $\cdot:\mathbb{R}\times E\rightarrow E$. + Sout les conditions suivantes, nous dirons que $(E,+,\cdot)$ est un espace vectoriel. + \begin{enumerate} + \item $(E,+)$ est un groupe abélien. + \item $\forall (r,e,f)\in\mathbb{R}\times E\times E~r(e+f)=re+rf$ + \item $\forall (r,s,e)\in\mathbb{R}\times\mathbb{R}\times E~(r+s)e=re+se$ + \item $\forall (r,s,e)\in\mathbb{R}\times\mathbb{R}\times E~(rs)e=r(se)$ + \item $\forall e\in E~1e=e$ + \end{enumerate} +\end{definition} + +Alors $\forall n\in\mathbb{N}~\mathbb{R}^n$ est un espace vectoriel. + +\subsubsection{Application linéaire} +\label{sec:background-alg-L} +Soit $E$ et $F$ deux espaces vectoriels. +Une application linéaire $h:E\rightarrow F$ est telle que +$\forall (r,e,f)\in \mathbb{R}\times E\times E~h(re+f)=rh(e)+h(f)$ +Et on note $\mathcal{L}(E,F)$ l'ensemble des applications linéaire de $E$ dans $F$. +Si $E=\mathbb{R}^m$ et $F=\mathbb{R}^n$ alors +la matrice de $f$ est +\begin{equation*} + M_f= + \left( + \begin{matrix} + f(e_0)_0&\cdots&f(e_{m-1})_0\\ + \vdots&\vdots&\vdots\\ + f(e_{0})_{n-1}&\cdots&f(e_{m-1})_{n-1}\\ + \end{matrix} + \right) +\end{equation*} +Où +\begin{equation*} + \forall i\in m~e_i=\left( + \begin{matrix} + 0\\ + \vdots\\ + 0\\ + 1\\ + 0\\ + \vdots\\ + 0 + \end{matrix} + \right) + \begin{matrix} + \\ + \\ + \\ + i\\ + \\ + \\ + \\ + \end{matrix} +\end{equation*} +On appelera par la suite $(e_0,\cdots,e_{m-1})$ \emph{base canonique} de $\mathbb{R}^m$. +On note $f(e_j)_i = M_f(i,j)$, c'est l'entré de $M_f$ se situant à la ligne $i$ et colone $j$. + +\begin{propriete} + La fonction $M_\square$ est une bijection. +\end{propriete} + +Nous définisson la mutliplication matricielle de la manière suiavante : +Soient $f\in\mathcal{L}(\mathbb{R}^m,\mathbb{R}^n)$ et $g\in\mathcal{L}(\mathbb{R}^n,\mathbb{R}^o)$. +Alors +\begin{equation*} + M_gM_f=M{g\circ f} +\end{equation*} +\begin{propriete} +\begin{equation*} + M_gM_f(i,j)=\sum_{k=0}^n M_g(i,k)M_f(k,j) +\end{equation*} +\end{propriete} + +\begin{definition} + \label{def:background-alg-tr} + Soit $M$ une matrice à $n$ lignes et colonnes. + Alors nous définisson la trace de $M$ de la manière suivante. + \begin{equation*} + \text{Tr}(M)=\sum_{i=0}^{n-1}M(i,i) + \end{equation*} +\end{definition} + diff --git a/background/dif.tex b/background/dif.tex new file mode 100644 index 0000000..2ba01f1 --- /dev/null +++ b/background/dif.tex @@ -0,0 +1,95 @@ +Le but du calcul diférentiel est l'étude des variation infinitésimale des fonctions. +Nous allons nous contenter ici d'étudier les fonctionelles, c'est à dire des fonction de $\mathbb{R}^n$ dans $\mathbb{R}$ car c'est ce dont nous allons avoir besoin en aprentissage automatique. +\begin{definition}{Produit scalaire euclidien} + \label{def:background-dif-scal} + Soit $(x,y){\in\mathbb{R}^n}^2$ alors le produit scalaire euclidien est + \begin{equation*} + \langle x,y \rangle = \sum_{i=0}^{n-1}x_iy_i + \end{equation*} +\end{definition} +\begin{definition}{Norme euclidienne} + \label{def:background-dif-eucl} + Soit $x\in\mathbb{R}^n$, nous definisson le norme euclidienne de $x$ par l'expression suivante + \begin{equation*} + ||x||={\langle x,x\rangle}^{\frac{1}{2}} + \end{equation*} +\end{definition}  + +\begin{definition}{Limite} + \label{def:background-dif-lim} + Soit $f$ une fonction de $\mathbb{R}^m$ dans $\mathbb{R}^n$. + Soit $x\in\mathbb{R}^m$. + Nous dirons que $f$ admet une limite en $x$ si il existe $y\in\mathbb{R}^n$ tel que + \begin{equation*} + \forall\varepsilon>0\exists\delta>0\forall a\in\mathbb{R}^m~||a-x||<\delta\implies||f(a)-y||<\varepsilon + \end{equation*} + Nouse ecrivons alors $lim_{a\rightarrow x}f(a)=y$ car $y$ est alors unique~\cite{Bourrigan2021-dd}. +\end{definition} + +\begin{definition}{Differentielle} + \label{def:background-dif-dif} + Soit $f$ une fonction de $\mathbb{R}^n$ dans $\mathbb{R}$. + Nous dirons que $f$ est différentiable en $a\in\mathbb{R}^n$ si et seulement si il existe + $df(a)\in\mathbb{L}(\mathbb{R}^n,\mathbb{R})$ + telle que il existe $\varepsilon:\mathbb{R}\rightarrow \mathbb{R}$ telle que pour tout $h\in\mathbb{R}^n$ + \begin{equation*} + f(a+h) = f(a)+df(a)h+||h||\varepsilon(h) + \end{equation*} + avec + $lim_{h\rightarrow 0}\varepsilon(h)=0$. + $df(a)$ s'apelle la \emph{diférentielle} de $f$ en $a$. +\end{definition} +Dans le cas où $f$ est différentiable en tout point de $\mathbb{R}^n$ alors +la fonction $f$ peut être vu comme $n$ fonction $f_0\cdots f_{n-1}$ de $\mathbb{R}$ dans $\mathbb{R}$ avec +\begin{equation*} + f(x)=\left( + \begin{matrix} + f_0(x_0) + \cdots + f_{n-1}(x_{n-1}) + \end{matrix} + \right) +\end{equation*} +Toutes les fonctions de $f_i$ sont différentiables. +\begin{definition} + \label{def:background-math-grad} + Pour tout $x\in\mathbb{R}$ nous définison la $i$ème dérivée partielle de $f$ par + \begin{equation*} + \partial_i f :\left\{ + \begin{matrix} + \mathbb{R}\rightarrow \mathbb{R}\\ + x\mapsto df(x)e_i + \end{matrix} + \right. + \end{equation*} + Où $e_i$ est le $i$ème vecteur de la base canonique de $\mathbb{R}^n$. + Et nous définissons le gradient de $f$ par la formule suivante : + \begin{equation*} + \nabla f:\left\{ + \begin{matrix} + \mathbb{R}^n\rightarrow \mathbb{R}^n\\ + x\mapsto\left( + \begin{matrix} + \partial_0 f(x)\\ + \vdots\\ + \partial_{n-1} f(x)\\ + \end{matrix} + \right) + \end{matrix} + \right. + \end{equation*} +\end{definition} +Pour le.a lecteur.ice familier avec la dériviabilité notons que +\begin{equation*} + lim_{h\rightarrow 0}\frac{f(x+he_i)-f(x)}{h} = \partial_i f(x) +\end{equation*} + + +\begin{propriete} + Soit $f:\mathbb{R}^n\rightarrow \mathbb{R}$ différentiable. + \begin{equation*} + \forall (x+h)\in{\mathbb{R}^n}^2~df(x)h = + \langle \nabla f(x),h\rangle + \end{equation*} +\end{propriete} + diff --git a/background/eq b/background/eq new file mode 100644 index 0000000..e69de29 diff --git a/background/eq.tex b/background/eq.tex index 446ad95..b756361 100644 --- a/background/eq.tex +++ b/background/eq.tex @@ -1,12 +1,43 @@ - \label{sec:bck_fair} L'équitée algorithmique à pour but de réduire les bias dans le modèle prédictif. -En effet, le fait qu'une donnée d'entraînement appratienne à certainne minorité peut avoir un impacte sur la qualitée de la prédiction. +C'est-à dire, comment peut on faire en sorte que le modèle ne désavantage pas ou n'avantge pas certain sous-groupes ? +En effet, le fait qu'une donnée appratienne à certainne minorité peut avoir un impacte sur la qualitée de la prédiction. Par exemple en justice prédictie, la couleur de peau d'un peau d'un coupable jou un rôle qui n'est pas négligable dans la prédiction du récidivisme au Etats Unis~\cite{fairjustice}. -Les minoritée sont identifié par un attribut sensible comme la couleur de peau, le genre ou l'orientation sexuelle. -Pour savoir si un attribut est sensible ou non, nous pouvons nous référer à l'observatoire de inégalités. +Pour savoir si un attribut est sensible ou non, non pouvon non referer à la liste des vignt-cinq critère de disrimination présenté à la Section~\ref{sec:contexte-legal-discrimination}. Ces bias sont appris par le modèle car ils sont présent dans les donnés d'entraînement qui reflète la population dans laquelle ces donnée ont été prélevés. +Nous représentons sur la Figure~\ref{fig:background-eq-logi} comment une regression logistique peut présenter une différence de traitement entre deux sous groupe de la population. +Nous observons que comme il y a moins de donnée de femmes, le modèle à appris une courbe qui se rapproche plus des données hommes. +Comme le seuil de ce modèle est situé à $0,5$, nous voyons que tous le points rouges qui correspondent au femmes passent au dessus du seuil représenté par la ligne horizontale grise. +Ainsi, bien que les étiquettes soient répartis équitablement chez les hommes et ches les femmes, le modèle classife toutes les femme dans la classe 1. +Il sagit ici d'un cas scolaire sur des données générés mais supposons que la classe 1 soit désavantageuse. +Par exemple, imaginons que ce modèle soit utilisé dans un programme de rectruement automatique. +La classe 0 implique que le candidat est séléctioné, classe 1 implique que le candidat est réjété. +Alors ce programme serait discriminatoire car bien que 50\% des femme et 50\% des homme ont une étiquette qui les rendent adminssibles, le programme ne sélectione que des candidats hommes. + +\begin{figure} + \centering + \includegraphics[width=0.5\linewidth]{background/figure/eq/reg_unfair.pdf} + \begin{tabular}{|c|c|c|c|} + \hline + &\textbf{Homme}&\textbf{Femme}&\textbf{Total}\\ + \hline + \textbf{Effectif}&100&20&120\\ + \hline + \makecell{ + \textbf{Répartition}\\ + $\#\{Y=0\}/\#\{Y=1\}$} + &10/10&50/50&60/60\\ + \hline + \textbf{Exactitude}&1&0,5&0,92\\ + \hline + \end{tabular} + \caption{Exemple d'un regression logistique qui a une meilleur performance pour le homme que pour les femmes. + Les donnée provienne d'une génération et servent uniquement à titre d'illustration. + La regression logisitque à bien été optimisé sur les donnée générés en utilise l'algorithme de scikit learn~\cite{scikit-learn}} + \label{fig:background-eq-logi} +\end{figure} +\subsubsection{Définitions de l'équitée} L'équitée en apprantissag automatique se présente sous deux aspect qui mettent lumière deux visions différentes : \textbf{L'équitée individuelle}\footnote{Individual fairness} @@ -15,30 +46,58 @@ cherche à faire en sorte que deux donnée, à toutes choses égale exepté l'at \textbf{L'équitée de groupe}\footnote{Group fairness} Vient de l'idée que different sous groupes défini par un critère de discrimination devrait être traite de manière similaire. Il y a différentes définitions mathématiques de l'équite de groupe. -Nous allons en regarder deux qui sont bien établis dans la litérature et souvant utilisé : la paritée demographique\footnote{Demographic parity} et l'équitée de chances\footnote{Equality of odds}. +Nous allons en regarder trois qui sont bien établis dans la litérature et souvant utilisé : l'effet différencié\footnote{disparate impact} la paritée demographique\footnote{Demographic parity} et l'équitée de chances\footnote{Equality of odds}. + +Pour cela nous allons considérer le cadre suivant : +Nous avons un classifieur modélisé par une variable aléatoire $\hat{Y}$ qui essai d'inférer l'étiquette $Y$. +Ces deux variables prennent leurs valeurs dans un ensemble $F$. +De plus, nous avons l'attribut sensible modélisé par $S$ qui prend ses valeurs dans $G$. + +\begin{definition} +\label{def:background-eq-di} + L'\emph{effet différencié} de $\hat{Y}$ est + \begin{equation*} + \frac{P(\hat{Y}=Y\mid S=0)}{P(\hat{Y}=Y\mid S=1)} + \end{equation*} + Cette notion ne fonctionne que pour $F=G=\{0,1\}$. +\end{definition} + +Cette définition est utilisé au Etats Unis pour montrer qu'une structure a une politique de discrimination à l'encontre d'une minorité comme nous l'avons vus à la Section~\ref{sec:contexte-legal}. + \begin{definition} \label{def:background-eq-dp} - $\hat{Y}$ satisfies demparity for $S$ if and only if: $P(\hat{Y}=0 | S=0) = P(\hat{Y}=0 | S=1)$. - From that, we will call $|P(\hat{Y}=0 | S=0) - P(\hat{Y}=0 | S=1)|$ the demPar-level of $\hat{Y}$. + $\hat{Y}$ satisfait la \emph{parité démographique} pour $S$ si et seulement si : $\forall (y,s_1,s_2)\in F\times G\times G~P(\hat{Y}=y | S=s_1) = P(\hat{Y}=y | S=s_2)$. \end{definition} -demparity is the historical definition of fairness. -Legally, disparate impact is the fairness definition recognized by law, where 80\% disparity is an agreed upon tolerance decided in the legal arena. -demparity ensures that the number of correct prediction is the same for each population. -However, this may result in different false positive and true positive rates if the true outcome does actually vary with $S$~\cite{dpbad}. -Hardt et al.~\cite{fairmetric2} proposed eo as a modification of demparity to ensure that both the true positive rate and false positive rate will be the same for each population. +La parité démographique ne prend pas en compte l'étiquette, cette définition est equivalante à dire que l'attribut sensbile est indépendante de la prédiction (même si l'étiquette ne l'est pas). +Cela peut créer de cas où en cherchant à imposer cette metrique, nous obtenons des taux de vrais et de faux positif différents pour les sous groupes~\cite{dpbad}. +Ainsi, la parité demographique peut être repsécté tout en dégradant l'effet différencié. +Il n'est pas nécéssaire que si $\hat{Y}=Y$ (le classifieur infère parfaitement l'étiquette) alors la parite démographique soit respécté. +Chercher à imposer cette définition revient à faire de la discrimination positive. +Pour certaines applications cette effet n'est pas souaitable. +Ainsi Hardt et al.~\cite{fairmetric2} propose de modifier la parité démographique pour prendre en compte l'étiquette ce qui donne la définition suivante : \begin{definition} \label{def:background-eq-eoo} - $\hat{Y}$, classifier of $Y$, satisfies equality of odds for $S$ if and only if: $\forall (\hat{y},y)\in\{0,1\}^2 \quad - P(\hat{Y}=\hat{y} | S=0,Y=y) = P(\hat{Y}=\hat{y} | S=1,Y=y)$. + $\hat{Y}$ satisfait l'équitée des chances pour $S$ si et seulement si : $\forall (\hat{y},y,s_1,s_2)\in E\times E\times G\times G \quad + P(\hat{Y}=\hat{y} | S=s_1,Y=y) = P(\hat{Y}=\hat{y} | S=s_2,Y=y)$. \end{definition} -The above fairness definitions can be achieved using three main fairness mechanisms: (a) pre-processing, (b) in-processing and (c) post-processing. \textit{Pre-processing} algorithms such as reweighing requires access to the training data and assigns weights to the data records to remove discrimination~\cite{preprocessing}. -\textit{In-processing} algorithms such as advdebias~\cite{debiase} and egd~\cite{reductions} add constraint during $targetmodel$'s training to ensure fairness. %reductions -\textit{Post-processing} techniques, in turn, hide the bias in output predictions to satisfy the above fairness constraints but the underlying model is still biased. -Similar to previous work~\cite{chang2021privacy}, we focus on in-processing algorithms. +\subsubsection{Imposer l'équitée comme contrainte d'optimisation} +Ces définitions peuvent être imposé au modèle de trois manières: +\begin{enumerate} + \item Prétraitement\footnote{Preprocessing} : + Le prétraitement consiste à modifier les données avant l'entraînement pour en retirer les bias. + Pour cela le rééquilibrage des poids\footnote{Reweighing} s'attaque au problème des biais en attribuant un poid à chaque donnée pour corrigier le déséquilibre dans un attribut sensible~\cite{preprocessing}. + \item Entraitement\footnote{Inprocessing} : + Ces algorithmes, comme le rééquilibrage adversariel\footnote{Adversarial debiasing}~\cite{debiase} ou la descente de gradient exponentiée\footnote{Exponentiated gradient descent}~\cite{reductions}, modifient l'algorithme d'optimisation du modèle pour impose les définitions équité sous forme d'optimisation sous contrainte. + \item Postraitement\footnote{Postprocessing} : + Cette methode consiste à cacher les biais dans la sortie du modèle. + Le modèle est biaisé mais sa sortie est filtrée. +\end{enumerate} +Comme nous nous intéressons au interaction entre équitée et confidentialité, le Chapitre~\ref{sec:aia} s'inscrit dans la lignée de travaux précédent qui se concentrent sur les méchanismes entraitements~\cite{chang2021privacy}. + +\paragraph{Déscente de gradient exponentiée} -Our work focuses on the theoretical guaranties on attribute inference attacks given by the different fairness notions and not so much on how to implement in-processing fairness mechanism. -Nevertheless in the experiment section we try production ready state of the art implementations of those fairness constraints along unconstrained ML algorithm. +\paragraph{Rééquilibrage adversariel} diff --git a/background/figure/eq/reg_unfair.pdf b/background/figure/eq/reg_unfair.pdf new file mode 100644 index 0000000..f177bc6 Binary files /dev/null and b/background/figure/eq/reg_unfair.pdf differ diff --git a/background/main.tex b/background/main.tex index 76c5a6f..e386396 100644 --- a/background/main.tex +++ b/background/main.tex @@ -1,5 +1,6 @@ Nous présentons dans ce chapitre les différentes théories et concepts sur les quelles se basent nos développements. \section{Mathématiques} +\label{sec:background-math} L'originie de l'IA est mathématique~\cite{dartmouth,lecun2019quand}. Nous utilisons dans ce manuscrit principalement deux théories : l'optimisation pour entraîner les modèles et les probabilitées pour les évaluer. Ainsi nous présentons dans cette section les prérequi necessaire pour comprendre les prochains dévelopements. @@ -17,13 +18,12 @@ a & b & a\iff b & a\implies b & a\wedge b & a\vee b & \neg a\\ \end{matrix} \end{equation} \subsection{Ensembles et fonctions} -\label{sec:background-set} + \label{sec:background-set} \input{background/set} \subsection{Algèbre linéaire} - \subsubsection{Espace vectoriel} - \subsubsection{Application linéaires} - \subsubsection{Matrices} + \label{sec:background-evr} + \input{background/alg} \subsection{Mesurer le hasard pour prédire et inférer} \label{sec:background-proba} @@ -32,14 +32,9 @@ a & b & a\iff b & a\implies b & a\wedge b & a\vee b & \neg a\\ %\subsection{Probabilitées} %\subsection{Statistiques} -\subsection{Topologie} - \subsubsection{Distances et normes} - \subsubsection{Espaces topologiques} - \subsubsection{Application aux fonctions} - \subsection{Calcul différentiel} - \subsubsection{Différentiel} - \subsubsection{Gradient} + \label{sec:background-dif} + \input{background/dif} \subsection{Optimisation} \label{sec:background-opti} @@ -49,12 +44,12 @@ a & b & a\iff b & a\implies b & a\wedge b & a\vee b & \neg a\\ \label{sec:background-ml} \input{background/ml} -\section{Equité} +\subsection{Equité} \label{sec:background-eq} \input{background/eq} %\subsection{Différentes notions d'équité} -\section{Confidentialité} +\subsection{Confidentialité} \label{sec:background-conf} \input{background/conf} %\subsection{Mitiger l'inéquitée} diff --git a/background/ml.tex b/background/ml.tex index d1f95b0..7372508 100644 --- a/background/ml.tex +++ b/background/ml.tex @@ -1,8 +1,8 @@ L'aprantissiage automatique\footnote{\textit{Machine learning}} est le fondement de l'IA moderne. - +Les réseaux de neuronnes profonds notament ont révolutioné ce domaines notament grâce à l'augmentation de la puissance de calcul et des cartes graphiques~\cite{lecun2019quand}. \subsection{Principe} -Repprenosn la définition de L'IA donnée dans le reglement UE 2024/1689 pour une harmonisation des regulations relatives a l'IA~\cite{aiact} et notamant la Figure~\ref{fig:contexte-IAUE}. +Repprenons la définition de L'IA donnée dans le reglement UE 2024/1689 pour une harmonisation des regulations relatives a l'IA~\cite{aiact} et notamant la Figure~\ref{fig:contexte-IAUE}. Cette definition exprime bien le fonctionement d'un modèle d'apprantissage automatique. Le modèle est un fonctione qui prend en entrée une donnée d'entrée et des parametre et qui renvoi un prédiction. Le vie d'un modèle se passe en deux étape. @@ -18,7 +18,7 @@ Nous allons présenter ces deux aspects entraîenemnt et évaluation dans les Se \label{sec:background-ml-train} Les données qui servent à l'entraînement du modèle doivent posséder une étiquette : c'est-à dire le résultat atendu qui est consédéré comme vraie. Dans la justice prédictive il s'agit de savoir si le coupabe à été récidiviste après avoir été libéré. -Pour prendre un exemple plus scolaire, sur le jeu de donnée Iris~\cite{iris}, on cherche à classifier l'éspèce d'Iris à partir de la longeur et de la largeur des sépales et des pétales. +Pour prendre un exemple plus scolaire, sur le jeu de donnée Iris~\cite{iris_53}, on cherche à classifier l'éspèce d'Iris à partir de la longeur et de la largeur des sépales et des pétales. Nous utilisons, pour l'entraînement, des données de taille de sépale et pétale pour lesquelles nous conaissons l'espèce d'Iris. En utilisant ces données nous ajustons les paramètres pour que le prédiction soit la plus précise possible. @@ -57,15 +57,36 @@ Nous pouvons ainsi définir le coût induit par un choix de paramètres par la f \right. \end{equation*} Ainsi nous avons une fonctionelle $c:\theta\mapsto E(C(\theta))$ en prenant l'espérence de coût. -Nous pouvons donc appliquer un des algorithmes de minimisation vu à la Section~\ref{sec:background-opti-sgd} pour résoudre le probleme suivant : +Nous pouvons donc appliquer une descente de gradient comme vu à la Section~\ref{sec:background-opti-sgd} pour résoudre le probleme suivant : \begin{equation*} \text{min}_{\theta\in\Theta}c(\theta) \end{equation*} En pratique la quantité $c(\theta)$ est évalué avec la loi des grands nombres~\cite{proba}. +$c$ n'étant pas forcément convexe, un fonction du point de départ ($x_0$) l'algorithme de descente de gradient peut converger ver un minimum locale qui donnera un modèle finale avec de piètre qualités. +C'est ce que nous réprésentons dans la Figure~\ref{fig:background-opti-cvx} ou nous voyons un convergence ver un minimum local alors que le point rechercher étant au fond d'une vallée plus profonde. Très souvent l'algorithme d'optimisation utilisé est la déscente de gradient stochastique (SGD)\footnote{\textit{Stochastic gradient descent}}~\cite{amari1993back}, c'est une vérsion modifié de la descente de gradient adapté au réseaux de neurones qui permet d'accelerer la convergence~\cite{bottou2012stochastic} et d'éviter les minima locaux~\cite{bottou1991stochastic}. Cette algorithmes évalue l'espérence empirique de $C(\theta)$ sur chaque élément, appelé \textit{mini batch}, d'une partition des données d'entrainement. +La recherche des paramètre d'entraînement comme la finesse de la partition ou le pas et en prétique réalisé par des algorithme qui parcours un espace de recherche et regarde l'entraînement pour quelques itérations~\cite{bergstra2015hyperopt}. + +\begin{figure} + \begin{subfigure}{0.3\linewidth} + \includegraphics[width=\linewidth]{background/figure/ml/convex/f_local3.1.pdf} + \caption{L'algorithme tombe dans un minimum locale ($u_0=3,1$).} + \end{subfigure} + \begin{subfigure}{0.3\linewidth} + \includegraphics[width=\linewidth]{background/figure/ml/convex/f_local8.28.pdf} + \caption{L'algorithme tombe dans un minimum globale ($u_0=8,28$).} + \end{subfigure} + \begin{subfigure}{0.3\linewidth} + \includegraphics[width=\linewidth]{background/figure/ml/convex/conv_local.pdf} + \caption{Convergence vers un minimum locale et globale.} + \end{subfigure} + \caption{Impacte de la convexité sur la convergence.} + \label{fig:background-opti-cvx} +\end{figure} + \subsection{Evaluer un modèle} Nous appelerons ici évaluation d'un modèle le calcule des metriques qui permettent de juger de son utilité. Ces métrique varient en fonction du type de modèle et du contexte dans lequel il est utilisé. @@ -73,7 +94,7 @@ Cette algorithmes évalue l'espérence empirique de $C(\theta)$ sur chaque élé Cela permet d'éviter de penser à tords qu'une patient n'est pas malade ce qui pourrai entraîner un retard dans sa prise en charge. \subsubsection{Classification} - \label{sec:backgroung-ml-classif} + \label{sec:background-ml-classif} Les modèles de classification visent à attribuer à chaque point des données ébalué une classe parmis un ensemble fini. Par exemple, dans le cadre de la justice prédictive, inférer pour chaque coupable si il sera recidivise ou non~\cite{zhiyuan2020limits}. Quand il y a deux classes, comme dans l'exemple précédent avec \emph{récidivisite} ou \emph{non-récidiviste}, nous dirons que le modèle effectue un classification binaire. @@ -95,10 +116,10 @@ Cette algorithmes évalue l'espérence empirique de $C(\theta)$ sur chaque élé Grace à ces objets, nous allons définir des qunatités qui décrivent l'utilitée du modèle. La première est - l'\textit{accuracy}, c'est la prababilté que le classifieur prédise la bonne classe. Nous la définissons par $P(\hat{Y}=Y)$. + l'\emph{exactitude}\footnote{\textit{Accuracy}}, c'est la prababilté que le classifieur prédise la bonne classe. Nous la définissons par $P(\hat{Y}=Y)$. Cette définission, bien que très intuitive, souffre qu'elle est sensible au désequillibre de classe~\footnote{\textit{Class imablance}}. Considérons l'exemple suivant : imaginons un modèle depployé en 1982 qui chercheraià prédire si un employé cadre est une femme ou un homme. - Supposons que ce modèle ai une \textit{accuracy} de $79\%$, c'est-à-dire que le modèle prédit justement le genre huit fois sur dix, nous dirons certainement que ce modèle est performant ? + Supposons que ce modèle ai une exactitude de $79\%$, c'est-à-dire que le modèle prédit justement le genre huit fois sur dix, nous dirons certainement que ce modèle est performant ? Voici donc un modèle qui atteint cette performance : \begin{equation} f: @@ -111,7 +132,7 @@ Cette algorithmes évalue l'espérence empirique de $C(\theta)$ sur chaque élé \end{equation} C'est-à-dire un modèle qui prédise toujours homme. - Calculons son \textit{accuracy}, pour plus lisibilité nons encodons homme par $0$ et femme par $1$. + Calculons son exactitude, pour plus lisibilité nons encodons homme par $0$ et femme par $1$. Comme le modèle prédit toujours homme, $P(\hat{Y}=0)=1$ et $P(\hat{Y}=1)=0$. \begin{align} &P(\hat{Y}=Y)\nonumber\\ @@ -121,14 +142,14 @@ Cette algorithmes évalue l'espérence empirique de $C(\theta)$ sur chaque élé \end{align} Or, en 1982 il y avait uniquement $21\%$ des cadres qui était des femmes~\cite{insee1982parite}, ansi $P(Y=0)=0,79$ et $P(Y=1)=0,21$. - Nous avons donc bien une accuracy de $79\%$ bien que le modèle n'ai aucune utilité pratique ! + Nous avons donc bien une exactitude de $79\%$ bien que le modèle n'ai aucune utilité pratique ! - Ainsi l'accuracy est significative uniquement quand $Y$ suit une loi uniforme. - Nous définisson donc une autre métrique : la \textit{balanced accuracy}. + Ainsi l'exactitude est significative uniquement quand $Y$ suit une loi uniforme. + Nous définisson donc une autre métrique : l'\emph{exactitude équillibrée}\footnote{\textit{balanced accuracy}}. Pour cela nous repartons de l'Equation~\ref{eq:background-ml-ac} et remplacons $P(Y=0)$ et $P(Y=1)$ par $\frac{1}{2}$. - Ainsi la \textit{balanced accuracy} est la moyenne et $P(\hat{Y}=0|Y=0)$ et de $P(\hat{Y}=1|Y=1)$. + Ainsi l'exactitude équilibrée est la moyenne et $P(\hat{Y}=0|Y=0)$ et de $P(\hat{Y}=1|Y=1)$. C'est-à-dire que nous regardons pour chaque classes séparément (homme ou femme notre exemple) la probabilité qu'on point soit bien classifié. - Ainsi, en calculant la \textit{balanced accuracy} avec l'exemple précedent nous obtenons $\frac{1+0}{2}=0,5$. + Ainsi, en calculant l'exactitude equilibrée avec l'exemple précedent nous obtenons $\frac{1+0}{2}=0,5$. Ce résultat montre bien que le modèle n'a pas d'utilité. \paragraph{La courbe \textit{Receiver Operating Characteristic} (ROC)} @@ -138,7 +159,7 @@ Cette algorithmes évalue l'espérence empirique de $C(\theta)$ sur chaque élé La classification ce fait grace un seuil sur ce logit. C'est à dire que si on apelle $g(x)$ le logit de $x$, le modèle de classification peut se décomposer par : $f_\uptau = 1_{[\uptau,1]}\circ g$. - Ainsi si nous calculons l'\textit{accuracy}, la \textit{balance accuracy} ou tout autre metrique que nous avons présenté précédament elle dépendra du seuil ($\uptau$). + Ainsi si nous calculons l'exactitude, l'éxactitude équilibrée ou tout autre metrique que nous avons présenté précédament elle dépendra du seuil ($\uptau$). Pour palier cela nous regarons la ROC : une courbe parametrique qui au seuil associe le tau de faux positif (FPR)\footnote{\textit{False positive rate}} et le tau de vrai positif (TPR)\footnote{\textit{True positive rate}}. Nous definisson ces quantité comme suit : \begin{itemize} @@ -226,7 +247,7 @@ Cette algorithmes évalue l'espérence empirique de $C(\theta)$ sur chaque élé Comme nous pouvons de le voir sur la Sous-figure~\ref{subfig:background-ml-logit-d}, seuil proche de $1$ permet de grandement réduire le FPR mais réduit les autres métriques. Le choix d'un seuil est aussi particulièrement important quand les données présentent un désequilibre, c'est-à-dire qu'une classe et majoritaire par rapport à une autre~\cite{zou2016finding}. Dans la Figure~\ref{fig:background-ml-logit} il y $28\%$ de points positif représenté en rouge. - Cela explique la différence entre \textit{accuracy} et \textit{balanced accuracy} à seuil égale. + Cela explique la différence entre exactitude et exactitude équilibrée à seuil égale. \subsection{Apprentissage profond} @@ -292,16 +313,22 @@ Ainsi la $i$-ième couche s'écrit : \end{equation*} Regardon maintenant les couches de convolutions. -L'idée de la convolution est d'extraire des représentations\footnote{\textit{Features extraction}}. +L'idée de la convolution est d'extraire des représentations\footnote{\textit{Features extraction}} à partir d'un signal qui est généralement une image, un son ou la sortie d'un capteur analogique comme un gyroscope. +Une architactre classque utilise les couches de convolution à l'entrée du réseau avant les couches linéaires. +L'idée étant que le modèle comence par extraire de représntation pui les analysent. +Dans ce type de couche le paramètre $\theta_i$ est le noyeau de convolution. +C'est la fonction par laquelle on mutlilpe le signal sous l'intégrale. +Pour un noyeau de convolution de taille $c$ \begin{equation} f_i(x,\theta_i) = \left\{ \begin{matrix} - \mathbb{N}^\mathbb{}\rightarrow\mathbb{N}^\mathbb{N}\\ - u\mapsto\int_{\mathbb{N}}x(u\bowtie t)\theta(\#J\bowtie t)d\sum_{j\in\mathbb{N}}\delta_j(t) + \mathbb{R}^o\rightarrow\mathbb{R}^\mathbb{N}\\ + u\mapsto\int_{c}x'(u-t)\theta_i(t)d\sum_{j=0}^{c-1}\delta_j(t) \end{matrix} \right. \end{equation} +Où $x'$ est telque $x'(u-t)$ soit toujours bien défini par rembourrage\footnote{\textit{padding}}. diff --git a/background/opti.tex b/background/opti.tex index 9d346d6..03d01a6 100644 --- a/background/opti.tex +++ b/background/opti.tex @@ -1,4 +1,4 @@ -L'optimisation est une branche est des mathématiques appliquées qui cherche à trouver les points pour lequels une fonctions réalise un certain nombre d'exigence. +L'optimisation est une branche des mathématiques appliquées qui cherche à trouver les points pour lequels une fonctions réalise un certain nombre d'exigences. Le lecteur pourra se reférer par exemple au libre de Phillipe G. Ciarlet \textit{Introduction à l'analyse numérique matricielle et à l'optimisation}~\cite{ciarlet} pour une présentation très complète d'un grand nombre de techniques. Dans ce manuscrit nous ne nous interesseront qu'a deux type de problèmes liées à l'apprantissange automatique et surtout au réseaux de neuronnes. Le premier de ces problèmes est la minimisation sans contrainte d'une fonctionelle convexe. @@ -6,11 +6,34 @@ Cela permet l'entraînement de modèle d'apprantissage automatique à l'aide d'u Le second problème reprend le premier mais y ajoute des contraintes. C'est à dire, comme minimise-t'on le coût tout en garantissant certaines conditions ? -\subsubsection{Descente de gradient} +\subsubsection{Optimisation sant contrainte : Descente de gradient} \label{sec:background-opti-sgd} Nous appellons fonctionelles les fonctions $\mathbb{R}^n$ dans $\mathbb{R}$. Soit $J$ une fonctionelle convexe, nous cherchons à trouver $x\in\mathbb{R}$ tel que $J(x) = \text{inf}\{J(t)\mid t\in\mathbb{R}\}$. +Pour simplifier cette rapide présentation, nous supposerons que $J$ à toujours les conditions de régularité (diférentiabilié) suffisante pour les opérations que nous appliquerons. +Pour trouver $x$ qui minimise $J$ une des méthode les plus utilisé en apprentissage automatique est la descente de gradient. +Il s'agit de construire une suite $(x_k)_{k\in\mathbb{N}}$ telle que $J(x_k)$ soit strictement décroissante ($\forall k\in\mathbb{N}~J(x_{k+1}) + + + diff --git a/classification_finie/figure/cezanne/colage.png b/classification_finie/figure/cezanne/colage.png new file mode 100644 index 0000000..ebe43f3 Binary files /dev/null and b/classification_finie/figure/cezanne/colage.png differ diff --git a/classification_finie/figure/cezanne/collage.svg b/classification_finie/figure/cezanne/collage.svg new file mode 100644 index 0000000..2170529 --- /dev/null +++ b/classification_finie/figure/cezanne/collage.svg @@ -0,0 +1,77 @@ + + + + diff --git a/classification_finie/figure/time/COMPAS.pdf b/classification_finie/figure/time/COMPAS.pdf new file mode 100644 index 0000000..b677e3a Binary files /dev/null and b/classification_finie/figure/time/COMPAS.pdf differ diff --git a/classification_finie/figure/time/LAW.pdf b/classification_finie/figure/time/LAW.pdf new file mode 100644 index 0000000..beb9fee Binary files /dev/null and b/classification_finie/figure/time/LAW.pdf differ diff --git a/classification_finie/main.tex b/classification_finie/main.tex index 91fdd27..901499a 100644 --- a/classification_finie/main.tex +++ b/classification_finie/main.tex @@ -1,2 +1,3 @@ \input{classification_finie/ba} \input{classification_finie/finit_classif} +\input{classification_finie/tabular} diff --git a/classification_finie/tabular.tex b/classification_finie/tabular.tex index ca2caaa..6112f77 100644 --- a/classification_finie/tabular.tex +++ b/classification_finie/tabular.tex @@ -1,12 +1,11 @@ -\FloatBarrier \begin{figure} \centering \begin{subfigure}{0.44\textwidth} - \includegraphics[width=\textwidth]{figure/ba/COMPAS.pdf} + \includegraphics[width=\textwidth]{classification_finie/figure/ba/COMPAS.pdf} \caption{COMPAS} \end{subfigure} \begin{subfigure}{0.44\textwidth} - \includegraphics[width=\textwidth]{figure/ba/LAW.pdf} + \includegraphics[width=\textwidth]{classification_finie/figure/ba/LAW.pdf} \caption{LAW} \end{subfigure} @@ -18,11 +17,11 @@ \begin{figure} \centering \begin{subfigure}{0.44\textwidth} - \includegraphics[width=\textwidth]{figure/time/COMPAS.pdf} + \includegraphics[width=\textwidth]{classification_finie/figure/time/COMPAS.pdf} \caption{COMPAS} \end{subfigure} \begin{subfigure}{0.44\textwidth} - \includegraphics[width=\textwidth]{figure/time/LAW.pdf} + \includegraphics[width=\textwidth]{classification_finie/figure/time/LAW.pdf} \caption{LAW} \end{subfigure} @@ -31,4 +30,9 @@ } \label{fig:time} \end{figure} -\FloatBarrier + +\begin{figure} + \centering + \includegraphics[width=\linewidth]{classification_finie/figure/cezanne/colage.png} + \caption{Classification du style des tableaux de Paul Cezanne}. +\end{figure} diff --git a/conclusion.tex b/conclusion.tex index 6d67ca2..fdb1810 100644 --- a/conclusion.tex +++ b/conclusion.tex @@ -1 +1,19 @@ -L'IA c'est comme une boîte de chocolat, on sait jamais lequel on vas avoir. +L'IA est un enjeu majeur des années à venir comme le prouve les investissement massifs dont font preuve les secteur privée et publique. +Les géants du numérique et la litérature d'ancipation font miroiter un ensemble de téchnologies qui changerait drastiquement notre manière de vivre, aussi bien sur le plan individuel avec de nouveaux outils de travail, que sur le plan institutionel comme dans les domaiens de la santée ,de la justice ou de l'éducation. +Face à de tels attantes il est capitale d'optenir une compréhensio en profondeur des modèle d'apprantissage automatique qui sont la clé de voute de l'IA moderne. +En effet, certain effets indésirable lié à l'utilisation de ces modèles ont été observés. +Les modèles consomment enorement d'énergie, sont suceptibles d'avoir des failles de sécurtié, peuvent réveler des attribut sensibles de personnes réel, créent des prédiction inexplicables et biasé et peuvent être utilsés à des fins illegales. +De plus les implication sociétales d'une potentielle future AGI ne sont pas clairement établies hors du cadre de la science fiction. + +Pour palier cela et créer une IA aligné avec les valeurs de République Française il faut des garantie théorique forte couplés à des résultats expérimentaux réalisé sur le long terme avec des bases de données incluant les minoritées victimes de discriminations. +C'est dans cette optique que s'inscrit ce manuscrit, plus précisement : +les interactions entre les différents effets indésirable liste plus haut ne sont pas encore compris dans leur entièreté. +Nous nous somment penché sur les intéractions entre l'équitée et la confidentialité et nous avons démontré que dans une certaine mesure l'équitée pouvai aller de pair avec confidentialité. +Pour cela nous avons crée des attaque ayant la garanté d'êter le plus performante tout en minimisant le coût de calcul. +Cela permetra à des organisations de contrôle comme la Défensseur des droits de mesurer avec certitude si une IA respècte les exigence d'equitée. +Les études théoriques que nous avons produites ont permis aussi de démontrer plusieur résultats qui améliorent la compréhension que nous avons de l'éxactitude équilibrée qui est une manière courante d'évaluer les modèles. + +Enfin nous nous somme attaqué à l'idée recu que les donnée synthétiques protègent unilatéralement la confidentialitée de utilisateur et leur attributs sensisbles en exhibant des contre exemples. +Néanmoin, modifier les algorithmes de génération de donnée en introduisant des contraintes d'équitée et de confidentialité pourrait permetre des avancé significative vers une IA plus morale. + + diff --git a/contexte/< b/contexte/< new file mode 100644 index 0000000..bb081cd --- /dev/null +++ b/contexte/< @@ -0,0 +1,106 @@ + +L'intelligence artificielle (IA) est un sujet extrement médiatisé depuis son ouverture au grand publique avec notament ChatGPT~\cite{} ou StableDiffusion~\cite{}. +Ces technologies sont aussi des enjeux capitaux pour résoudre plusieurs problèmes majeurs de l'humanitée, notament : +la crise climatique~\cite{barnes2019viewing,slater2023hybrid} et +la crise énergetiques~\cite{jin2020energy,kumar2020distributed,kumari2020blockchain,ngarambe2020use}. +Ainsi l'IA est présente aussi bien à l'échelle de la population qui à accès à des services pours son usage personelle, qu'à l'echelle collective institutionelle. + +%Individuelle +\subsection{A l'échelle individuelle} +\label{sec:contexte-indi} +L'IA promet de faciliter et d'accelerer un grand nombre de tâches dans de multiples domaines : de l'édition d'image sur son téléphone portable~\cite{} jusqu'aux diagnostiques médicaux~\cite{}. +Les géants du numérique poussent de plus en plus l'IA dans leurs produits ce qui rend son utilisation simple d'accès. +La figure~\ref{fig:contexte-gafam} montre comment les GAFAM (Google Facebook Amazon Microsoft) mettent en avant des outils grand publiques. +\begin{figure} + \centering + \includegraphics[width=\linewidth]{contexte/figure/gafam.png} + \caption{Exemples de produits et de marketing proposé par les GAFAM Google Apple Facebook (Meta) Amazon Microsoft.} + \label{fig:contexte-gafam} +\end{figure} +On trouve des implémentations d'assistant personnels, d'aide à la programmation, d'édition d'image, etc. +Des objects connecté portables, comme l'Apple Watch~\cite{applewatch}, permettent de suivre et d'analyser divers indicateurs médicaux. +Grace à cela, les utilisateurs peuvent avoir accès à une medecine personalisée bien que il n'existe pas d'étude clinique à grande echelle qui prouve fromellement que de tel appareil puisse améliorer la santé~\cite{dunn2018wearables}. +Avec les GAFAM, de nouvelles startups investissent le domaine de l'IA. +Une des plus médiatique\cite{openaiinter,openaibfm,openaint}, OpenAI à délopé ChatGPT : un programme de conversation grandement utilisé~\cite{openaibig}. +Nous montrons quelques exemples d'utilisations dans la figure~\ref{fig:contexte-chatgpt}. +ChatGPT peut être utilsé pour comme fondation pour de nombreuses tâches comme l'assistance à la programmation, resumer des textes, la traduction, la reformulation, etc. +ChatGPT cherche aussi à rendre accessible l'information en temps réel en s'alliant avec des journaux de referance comme LeMonde en France ou El Paìs en Espagne~\cite{gptjournal}. +\begin{figure} + \centering + \begin{subfigure}{\linewidth} + \centering + \includegraphics[width=\linewidth]{contexte/figure/chatgpt/prog.png} + \caption{Aide à la programmation.} + \end{subfigure} +\end{figure} +\begin{figure}\ContinuedFloat + \begin{subfigure}{\linewidth} + \centering + \includegraphics[width=\linewidth]{contexte/figure/chatgpt/hanami.png} + \caption{Résumé en d'un texte en japonais.} + \end{subfigure} + \caption{Exemples d'utilisation de ChatGPT.} + \label{fig:contexte-chatgpt} +\end{figure} +La recherche publique donne aussi lieu à des services utilisables individuellment. +Par exemple Pl@ntNet~\cite{barthelemy:hal-01837361,plantnet} permet avec un simple smartphone de reconnaitre une plante à partir de photographies. + +%Collective +\subsection{A l'échelle institutionelle} +\label{sec:contexte-insti} +L'echelle indiviuelle de l'IA n'est que le sommet de l'iceberg, son utilisation institutionel et gouvernemental est ancré plus profondément. +Cela est particulièrement vraie dans les régimes autoritaires, comme la Chine, où l'IA est utilisé pour controler et opprimer la population nottamant grace à la reconaissance faciale~\cite{beraja2023ai}. +De plus Beraja et al. montre que les choix politiques de Pékin, lors des soulevements populaires, entraînent un dévelopement accéléré des technologie de reconaissance faciale~\cite{beraja2023ai}. +Beraja et al. explique aussi que ces technologies peuvent ensuite quitter la sphère politique et devenir des produits commerciaux disponibles au grand publique. + +%Etats Unis +%Justice prédictive +Aux Etats Unis l'IA est utilisé, nottamant dans la justice et dans l'éducation. +Concernant la justice, +%Position du crime +%https://www.soundthinking.com/ +%\cite{brayne2015predictive} + +%Recidivism + +%France hopitaux +Collaboration HCL/INRIA + +\subsection{Définition(s)} +Nous avons vu dans les parties précédentes que le terme \textquote{Intelligence Artificielle} est utilisé pour parler d'un grand nombre de téchniques différentes et de produits commerciaux différents. +De plus, dans les médias et dans le language de tous les jours, nous pouvons entendre~\cite{underscore} de expression comme : \textquote{Une nouvelle IA qui fait [..]}. +Cela renvoit l'IA à une collection de logiciels comme nous l'avons présenté dans les Sections~\ref{sec:contexte-indi} et \ref{sec:contexte-insti} mais ne donne pas de caracétrisation qui permette de classifier un logiciel spécifique comme \textquote{IA} ou \textquote{pas IA}. +Est-ce que \textit{grep}~\cite{grep}, le logiciel de reconaissance de motifs textuels, est IA ? +Est-ce qu'un programme d'\textit{Optical Character Recognition (OCR)} comme Ocrad~\cite{ocrad} est IA? + +Le dictionaire de l'Académie francaise~\cite{dico-int} défini l'intelligence comme la \textquote{ +Faculté de comprendre, de concevoir, de connaître, et notamment faculté de discerner ou d’établir des rapports entre des faits, des idées ou des formes pour parvenir à la connaissance}. +Peut-on rapporcher cette définition de +Le mot \textquote{artificiel} quand-à lui signifie \textquote{Qui est dû à la technique de l’homme, par opposition à ce qui a été créé et s’est développé naturellement}~\cite{dico-art}. +Intelligence aritificielle : \textquote{ensemble de propriétés rapprochant du cerveau humain certains systèmes informatiques très évolués}~\cite{dico-art}. + +Strong AI + +Weak AI + +AGI + +Cette polyvalence du terme rend son utilisation assez imprecise comme l'écrit Richard M. Stallman dans la liste de terme \textquote{à éviter} du projet GNU~\cite{gnuAI}. + +France culture Banissons IA~\cite{banIA}. + +\subsection{Philosophie et culture} + +Experience de la Chambre Chinoise~\cite{searle1980minds}. + +Basilique de Roko, Paris Pascalien~\cite{Singler_2018} + +Alignement de l'IA + +Convergence de l'IA + +\textit{The Matrix}~\cite{matrix}. +\textit{The Bicentennial Man}~\cite{bicentenaire} (livre). +\textit{The Terminator}~\cite{terminator}. +\textit{Avengers: Age of Ultron}~\cite{avenger}. + diff --git a/contexte/background b/contexte/background new file mode 100644 index 0000000..e69de29 diff --git a/contexte/ckoi.tex b/contexte/ckoi.tex index 0dce14d..0bda272 100644 --- a/contexte/ckoi.tex +++ b/contexte/ckoi.tex @@ -1,5 +1,5 @@ -L'intelligence artificielle (IA) est un sujet extrement médiatisé depuis son ouverture au grand publique avec notament ChatGPT~\cite{} ou StableDiffusion~\cite{}. +L'intelligence artificielle (IA) est un sujet extrement médiatisé depuis son ouverture au grand publique avec notament ChatGPT~\cite{chatgpt} ou StableDiffusion~\cite{stabledi}. Ces technologies sont aussi des enjeux capitaux pour résoudre plusieurs problèmes majeurs de l'humanitée, notament : la crise climatique~\cite{barnes2019viewing,slater2023hybrid} et la crise énergetiques~\cite{jin2020energy,kumar2020distributed,kumari2020blockchain,ngarambe2020use}. @@ -8,7 +8,7 @@ Ainsi l'IA est présente aussi bien à l'échelle de la population qui à accès %Individuelle \subsection{A l'échelle individuelle} \label{sec:contexte-indi} -L'IA promet de faciliter et d'accelerer un grand nombre de tâches dans de multiples domaines : de l'édition d'image sur son téléphone portable~\cite{} jusqu'aux diagnostiques médicaux~\cite{}. +L'IA promet de faciliter et d'accelerer un grand nombre de tâches dans de multiples domaines : de l'édition d'image sur son téléphone portable~\cite{aaigpt} jusqu'aux diagnostiques médicaux~\cite{maghded2020novel}. Les géants du numérique poussent de plus en plus l'IA dans leurs produits ce qui rend son utilisation simple d'accès. La figure~\ref{fig:contexte-gafam} montre comment les GAFAM (Google Facebook Amazon Microsoft) mettent en avant des outils grand publiques. \begin{figure} diff --git a/contexte/enjeux.tex b/contexte/enjeux.tex index c69573f..02c6471 100644 --- a/contexte/enjeux.tex +++ b/contexte/enjeux.tex @@ -1,7 +1,7 @@ Les modèles de decisions ont pour but réaliser un choix de manière automatiques sans ou en reduisant l'intervention humaine. -L'optique est de pouvoir traiter un grand nombre de décision rapidement tout en retirant certain biais que pourais avoir un décideur humain~\cite{}. -Par exemple un modèle peut décider quelle publicité vas voir un utiliateur d'un page web~\cite{} ou quelle ecriture comptable présente une anomalie dans une logique d'audit~\cite{}. +L'optique est de pouvoir traiter un grand nombre de décision rapidement tout en retirant certain biais que pourais avoir un décideur humain~\cite{al2021role}. +Par exemple un modèle peut décider quelle publicité vas voir un utiliateur d'un page web~\cite{choi2020identifying} ou quelle ecriture comptable présente une anomalie dans une logique d'audit~\cite{ucoglu2020current}. Applliqué à certains milieux, cette methode de décision soulève de nombreuses critiques et inquiétudes qui ont investi le débat publique. Ces critiques et inquétudes sont théorisés dans la littérature scientifique au travers des six défis de l'IA: \begin{enumerate} @@ -21,12 +21,12 @@ Il revient donc aux personnes qui crée ces modèles de déterminer, en fonction \subsection{Equitée} \label{sec:contexte-eq} -L'élborations de modèles est soumis à différent bias qui influencent son fonctionement~\cite{}. +L'élborations de modèles est soumis à différent bias qui influencent son fonctionement~\cite{surveyfair}. C'est à dire que le modèle se compre différamant pour différents sous-ensembles de la population. Cela peut donner lieu à des discriminations notament dans le modèle de décision qui influence directment la vie de persones. La justice prédictive tel qu'utilisé aux Etats Unis en est un bon exemple. Dans ce cas, un modèle est utilisé pour prédire si un individu jugé coupable à un forte probabilité d'être récidiviste au non. -En utilisant de tel modèle nous mesurons que les afro-américains (\textit{blacks}) son plus souvent predit comme ayant un forte chance d'être récidiviste que le reste de la population (\textit{whites})~\cite{}. +En utilisant de tel modèle nous mesurons que les afro-américains (\textit{blacks}) son plus souvent predit comme ayant un forte chance d'être récidiviste que le reste de la population (\textit{whites})~\cite{dressel2018accuracy}. En plus d'être un enjeu, Al-Alawi et al.~\cite{al2021role} avance que l'utilisation de l'IA peut être une solution plus equitable que la décision humaine dans le processus de recrutement. L'équitée dans le modèle peut-être imposé lors de l'entraînement. @@ -34,17 +34,28 @@ Nous étudierons en détail ce processu dans la Section~\ref{sec:background-eq}. \subsection{Explicabilitée} \label{sec:contexte-expl} -Transparance dans la médecine, Boite noire, ~\cite{quinn2022three}. +Le concepte de boîte noire\footnote{\textit{Black box}} est une manière imagée de dire qu'on ne comprend pas ou qu'on ne peut pas avoir accès au fonctionement d'un programme. +On l'utilise alors comme un outil qui prend un entrée et donnée une sortie, un peu à la manière de la définition d'IA que nous avons illustre dans la Figure~\ref{fig:contexte-IAUE}. +Cette approche de l'IA est problématique pour plusieurs raisons qu'illuste Quinn et al.~\cite{quinn2022three} dans le domaine médicale : +\begin{itemize} + \item Les boîte noires manque de garanties quand à la qualitée de la prédiction et rendent complexe l'étude es biais. + \item Les boîtes noîres ne permettent pas l'interpretation des résultats. + \item Les boîtes noires ne peuvent pas prendre en compte toutes les subtilités des cas particuliers (de patients). +\end{itemize} + +Les réseaux de neuronnes ont une part prépondérante de l'IA. +Or de pars leur fonctionement interne complexe que nous explorerons à la Section~\ref{sec:background-ml} et le fait que leur compréhension théorique soit encore lacunaire, ils sont souvent utilisé en boîte noire~\cite{yuan2022explainability}. +Pour palier cela il existe certaine methodes qui essaie de produire des explication automatisé compréhenseibles des réseaux de neurones~\cite{yuan2022explainability,du2019techniques,rai2020explainable}. \subsection{Confidentialitée} -D'une manière génèrale, l'inteligence artificielle brasse une quantité astronomique de données~\cite{}. +D'une manière génèrale, l'inteligence artificielle brasse une quantité astronomique de données~\cite{villani2018donner}. Ce brassage s'opère à deux niveaux : au moment de la creation du modèle et au moment de son utilisation en production. Pour créer des modèles performants, il est necessaire d'utiliser beaucoup de données. Ces données servent à choisirs les bon parametres du modèle au travers de divers methods statistiques et d'optimisations, on les appeles données d'entrainement. -Les modèles les plus récent et performant necessite un grand nombre de paramètres, citons par exemple le LLM LLaMA qui posède 65 milliard de pramètres ~\cite{}! -Ce grand nombre de paramètre a l'effet indesirable de mémoriserdes informations potentielement sensible sur les données d'entrainement~\cite{}. +Les modèles les plus récent et performant necessite un grand nombre de paramètres, citons par exemple le LLM LLaMA qui posède 65 milliard de pramètres ~\cite{touvron2023llama}! +Ce grand nombre de paramètre a l'effet indesirable de mémoriserdes informations potentielement sensible sur les données d'entrainement~\cite{shokri2017membership}. L'information contenue dans les données d'entrainement est comme résumé, compressée dans la masses, a prior incompréhensible pour un humain, des paramètres du modèle. -Ainsi un individue malveillant, que l'on appelera attaqueur, pourra retrouver des informations sur les données d'entrainement juste en utilisant les paramètres du modèle~\cite{}. +Ainsi un individue malveillant, que l'on appelera attaqueur ou adversaire, pourra retrouver des informations sur les données d'entrainement juste en utilisant les paramètres du modèle~\cite{shokri2017membership,yeom2018privacy,carlini2022membership}. \begin{figure} \centering \input{contexte/figure/tikz/train} @@ -55,26 +66,42 @@ Ainsi un individue malveillant, que l'on appelera attaqueur, pourra retrouver de Un autre risque de fuite de donnée se trouve au moment du l'utilisation du modèle, après son entraînement, lors de son utilisation. A ce moment, les utilisateurs envoient en entrée du modèle des données qu'ils peuvent vouloir gardé confidentielles. -Cependant la sortie du modèle, qui a vocation à être partagée, peut reveler une parite des informations sensibles contenues dans les donnée d'entrée de l'utilisateurs. -Mettre en avant risque est le travail originial que nous avons réalisé : nous le présentons dans la Section~\ref{sec:aia}. +Cependant la sortie du modèle, qui a vocation à être partagée, peut reveler une parite des informations sensibles contenues dans les donnée d'entrée de l'utilisateurs~\cite{yeom2018privacy,zhao2021infeasibility,jayaraman2022attribute,attriguard,Song2020Overlearning,malekzadeh2021honestbutcurious}. +Il s'agit du principle risque de confidentialité que nous allons explorer dans ce manuscrit. +Nous y reviendrons donc dans la Section~\ref{sec:background-conf} pour une présentation de l'état de l'art et au Chapitre~\ref{sec:aia} pour notre contribution. + +Faisons un rapide point sur la términologie de ses attaques. +Quand l'adversaire infère si un donnée à servi à l'entraînement du modèle, c'est une \emph{attaque d'apartenance}\footnote{\textit{Membership inference attack}}. +Quand l'adversaire cherche à retrouver des informations sur les données d'entraîenemnt c'est une \emph{attaque de reconstruction}. +Quand l'adversaire cherche à retrouver un statistique globale du de la base de donnée d'entraînement, par exemple la proportion d'homme et de femme, c'est une \emph{attaque d'inférence de propriété}\footnote{\textit{Property inference attack}}. +Qaudn l'adversaire cherche à infere un attribut sensible c'est une \emph{attaque d'inférence d'attribut sensible (AIA)}\footnote{\textit{Attribut inference attack}}. \subsection{Sécuritée} \label{sec:contexte-secu} -Backdoor~\cite{gao2020backdoor, doan2021lira} +Le processus d'entraînement des réseau de neuronnes est souvent secret et les utilisateur ont accès uniquement à un modèle entraîné. +Dans ce contexte un adversaire qui a accès à l'entraînement de modèle, dans un cadre d'apprentissage décentralisé par exemple, peut injecter des portes dérobé qui lui permet de modifer les futures prédictions à sa convenance. +Considérons le scenarios factice suivant : une entreprise construit un modèle comercial ayant pour but la prédiction du recidivisme. +Cette entreprise vend ce modèle à la l'état de Floride des Etats Unis. +Si un adversaire a introduit une porte dérobée il pourra choisir quelle sera la prédiction du modèle décidant ainsi unilatéralement si la juge va penser que le coupable a une forte chance d'être recidiviste ou non. + +Le principe de ce genre d'attaque est assez simple : l'adversaire cache dans les donnée d'entrée un déclencheur\footnote{trigger} que le modèle apprend à reconaitre~\cite{gao2020backdoor, doan2021lira}. +Ainsi quand le modèle est utilisé en production l'adversaire peut utilisé le déclancheur sans avoir accès à l'ordinateur de juge ou au serveur qui fait tourner le modèle, il suffit de modifier la donnée d'entrée. \subsection{Comsomation d'énergie} +Nous vivons une crise climatique majeure du a l'activité humain qui présage de grave changements pour l'ensemble du vivant ainsi que dans nos mode de vie~\cite{pielke2005hurricanes,khasnis2005global,houghton2005global,melillo2014climate,mcnutt2013climate} +Ainsi, bien que l'IA soit prometeuse pour nous aider à anticiper ces changements~\cite{villani2018donner} il ne faut pas que son développement et l'entraînement de modèles accelère le changment climatique et le rechauffement climatique. +Concrètement, le LLM Llama2 à émis 539 tonnes de $\text{CO}_2$ en prenant en compte les diverse plan de compenssation carbonne de Meta~\cite{touvron2023llama}. +L'empreinte carbone d'un français étant estime à 9,2 tonnes de $\text{CO}_2$ par an~\cite{carbonfr} c'est donc à peut près l'équivalant de 59 personne pendant un an qui à été généré par Llama2. +C'est donc dans l'optique d'entraîner des modèle bien proportioné (ayant peu de paramètres) et pouvant fonctionner sur des ordinateurs portables ou des téléphones portables\footnote{\textit{Smartphone}} que sont né les idée d'IA frugale et embarqué~\cite{schwartz2020green,verdecchia2023systematic,shadrin2019designing}. +Comme nous l'avons vus plus haut, il s'agait aussi d'un positionement stratégique de la France~\cite{stratfr}. + On comprend bien le caractère primoridal et particulier de l'utilitée. A quoi bon avoir un modèle equitable ou qui ne consome presque pas d'énergie si ses prédictions sont toujours fausses ? Ainsi, qaund nous évaluons un modèle au travers des autres défis, nous metons toujours se résultat en parallèle avec l'utilitée. -De manière plus générale, les six défis sont lié entre eux et l'étude de ces liens et un sujet de recherche florissant~\cite{}. - -Par exemple Parcoursup est un programme dévelopé par le gouvernment français qui à pour but d'automatiser l'attribution des places dans l'enseignement supérieur au nouveaux bacheliers~\cite{}. -Depuis son entré en vigeur en 2018.. - -Justice predictive COMPAS - -Assurances +De manière plus générale, les six défis sont lié entre eux et l'étude de ces liens et un sujet de recherche florissant~\cite{dai2022comprehensive,franco2021toward,grant2020show}. +C'est dans ce cadre que ce situe le travail réalisé dans ce manuscrit : nous explorerons à partir du Chapitre~\ref{sec:fini} les lien entre la confidentialité et l'équitée. +Plus précisement les AIA et les différentes définitions téchnique qui sont proposés pour l'équitée. diff --git a/contexte/figure/g5k-backbone.pdf b/contexte/figure/g5k-backbone.pdf new file mode 100644 index 0000000..fef2216 Binary files /dev/null and b/contexte/figure/g5k-backbone.pdf differ diff --git a/contexte/figure/g5k.svg b/contexte/figure/g5k.svg new file mode 100644 index 0000000..1f89aaa --- /dev/null +++ b/contexte/figure/g5k.svg @@ -0,0 +1,123 @@ + + + + + + + + + + site web + + + hash + map + + geography + europe + france + + + + + Yves Aubry (yvounet) + + + + + Yves Aubry (yvounet) + + + + + Yves Aubry (yvounet) + + + + image/svg+xml + + + en + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Lille + + + + Nancy + + + + Lyon + + + + Grenoble + + + + Sophia + + + 10G dedicated lambda + + + + Luxembourg + + + + Toulouse + + + + + Last update: 2023-06-16 + + + Nantes + + + + Rennes + + + \ No newline at end of file diff --git a/contexte/legal.tex b/contexte/legal.tex index 7f47af4..57b3333 100644 --- a/contexte/legal.tex +++ b/contexte/legal.tex @@ -1,13 +1,11 @@ -L'Union Européene a établie le règlement (UE) 2024/1689 du parlement européen et du conseil -du 13 juin 2024 -établissant des règles harmonisées concernant l’intelligence artificielle. Pour mieux comprendre les enjeux autour des différents scénarios d'attaques, outre la recherche inhérente au comportement sociétal humain à se dissimuler et à ne montrer que ce qu'il souhaite montrer, penchons-nous du côté de la législation, des droits et des obligations qui entourent nos données. \subsection{Protection des utilisateurs} +\label{sec:contexte-legal-util} L'article 8 de la Charte des droits fondamentaux de l'Union Européenne dispose que : \og \begin{enumerate} \item Toute personne a droit à la protection des données à caractère personnel la concernant. @@ -19,35 +17,68 @@ le droit d’accéder aux données collectées la concernant et d’en obtenir l \fg L'objet de cette section est de comprendre comment ce droit fondamental entre en conflit avec les attaques décrites dans ce rapport au travers de l'étude de textes légaux. -L'article 4 paragraphe 1 du Règlement Général sur la Protection des Données, le R.G.P.D., dispose que +L'article 4 paragraphe 1 du Règlement Général sur la Protection des Données, le RGPD, dispose que \og Une donnée à caractère personnel est toute information se rapportant à une personne physique identifiée ou identifiable \fg. Cette définition est importante dans le cadre des attaques de modèles car elle permet de rapidement identifier le cadre légal : -si nous pouvons rattacher l'inférence à une personne, il s'agit d'une donnée personnelle, elle doit donc être utilisée conformément au R.G.P.D. \cite{RGPD} +si nous pouvons rattacher l'inférence à une personne, il s'agit d'une donnée personnelle, elle doit donc être utilisée conformément au RGPD \cite{RGPD} et à la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés\cite{78-17}. On se place dans le cadre où la base de données ayant servi d'entraînement au modèle de machine learning contient des données personnelles et des données sensibles. On suppose aussi que l'utilisation de ces données pour l'entraînement du modèle est licite. -Dans nos travaux sur la fairness nous avons étudié plusieurs attaques sur les attributs sensibles tels que l'ethnie ou le genre. +Dans nos travaux sur l'équitée nous avons étudié plusieurs attaques sur les attributs sensibles tels que l'ethnie ou le genre. Nous nous sommes placés notamment dans le cadre où l'attribut sensible n'est pas utilisé dans l'entraînement du modèle, ce qui signifie que la personne ayant fourni la donnée n'a pas donné son accord pour l'utilisation de l'attribut sensible. -Nous avons montré que retrouver cet attribut sensible à partir du modèle est possible avec une grande précision, ce qui implique le traitement de cet attribut au sens de la définition de l'article 4 paragraphe 2 du R.G.P.D. le définissant comme: +Retrouver cet attribut sensible à partir du modèle est possible~\cite{malekzadeh2021honestbutcurious,Song2020Overlearning}. +Le traitement de cet attribut au sens de la définition de l'article 4 paragraphe 2 du RGPD est : \og toute opération ou tout ensemble d'opérations effectuées ou non à l'aide de procédés automatisés et appliquées à des données ou des ensembles de données à caractère personnel, telles que la collecte, l'enregistrement, l'organisation, la structuration, la conservation, l'adaptation ou la modification, l'extraction, la consultation, l'utilisation, la communication par transmission, la diffusion ou toute autre forme de mise à disposition, le rapprochement ou l'interconnexion, la limitation, l'effacement ou la destruction. \fg -L'article 9 paragraphe 1 du R.G.P.D. dispose que +L'article 9 paragraphe 1 du RGPD dispose que \og Le traitement des données à caractère personnel qui révèle l'origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d'identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique sont interdits. \fg -Publier un modèle avec lequel il est possible de retrouver l'ethnie ou le genre est donc illégal, sauf exceptions. +Donc, publier un modèle avec lequel il est possible de retrouver l'ethnie ou le genre est donc illégal, sauf exceptions. -Même si l'attribut sensible ne rentrait pas dans le cadre de l'article 9 paragraphe 1 du R.G.P.D. le fait de pouvoir utiliser une attaque d'attribut constitue une violation des données personnelles au sens de l'article 4 paragraphe 12 du R.G.P.D. qui dispose qu'une violation des données personnelles est +Même si l'attribut sensible ne rentrait pas dans le cadre de l'article 9 paragraphe 1 du RGPD le fait de pouvoir utiliser une attaque d'attribut constitue une violation des données personnelles au sens de l'article 4 paragraphe 12 du RGPD qui dispose qu'une violation des données personnelles est \og une violation de la sécurité entraînant, de manière accidentelle ou illicite, la destruction, la perte, l'altération, la divulgation non autorisée de données à caractère personnel transmises, conservées ou traitées d'une autre manière, ou l'accès non autorisé à de telles données. \fg +\subsection{Discrimination} +\label{sec:contexte-legal-discrimination} +Les facteur de discrimination et les données personels ont une grande intersection, (ethnie, couleur de peau, coryance religieuses, etc). +Si un adversaire utilise une attaque d'attribut pour inférer un facteur de discrimination et l'utilise pour réaliser une décision conernant un utilisateur, ou si un facteur de discrimination est implicitement ou explicitement utilisé par un modèle, il est possible que cette situation tombe dans le cadre des loi sur les discriminations. +Sur le site de \url{servie-publique.fr} nous trouvons la définition suivante de discrimination. +\textquote{La discrimination est un délit interdit par la loi et puni d'une amende et/ou d'une peine d'emprisonnement inférieure à 10 ans qui consiste à traiter défavorablement une personne en s'appuyant sur un motif interdit par la loi}~\cite{servicepubdiscrimination}. +Les motifs interdit par la loi se comptent au nombre de 25 critères de discrimination qui nous listons en Annexe~\ref{anx:discri}. +Nous remarquons bien que ces critères sont ceux souvent classifier d'attribut sensible dans la litérature IA~\cite{Song2020Overlearning,malekzadeh2021honestbutcurious}. + +En France, la lutte contre les discrimination fait parti des fondements de notre république. +Le mot \textquote{égalité} est dans la dévise de la cinquième république comme en dispose l'article 2 de la Constitution du 3 Juin 1958. +L'Article permier de notre Constitution dispose que +\textquote{Elle [la France] assure l'égalité devant la loi de tous les citoyens sans distinction d'origine, de race ou de religion. Elle respecte toutes les croyances.}. +De plus, l'article +71 alinéa 1 de la Constitution met en place +la Défenseure des droits veille notament à défendre les personnes victimes de discimination~\cite{defenseure}. +Cette instance pousse aussi pour plus de responssabilisation des utilisateurs d'IA qui utilisent ces technologie sans considérer leur biais~\cite{defenseure2024lutter}. + +Donnons un cas concret : l'utilisation de l'IA pour automatiser le recrutement est de plus en plus courant~\cite{defenseur2015emploi}. +Si les logiciels utilisé présentent de facteur de discrimination ou collecte trop d'informations sur les candidats au recrutemnt, l'employeur est dans l'illégalité. +En effet, l'article L 1221 alinéa 6 du Code du travail dispose que les informations demandé +\textquote{doivent présenter un lien direct et nécessaire avec l'emploi proposé ou avec l'évaluation des aptitudes professionnelles}. +De plus l'article L 1132 alinée 1 dispose que \textquote{aucune personne ne peut être écartée d'une procédure de recrutement ou de nomination ou de l'accès à un stage ou à une période de formation en entreprise, aucun salarié ne peut être sanctionné, licencié ou faire l'objet d'une mesure discriminatoire, directe ou indirecte}. + +Comparativement à la loi française, aux Etats Unis d'Amérique, l'effet différencié\footnote{\textit{Disparate impact}} est une manière pratique de contrôler si une procédure crée un désavantage, une discrimination, contre une minoritée~\cite{biddle2006adverse}. +Cet effet différencie est une qunatité qui peut être calculé sur sur le modèle d'IA ou sur tout autre procédure qui réalise une séléction binaire comme l'admission dans une école, l'attribution et pret ou encore l'embauche. +C'est tout simplement la proportion d'admis de la minorité discriminé divisé par la majorité favorisé. +Nous en donnerons une définition plus formelle à la Section~\ref{sec:background-eq} +C'est dons une quantité qui varie entre 0 et 1 où 0 indique que personne dans la minorité n'est séléctioné et 1 indique que autant de personne de la majorité que de la minorité sont sélectione : c'est la parité. +Aux Etats Unis, si l'effet différencié est inférieur à $0,8$ cela constitu une preuve au regard de la loi qui fait jursiprudence que le système de selection fait preuce de discrimination. +En France nous n'avons pas de tel précédent ou un métrique précise est utilisé. + \subsection{Protection des bases de données} On considère dans cette section que le producteur de la base de données bénéficie d'une protection par le droit sui generis au sens de l'article L.341-1 du Code de la Propriété Intellectuelle qui dispose que \og Le producteur d'une base de données, entendu comme la personne qui prend l'initiative et le risque des investissements @@ -55,23 +86,22 @@ correspondants, bénéficie d'une protection du contenu de la base lorsque la constitution, la vérification ou la présentation de celui-ci atteste d'un investissement financier, matériel ou humain substantiel \fg. -On peut imaginer plusieurs cas où les attaques présentées dans mon stage peuvent porter atteinte aux droits du producteur de la base de données. -\begin{itemize} - \item Supposons que le producteur décide d'interdire \og l'extraction ou la réutilisation répétée et systématique de parties qualitativement ou quantitativement non substantielles du contenu de la base lorsque ces opérations excèdent manifestement les conditions d'utilisation normales de la base de données.\fg, +On peut imaginer plusieurs cas où les attaques présentées dans ce manuscrit peuvent porter atteinte aux droits du producteur de la base de données. + +Supposons que le producteur décide d'interdire \og l'extraction ou la réutilisation répétée et systématique de parties qualitativement ou quantitativement non substantielles du contenu de la base lorsque ces opérations excèdent manifestement les conditions d'utilisation normales de la base de données.\fg, comme le prévoit l'article L.342-2 du Code de la Propriété Intelectuelle. -Nous sommes alors en droit de penser qu'une inference attack représente l'extraction d'une partie de la base de données, en l'occurence une colonne de la base de données. +Nous sommes alors en droit de penser qu'une attaque de reconstruction représente l'extraction d'une partie de la base de données, en l'occurence une colonne de la base de données. De plus cette attaque excède les conditions d'utilisation car, dans ce cas, la condition d'utilisation normale est l'entraînement d'un modèle de machine learning. Ici, la personne menant l'attaque porte atteinte aux droits du producteur de la base de données. - \item Ici, c'est le fournisseur de solution de machine learning, exploitant la base de données, qui porte atteinte aux droits du producteur. +Considéreon maintenant que c'est le fournisseur de solution de machine learning, exploitant la base de données, qui porte atteinte aux droits du producteur. On se place dans le cas où le producteur interdit \og la réutilisation, par la mise à la disposition du public de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu'en soit la forme.\fg, conformément à l'article L.342-1 alinéa 2 du Code de la Propriété Intelectuelle. Dans le cas où le fournisseur de modèle de machine learning permet à ses clients (le public) de mener à bien des attributs inference attack, il met à disposition une partie de la base par sa négligence à utiliser une méthode d'apprentissage résistante à ce type d'attaque. -\end{itemize} Notons que l'article L.343-4 du Code de la Propriété Intellectuelle dispose qu'\og est puni de trois ans d'emprisonnement et de 300 000 euros d'amende le fait de porter atteinte aux droits du producteur d'une base de données tels que définis à l'article L. 342-1.\fg \subsection{Secret des affaires} -L'attaque property inference peut révéler des statistiques globales sur une entreprise ayant utilisé une base de données qu'elle tient secrète pour l'entraînement d'un modèle de machine learning ensuite publié. +L'attaque d'inférence de propriété peut révéler des statistiques globales sur une entreprise ayant utilisé une base de données qu'elle tient secrète pour l'entraînement d'un modèle de machine learning ensuite publié. Ces statistiques sont des informations qui : \begin{itemize} \item Ne sont pas connues ou aisément accessibles pour les personnes familières de ce type d'information. @@ -83,11 +113,56 @@ Au titre de l'article L.151-1 du Code de Commerce, ces statistiques sont protég De plus l'article L.151-4 alinéa 2 du Code de Commerce dispose que \og L'obtention d'un secret des affaires est illicite lorsqu'elle est réalisée sans le consentement de son détenteur légitime et qu'elle résulte [...] de tout autre comportement considéré, compte tenu des circonstances, comme déloyal et contraire aux usages en matière commerciale. \fg Ces articles datent de la loi n° 2018-670 du 30 juillet 2018 relative à la protection du secret des affaires. -Il n'y a pas de jurisprudence pour confirmer mais on peut raisonnablement penser qu'une attaque sur un modèle de machine learning peut être considérée comme déloyale et contraire aux usages en matière commerciale. +Il n'y a pas de jurisprudence pour confirmer mais on peut raisonnablement penser qu'une attaque sur un modèle d'IA peut être considérée comme déloyale et contraire aux usages en matière commerciale. Mais d'un autre côté, l'article L.151-3 alinéa 2 du Code de Commerce dispose que \og Constituent des modes d'obtention licite d'un secret des affaires l'observation, l'étude, le démontage ou le test d'un produit ou d'un objet qui a été mis à la disposition du public ou qui est de façon licite en possession de la personne qui obtient l'information, sauf stipulation contractuelle interdisant ou limitant l'obtention du secret. \fg On pourrait donc dire que l'attaque s'apparente à une observation ou une étude d'un produit qui a été mis à la disposition du public. Il faut donc attendre une jurisprudence en la matière pour savoir si cette attaque représente une atteinte au secret des affaires. -Quoi qu'il en soit, il est dans l'intérêt du producteur de la base de données de s'assurer que le fournisseur de solution machine learning sécurise convenablement ses modèles contre ce genre d'attaque. +Quoi qu'il en soit, il est dans l'intérêt du producteur de la base de données de s'assurer que le fournisseur de solution IA sécurise convenablement ses modèles contre ce genre d'attaque. +\subsection{Usage illicite de l'IA} +Comme nous l'avons vu à la Section~\ref{sec:contexte-insti} avec l'exemple de la Chine, l'IA peut-être utilisé pour des raisons qui vont à l'encontre des droits les plus fondamentaux. +Face à cette menace, +l'Union Européene a établie le règlement (UE) 2024/1689 du parlement européen et du conseil +du 13 juin 2024 +établissant des règles harmonisées concernant l’intelligence artificielle~\cite{aiact}. +Etant un réglement il est directement applicable en droit français. +Ce réglement a trois approches visant à limité une utilisation de l'IA qui serait contraire aux droit fondamentaux. + +La première approche consiste à résponsabiliser les fournisseur et les deployeurs de système d'IA quand au potentielles dérive avec l'Article 4. +De plus l'Article 50 dispose de l'obligation des frounisseur etdeployeurs de transparance, c'est à dire informer les utilisateurs qu'ils interagissent avec une IA. +Enfin de part leur nature générale et pouvant amener à la création d'IA mutliples, les fournisseurs de modèle de fondation\footnote{\textit{Fundation model}} comme ChatGPT ou Llama sont soumis à de plus grande obligations et responsabilités. + +La seconde approche très pragmatique consiste à interdire un certaine nombre de pratiques qui sont listé à l'Article 5. +Citons certaines qui sont en rapport avec ce manuscrit. +Le paragraphe 1 alinéa c point (i) dispose que +\textquote{ +Les pratiques en matière d’IA suivantes sont interdites:[...] +la mise sur le marché, la mise en service ou l’utilisation de systèmes d’IA pour l’évaluation ou la classification de +personnes physiques ou de groupes de personnes[...] +conduisant [au] +traitement préjudiciable ou défavorable de certaines personnes physiques ou de groupes de personnes dans des +contextes sociaux dissociés du contexte dans lequel les données ont été générées ou collectées à l’origine +} +Ce qui, en plus de lois française sur les discriminations que nous avons cité plus haut, permet de clairment intérdire l'utilisation d'IA qui vont utiliser des critère de discrimination dans leur décision. +Ce point est particulièrement imporant pour ce manuscrit car nous allons déveloper aux Chapitres~\ref{sec:fini} et~\ref{sec:aia} une méthode d'audit des systèmes d'IA qui permet de savoir si un système utilise un critère de discrimination pour réaliser un prédiction. + +Citons aussi le paragraph 1 alinéa d qui dispose que sont intérdit les sytème d'IA +\textquote{visant à évaluer ou à prédire le risque qu’une personne physique commette une infraction pénale}. +C'est un point de divergence important avec la législation de Etats Unis qui utilise ce genre de système comme nous l'avons vus à la Section~\ref{sec:contexte-insti}. +Dans ce manuscrit nous avons utilisé des bases de donée Etats Unienne pour construir ce genre de système IA pour les étudier. +Bien que nos conclusions sur ces sytèmes ne pourront pas s'appliquer en Union Européenne vu qu'ils sont désormais intérdits, notre analyse théorique reste valable et applicable à d'autres systèmes. +Nous avons d'ailleur évalué nos solutions sur d'autres modèles n'impliquant pas la justice prédictive. + +La troisième approche consiste à classifier un certain nombre de pratique comme des \textquote{système d'IA à haut risques}. +Comme en dispose l'article 6, paragraphe 2 les système à haut risques sont par exemple des système qui concernent : +\begin{itemize} + \item Emploi, gestion de la main-d'œuvre et accès à l'emploi indépendant (Annexe III, paragraphe 4) + \item Accès et droit aux services privés essentiels et aux services publics et prestations sociales essentiels (Annexe III, paragraph 5) +\end{itemize} +Ce sont deux points pour lesquelles nous avons construit des système d'IA à titre illustratif dans ce manuscrit à la Section~\ref{sec:aia}. +Cette classification d'IA à haut risque impose des régles plus restrictive pour le déployement. +Par exemple l'Article 9, paragraph 1 dispose qu'un système de gestion des risques doit être établis. +L'Article 13 quand à lui impose un certain niveau d'exlicabilité du système. +Enfin nous atirons l'atention du.de la lecteur.rice sur l'Articel 15 qui met l'accent sur la sécurité de tel système forcant les fournisseurs de contrôler par exemple que leur système ne contient pas de porte dérobées. diff --git a/contexte/philo/anthro.tex b/contexte/philo/anthro.tex index 1cf6ba4..c6e39fd 100644 --- a/contexte/philo/anthro.tex +++ b/contexte/philo/anthro.tex @@ -1,6 +1,6 @@ -L'anthropomorphisation consiste à attribuer des caractéristiques humaines à ce qui n'est pas humain. +L'antrhopomorphisme consiste à attribuer des caractéristiques humaines à ce qui n'est pas humain. Dans le contexte de l'IA et plus précisement de l'AGI, ce phénomène peut devenir courant. -L'anthropomorphisation des ordinateurs et d'ailleur déjà encré dans notre société depuis plusieur décénies. +L'antrhopomorphisme des ordinateurs et d'ailleur déjà encré dans notre société depuis plusieur décénies. En effet, l'attribution d'un rôle sociale humain à un ordinateur était déjà présent avant l'introduction des logiciels IA~\cite{MARAKAS2000719} : le programme ecrit, copie, attrape un virus, etc. Une interaction avec quelquechose qui montre un semblant de comportement social nous renvoi a notre propre aliénation sociale au sens décrit par Jean Jaques Rousseau dans son \textit{Du contrat social}~\cite{rousseau1762contrat}. Cela nous pousse à considérer ce que l'on anthropomorphisme comme des personnes, des être huamins. @@ -64,7 +64,7 @@ Une nevrose en particulier est interessante dans le contexte d l'AGI, qui n'exis Pourquoi rester à parler avec un humain quand on est infiniement plus rapide et performant que lui ? Ainsi même si Samantha dit aimer Théodore, elle le quite achevant la phase de construction primordiale du moi qui consiste a identifier l'amour du père pour constuire son caractère en métant fin a son Eudipe~\cite{Freud2010-qq}. -Concernant la construction du caractère, le hasard et est élement important de l'anthropomorphisation, que ce soit dans la litérature d'anticipation où dans le téchnologie actuelles de l'IA générative. +Concernant la construction du caractère, le hasard et est élement important de l'antrhopomorphisme, que ce soit dans la litérature d'anticipation où dans le téchnologie actuelles de l'IA générative. Asimov présente dans \textit{The Bicentennial Man} un robot qui, par le hasard inhérent à son fonctionnement, montre des caractéristique humaine comme l'empathie ou la créativitée. Ce hasard dans la création est aussi décrit au septième point de de la proposition de l'école d'été de Dartmouth~\cite{dartmouth}. Cela renforce le lien entre intuition scientifique et imaginaire créatif, artistique. @@ -108,7 +108,7 @@ Cependant le processus de création par le hasard peut-il être vraiement appara \label{fig:contexte-penses} \end{figure} -Enfin, l'anthropomorphisation peut présenter un risque dans la mesure où +Enfin, l'antrhopomorphisme peut présenter un risque dans la mesure où Marakas et al.~\cite{MARAKAS2000719} explique que cette confusion de l'humain et de la machine entraîne une sur évaluation de la capacité des ordinateurs et peut mener à utiliser à outrance la décision automatisé. C'est le cas avec les décisions juridiques~\cite{zhiyuan2020limits} ou scolaire~\cite{waters2014grade} où la vie d'être humain est décidé par des ordinateur. Cela donne lieu à de nombreux problème moraux qui forment les fondements de l'IA éthique nottamant autout de l'équitée, de la confidentialité et de l'explicabilité sur lesquels nos reviendrons à la Section~\ref{sec:contexte-enjeu}. diff --git a/contexte/philo/mu.tex b/contexte/philo/mu.tex deleted file mode 100644 index e69de29..0000000 diff --git a/contexte/strat.tex b/contexte/strat.tex index 830afb7..2f35d83 100644 --- a/contexte/strat.tex +++ b/contexte/strat.tex @@ -5,26 +5,120 @@ \centering \includegraphics[width=\linewidth]{contexte/figure/anr/prc.pdf} \caption{Proportion attribué à des projets IA} + \label{subfig:contexte-anr-prop} \end{subfigure} \begin{subfigure}{0.3\linewidth} \centering \includegraphics[width=\linewidth]{contexte/figure/anr/aide_ai.pdf} \caption{Financement total attibué à des projets IA} + \label{subfig:contexte-anr-fin} \end{subfigure} \begin{subfigure}{0.3\linewidth} \centering \includegraphics[width=\linewidth]{contexte/figure/anr/avg.pdf} \caption{Financement moyen des projets IA} + \label{subfig:contexte-anr-moy} \end{subfigure} \caption{Financement de la recherche en IA par Agence Nationale de la Recherche (ANR).} \label{fig:contexte-anr} \end{figure} -\subsection{Plance France 2023} -Dans le cadre du plan France 2030~\cite{france2030}, la France a dévelopé une stratégie nationale de l'IA~\cite{stratfr}. -Missions Villani. -PEPER IA. -AUtres appels. +Nous observons sur la Figure~\ref{fig:contexte-trend} que le recherche des termes \textquote{intelligence artificielle} en France sur le moteur de recherche Google à subit une grande augmentation depuis 2020. +Ainis, l'IA interesse de plus en plus le grand publique qui voit ces téchnologies investire leur téléphones portable, ordinateur, médias, etc. +Ce phénomène semble suivre en parallèle une très forte augmentation de l'investissement français en matière d'IA. +Pour mieux comprendre ce phénomène nous avons conduit une micro étude des financements accordés par l'Agence Nationate la Recherche (ANR), l'un des principaux bailleur en France. +L'ANR publi les appels a projets financé par la Direction des Opérations Scientifiques (DOS) de l'ANR depuis 2005. +Dans ces données, il y a entra autre, le montant du financement accordé, le titre en anglais et français ainsi que le résumé en anglais et en francais. +Le titre et le résumé constituent un court paragraph de texte donc chaque mots présent est normalement consciencieusement choisit. +Nous avons crée, en utilisant ChatGPT, une liste de mots clés en anglais et en français qui indique qu'un projet a une forte composante IA. +Nous présentons cette liste à l'Annexe~\ref{anx:mots}. +Pour tous les projets financé depuis 2005 nous avons cherché sir le titre ou le résumé contiens un ou plusieur mots de la list e. +Grâce à cela nous construisons la Figure~\ref{fig:contexte-anr} qui montre l'évolution du financement de l'IA au cours du temps. +Nous observons sur la Sous-figure~\ref{subfig:contexte-anr-moy} que en moyenne le financement d'un projet IA n'a pas évolué depuis 2005. +Cependant nous voyons sur la Sous-figure~\ref{subfig:contexte-anr-prop} que le nombre de projets IA a augmenté passant de 2\% du nombre total de projet à 15\%. +Nous observons la même augmentation la proportion d'argent accordé à l'IA. +Ainsi, en sommant par année les financements de tous les projets IA, nous observons sur la Sous-figure~\ref{subfig:contexte-anr-fin} une augmentation de 5 à 125 millions d'Euros. +Cette claire augmentation de l'investissement en IA en France n'est pas du au hasard mais à une stratégie duement établie. + +\subsection{Rapport Villani : Donner un sens à l'intelligence artificielle} +Le 8 septembre 2017 le Premier ministre Edouard Philippe confie au mathématicien et déupté de l'Essone Cedric Villani une mission parlémentaire : +fair un état des lieux des stratégies française et européenne autour de l'IA~\cite{villani2018donner}. +Ce rapport a permis la mise en place d'une stratégie d'investissement publique en France qui a pour but d'orienter la recherche vers la construction d'une IA aligné avec les valeurs de la république. +Cette stratégie se découpe en six parties : + +\paragraph{Une politique économique articulée autour de la donnée.} +La donnée est le pilié de l'IA car elle sert à construire les modèles. +Le rapport préconise de recensser les besoins en IA et de construire des politiques de recolte de donnée au niveau européen dans le cadre de la Réglementation Générale de la Protection des Données. +Cela inclu par exemple de limiter la fuite de données vers les grands acteur hors Union Européenne (UE) comme les GAFAM. +Pour éviter de séparpiller et de gâcher des ressource, le rapport préconsie de se concentrer sur quatre aspect niches où la France à déjà un avantage. +Ces quatres pilier son deveni capitaux de la politique d'investissement, il sagit de : +\begin{enumerate} + \item La santé + \item L'environnement + \item Les transports et la mobilité + \item La défense et la sécurité +\end{enumerate} + +\paragraph{Pour une recherche agile et diffusante.} +C'est tout d'abord éviter la fuite des cervaux en augmentant l'attractivité de établissement publique. +Par exemple en créeant des Instituts Interdisciplinaires d’Intelligence Artificielle (3IA). +Cela passe aussi par en renforcement des lien entres la recherche et l'industrie notament avec les transfert technologique et la valorisation. +Ce gadre dinamique ne peut être possible qu'avec des moyens pratique et pragmatique comme par exempe de dédier des supercalculateur à la recherche. +Nous reviendrons sur ce sujet à la Section~\label{sec:contexte-strat-infra}. + +\paragraph{Anticiper les impacts sur le travail, l’emploi et expérimenter.} +De part son interdisciplinarité, l'IA peut profondement modifier la manière dont nous invisageons le travail, un peu à la manière dont l'informatique ou avant la méchanisation ont profodément transformé notre société. +\label{sec:contexte-strat-infra} +Le rapport préconise une apporche législative visant à redéfinir le cadre du travail en France à l'heure ou beaucoup de tâches peu qualifé peuvent être automatisés. +C'est aussi en formant à tous les niveau à l'IA que ces technologie pourront être utilisé efficacement est sans casse sociale. + +\paragraph{L’intelligence artificielle au service d’une économie plus écologique.} +L'IA necessite une grande consomation d'énergie, il est donc necessaire d'investir massivement dans l'IA frugale et embarqué qui permet une utilisation réduite d'électricité. +De plus l'IA doit être mise au service de la transition écologique pour aider notament à prédire et comprendre le changement climatique. +Pour cela le rapport indque qu'il faut libérer la donée écologique qui contient les données : \textquote{ météorologiques, agricoles, de transports, +d’énergie, de biodiversité, de climat, +de déchets, cadastrales, de diagnostic +de performance énergétique}. + +\paragraph{Quelle éthique de l’IA ?} +Les utilisateur doivent avoir la possibilité de comprendre les décision que prennent les IA. +Pour cela il est necessaire d'investire plus dans le recherche en explicailité comme nous le verrons à la Section~\ref{sec:contexte-expl}. +De plus le rapport propose une consulation et un dialogue autour des questions de savoir pour quel type de tâche peut-on utiliser l'IA ? +Cette question à déjà été un partie explorée au niveau Européen avec +le règlement (UE) 2024/1689 du parlement européen et du conseil +du 13 juin 2024 +établissant des règles harmonisées concernant l’intelligence artificielle~\cite{aiact}. +Ce règlement à mis en place un liste de tâche dite \textquote{Inacceptables} et \textquote{à haut risque}. +Nous y reviendrons à la Seciont~\ref{sec:contexte-legal-util}. + +\paragraph{Pour une IA inclusive et diverse.} +Pour que l'IA profite à toutes et tous il est necessaite déjà de palier l'écart historique de chois d'étude scientifiqeus entre homme et femme. +Il s'agit aussi de favoriser la mixité sociale dans la recherche et l'industrie en IA. +Cela passe par la médiation scientifique et à une reflexion quand à l'utilisation de l'IA dans le secteur sociale (autre que la santé qui est déjà bien loti). + +\subsection{Plance France 2030} +Le plan France 2030 est un plan d'investissement du gouvernement d'Emannuel Macron de 54 milliards d'Euros~\cite{france2030} ayant pour but de ratraper le retard industriel de la France. +L'IA touchant à plusieur aspect industriels à une part important dans ce plan. +Ce plan est divisé en deux phases~\cite{2030phase}. +La première phase de 2018 à 2022 a pour but de \textquote{Doter la France de capacités de recherche compétitives}. +Avec nottamant la mise en place des (3IA) et du supercalculateur Jean Zay~\cite{jeanzay}. + +La seconde phase de 2021 à 2025 à pour but de \textquote{Diffuser des technologies d’intelligence artificielle au sein de l’économie}. +Nous pouvons citer par exemple le programme \textit{IA Booster}~\cite{iabooster} qui propose en accompagnement aux PME\footnote{Petites et Moyennes Entreprises} pour les aider à intégrer l'IA à leur produits et leur solutions. +Concernant l'IA générative il y l'appel \textit{ +Accélérer l’usage de l’intelligence artificielle générative dans l’économie}~\cite{2030generatif}. +Cet appel à pour but de le dévelopement d'outils de A à Z et met l'accent les different enjeux de l'IA avec des exigence environementale et d'équitée par exemple. +De part son aspect interdisiplinaire, l'IA est aussi présent dans d'autres domaine comme dans la santé par exemple avec l'appel \textit{Data Challenges en santé}~\cite{2030sante}. +Les compétitions donnée\footnote{Data challenge} font partis de la culture de la recherche en informatique et notament en apprentissage automatique comme avec la plateform Kaggle~\cite{kaggle}. +Cet appel à projet à pour but d'encourager la création de compétitions sur les donnée médicales. + +Pour généraliser, concernant l'IA, France 2030 a pour but la souveraineté numérique. +C'est-à dire de réduire la dépendance des institutions française aux services étrangers et notament des GAFAM aux Etats Unis. +Il s'agit d'un aspect fondamentale de la LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique~\cite{loinumerique}. + +Pour coordoner ces investissements en matière d'IA, le directeur général des entreprises du ministère de l’économie et des finances, et en lien avec le secrétariat général pour l’investissement on nomé un coordinateur national pour l’intelligence artificielle. +\textquote{Il aura pour mission la coordination interministérielle de la stratégie nationale en intelligence artificielle}~\cite{coordinateur}. +Ce coordinateur est un exemple d'une réalisation pratique d'une recommendation du rapport Villanni\footnote{Cf. page 63 du rapport Villani}. \begin{figure} \centering @@ -33,6 +127,22 @@ AUtres appels. Les données ont été exportées grâce à Google Trend~\cite{gtrend}.} \label{fig:contexte-trend} \end{figure} +%\subsection{Attentes de l'IA} +%OMS rapport santé~\cite{oms}. + +\subsection{Infrastructures} +\label{sec:contexte-strat-infra} +Le dévelopement de l'IA demande des puissacne de calcul considérable pour faire fonctione les algorithem d'apprantissage automatique. +Par exemple le modèle Llama2 à necessité 3.311.616 GPUheure d'entraînement~\cite{touvron2023llama} ce qui signife qu'il faudrait 378 and à un individu ayant une seul carte graphique\footnote{Graphical Processing Unit} (GPU). +Pour que la France puisse réaliser ses objectif ambitieux en maitère d'IA il est donc necessaire de construire des supercalculateurs permettant de mutualiser entre les différents acteurs. +Nous avons donné l'exemple du supercalculateru Jean Zay~\cite{jeanzay} qui à été construit en parti dans cette optique. +\begin{figure} + \centering + \includegraphics[width=0.4\linewidth]{contexte/figure/g5k-backbone.pdf} + \caption{Grid5000 : une infrastructure de calcul scientifique distribuée. Source : \url{www.grid5000.fr/w/File:G5k-backbone.png}} + \label{fig:contexte-g5k} +\end{figure} -\subsection{Attentes de l'IA} -OMS rapport santé~\cite{oms}. +Dans ce manuscrit les calculs ont été réalisé sur une autre infrastructure : Grid5000 (G5K)~\cite{g5k}. +Il s'agit d'une grille de calcul mettant à disposition des centres de recherche français différent type de machine : des GPU, des CPU, des ordinateurs complets\footnote{Bare metal} ce qui permet un très large éventaille d'experiences. +Comme nous pouvons le voir sur la Figure~\ref{fig:contexte-g5k} l'aspect distribué de G5K permet de réaliser des experiences implique des système distribué comme par exemple l'apprentissage fédéré\footnote{Federated learning}. diff --git a/introduction.tex b/introduction.tex new file mode 100644 index 0000000..53b9b20 --- /dev/null +++ b/introduction.tex @@ -0,0 +1,26 @@ +L'intelligence artificielle (IA) est de plus en plus présente dans de nombreux domaines comme la santé~\cite{dildar2021skin,gulshan2016development,quinn2022three}, les médias~\cite{gptjournal} ou les ressources humaines~\cite{ore2022opportunities}. +Ces technologies induisent des risques pour la confidentialité de donnée personnelles des utilisateurs~\cite{MehnazAttInf,yeom,shokri2017membership,Song2020Overlearning} et peuvent introduire des biais discriminatoires rendant les décisions automatiques non équitables~\cite{fairmetric,fairmetric2,debiase,reductions}. +Mes travaux s'inscrivent dans une lignée florissante de recherches visant à mieux comprendre ces enjeux capitaux et à trouver des solutions pour rentre l'intelligence artificielle morale. + +Ma principale contribution a été publié à la conférence Wise 2024 et vise à comprendre le lien entre l'équité et la confidentialité. +Notre approche théorique nous a amené à démontrer que, sous un certain aspect, la confidentialité et l'équité pouvais travailler de concert pour créer des IA plus fiables. +Nous avons validé ces résultats expérimentalement en étudiant des bases de donnés et des algorithmes standards. + +Outre cette contribution j'ai pu prendre part à deux autres travaux qui on été publié mais qui ne figurent pas dans ce manuscrit car ils s'éloignent légèrement du sujet de cette thèse. +Déjà j'ai pu participer à l'élaboration de MixNN~\cite{Lebrun_2022} : un protocole d'apprentissage fédéré respectueux de la confidentialité des données des participant à l'apprentissage. +MixNN à été publié à la conférence Middleware 2022. +Ensuite j'ai contribué à une étude théorique du protocole LoraWAN : un protocole de communication de l'internet des objets\footnote{\textit{Internet Of Things}} (IOT). +Samuel Pélissier a mis au point une modification de ce protocole visant à protéger la confidentialité des utilisateurs. +J'ai vérifié que cette modification n'entraîne pas de collision de paquet et j'ai précisé les garanties théoriques de confidentialité atteintes. +Nous avons publié cet article~\cite{pelissier2024privacy} à la conférence WiSec 2024. + +Nous allons donc dans ce manuscrit étudier le lien entre équité et confidentialité dans l'IA. +Pour ce faire nous commenceront par présenter un contexte générale dans le Chapitre~\ref{sec:contexte} qui permettra de mieux comprendre ce qu'est l'IA, quels sont les attentes, les enjeux et les régulations. +Nous verrons ainsi que l'équité et la confidentialité sont des points capitaux qu'il faut prendre en compte pour un développement morale de l'IA aligné avec nos valeurs républicaines. +Ensuite, je vous présenterai dans le Chapitre~\ref{sec:pre} les notions clefs dont nous allons avoir besoin pour comprendre mes développements nouveaux. +Il s'agit de fixer les objets mathématiques que nous utiliserons mais aussi de présenter un rapide état de l'art de l'équité et de la confidentialité en IA sur lequel repose les bases de mes contributions. +A partir du Chapitre~\ref{sec:fini} nous ne traiterons plus que de mes travaux originaux, sauf exception avec les parties \textquote{Travaux voisins} ou si je vous le mentionne explicitement. +Le Chapitre~\ref{sec:fini} présente un nouvel algorithme d'apprentissage automatique optimisé pour des bases de données déséquilibré vis à vis d'un attribut. +Grâce à cet algorithme nous construisons une attaque d'inférence d'attribut sensible que nous utilisons au Chapitre~\ref{sec:aia} pour l'étude du lien entre équité et confidentialité. +Au Chapitre~\ref{sec:synth} nous explorerons l'impacte de l'utilisation de données synthétiques sur ces notions. +Le Chapitre~\ref{sec:per} reprend les trois chapitres précédents et propose de nouvelles pistes de recherches. diff --git a/main.tex b/main.tex index 8270611..f42a4d8 100644 --- a/main.tex +++ b/main.tex @@ -2,8 +2,8 @@ \usepackage[french]{babel} \usepackage{placeins} -\usepackage[draft]{graphicx} -%\usepackage{graphicx} +%\usepackage[draft]{graphicx} +\usepackage{graphicx} \usepackage{upgreek} \usepackage{amsmath} \usepackage{amsthm} @@ -100,6 +100,9 @@ breaklines=true \label{sec:synth} \input{synthetic/main} +\chapter{Conclusion} +\input{conclusion} + \bibliographystyle{plain} \bibliography{biblio} diff --git a/notations.tex b/notations.tex index 90b70aa..74e421d 100644 --- a/notations.tex +++ b/notations.tex @@ -1,13 +1,62 @@ Toutes les notations utilisés sont définies le première fois quelle sont introduites. -Pour faciliter la lecture nous fournissons ici un liste des notations avec la referecence de leur définitions. - +Pour faciliter la lecture nous fournissons ici une liste des notations avec la référence de leur définitions. \begin{table} \centering \begin{tabular}{|c|c|c|} \hline \textbf{Symbole}&\textbf{Description}&\textbf{Définition}\\ \hline - $f^{1}$&Fonction inverse ou image reciproque&\\ + $\implies \iff \wedge \vee \neq \forall \exists$&Logique du premier ordre&Section~\ref{sec:background-math}\\ + \hline + $\{\}$&Ensemble&Section~\ref{sec:background-math-zf}\\ + \hline + $\emptyset$&Ensemble vide&Section~\ref{sec:background-math-zf}\\ + \hline + $\cup$&Union&Section~\ref{sec:background-math-zf}\\ + \hline + $\mathcal{P}(\square)$&Ensemble des parties&Section~\ref{sec:background-math-zf}\\ + \hline + $\cap~\backslash$&Intersection et différence&Définition~\ref{def:background-math-int}\\ + \hline + $/$&Ensemble des classes d'équivalences&Définition~\ref{def:background-set-usu}\\ + \hline + $\times$&Produit cartésien&Définition~\ref{def:background-fct}\\ + \hline + $\circ$&Composition&Définition~\ref{def:background-fct}\\ + \hline + $f^{-1}$&Fonction inverse ou image réciproque&\\ + \hline + $n!$&$n$ factoriel&Section~\ref{sec:background-set-ari}\\ + \hline + $[\square,\square]~[|\square,\square|]$&Intervalle&Section~\ref{sec:background-math-int}\\ + \hline + $\#$&Cardinal&Section~\ref{sec:background-math-card}\\ + \hline + $EXP(\square)$&Fonction qui à $x$ associe $EXP(x)$&Définition~\ref{def:background-fct}\\ + \hline + $\text{Tr}(M)$&Trace d'une matrice $M$&Définition~\ref{def:background-alg-tr}\\ + \hline + $\mathcal{L}(E,F)$&Ensemble de applications linéaire de $E$ dans $F$&Section~\ref{sec:background-alg-L}\\ + \hline + $\otimes$&Produit de mesure&Section~\ref{sec:background-proba}\\ + \hline + $\delta_i$&Mesure de Dirac en $i$&Section~\ref{sec:background-proba}\\ + \hline + $P_Y$&Mesure image de $Y$ par $P$&Section~\ref{sec:background-proba}\\ + \hline +  $\langle x,y\rangle$&Produit scalaire euclidien&Définition~\ref{def:background-dif-scal}\\ + \hline +  $||x||$&Norme euclidienne&Définition~\ref{def:background-dif-eucl}\\ + \hline + $lim_{a\rightarrow x}f(a)$&Limite de $f$ en $x$&Définition~\ref{def:background-dif-lim}\\ + \hline + $df(x)$&Différentielle de $f$ en $x$&Définition~\ref{def:background-dif-dif}\\ + \hline + $\mathbb{N}~\mathbb{Q}~\mathbb{R}$&Ensembles usuels&Définition~\ref{def:background-set-usu}\\ + \hline + $S_n$&Groupe de permutations sur $n\in\mathbb{N}$&Section~\ref{sec:aia-theo-aia-eq}\\ + \hline + $BA^d_F(f)$&Exactitude équilibrée empirique&Définition~\ref{def:BA}\\ \hline \end{tabular} \caption{Liste de notations} diff --git a/notes.tex b/notes.tex index 3d7d3c5..7fabcb8 100644 --- a/notes.tex +++ b/notes.tex @@ -1,6 +1,18 @@ -Nous avons souaité rédiger ce manuscrit en français pour plusieurs raison qu'il nous semble important de mettre en avant. +J'ai souhaité rédigé ce manuscrit en français pour plusieurs raisons qu'il me semble important de mettre en avant. + Le sujet premier de ce manuscrit, l'intelligence artificielle est un sujet majeur de souveraineté nationale~\cite{villani2018donner}. -Cette souevraineté est intimement lié à la francophonie car comme l'explique Rachida Dati, ministre de la culture, +Cette souveraineté est intimement lié à la francophonie car comme l'explique Rachida Dati, ministre de la culture, \textquote{la langue doit vivre au même rythme pour restituer la création, l'invention, l'innovation, pour nous permettre de penser et d'exprimer toutes les réalités du monde contemporain. Et pour rester une grande langue internationale, il faut pouvoir tout dire, tout nommer, tout traduire}~\cite{dati2024declaration}. -Ainsi nous nous somme efforcé de traduire les termes techniques de l'apprentissage automatique qui viennet tous de l'anglais. -Pour éviter que notre traduction soit trop confuse pour les lecteurs habitué aux terme anglais, pour chaque terme traduit nous indiquons son originie anglaise en note de bas de page à se premiètre occurence. +Ainsi je me suis efforcé de traduire les termes techniques de l'apprentissage automatique qui viennent tous de l'anglais. +Pour éviter que notre traduction soit trop confuse pour les lecteur.ice.s habitué.e aux termes anglais, pour chaque terme traduit nous indiquons son origine anglaise en note de bas de page à se première occurrence. + +De plus ce manuscrit traite d'équité et de discrimination, ces sujets ont une place particulière dans l'histoire de France ce qui a forgé le rapport des français face à ces questions. +La vision traité sur ces questions dans la littérature scientifique des conférences et journaux internationaux et celle du monde anglo-saxon notamment États Uniens. +Ainsi en rédigeant ce manuscrit en français nous mettons en avant que c'est la vision française, de la loi français et des institution françaises que nous étudions +Bien que pour des raisons pratiques nous ayons du utiliser certain jeu de données standard États Uniens, ils ne sont là qu'a titre d'exemple et d'illustration pour nos résultats théoriques. +Ces résultat sont suffisamment généraux pour s'appliquer à tout type de jeu de donnée qui respecte les hypothèses de chaque théorèmes. + +Enfin, la langue de ce manuscrit ne vas pas à l'encontre de la science ouverte et contrôlé par les pairs~\footnote{\textit{Peer reviewed}} car les résultats ont été publiés en anglais à la conférence internationale Wise 2024~\cite{wise2024}. +La communauté scientifique peut donc les réutiliser et le juger sans avoir à parler français. + + diff --git a/perspectives.tex b/perspectives.tex new file mode 100644 index 0000000..ae84997 --- /dev/null +++ b/perspectives.tex @@ -0,0 +1 @@ +qsdf diff --git a/remerciements.tex b/remerciements.tex index 0e869c4..458c5f9 100644 --- a/remerciements.tex +++ b/remerciements.tex @@ -1,4 +1,4 @@ -Merci à mon épouse, Emeline, pour son soutien, ses conseils, ses rélectures de mon orthopgraphe et pour m'avoir aidé avec le Théorème~\ref{th:fini-em}. +Merci à mon épouse, Emeline, pour son soutien, ses conseils, ses rélectures de mon orthopgraphe et pour m'avoir aidé avec les Théorèmes~\ref{th:fini-em} et~\ref{th:aia-bluey}. Merci à Antoine Boutet et Mathieu Cunche pour leur encadrement. @@ -21,7 +21,11 @@ Abhi, Adrien, Amine, Anthonin, -Bastien, +Arthur, +Clément, +Bastien D., +Bastien M., +Bastien R., Benoit, Benoît, Celestin, @@ -30,6 +34,7 @@ Nathan, Rémi, Samuel, Thomas, +Valentin, Virgile. Merci à Maryse, Jean-Claude et Patricia pour leur bienveillance. diff --git a/template_these_INSA_cotut.pdf b/template_these_INSA_cotut.pdf index 5273483..44864d3 100644 Binary files a/template_these_INSA_cotut.pdf and b/template_these_INSA_cotut.pdf differ diff --git a/template_these_INSA_cotut.tex b/template_these_INSA_cotut.tex index 2293564..44cfc0c 100644 --- a/template_these_INSA_cotut.tex +++ b/template_these_INSA_cotut.tex @@ -1,7 +1,7 @@ \documentclass[a4paper,titlepage,12pt,french,twoside,openright]{report} -%\usepackage{graphicx} -\usepackage[draft]{graphicx} +\usepackage{graphicx} +%\usepackage[draft]{graphicx} \usepackage{xcolor} \usepackage[paper=a4paper,margin=2.5cm]{geometry}% http://ctan.org/pkg/geometry \usepackage[pdftex,colorlinks=false]{hyperref} @@ -28,6 +28,7 @@ \usepackage{multirow} \usepackage{placeins} \usepackage{mathabx} +\usepackage{makecell} \lstset{ basicstyle=\small\ttfamily, columns=flexible, @@ -57,8 +58,8 @@ breaklines=true \begin{document} \hypersetup{ -pdftitle={Titre de la thèse}, %informations dans le titre -pdfauthor={Auteur}, %dans les informations du document +pdftitle={Intelligence artificielle pour des services moraux}, %informations dans le titre +pdfauthor={Jan Aalmoes}, %dans les informations du document pdfsubject={Th\`ese} %sous Acrobat. } @@ -80,11 +81,14 @@ pdfsubject={Th\`ese} %sous Acrobat. \input{remerciements} \chapter*{Avertissement} \input{avertissement} -\chapter*{Notes} +\chapter*{Note sur la langue} \input{notes} \chapter*{Notations} \input{notations} \chapter{Introduction} +\input{introduction} +\chapter{Contexte} +\label{sec:contexte} \section{Qu'est-ce que l'Intelligence Artificielle ?} \label{sec:contexte-ckoi} \input{contexte/ckoi} @@ -100,7 +104,8 @@ pdfsubject={Th\`ese} %sous Acrobat. \input{contexte/legal} \label{sec:contexte-legal} -\chapter{Background} +\chapter{Prérequis} +\label{sec:pre} \input{background/main} \chapter{Classification finie} @@ -111,16 +116,16 @@ pdfsubject={Th\`ese} %sous Acrobat. \label{sec:aia}. \input{aia/main} - \section{Regression} - \subsection{Equitée et regression} - \subsubsection{Une bien-heureuse conséquence de l'\textit{adversarial debiasing}} - - \chapter{Données synthétiques} \label{sec:synth} \input{synthetic/main} +\chapter{Perspectives} +\label{sec:per} +\input{perspectives} + \chapter{Conclusion} +\label{sec:conclusion} \input{conclusion} \bibliographystyle{plain} @@ -128,13 +133,17 @@ pdfsubject={Th\`ese} %sous Acrobat. \appendix \chapter{Mot clé pour la recherche projets IA} +\label{anx:mots} \input{annexe/ai_words} -\newpage -\chapter*{Liste des figures} +\chapter{Liste de 25 critères de discrimination} +\label{anx:discri} +\input{annexe/crit_discri} -\newpage -\chapter*{Liste des tableaux} +%\chapter*{Liste des figures} +\listoffigures +%\chapter*{Liste des tableaux} +\listoftables \newpage \sffamily diff --git a/theorem.tex b/theorem.tex index 1021fc1..ebab7f8 100644 --- a/theorem.tex +++ b/theorem.tex @@ -1,5 +1,6 @@ \newtheorem{definition}{Définition}[chapter] +\newtheorem{conjecture}{Conjecture}[chapter] \newtheorem{theorem}{Théoreme}[chapter] \newtheorem{propriete}{Propriété}[chapter] \newtheorem{lemma}[theorem]{Lemme} -- cgit v1.2.3