summaryrefslogtreecommitdiff
path: root/contexte/enjeux.tex
diff options
context:
space:
mode:
Diffstat (limited to 'contexte/enjeux.tex')
-rw-r--r--contexte/enjeux.tex67
1 files changed, 47 insertions, 20 deletions
diff --git a/contexte/enjeux.tex b/contexte/enjeux.tex
index c69573f..02c6471 100644
--- a/contexte/enjeux.tex
+++ b/contexte/enjeux.tex
@@ -1,7 +1,7 @@
Les modèles de decisions ont pour but réaliser un choix de manière automatiques sans ou en reduisant l'intervention humaine.
-L'optique est de pouvoir traiter un grand nombre de décision rapidement tout en retirant certain biais que pourais avoir un décideur humain~\cite{}.
-Par exemple un modèle peut décider quelle publicité vas voir un utiliateur d'un page web~\cite{} ou quelle ecriture comptable présente une anomalie dans une logique d'audit~\cite{}.
+L'optique est de pouvoir traiter un grand nombre de décision rapidement tout en retirant certain biais que pourais avoir un décideur humain~\cite{al2021role}.
+Par exemple un modèle peut décider quelle publicité vas voir un utiliateur d'un page web~\cite{choi2020identifying} ou quelle ecriture comptable présente une anomalie dans une logique d'audit~\cite{ucoglu2020current}.
Applliqué à certains milieux, cette methode de décision soulève de nombreuses critiques et inquiétudes qui ont investi le débat publique.
Ces critiques et inquétudes sont théorisés dans la littérature scientifique au travers des six défis de l'IA:
\begin{enumerate}
@@ -21,12 +21,12 @@ Il revient donc aux personnes qui crée ces modèles de déterminer, en fonction
\subsection{Equitée}
\label{sec:contexte-eq}
-L'élborations de modèles est soumis à différent bias qui influencent son fonctionement~\cite{}.
+L'élborations de modèles est soumis à différent bias qui influencent son fonctionement~\cite{surveyfair}.
C'est à dire que le modèle se compre différamant pour différents sous-ensembles de la population.
Cela peut donner lieu à des discriminations notament dans le modèle de décision qui influence directment la vie de persones.
La justice prédictive tel qu'utilisé aux Etats Unis en est un bon exemple.
Dans ce cas, un modèle est utilisé pour prédire si un individu jugé coupable à un forte probabilité d'être récidiviste au non.
-En utilisant de tel modèle nous mesurons que les afro-américains (\textit{blacks}) son plus souvent predit comme ayant un forte chance d'être récidiviste que le reste de la population (\textit{whites})~\cite{}.
+En utilisant de tel modèle nous mesurons que les afro-américains (\textit{blacks}) son plus souvent predit comme ayant un forte chance d'être récidiviste que le reste de la population (\textit{whites})~\cite{dressel2018accuracy}.
En plus d'être un enjeu, Al-Alawi et al.~\cite{al2021role} avance que l'utilisation de l'IA peut être une solution plus equitable que la décision humaine dans le processus de recrutement.
L'équitée dans le modèle peut-être imposé lors de l'entraînement.
@@ -34,17 +34,28 @@ Nous étudierons en détail ce processu dans la Section~\ref{sec:background-eq}.
\subsection{Explicabilitée}
\label{sec:contexte-expl}
-Transparance dans la médecine, Boite noire, ~\cite{quinn2022three}.
+Le concepte de boîte noire\footnote{\textit{Black box}} est une manière imagée de dire qu'on ne comprend pas ou qu'on ne peut pas avoir accès au fonctionement d'un programme.
+On l'utilise alors comme un outil qui prend un entrée et donnée une sortie, un peu à la manière de la définition d'IA que nous avons illustre dans la Figure~\ref{fig:contexte-IAUE}.
+Cette approche de l'IA est problématique pour plusieurs raisons qu'illuste Quinn et al.~\cite{quinn2022three} dans le domaine médicale :
+\begin{itemize}
+ \item Les boîte noires manque de garanties quand à la qualitée de la prédiction et rendent complexe l'étude es biais.
+ \item Les boîtes noîres ne permettent pas l'interpretation des résultats.
+ \item Les boîtes noires ne peuvent pas prendre en compte toutes les subtilités des cas particuliers (de patients).
+\end{itemize}
+
+Les réseaux de neuronnes ont une part prépondérante de l'IA.
+Or de pars leur fonctionement interne complexe que nous explorerons à la Section~\ref{sec:background-ml} et le fait que leur compréhension théorique soit encore lacunaire, ils sont souvent utilisé en boîte noire~\cite{yuan2022explainability}.
+Pour palier cela il existe certaine methodes qui essaie de produire des explication automatisé compréhenseibles des réseaux de neurones~\cite{yuan2022explainability,du2019techniques,rai2020explainable}.
\subsection{Confidentialitée}
-D'une manière génèrale, l'inteligence artificielle brasse une quantité astronomique de données~\cite{}.
+D'une manière génèrale, l'inteligence artificielle brasse une quantité astronomique de données~\cite{villani2018donner}.
Ce brassage s'opère à deux niveaux : au moment de la creation du modèle et au moment de son utilisation en production.
Pour créer des modèles performants, il est necessaire d'utiliser beaucoup de données.
Ces données servent à choisirs les bon parametres du modèle au travers de divers methods statistiques et d'optimisations, on les appeles données d'entrainement.
-Les modèles les plus récent et performant necessite un grand nombre de paramètres, citons par exemple le LLM LLaMA qui posède 65 milliard de pramètres ~\cite{}!
-Ce grand nombre de paramètre a l'effet indesirable de mémoriserdes informations potentielement sensible sur les données d'entrainement~\cite{}.
+Les modèles les plus récent et performant necessite un grand nombre de paramètres, citons par exemple le LLM LLaMA qui posède 65 milliard de pramètres ~\cite{touvron2023llama}!
+Ce grand nombre de paramètre a l'effet indesirable de mémoriserdes informations potentielement sensible sur les données d'entrainement~\cite{shokri2017membership}.
L'information contenue dans les données d'entrainement est comme résumé, compressée dans la masses, a prior incompréhensible pour un humain, des paramètres du modèle.
-Ainsi un individue malveillant, que l'on appelera attaqueur, pourra retrouver des informations sur les données d'entrainement juste en utilisant les paramètres du modèle~\cite{}.
+Ainsi un individue malveillant, que l'on appelera attaqueur ou adversaire, pourra retrouver des informations sur les données d'entrainement juste en utilisant les paramètres du modèle~\cite{shokri2017membership,yeom2018privacy,carlini2022membership}.
\begin{figure}
\centering
\input{contexte/figure/tikz/train}
@@ -55,26 +66,42 @@ Ainsi un individue malveillant, que l'on appelera attaqueur, pourra retrouver de
Un autre risque de fuite de donnée se trouve au moment du l'utilisation du modèle, après son entraînement, lors de son utilisation.
A ce moment, les utilisateurs envoient en entrée du modèle des données qu'ils peuvent vouloir gardé confidentielles.
-Cependant la sortie du modèle, qui a vocation à être partagée, peut reveler une parite des informations sensibles contenues dans les donnée d'entrée de l'utilisateurs.
-Mettre en avant risque est le travail originial que nous avons réalisé : nous le présentons dans la Section~\ref{sec:aia}.
+Cependant la sortie du modèle, qui a vocation à être partagée, peut reveler une parite des informations sensibles contenues dans les donnée d'entrée de l'utilisateurs~\cite{yeom2018privacy,zhao2021infeasibility,jayaraman2022attribute,attriguard,Song2020Overlearning,malekzadeh2021honestbutcurious}.
+Il s'agit du principle risque de confidentialité que nous allons explorer dans ce manuscrit.
+Nous y reviendrons donc dans la Section~\ref{sec:background-conf} pour une présentation de l'état de l'art et au Chapitre~\ref{sec:aia} pour notre contribution.
+
+Faisons un rapide point sur la términologie de ses attaques.
+Quand l'adversaire infère si un donnée à servi à l'entraînement du modèle, c'est une \emph{attaque d'apartenance}\footnote{\textit{Membership inference attack}}.
+Quand l'adversaire cherche à retrouver des informations sur les données d'entraîenemnt c'est une \emph{attaque de reconstruction}.
+Quand l'adversaire cherche à retrouver un statistique globale du de la base de donnée d'entraînement, par exemple la proportion d'homme et de femme, c'est une \emph{attaque d'inférence de propriété}\footnote{\textit{Property inference attack}}.
+Qaudn l'adversaire cherche à infere un attribut sensible c'est une \emph{attaque d'inférence d'attribut sensible (AIA)}\footnote{\textit{Attribut inference attack}}.
\subsection{Sécuritée}
\label{sec:contexte-secu}
-Backdoor~\cite{gao2020backdoor, doan2021lira}
+Le processus d'entraînement des réseau de neuronnes est souvent secret et les utilisateur ont accès uniquement à un modèle entraîné.
+Dans ce contexte un adversaire qui a accès à l'entraînement de modèle, dans un cadre d'apprentissage décentralisé par exemple, peut injecter des portes dérobé qui lui permet de modifer les futures prédictions à sa convenance.
+Considérons le scenarios factice suivant : une entreprise construit un modèle comercial ayant pour but la prédiction du recidivisme.
+Cette entreprise vend ce modèle à la l'état de Floride des Etats Unis.
+Si un adversaire a introduit une porte dérobée il pourra choisir quelle sera la prédiction du modèle décidant ainsi unilatéralement si la juge va penser que le coupable a une forte chance d'être recidiviste ou non.
+
+Le principe de ce genre d'attaque est assez simple : l'adversaire cache dans les donnée d'entrée un déclencheur\footnote{trigger} que le modèle apprend à reconaitre~\cite{gao2020backdoor, doan2021lira}.
+Ainsi quand le modèle est utilisé en production l'adversaire peut utilisé le déclancheur sans avoir accès à l'ordinateur de juge ou au serveur qui fait tourner le modèle, il suffit de modifier la donnée d'entrée.
\subsection{Comsomation d'énergie}
+Nous vivons une crise climatique majeure du a l'activité humain qui présage de grave changements pour l'ensemble du vivant ainsi que dans nos mode de vie~\cite{pielke2005hurricanes,khasnis2005global,houghton2005global,melillo2014climate,mcnutt2013climate}
+Ainsi, bien que l'IA soit prometeuse pour nous aider à anticiper ces changements~\cite{villani2018donner} il ne faut pas que son développement et l'entraînement de modèles accelère le changment climatique et le rechauffement climatique.
+Concrètement, le LLM Llama2 à émis 539 tonnes de $\text{CO}_2$ en prenant en compte les diverse plan de compenssation carbonne de Meta~\cite{touvron2023llama}.
+L'empreinte carbone d'un français étant estime à 9,2 tonnes de $\text{CO}_2$ par an~\cite{carbonfr} c'est donc à peut près l'équivalant de 59 personne pendant un an qui à été généré par Llama2.
+C'est donc dans l'optique d'entraîner des modèle bien proportioné (ayant peu de paramètres) et pouvant fonctionner sur des ordinateurs portables ou des téléphones portables\footnote{\textit{Smartphone}} que sont né les idée d'IA frugale et embarqué~\cite{schwartz2020green,verdecchia2023systematic,shadrin2019designing}.
+Comme nous l'avons vus plus haut, il s'agait aussi d'un positionement stratégique de la France~\cite{stratfr}.
+
On comprend bien le caractère primoridal et particulier de l'utilitée.
A quoi bon avoir un modèle equitable ou qui ne consome presque pas d'énergie si ses prédictions sont toujours fausses ?
Ainsi, qaund nous évaluons un modèle au travers des autres défis, nous metons toujours se résultat en parallèle avec l'utilitée.
-De manière plus générale, les six défis sont lié entre eux et l'étude de ces liens et un sujet de recherche florissant~\cite{}.
-
-Par exemple Parcoursup est un programme dévelopé par le gouvernment français qui à pour but d'automatiser l'attribution des places dans l'enseignement supérieur au nouveaux bacheliers~\cite{}.
-Depuis son entré en vigeur en 2018..
-
-Justice predictive COMPAS
-
-Assurances
+De manière plus générale, les six défis sont lié entre eux et l'étude de ces liens et un sujet de recherche florissant~\cite{dai2022comprehensive,franco2021toward,grant2020show}.
+C'est dans ce cadre que ce situe le travail réalisé dans ce manuscrit : nous explorerons à partir du Chapitre~\ref{sec:fini} les lien entre la confidentialité et l'équitée.
+Plus précisement les AIA et les différentes définitions téchnique qui sont proposés pour l'équitée.