diff options
author | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-09-22 14:03:44 +0200 |
---|---|---|
committer | Jan Aalmoes <jan.aalmoes@inria.fr> | 2024-09-22 14:03:44 +0200 |
commit | 10b8adadb828ddcf437364794daa6e538c95c03f (patch) | |
tree | 7abbe75245a474bb781450220c7f07a9fd0d150b | |
parent | 3bfda734db9fdc82b96228de4df41a4a8b6d1815 (diff) |
jan orthographe fin intro
-rw-r--r-- | contexte/enjeux.tex | 146 | ||||
-rw-r--r-- | contexte/legal.tex | 86 | ||||
-rw-r--r-- | contexte/strat.tex | 106 |
3 files changed, 172 insertions, 166 deletions
diff --git a/contexte/enjeux.tex b/contexte/enjeux.tex index 02c6471..2a703d6 100644 --- a/contexte/enjeux.tex +++ b/contexte/enjeux.tex @@ -1,107 +1,111 @@ -Les modèles de decisions ont pour but réaliser un choix de manière automatiques sans ou en reduisant l'intervention humaine. -L'optique est de pouvoir traiter un grand nombre de décision rapidement tout en retirant certain biais que pourais avoir un décideur humain~\cite{al2021role}. -Par exemple un modèle peut décider quelle publicité vas voir un utiliateur d'un page web~\cite{choi2020identifying} ou quelle ecriture comptable présente une anomalie dans une logique d'audit~\cite{ucoglu2020current}. -Applliqué à certains milieux, cette methode de décision soulève de nombreuses critiques et inquiétudes qui ont investi le débat publique. -Ces critiques et inquétudes sont théorisés dans la littérature scientifique au travers des six défis de l'IA: +Les modèles de décisions ont pour but de réaliser un choix de manière automatique sans, ou en réduisant, l'intervention humaine. +L'optique est de pouvoir traiter un grand nombre de décision rapidement tout en retirant certain biais que pourrais avoir un décideur humain~\cite{al2021role}. +Par exemple un modèle peut décider quelle publicité vas voir un utilisateur d'un page web~\cite{choi2020identifying} ou quelle écriture comptable présente une anomalie dans une logique d'audit~\cite{ucoglu2020current}. +Appliqué à certains milieux, cette méthode de décision soulève de nombreuses critiques et inquiétudes qui ont investi le débat publique. +Ces critiques et inquiétudes sont théorisés dans la littérature scientifique au travers des six défis de l'IA: \begin{enumerate} - \item Utilitée - \item Equitée - \item Expliquatbilité/Transparance - \item Confientialitée - \item Sécuritée - \item Comsomation d'énergie + \item Utilité + \item Équité + \item Explicabilité/Transparence + \item Confidentialité + \item Sécurité + \item Consommation d'énergie \end{enumerate} -\subsection{Utilitée} -L'utilitée est le défis primordial pour tout modèle : le s'agit que le modèle remplisse suffisamant bien la tâche pour laquelle il a été conçut. -Par exemple, un modèle qui sert à predire si un grain de beauté est un cancer de la peau ou non ne doit pas générer de faux negatifs, sinon comment avoir confaince en sa décision ? -L'expressiosn de \textquote{remplire suffisamant bien la tâche} à toute son importance dans la mesure où seul les modèles ayant une tâche triviale ne se trompent pas. +\subsection{Utilité} +L'utilité est le défis primordial pour tout modèle : le s'agit que le modèle remplisse suffisamment bien la tâche pour laquelle il a été conçut. +Par exemple, un modèle qui sert à prédire si un grain de beauté est un cancer de la peau ou non ne doit pas générer de faux négatifs, sinon comment avoir confiance en sa décision ? +L'expression de \textquote{remplir suffisamment bien la tâche} a toute son importance dans la mesure où seul les modèles ayant une tâche triviale ne se trompent pas. Il revient donc aux personnes qui crée ces modèles de déterminer, en fonction du contexte d'application, l'erreur maximal que peut atteindre le modèle pour qu'il soit considéré comme viable et utilisable en production. -\subsection{Equitée} +\FloatBarrier +\subsection{Équité} \label{sec:contexte-eq} -L'élborations de modèles est soumis à différent bias qui influencent son fonctionement~\cite{surveyfair}. -C'est à dire que le modèle se compre différamant pour différents sous-ensembles de la population. -Cela peut donner lieu à des discriminations notament dans le modèle de décision qui influence directment la vie de persones. +L'élaboration de modèles est soumis à différent biais qui influencent son fonctionnement~\cite{surveyfair}. +C'est-à -dire que le modèle se comporte différemment pour différents sous-ensembles de la population. +Cela peut donner lieu à des discriminations notamment dans les modèles de décision qui influencent directement la vie de personnes. La justice prédictive tel qu'utilisé aux Etats Unis en est un bon exemple. -Dans ce cas, un modèle est utilisé pour prédire si un individu jugé coupable à un forte probabilité d'être récidiviste au non. -En utilisant de tel modèle nous mesurons que les afro-américains (\textit{blacks}) son plus souvent predit comme ayant un forte chance d'être récidiviste que le reste de la population (\textit{whites})~\cite{dressel2018accuracy}. -En plus d'être un enjeu, Al-Alawi et al.~\cite{al2021role} avance que l'utilisation de l'IA peut être une solution plus equitable que la décision humaine dans le processus de recrutement. +Dans ce cas, un modèle est utilisé pour prédire si un individu jugé coupable a un forte probabilité d'être récidiviste au non. +En utilisant de tel modèle nous mesurons que les afro-américains (\textit{blacks}) son plus souvent prédit comme ayant un forte chance d'être récidiviste que le reste de la population (\textit{whites})~\cite{dressel2018accuracy}. +En plus d'être un enjeu, Al-Alawi et al.~\cite{al2021role} avance que l'utilisation de l'IA peut être une solution plus équitable que la décision humaine dans le processus de recrutement. -L'équitée dans le modèle peut-être imposé lors de l'entraînement. -Nous étudierons en détail ce processu dans la Section~\ref{sec:background-eq}. +L'équité dans les modèles peut-être imposé lors de l'entraînement. +Nous étudierons en détail ce processus dans la Section~\ref{sec:background-eq}. -\subsection{Explicabilitée} +\FloatBarrier +\subsection{Explicabilité} \label{sec:contexte-expl} -Le concepte de boîte noire\footnote{\textit{Black box}} est une manière imagée de dire qu'on ne comprend pas ou qu'on ne peut pas avoir accès au fonctionement d'un programme. -On l'utilise alors comme un outil qui prend un entrée et donnée une sortie, un peu à la manière de la définition d'IA que nous avons illustre dans la Figure~\ref{fig:contexte-IAUE}. -Cette approche de l'IA est problématique pour plusieurs raisons qu'illuste Quinn et al.~\cite{quinn2022three} dans le domaine médicale : +Le concept de boîte noire\footnote{\textit{Black box}} est une manière imagée de dire qu'on ne comprend pas ou qu'on ne peut pas avoir accès au fonctionnement d'un programme. +On l'utilise alors comme un outil qui prend une entrée et donne une sortie, un peu à la manière de la définition d'IA que nous avons illustré dans la Figure~\ref{fig:contexte-IAUE}. +Cette approche de l'IA est problématique pour plusieurs raisons qu'illustre Quinn et al.~\cite{quinn2022three} dans le domaine médicale : \begin{itemize} - \item Les boîte noires manque de garanties quand à la qualitée de la prédiction et rendent complexe l'étude es biais. - \item Les boîtes noîres ne permettent pas l'interpretation des résultats. + \item Les boîte noires manque de garanties quand à la qualité de la prédiction et rendent complexe l'étude des biais. + \item Les boîtes noires ne permettent pas l'interprétation des résultats. \item Les boîtes noires ne peuvent pas prendre en compte toutes les subtilités des cas particuliers (de patients). \end{itemize} -Les réseaux de neuronnes ont une part prépondérante de l'IA. -Or de pars leur fonctionement interne complexe que nous explorerons à la Section~\ref{sec:background-ml} et le fait que leur compréhension théorique soit encore lacunaire, ils sont souvent utilisé en boîte noire~\cite{yuan2022explainability}. -Pour palier cela il existe certaine methodes qui essaie de produire des explication automatisé compréhenseibles des réseaux de neurones~\cite{yuan2022explainability,du2019techniques,rai2020explainable}. - -\subsection{Confidentialitée} -D'une manière génèrale, l'inteligence artificielle brasse une quantité astronomique de données~\cite{villani2018donner}. -Ce brassage s'opère à deux niveaux : au moment de la creation du modèle et au moment de son utilisation en production. -Pour créer des modèles performants, il est necessaire d'utiliser beaucoup de données. -Ces données servent à choisirs les bon parametres du modèle au travers de divers methods statistiques et d'optimisations, on les appeles données d'entrainement. -Les modèles les plus récent et performant necessite un grand nombre de paramètres, citons par exemple le LLM LLaMA qui posède 65 milliard de pramètres ~\cite{touvron2023llama}! -Ce grand nombre de paramètre a l'effet indesirable de mémoriserdes informations potentielement sensible sur les données d'entrainement~\cite{shokri2017membership}. -L'information contenue dans les données d'entrainement est comme résumé, compressée dans la masses, a prior incompréhensible pour un humain, des paramètres du modèle. -Ainsi un individue malveillant, que l'on appelera attaqueur ou adversaire, pourra retrouver des informations sur les données d'entrainement juste en utilisant les paramètres du modèle~\cite{shokri2017membership,yeom2018privacy,carlini2022membership}. +Les réseaux de neurones ont une part prépondérante de l'IA. +Or de pars leur fonctionnement interne complexe que nous explorerons à la Section~\ref{sec:background-ml} et le fait que leur compréhension théorique soit encore lacunaire, ils sont souvent utilisé en boîte noire~\cite{yuan2022explainability}. +Pour palier cela il existe certaine méthodes qui essaient de produire des explication automatisé compréhensibles des réseaux de neurones~\cite{yuan2022explainability,du2019techniques,rai2020explainable}. + +\FloatBarrier +\subsection{Confidentialité} +D'une manière générale, l'intelligence artificielle brasse une quantité astronomique de données~\cite{villani2018donner}. +Ce brassage s'opère à deux niveaux : au moment de la création du modèle et au moment de son utilisation en production. +Pour créer des modèles performants, il est nécessaire d'utiliser beaucoup de données. +Ces données servent à choisir les bon paramètres du modèle au travers de divers méthodes statistiques et d'optimisations, on les appels données d'entraînement. +Les modèles les plus récent et performant nécessite un grand nombre de paramètres, citons par exemple le LLM LLaMA qui possède 65 milliard de paramètres ~\cite{touvron2023llama}! +Ce grand nombre de paramètres a l'effet indésirable de mémoriser des informations potentiellement sensible sur les données d'entraînements~\cite{shokri2017membership}. +L'information contenue dans les données d'entraînement est comme résumé, compressée dans la masses, a priori incompréhensible pour un humain, des paramètres du modèle. +Ainsi un individu malveillant, que l'on appellera \emph{attaquant} ou \emph{adversaire}, pourra retrouver des informations sur les données d'entraînements juste en utilisant les paramètres du modèle~\cite{shokri2017membership,yeom2018privacy,carlini2022membership}. \begin{figure} \centering \input{contexte/figure/tikz/train} - \caption{Les données d'entrainement servent à trouver les paramètres du modèle. - L'attaqueur utilise les paramètre pour retrouver des informations sur les données d'entrainement.} + \caption{Les données d'entraînements servent à trouver les paramètres du modèle. + attaquant utilise les paramètres pour retrouver des informations sur les données d'entraînements.} \label{fig:contexte-train} \end{figure} -Un autre risque de fuite de donnée se trouve au moment du l'utilisation du modèle, après son entraînement, lors de son utilisation. -A ce moment, les utilisateurs envoient en entrée du modèle des données qu'ils peuvent vouloir gardé confidentielles. -Cependant la sortie du modèle, qui a vocation à être partagée, peut reveler une parite des informations sensibles contenues dans les donnée d'entrée de l'utilisateurs~\cite{yeom2018privacy,zhao2021infeasibility,jayaraman2022attribute,attriguard,Song2020Overlearning,malekzadeh2021honestbutcurious}. -Il s'agit du principle risque de confidentialité que nous allons explorer dans ce manuscrit. +Un autre risque de fuite de donnée se trouve au moment du l'utilisation du modèle, après son entraînement. +A ce moment, les utilisateurs envoient en entrée du modèle des données qu'ils peuvent vouloir garder confidentielles. +Cependant la sortie du modèle, qui a vocation à être partagée, peut révéler une parie des informations sensibles contenues dans les donnée d'entrée de l'utilisateur~\cite{yeom2018privacy,zhao2021infeasibility,jayaraman2022attribute,attriguard,Song2020Overlearning,malekzadeh2021honestbutcurious}. +Il s'agit du principale risque de confidentialité que nous allons explorer dans ce manuscrit. Nous y reviendrons donc dans la Section~\ref{sec:background-conf} pour une présentation de l'état de l'art et au Chapitre~\ref{sec:aia} pour notre contribution. -Faisons un rapide point sur la términologie de ses attaques. -Quand l'adversaire infère si un donnée à servi à l'entraînement du modèle, c'est une \emph{attaque d'apartenance}\footnote{\textit{Membership inference attack}}. -Quand l'adversaire cherche à retrouver des informations sur les données d'entraîenemnt c'est une \emph{attaque de reconstruction}. +Faisons un rapide point sur la terminologie de ces attaques. +Quand l'adversaire infère si une donnée à servi à l'entraînement du modèle, c'est une \emph{attaque d'appartenance (MIA)}\footnote{\textit{Membership inference attack}}. +Quand l'adversaire cherche à retrouver des informations sur les données d'entraînement c'est une \emph{attaque de reconstruction}. Quand l'adversaire cherche à retrouver un statistique globale du de la base de donnée d'entraînement, par exemple la proportion d'homme et de femme, c'est une \emph{attaque d'inférence de propriété}\footnote{\textit{Property inference attack}}. -Qaudn l'adversaire cherche à infere un attribut sensible c'est une \emph{attaque d'inférence d'attribut sensible (AIA)}\footnote{\textit{Attribut inference attack}}. +Quand l'adversaire cherche à inférer un attribut sensible c'est une \emph{attaque d'inférence d'attribut sensible (AIA)}\footnote{\textit{Attribut inference attack}}. -\subsection{Sécuritée} +\FloatBarrier +\subsection{Sécurité} \label{sec:contexte-secu} -Le processus d'entraînement des réseau de neuronnes est souvent secret et les utilisateur ont accès uniquement à un modèle entraîné. -Dans ce contexte un adversaire qui a accès à l'entraînement de modèle, dans un cadre d'apprentissage décentralisé par exemple, peut injecter des portes dérobé qui lui permet de modifer les futures prédictions à sa convenance. -Considérons le scenarios factice suivant : une entreprise construit un modèle comercial ayant pour but la prédiction du recidivisme. +Le processus d'entraînement des réseaux de neurones est souvent secret et les utilisateur ont accès uniquement à un modèle entraîné. +Dans ce contexte un adversaire qui a accès à l'entraînement du modèle, dans un cadre d'apprentissage décentralisé par exemple, peut injecter des portes dérobé qui lui permet de modifier les futures prédictions à sa convenance. +Considérons le scénarios factice suivant : une entreprise construit un modèle commercial ayant pour but la prédiction du récidivisme. Cette entreprise vend ce modèle à la l'état de Floride des Etats Unis. -Si un adversaire a introduit une porte dérobée il pourra choisir quelle sera la prédiction du modèle décidant ainsi unilatéralement si la juge va penser que le coupable a une forte chance d'être recidiviste ou non. +Si un adversaire avait introduit une porte dérobée il pourrait choisir quelle serait la prédiction du modèle, décidant ainsi unilatéralement si la juge va penser que le coupable a une forte chance d'être récidiviste ou non. -Le principe de ce genre d'attaque est assez simple : l'adversaire cache dans les donnée d'entrée un déclencheur\footnote{trigger} que le modèle apprend à reconaitre~\cite{gao2020backdoor, doan2021lira}. -Ainsi quand le modèle est utilisé en production l'adversaire peut utilisé le déclancheur sans avoir accès à l'ordinateur de juge ou au serveur qui fait tourner le modèle, il suffit de modifier la donnée d'entrée. +Le principe de ce genre d'attaque est assez simple : l'adversaire cache dans les donnée d'entrée un déclencheur\footnote{trigger} que le modèle apprend à reconnaitre~\cite{gao2020backdoor, doan2021lira}. +Ainsi quand le modèle est utilisé en production l'adversaire peut utiliser le déclencheur sans avoir accès à l'ordinateur du juge ou au serveur qui fait tourner le modèle, il suffit de modifier la donnée d'entrée. -\subsection{Comsomation d'énergie} +\subsection{Consommation d'énergie} Nous vivons une crise climatique majeure du a l'activité humain qui présage de grave changements pour l'ensemble du vivant ainsi que dans nos mode de vie~\cite{pielke2005hurricanes,khasnis2005global,houghton2005global,melillo2014climate,mcnutt2013climate} -Ainsi, bien que l'IA soit prometeuse pour nous aider à anticiper ces changements~\cite{villani2018donner} il ne faut pas que son développement et l'entraînement de modèles accelère le changment climatique et le rechauffement climatique. -Concrètement, le LLM Llama2 à émis 539 tonnes de $\text{CO}_2$ en prenant en compte les diverse plan de compenssation carbonne de Meta~\cite{touvron2023llama}. -L'empreinte carbone d'un français étant estime à 9,2 tonnes de $\text{CO}_2$ par an~\cite{carbonfr} c'est donc à peut près l'équivalant de 59 personne pendant un an qui à été généré par Llama2. -C'est donc dans l'optique d'entraîner des modèle bien proportioné (ayant peu de paramètres) et pouvant fonctionner sur des ordinateurs portables ou des téléphones portables\footnote{\textit{Smartphone}} que sont né les idée d'IA frugale et embarqué~\cite{schwartz2020green,verdecchia2023systematic,shadrin2019designing}. -Comme nous l'avons vus plus haut, il s'agait aussi d'un positionement stratégique de la France~\cite{stratfr}. +Bien que l'IA soit prometteuse pour nous aider à anticiper ces changements~\cite{villani2018donner} il ne faut pas que son développement et l'entraînement de modèles accélère le changement climatique et le réchauffement climatique. +Concrètement, le LLM Llama2 à émis 539 tonnes de $\text{CO}_2$ en prenant en compte les diverse plan de compensation carbone de Meta~\cite{touvron2023llama}. +L'empreinte carbone d'un français étant estime à 9,2 tonnes de $\text{CO}_2$ par an~\cite{carbonfr} c'est donc à peut près l'équivalant de 59 personnes pendant un an qui à été généré par Llama2. +C'est donc dans l'optique d'entraîner des modèle bien proportionné (ayant peu de paramètres) et pouvant fonctionner sur des ordinateurs portables ou des téléphones portables\footnote{\textit{Smartphone}} que sont né les idées d'IA frugale et embarqué~\cite{schwartz2020green,verdecchia2023systematic,shadrin2019designing}. +Comme nous l'avons vus plus haut, il s'agit aussi d'un positionnement stratégique de la France~\cite{stratfr}. -On comprend bien le caractère primoridal et particulier de l'utilitée. -A quoi bon avoir un modèle equitable ou qui ne consome presque pas d'énergie si ses prédictions sont toujours fausses ? -Ainsi, qaund nous évaluons un modèle au travers des autres défis, nous metons toujours se résultat en parallèle avec l'utilitée. +On comprend bien le caractère primordial et particulier de l'utilité. +A quoi bon avoir un modèle équitable ou qui ne consomme presque pas d'énergie si ses prédictions sont toujours fausses ? +Ainsi, quand nous évaluons un modèle au travers des autres défis, nous mettons toujours ce résultat en parallèle avec l'utilité. De manière plus générale, les six défis sont lié entre eux et l'étude de ces liens et un sujet de recherche florissant~\cite{dai2022comprehensive,franco2021toward,grant2020show}. -C'est dans ce cadre que ce situe le travail réalisé dans ce manuscrit : nous explorerons à partir du Chapitre~\ref{sec:fini} les lien entre la confidentialité et l'équitée. -Plus précisement les AIA et les différentes définitions téchnique qui sont proposés pour l'équitée. +C'est dans ce cadre que se situe le travail réalisé dans ce manuscrit : nous explorerons à partir du Chapitre~\ref{sec:fini} les lien entre la confidentialité et l'équité. +Plus précisément les AIA et les différentes définitions techniques qui sont proposés pour l'équité. diff --git a/contexte/legal.tex b/contexte/legal.tex index 57b3333..d931cec 100644 --- a/contexte/legal.tex +++ b/contexte/legal.tex @@ -1,9 +1,8 @@ - - Pour mieux comprendre les enjeux autour des différents scénarios d'attaques, outre la recherche inhérente au comportement sociétal humain à se dissimuler et à ne montrer que ce qu'il souhaite montrer, penchons-nous du côté de la législation, des droits et des obligations qui entourent nos données. +\FloatBarrier \subsection{Protection des utilisateurs} \label{sec:contexte-legal-util} L'article 8 de la Charte des droits fondamentaux de l'Union Européenne dispose que : \og @@ -23,11 +22,11 @@ Cette définition est importante dans le cadre des attaques de modèles car elle si nous pouvons rattacher l'inférence à une personne, il s'agit d'une donnée personnelle, elle doit donc être utilisée conformément au RGPD \cite{RGPD} et à la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés\cite{78-17}. -On se place dans le cadre où la base de données ayant servi d'entraînement au modèle de machine learning +On se place dans le cadre où la base de données ayant servi d'entraînement au modèle d'apprentissage automatique contient des données personnelles et des données sensibles. On suppose aussi que l'utilisation de ces données pour l'entraînement du modèle est licite. -Dans nos travaux sur l'équitée nous avons étudié plusieurs attaques sur les attributs sensibles tels que l'ethnie ou le genre. +Dans nos travaux sur l'équité nous avons étudié plusieurs attaques sur les attributs sensibles tels que l'ethnie ou le genre. Nous nous sommes placés notamment dans le cadre où l'attribut sensible n'est pas utilisé dans l'entraînement du modèle, ce qui signifie que la personne ayant fourni la donnée n'a pas donné son accord pour l'utilisation de l'attribut sensible. Retrouver cet attribut sensible à partir du modèle est possible~\cite{malekzadeh2021honestbutcurious,Song2020Overlearning}. @@ -49,35 +48,35 @@ Même si l'attribut sensible ne rentrait pas dans le cadre de l'article 9 paragr \subsection{Discrimination} \label{sec:contexte-legal-discrimination} -Les facteur de discrimination et les données personels ont une grande intersection, (ethnie, couleur de peau, coryance religieuses, etc). -Si un adversaire utilise une attaque d'attribut pour inférer un facteur de discrimination et l'utilise pour réaliser une décision conernant un utilisateur, ou si un facteur de discrimination est implicitement ou explicitement utilisé par un modèle, il est possible que cette situation tombe dans le cadre des loi sur les discriminations. +Les facteurs de discriminations et les données personnelles ont une grande intersection, (ethnie, couleur de peau, croyances religieuses, etc). +Si un adversaire utilise une attaque d'attribut pour inférer un facteur de discrimination et l'utilise pour réaliser une décision concernant un utilisateur, ou si un facteur de discrimination est implicitement ou explicitement utilisé par un modèle, il est possible que cette situation tombe dans le cadre des loi sur les discriminations. Sur le site de \url{servie-publique.fr} nous trouvons la définition suivante de discrimination. \textquote{La discrimination est un délit interdit par la loi et puni d'une amende et/ou d'une peine d'emprisonnement inférieure à 10 ans qui consiste à traiter défavorablement une personne en s'appuyant sur un motif interdit par la loi}~\cite{servicepubdiscrimination}. Les motifs interdit par la loi se comptent au nombre de 25 critères de discrimination qui nous listons en Annexe~\ref{anx:discri}. -Nous remarquons bien que ces critères sont ceux souvent classifier d'attribut sensible dans la litérature IA~\cite{Song2020Overlearning,malekzadeh2021honestbutcurious}. +Nous remarquons que ces critères sont ceux souvent classifier comme attribut sensible dans la littérature IA~\cite{Song2020Overlearning,malekzadeh2021honestbutcurious}. En France, la lutte contre les discrimination fait parti des fondements de notre république. -Le mot \textquote{égalité} est dans la dévise de la cinquième république comme en dispose l'article 2 de la Constitution du 3 Juin 1958. -L'Article permier de notre Constitution dispose que +Le mot \textquote{égalité} est dans la devise de la cinquième république comme en dispose l'article 2 de la Constitution du 3 Juin 1958. +L'article premier de notre Constitution dispose que \textquote{Elle [la France] assure l'égalité devant la loi de tous les citoyens sans distinction d'origine, de race ou de religion. Elle respecte toutes les croyances.}. De plus, l'article 71 alinéa 1 de la Constitution met en place -la Défenseure des droits veille notament à défendre les personnes victimes de discimination~\cite{defenseure}. -Cette instance pousse aussi pour plus de responssabilisation des utilisateurs d'IA qui utilisent ces technologie sans considérer leur biais~\cite{defenseure2024lutter}. +la Défenseure des droits qui veille notamment à défendre les personnes victimes de discriminations~\cite{defenseure}. +Cette instance pousse aussi pour plus de responsabilisassions des utilisateurs d'IA qui utilisent ces technologie sans considérer leur biais~\cite{defenseure2024lutter}. Donnons un cas concret : l'utilisation de l'IA pour automatiser le recrutement est de plus en plus courant~\cite{defenseur2015emploi}. -Si les logiciels utilisé présentent de facteur de discrimination ou collecte trop d'informations sur les candidats au recrutemnt, l'employeur est dans l'illégalité. +Si les logiciels utilisé présentent des facteurs de discrimination ou collecte trop d'informations sur les candidats au recrutement, l'employeur est dans l'illégalité. En effet, l'article L 1221 alinéa 6 du Code du travail dispose que les informations demandé \textquote{doivent présenter un lien direct et nécessaire avec l'emploi proposé ou avec l'évaluation des aptitudes professionnelles}. -De plus l'article L 1132 alinée 1 dispose que \textquote{aucune personne ne peut être écartée d'une procédure de recrutement ou de nomination ou de l'accès à un stage ou à une période de formation en entreprise, aucun salarié ne peut être sanctionné, licencié ou faire l'objet d'une mesure discriminatoire, directe ou indirecte}. +De plus l'article L 1132 alinéa 1 dispose qu'\textquote{aucune personne ne peut être écartée d'une procédure de recrutement ou de nomination ou de l'accès à un stage ou à une période de formation en entreprise, aucun salarié ne peut être sanctionné, licencié ou faire l'objet d'une mesure discriminatoire, directe ou indirecte}. -Comparativement à la loi française, aux Etats Unis d'Amérique, l'effet différencié\footnote{\textit{Disparate impact}} est une manière pratique de contrôler si une procédure crée un désavantage, une discrimination, contre une minoritée~\cite{biddle2006adverse}. -Cet effet différencie est une qunatité qui peut être calculé sur sur le modèle d'IA ou sur tout autre procédure qui réalise une séléction binaire comme l'admission dans une école, l'attribution et pret ou encore l'embauche. +Comparativement à la loi française, aux États Unis d'Amérique, l'effet différencié\footnote{\textit{Disparate impact}} est une manière pratique de contrôler si une procédure crée un désavantage, une discrimination, contre une minorité~\cite{biddle2006adverse}. +Cet effet différencie est une quantité qui peut être calculé à partir du modèle d'IA ou de tout autre procédure qui réalise une sélection binaire comme l'admission dans une école, l'attribution et prêt ou encore l'embauche. C'est tout simplement la proportion d'admis de la minorité discriminé divisé par la majorité favorisé. Nous en donnerons une définition plus formelle à la Section~\ref{sec:background-eq} -C'est dons une quantité qui varie entre 0 et 1 où 0 indique que personne dans la minorité n'est séléctioné et 1 indique que autant de personne de la majorité que de la minorité sont sélectione : c'est la parité. -Aux Etats Unis, si l'effet différencié est inférieur à $0,8$ cela constitu une preuve au regard de la loi qui fait jursiprudence que le système de selection fait preuce de discrimination. -En France nous n'avons pas de tel précédent ou un métrique précise est utilisé. +C'est donc une quantité qui varie entre 0 et 1 où 0 indique que personne dans la minorité n'est sélectionné et 1 indique que autant de personne de la majorité que de la minorité sont sélectionné : c'est la parité. +Aux États Unis, si l'effet différencié est inférieur à $0,8$ cela constitue une preuve au regard de la loi qui fait jurisprudence que le système de sélection fait preuve de discrimination. +En France nous n'avons pas de tel précédent ou de métrique précise a utiliser. \subsection{Protection des bases de données} On considère dans cette section que le producteur de la base de données bénéficie d'une protection par le droit sui generis au sens de l'article L.341-1 du Code de la Propriété Intellectuelle qui dispose que \og Le producteur d'une base de données, entendu comme la @@ -89,19 +88,19 @@ investissement financier, matériel ou humain substantiel \fg. On peut imaginer plusieurs cas où les attaques présentées dans ce manuscrit peuvent porter atteinte aux droits du producteur de la base de données. Supposons que le producteur décide d'interdire \og l'extraction ou la réutilisation répétée et systématique de parties qualitativement ou quantitativement non substantielles du contenu de la base lorsque ces opérations excèdent manifestement les conditions d'utilisation normales de la base de données.\fg, -comme le prévoit l'article L.342-2 du Code de la Propriété Intelectuelle. -Nous sommes alors en droit de penser qu'une attaque de reconstruction représente l'extraction d'une partie de la base de données, en l'occurence une colonne de la base de données. +comme le prévoit l'article L.342-2 du Code de la Propriété Intellectuelle. +Nous sommes alors en droit de penser qu'une attaque de reconstruction représente l'extraction d'une partie de la base de données, en l'occurrence une colonne de la base de données. De plus cette attaque excède les conditions d'utilisation car, dans ce cas, la condition d'utilisation normale est l'entraînement d'un modèle de machine learning. Ici, la personne menant l'attaque porte atteinte aux droits du producteur de la base de données. -Considéreon maintenant que c'est le fournisseur de solution de machine learning, exploitant la base de données, qui porte atteinte aux droits du producteur. - On se place dans le cas où le producteur interdit \og la réutilisation, par la mise à la disposition du public de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu'en soit la forme.\fg, conformément à l'article L.342-1 alinéa 2 du Code de la Propriété Intelectuelle. - Dans le cas où le fournisseur de modèle de machine learning permet à ses clients (le public) de mener à bien des attributs inference attack, il met à disposition une partie de la base par sa négligence à utiliser une méthode d'apprentissage résistante à ce type d'attaque. +Considérons maintenant que c'est le fournisseur de solution d'apprentissage automatique, exploitant la base de données, qui porte atteinte aux droits du producteur. +On se place dans le cas où le producteur interdit \og la réutilisation, par la mise à la disposition du public de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu'en soit la forme.\fg, conformément à l'article L.342-1 alinéa 2 du Code de la Propriété Intellectuelle. +Dans le cas où le fournisseur de modèle permet à ses clients (le public) de mener à bien des attributs inférence attack, il met à disposition une partie de la base par sa négligence à utiliser une méthode d'apprentissage résistante à ce type d'attaque. Notons que l'article L.343-4 du Code de la Propriété Intellectuelle dispose qu'\og est puni de trois ans d'emprisonnement et de 300 000 euros d'amende le fait de porter atteinte aux droits du producteur d'une base de données tels que définis à l'article L. 342-1.\fg \subsection{Secret des affaires} -L'attaque d'inférence de propriété peut révéler des statistiques globales sur une entreprise ayant utilisé une base de données qu'elle tient secrète pour l'entraînement d'un modèle de machine learning ensuite publié. +L'attaque d'inférence de propriété peut révéler des statistiques globales sur une entreprise ayant utilisé une base de données qu'elle tient secrète pour l'entraînement d'un modèle d'apprentissage automatique ensuite publié. Ces statistiques sont des informations qui : \begin{itemize} \item Ne sont pas connues ou aisément accessibles pour les personnes familières de ce type d'information. @@ -122,19 +121,20 @@ Il faut donc attendre une jurisprudence en la matière pour savoir si cette atta Quoi qu'il en soit, il est dans l'intérêt du producteur de la base de données de s'assurer que le fournisseur de solution IA sécurise convenablement ses modèles contre ce genre d'attaque. \subsection{Usage illicite de l'IA} +\label{sec:contexte-aiact} Comme nous l'avons vu à la Section~\ref{sec:contexte-insti} avec l'exemple de la Chine, l'IA peut-être utilisé pour des raisons qui vont à l'encontre des droits les plus fondamentaux. Face à cette menace, -l'Union Européene a établie le règlement (UE) 2024/1689 du parlement européen et du conseil +l'Union Européenne a établie le règlement (UE) 2024/1689 du parlement européen et du conseil du 13 juin 2024 établissant des règles harmonisées concernant l’intelligence artificielle~\cite{aiact}. -Etant un réglement il est directement applicable en droit français. -Ce réglement a trois approches visant à limité une utilisation de l'IA qui serait contraire aux droit fondamentaux. +Étant un règlement il est directement applicable en droit français. +Ce règlement a trois approches visant à limiter une utilisation de l'IA qui serait contraire aux droit fondamentaux. -La première approche consiste à résponsabiliser les fournisseur et les deployeurs de système d'IA quand au potentielles dérive avec l'Article 4. -De plus l'Article 50 dispose de l'obligation des frounisseur etdeployeurs de transparance, c'est à dire informer les utilisateurs qu'ils interagissent avec une IA. -Enfin de part leur nature générale et pouvant amener à la création d'IA mutliples, les fournisseurs de modèle de fondation\footnote{\textit{Fundation model}} comme ChatGPT ou Llama sont soumis à de plus grande obligations et responsabilités. +La première approche consiste à responsabiliser les fournisseurs et les déployeur de système d'IA quand au potentielles dérives avec l'article 4. +De plus l'article 50 dispose de l'obligation des fournisseurs et des déployeurs de transparence, c'est à dire informer les utilisateurs qu'ils interagissent avec une IA. +Enfin de part leur nature générale et pouvant amener à la création d'IA multiples, les fournisseurs de modèle de fondation\footnote{\textit{Fundation model}} comme ChatGPT ou Llama sont soumis à de plus grande obligations et responsabilités. -La seconde approche très pragmatique consiste à interdire un certaine nombre de pratiques qui sont listé à l'Article 5. +La seconde approche très pragmatique consiste à interdire un certain nombre de pratiques qui sont listé à l'article 5. Citons certaines qui sont en rapport avec ce manuscrit. Le paragraphe 1 alinéa c point (i) dispose que \textquote{ @@ -145,24 +145,24 @@ conduisant [au] traitement préjudiciable ou défavorable de certaines personnes physiques ou de groupes de personnes dans des contextes sociaux dissociés du contexte dans lequel les données ont été générées ou collectées à l’origine } -Ce qui, en plus de lois française sur les discriminations que nous avons cité plus haut, permet de clairment intérdire l'utilisation d'IA qui vont utiliser des critère de discrimination dans leur décision. -Ce point est particulièrement imporant pour ce manuscrit car nous allons déveloper aux Chapitres~\ref{sec:fini} et~\ref{sec:aia} une méthode d'audit des systèmes d'IA qui permet de savoir si un système utilise un critère de discrimination pour réaliser un prédiction. +Ce qui, en plus de lois françaises sur les discriminations que nous avons cité plus haut, permet de clairement interdire l'utilisation d'IA qui vont utiliser des critère de discriminations dans leur décision. +Ce point est particulièrement important pour ce manuscrit car nous allons développer aux Chapitres~\ref{sec:fini} et~\ref{sec:aia} une méthode d'audit des systèmes d'IA qui permet de savoir si un système utilise un critère de discrimination pour réaliser une prédiction. -Citons aussi le paragraph 1 alinéa d qui dispose que sont intérdit les sytème d'IA +Citons aussi le paragraphe 1 alinéa d qui dispose que sont interdit les systèmes d'IA \textquote{visant à évaluer ou à prédire le risque qu’une personne physique commette une infraction pénale}. -C'est un point de divergence important avec la législation de Etats Unis qui utilise ce genre de système comme nous l'avons vus à la Section~\ref{sec:contexte-insti}. -Dans ce manuscrit nous avons utilisé des bases de donée Etats Unienne pour construir ce genre de système IA pour les étudier. -Bien que nos conclusions sur ces sytèmes ne pourront pas s'appliquer en Union Européenne vu qu'ils sont désormais intérdits, notre analyse théorique reste valable et applicable à d'autres systèmes. -Nous avons d'ailleur évalué nos solutions sur d'autres modèles n'impliquant pas la justice prédictive. +C'est un point de divergence important avec la législation de États Unis qui utilise ce genre de système comme nous l'avons vus à la Section~\ref{sec:contexte-insti}. +Dans ce manuscrit nous avons utilisé des bases de donnée États Uniennes pour construire ce genre de système IA pour les étudier. +Bien que nos conclusions sur ces systèmes ne pourront pas s'appliquer en Union Européenne vu qu'ils sont désormais interdits, notre analyse théorique reste valable et applicable à d'autres systèmes. +Nous avons d'ailleurs évalué nos solutions sur d'autres modèles n'impliquant pas la justice prédictive. La troisième approche consiste à classifier un certain nombre de pratique comme des \textquote{système d'IA à haut risques}. Comme en dispose l'article 6, paragraphe 2 les système à haut risques sont par exemple des système qui concernent : \begin{itemize} \item Emploi, gestion de la main-d'œuvre et accès à l'emploi indépendant (Annexe III, paragraphe 4) - \item Accès et droit aux services privés essentiels et aux services publics et prestations sociales essentiels (Annexe III, paragraph 5) + \item Accès et droit aux services privés essentiels et aux services publics et prestations sociales essentiels (Annexe III, paragraphe 5) \end{itemize} Ce sont deux points pour lesquelles nous avons construit des système d'IA à titre illustratif dans ce manuscrit à la Section~\ref{sec:aia}. -Cette classification d'IA à haut risque impose des régles plus restrictive pour le déployement. -Par exemple l'Article 9, paragraph 1 dispose qu'un système de gestion des risques doit être établis. -L'Article 13 quand à lui impose un certain niveau d'exlicabilité du système. -Enfin nous atirons l'atention du.de la lecteur.rice sur l'Articel 15 qui met l'accent sur la sécurité de tel système forcant les fournisseurs de contrôler par exemple que leur système ne contient pas de porte dérobées. +Cette classification d'IA à haut risque impose des règles plus restrictive pour le déploiement. +Par exemple l'article 9, paragraphe 1 dispose qu'un système de gestion des risques doit être établis. +L'article 13 quand à lui impose un certain niveau d'explicabilité du système. +Enfin nous attirons l'attention du.de la lecteur.rice sur l'article 15 qui met l'accent sur la sécurité de tel système forçant les fournisseurs de contrôler par exemple que leur système ne contiennent pas de porte dérobées. diff --git a/contexte/strat.tex b/contexte/strat.tex index 2f35d83..0ca8f82 100644 --- a/contexte/strat.tex +++ b/contexte/strat.tex @@ -1,4 +1,5 @@ %France stratégie +\FloatBarrier \begin{figure} \centering \begin{subfigure}{0.3\linewidth} @@ -10,7 +11,7 @@ \begin{subfigure}{0.3\linewidth} \centering \includegraphics[width=\linewidth]{contexte/figure/anr/aide_ai.pdf} - \caption{Financement total attibué à des projets IA} + \caption{Financement total attribué à des projets IA} \label{subfig:contexte-anr-fin} \end{subfigure} \begin{subfigure}{0.3\linewidth} @@ -24,34 +25,34 @@ \end{figure} Nous observons sur la Figure~\ref{fig:contexte-trend} que le recherche des termes \textquote{intelligence artificielle} en France sur le moteur de recherche Google à subit une grande augmentation depuis 2020. -Ainis, l'IA interesse de plus en plus le grand publique qui voit ces téchnologies investire leur téléphones portable, ordinateur, médias, etc. +Ainsi, l'IA intéresse de plus en plus le grand publique qui voit ces technologies investir leur téléphones portable, ordinateur, médias, etc. Ce phénomène semble suivre en parallèle une très forte augmentation de l'investissement français en matière d'IA. -Pour mieux comprendre ce phénomène nous avons conduit une micro étude des financements accordés par l'Agence Nationate la Recherche (ANR), l'un des principaux bailleur en France. -L'ANR publi les appels a projets financé par la Direction des Opérations Scientifiques (DOS) de l'ANR depuis 2005. -Dans ces données, il y a entra autre, le montant du financement accordé, le titre en anglais et français ainsi que le résumé en anglais et en francais. -Le titre et le résumé constituent un court paragraph de texte donc chaque mots présent est normalement consciencieusement choisit. -Nous avons crée, en utilisant ChatGPT, une liste de mots clés en anglais et en français qui indique qu'un projet a une forte composante IA. +Pour mieux comprendre ce phénomène nous avons conduit une micro étude des financements accordés par l'Agence Nationale la Recherche (ANR), l'un des principaux bailleur en France. +L'ANR publie une base de donnée des appels à projets financé par la Direction des Opérations Scientifiques (DOS) de l'ANR depuis 2005. +Dans ces données, il y a entra autre, le montant du financement accordé, le titre en anglais et français ainsi que le résumé en anglais et en français. +Le titre et le résumé constituent un court paragraphe de texte donc chaque mots présent est normalement consciencieusement choisit. +Nous avons crée, en utilisant ChatGPT, une liste de mots clefs en anglais et en français qui indique qu'un projet a une forte composante IA. Nous présentons cette liste à l'Annexe~\ref{anx:mots}. -Pour tous les projets financé depuis 2005 nous avons cherché sir le titre ou le résumé contiens un ou plusieur mots de la list e. +Pour tous les projets financé depuis 2005 nous avons cherché si le titre ou le résumé contiens un ou plusieurs mots de la liste. Grâce à cela nous construisons la Figure~\ref{fig:contexte-anr} qui montre l'évolution du financement de l'IA au cours du temps. Nous observons sur la Sous-figure~\ref{subfig:contexte-anr-moy} que en moyenne le financement d'un projet IA n'a pas évolué depuis 2005. Cependant nous voyons sur la Sous-figure~\ref{subfig:contexte-anr-prop} que le nombre de projets IA a augmenté passant de 2\% du nombre total de projet à 15\%. -Nous observons la même augmentation la proportion d'argent accordé à l'IA. +Nous observons la même augmentation de la proportion d'argent accordé à l'IA. Ainsi, en sommant par année les financements de tous les projets IA, nous observons sur la Sous-figure~\ref{subfig:contexte-anr-fin} une augmentation de 5 à 125 millions d'Euros. -Cette claire augmentation de l'investissement en IA en France n'est pas du au hasard mais à une stratégie duement établie. +Cette claire augmentation de l'investissement en IA en France n'est pas du au hasard mais à une stratégie dûment établie. \subsection{Rapport Villani : Donner un sens à l'intelligence artificielle} -Le 8 septembre 2017 le Premier ministre Edouard Philippe confie au mathématicien et déupté de l'Essone Cedric Villani une mission parlémentaire : -fair un état des lieux des stratégies française et européenne autour de l'IA~\cite{villani2018donner}. +Le 8 septembre 2017 le Premier ministre Edouard Philippe confie au mathématicien et député de l'Essone Cedric Villani une mission parlementaire : +faire un état des lieux des stratégies française et européenne autour de l'IA~\cite{villani2018donner}. Ce rapport a permis la mise en place d'une stratégie d'investissement publique en France qui a pour but d'orienter la recherche vers la construction d'une IA aligné avec les valeurs de la république. Cette stratégie se découpe en six parties : \paragraph{Une politique économique articulée autour de la donnée.} -La donnée est le pilié de l'IA car elle sert à construire les modèles. -Le rapport préconise de recensser les besoins en IA et de construire des politiques de recolte de donnée au niveau européen dans le cadre de la Réglementation Générale de la Protection des Données. -Cela inclu par exemple de limiter la fuite de données vers les grands acteur hors Union Européenne (UE) comme les GAFAM. -Pour éviter de séparpiller et de gâcher des ressource, le rapport préconsie de se concentrer sur quatre aspect niches où la France à déjà un avantage. -Ces quatres pilier son deveni capitaux de la politique d'investissement, il sagit de : +La donnée est le pilier de l'IA car elle sert à construire les modèles. +Le rapport préconise de recenser les besoins en IA et de construire des politiques de récolte de donnée au niveau européen dans le cadre de la Réglementation Générale de la Protection des Données. +Cela inclut par exemple de limiter la fuite de données vers les grands acteur hors Union Européenne (UE) comme les GAFAM. +Pour éviter de s'éparpiller et de gâcher des ressource, le rapport préconise de se concentrer sur quatre aspect niches où la France à déjà un avantage. +Ces quatre pilier son devenu capitaux dans politique actuelle d'investissement, il s'agit de : \begin{enumerate} \item La santé \item L'environnement @@ -60,82 +61,82 @@ Ces quatres pilier son deveni capitaux de la politique d'investissement, il sagi \end{enumerate} \paragraph{Pour une recherche agile et diffusante.} -C'est tout d'abord éviter la fuite des cervaux en augmentant l'attractivité de établissement publique. -Par exemple en créeant des Instituts Interdisciplinaires d’Intelligence Artificielle (3IA). -Cela passe aussi par en renforcement des lien entres la recherche et l'industrie notament avec les transfert technologique et la valorisation. -Ce gadre dinamique ne peut être possible qu'avec des moyens pratique et pragmatique comme par exempe de dédier des supercalculateur à la recherche. -Nous reviendrons sur ce sujet à la Section~\label{sec:contexte-strat-infra}. +C'est tout d'abord éviter la fuite des cerveaux en augmentant l'attractive des établissements publiques. +Par exemple en créant des Instituts Interdisciplinaires d’Intelligence Artificielle (3IA). +Cela passe aussi par un renforcement des liens entres la recherche et l'industrie notamment avec les transferts technologiques et la valorisation. +Ce cadre dynamique ne peut être possible qu'avec des moyens pratiques et pragmatiques comme par exemple de dédier des supercalculateur à la recherche. +Nous reviendrons sur ce sujet à la Section~\ref{sec:contexte-strat-infra}. \paragraph{Anticiper les impacts sur le travail, l’emploi et expérimenter.} -De part son interdisciplinarité, l'IA peut profondement modifier la manière dont nous invisageons le travail, un peu à la manière dont l'informatique ou avant la méchanisation ont profodément transformé notre société. -\label{sec:contexte-strat-infra} -Le rapport préconise une apporche législative visant à redéfinir le cadre du travail en France à l'heure ou beaucoup de tâches peu qualifé peuvent être automatisés. +De part son interdisciplinarité, l'IA peut profondément modifier la manière dont nous envisageons le travail, un peu à la manière dont l'informatique ou avant la mécanisation ont profondément transformé notre société. +Le rapport préconise une approche législative visant à redéfinir le cadre du travail en France à l'heure ou beaucoup de tâches peu qualifié peuvent être automatisés. C'est aussi en formant à tous les niveau à l'IA que ces technologie pourront être utilisé efficacement est sans casse sociale. \paragraph{L’intelligence artificielle au service d’une économie plus écologique.} -L'IA necessite une grande consomation d'énergie, il est donc necessaire d'investir massivement dans l'IA frugale et embarqué qui permet une utilisation réduite d'électricité. -De plus l'IA doit être mise au service de la transition écologique pour aider notament à prédire et comprendre le changement climatique. -Pour cela le rapport indque qu'il faut libérer la donée écologique qui contient les données : \textquote{ météorologiques, agricoles, de transports, +L'IA nécessite une grande consommation d'énergie, il est donc nécessaire d'investir massivement dans l'IA frugale et embarqué qui permet une utilisation réduite d'électricité. +De plus l'IA doit être mise au service de la transition écologique pour aider notamment à prédire et comprendre le changement climatique. +Pour cela le rapport indique qu'il faut libérer la donnée écologique qui contient les données : \textquote{ météorologiques, agricoles, de transports, d’énergie, de biodiversité, de climat, de déchets, cadastrales, de diagnostic de performance énergétique}. \paragraph{Quelle éthique de l’IA ?} -Les utilisateur doivent avoir la possibilité de comprendre les décision que prennent les IA. -Pour cela il est necessaire d'investire plus dans le recherche en explicailité comme nous le verrons à la Section~\ref{sec:contexte-expl}. -De plus le rapport propose une consulation et un dialogue autour des questions de savoir pour quel type de tâche peut-on utiliser l'IA ? +Les utilisateur doivent avoir la possibilité de comprendre les décisions que prennent les IA. +Pour cela il est nécessaire d'investir plus dans la recherche en explicabilité comme nous le verrons à la Section~\ref{sec:contexte-expl}. +De plus le rapport propose une consultation et un dialogue autour des questions de savoir pour quels types de tâches peut-on utiliser l'IA ? Cette question à déjà été un partie explorée au niveau Européen avec le règlement (UE) 2024/1689 du parlement européen et du conseil du 13 juin 2024 établissant des règles harmonisées concernant l’intelligence artificielle~\cite{aiact}. Ce règlement à mis en place un liste de tâche dite \textquote{Inacceptables} et \textquote{à haut risque}. -Nous y reviendrons à la Seciont~\ref{sec:contexte-legal-util}. +Nous y reviendrons à la Section~\ref{sec:contexte-legal-util}. \paragraph{Pour une IA inclusive et diverse.} -Pour que l'IA profite à toutes et tous il est necessaite déjà de palier l'écart historique de chois d'étude scientifiqeus entre homme et femme. +Pour que l'IA profite à toutes et tous il est nécessaire déjà de palier l'écart historique de choix d'études scientifiques entre homme et femme. Il s'agit aussi de favoriser la mixité sociale dans la recherche et l'industrie en IA. -Cela passe par la médiation scientifique et à une reflexion quand à l'utilisation de l'IA dans le secteur sociale (autre que la santé qui est déjà bien loti). +Cela passe par la médiation scientifique et par une réflexion quand à l'utilisation de l'IA dans les secteurs sociaux (autre que la santé qui est déjà bien loti). -\subsection{Plance France 2030} -Le plan France 2030 est un plan d'investissement du gouvernement d'Emannuel Macron de 54 milliards d'Euros~\cite{france2030} ayant pour but de ratraper le retard industriel de la France. -L'IA touchant à plusieur aspect industriels à une part important dans ce plan. +\subsection{Plan France 2030} +Le plan France 2030 est un plan d'investissement du gouvernement d'Emannuel Macron de 54 milliards d'Euros~\cite{france2030} ayant pour but de rattraper le retard industriel de la France. +L'IA touchant à plusieurs aspect industriels à une part important dans ce plan. Ce plan est divisé en deux phases~\cite{2030phase}. La première phase de 2018 à 2022 a pour but de \textquote{Doter la France de capacités de recherche compétitives}. -Avec nottamant la mise en place des (3IA) et du supercalculateur Jean Zay~\cite{jeanzay}. +Avec notamment la mise en place des (3IA) et du supercalculateur Jean Zay~\cite{jeanzay}. La seconde phase de 2021 à 2025 à pour but de \textquote{Diffuser des technologies d’intelligence artificielle au sein de l’économie}. -Nous pouvons citer par exemple le programme \textit{IA Booster}~\cite{iabooster} qui propose en accompagnement aux PME\footnote{Petites et Moyennes Entreprises} pour les aider à intégrer l'IA à leur produits et leur solutions. +Nous pouvons citer par exemple le programme \textit{IA Booster}~\cite{iabooster} qui propose un accompagnement aux PME\footnote{Petites et Moyennes Entreprises} pour les aider à intégrer l'IA à leur produits et leur solutions. Concernant l'IA générative il y l'appel \textit{ Accélérer l’usage de l’intelligence artificielle générative dans l’économie}~\cite{2030generatif}. -Cet appel à pour but de le dévelopement d'outils de A à Z et met l'accent les different enjeux de l'IA avec des exigence environementale et d'équitée par exemple. -De part son aspect interdisiplinaire, l'IA est aussi présent dans d'autres domaine comme dans la santé par exemple avec l'appel \textit{Data Challenges en santé}~\cite{2030sante}. -Les compétitions donnée\footnote{Data challenge} font partis de la culture de la recherche en informatique et notament en apprentissage automatique comme avec la plateform Kaggle~\cite{kaggle}. +Cet appel à pour but le développement d'outils de A à Z et met l'accent sur les différents enjeux de l'IA avec des exigences environnementales et d'équité par exemple. +De part son aspect interdisciplinaire, l'IA est aussi présent dans d'autres domaine comme dans la santé par exemple avec l'appel \textit{Data Challenges en santé}~\cite{2030sante}. +Les compétitions donnée\footnote{Data challenge} font partis de la culture de la recherche en informatique et notamment en apprentissage automatique comme avec la plate-forme Kaggle~\cite{kaggle}. Cet appel à projet à pour but d'encourager la création de compétitions sur les donnée médicales. Pour généraliser, concernant l'IA, France 2030 a pour but la souveraineté numérique. -C'est-à dire de réduire la dépendance des institutions française aux services étrangers et notament des GAFAM aux Etats Unis. +C'est à dire de réduire la dépendance des institutions française aux services étrangers et notamment aux GAFAM. Il s'agit d'un aspect fondamentale de la LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique~\cite{loinumerique}. -Pour coordoner ces investissements en matière d'IA, le directeur général des entreprises du ministère de l’économie et des finances, et en lien avec le secrétariat général pour l’investissement on nomé un coordinateur national pour l’intelligence artificielle. +Pour coordonner ces investissements en matière d'IA, le directeur général des entreprises du ministère de l’économie et des finances, et en lien avec le secrétariat général pour l’investissement ont nommé un coordinateur national pour l’intelligence artificielle. \textquote{Il aura pour mission la coordination interministérielle de la stratégie nationale en intelligence artificielle}~\cite{coordinateur}. -Ce coordinateur est un exemple d'une réalisation pratique d'une recommendation du rapport Villanni\footnote{Cf. page 63 du rapport Villani}. +Ce coordinateur est un exemple d'une réalisation pratique d'une recommandation du rapport Villani\footnote{Cf. page 63 du rapport Villani}. \begin{figure} \centering \includegraphics[width=0.5\linewidth]{contexte/figure/google_trend.pdf} - \caption{Interet pour la rechere \textquote{Intelligence artificielle} en France dans Google. + \caption{Intérêt pour la recherche \textquote{Intelligence artificielle} en France dans Google. Les données ont été exportées grâce à Google Trend~\cite{gtrend}.} \label{fig:contexte-trend} \end{figure} %\subsection{Attentes de l'IA} %OMS rapport santé~\cite{oms}. +\FloatBarrier \subsection{Infrastructures} \label{sec:contexte-strat-infra} -Le dévelopement de l'IA demande des puissacne de calcul considérable pour faire fonctione les algorithem d'apprantissage automatique. -Par exemple le modèle Llama2 à necessité 3.311.616 GPUheure d'entraînement~\cite{touvron2023llama} ce qui signife qu'il faudrait 378 and à un individu ayant une seul carte graphique\footnote{Graphical Processing Unit} (GPU). -Pour que la France puisse réaliser ses objectif ambitieux en maitère d'IA il est donc necessaire de construire des supercalculateurs permettant de mutualiser entre les différents acteurs. -Nous avons donné l'exemple du supercalculateru Jean Zay~\cite{jeanzay} qui à été construit en parti dans cette optique. +Le développement de l'IA demande des puissances de calcul considérables pour faire fonctionner les algorithmes d'apprentissage automatique. +Par exemple le modèle Llama2 a nécessite 3.311.616 GPUheure d'entraînement~\cite{touvron2023llama} ce qui signifie qu'il faudrait 378 ans a un individu ayant une seul carte graphique\footnote{Graphical Processing Unit} (GPU). +Pour que la France puisse réaliser ses objectif ambitieux en matière d'IA il est donc nécessaire de construire des supercalculateurs en mutualisant les ressources entre les différents acteurs. +Nous avons donné l'exemple du supercalculateur Jean Zay~\cite{jeanzay} qui à été construit en parti dans cette optique. \begin{figure} \centering \includegraphics[width=0.4\linewidth]{contexte/figure/g5k-backbone.pdf} @@ -144,5 +145,6 @@ Nous avons donné l'exemple du supercalculateru Jean Zay~\cite{jeanzay} qui à à \end{figure} Dans ce manuscrit les calculs ont été réalisé sur une autre infrastructure : Grid5000 (G5K)~\cite{g5k}. -Il s'agit d'une grille de calcul mettant à disposition des centres de recherche français différent type de machine : des GPU, des CPU, des ordinateurs complets\footnote{Bare metal} ce qui permet un très large éventaille d'experiences. -Comme nous pouvons le voir sur la Figure~\ref{fig:contexte-g5k} l'aspect distribué de G5K permet de réaliser des experiences implique des système distribué comme par exemple l'apprentissage fédéré\footnote{Federated learning}. +Il s'agit d'une grille de calcul mettant à disposition des centres de recherche français différent type de machine : des GPU, des CPU, des ordinateurs complets\footnote{Bare metal} ce qui permet un très large éventail d'expériences. +Comme nous pouvons le voir sur la Figure~\ref{fig:contexte-g5k} l'aspect distribué de G5K permet de réaliser des expériences implique des système distribué comme par exemple l'apprentissage fédéré\footnote{Federated learning}. +\FloatBarrier |