summaryrefslogtreecommitdiff
path: root/contexte/enjeux.tex
blob: c69573f8f1c30e244623f9a4fd86982b93f3e845 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80

Les modèles de decisions ont pour but réaliser un choix de manière automatiques sans ou en reduisant l'intervention humaine.
L'optique est de pouvoir traiter un grand nombre de décision rapidement tout en retirant certain biais que pourais avoir un décideur humain~\cite{}.
Par exemple un modèle peut décider quelle publicité vas voir un utiliateur d'un page web~\cite{} ou quelle ecriture comptable présente une anomalie dans une logique d'audit~\cite{}.
Applliqué à certains milieux, cette methode de décision soulève de nombreuses critiques et inquiétudes qui ont investi le débat publique.
Ces critiques et inquétudes sont théorisés dans la littérature scientifique au travers des six défis de l'IA:
\begin{enumerate}
    \item Utilitée
    \item Equitée
    \item Expliquatbilité/Transparance
    \item Confientialitée
    \item Sécuritée
    \item Comsomation d'énergie
\end{enumerate}

\subsection{Utilitée}
L'utilitée est le défis primordial pour tout modèle : le s'agit que le modèle remplisse suffisamant bien la tâche pour laquelle il a été conçut.
Par exemple, un modèle qui sert à predire si un grain de beauté est un cancer de la peau ou non ne doit pas générer de faux negatifs, sinon comment avoir confaince en sa décision ?
L'expressiosn de \textquote{remplire suffisamant bien la tâche} à toute son importance dans la mesure où seul les modèles ayant une tâche triviale ne se trompent pas.
Il revient donc aux personnes qui crée ces modèles de déterminer, en fonction du contexte d'application, l'erreur maximal que peut atteindre le modèle pour qu'il soit considéré comme viable et utilisable en production.

\subsection{Equitée}
\label{sec:contexte-eq}
L'élborations de modèles est soumis à différent bias qui influencent son fonctionement~\cite{}.
C'est à dire que le modèle se compre différamant pour différents sous-ensembles de la population.
Cela peut donner lieu à des discriminations notament dans le modèle de décision qui influence directment la vie de persones.
La justice prédictive tel qu'utilisé aux Etats Unis en est un bon exemple.
Dans ce cas, un modèle est utilisé pour prédire si un individu jugé coupable à un forte probabilité d'être récidiviste au non.
En utilisant de tel modèle nous mesurons que les afro-américains (\textit{blacks}) son plus souvent predit comme ayant un forte chance d'être récidiviste que le reste de la population (\textit{whites})~\cite{}.
En plus d'être un enjeu, Al-Alawi et al.~\cite{al2021role} avance que l'utilisation de l'IA peut être une solution plus equitable que la décision humaine dans le processus de recrutement. 

L'équitée dans le modèle peut-être imposé lors de l'entraînement.
Nous étudierons en détail ce processu dans la Section~\ref{sec:background-eq}.

\subsection{Explicabilitée}
\label{sec:contexte-expl}
Transparance dans la médecine, Boite noire, ~\cite{quinn2022three}.

\subsection{Confidentialitée}
D'une manière génèrale, l'inteligence artificielle brasse une quantité astronomique de données~\cite{}.
Ce brassage s'opère à deux niveaux : au moment de la creation du modèle et au moment de son utilisation en production.
Pour créer des modèles performants, il est necessaire d'utiliser beaucoup de données.
Ces données servent à choisirs les bon parametres du modèle au travers de divers methods statistiques et d'optimisations, on les appeles données d'entrainement.
Les modèles les plus récent et performant necessite un grand nombre de paramètres, citons par exemple le LLM LLaMA qui posède 65 milliard de pramètres ~\cite{}!
Ce grand nombre de paramètre a l'effet indesirable de mémoriserdes informations potentielement sensible sur les données d'entrainement~\cite{}.
L'information contenue dans les données d'entrainement est comme résumé, compressée dans la masses, a prior incompréhensible pour un humain, des paramètres du modèle.
Ainsi un individue malveillant, que l'on appelera attaqueur, pourra retrouver des informations sur les données d'entrainement juste en utilisant les paramètres du modèle~\cite{}.
\begin{figure}
    \centering
    \input{contexte/figure/tikz/train}
    \caption{Les données d'entrainement servent à trouver les paramètres du modèle.
    L'attaqueur utilise les paramètre pour retrouver des informations sur les données d'entrainement.}
    \label{fig:contexte-train}
\end{figure}

Un autre risque de fuite de donnée se trouve au moment du l'utilisation du modèle, après son entraînement, lors de son utilisation. 
A ce moment, les utilisateurs envoient en entrée du modèle des données qu'ils peuvent vouloir gardé confidentielles.
Cependant la sortie du modèle, qui a vocation à être partagée, peut reveler une parite des informations sensibles contenues dans les donnée d'entrée de l'utilisateurs.
Mettre en avant risque est le travail originial que nous avons réalisé : nous le présentons dans la Section~\ref{sec:aia}.

\subsection{Sécuritée}
\label{sec:contexte-secu}
Backdoor~\cite{gao2020backdoor, doan2021lira}

\subsection{Comsomation d'énergie}

On comprend bien le caractère primoridal et particulier de l'utilitée.
A quoi bon avoir un modèle equitable ou qui ne consome presque pas d'énergie si ses prédictions sont toujours fausses ?
Ainsi, qaund nous évaluons un modèle au travers des autres défis, nous metons toujours se résultat en parallèle avec l'utilitée.
De manière plus générale, les six défis sont lié entre eux et l'étude de ces liens et un sujet de recherche florissant~\cite{}.

Par exemple Parcoursup est un programme dévelopé par le gouvernment français qui à pour but d'automatiser l'attribution des places dans l'enseignement supérieur au nouveaux bacheliers~\cite{}.
Depuis son entré en vigeur en 2018..  

Justice predictive COMPAS

Assurances