summaryrefslogtreecommitdiff
path: root/contexte/legal.tex
blob: 57b33332a574893ca0396b57917494eb770ac895 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168


Pour mieux comprendre les enjeux autour des différents scénarios d'attaques, 
outre la recherche inhérente au comportement sociétal humain à se dissimuler et à ne montrer que ce qu'il souhaite montrer,
penchons-nous du côté de la législation, des droits et des obligations qui entourent nos données.

\subsection{Protection des utilisateurs}
\label{sec:contexte-legal-util}
L'article 8 de la Charte des droits fondamentaux de l'Union Européenne dispose que : \og
\begin{enumerate}
    \item Toute personne a droit à la protection des données à caractère personnel la concernant.
    \item Ces données doivent être traitées loyalement, à des fins déterminées et sur la base du consentement
de la personne concernée ou en vertu d’un autre fondement légitime prévu par la loi. Toute personne a
le droit d’accéder aux données collectées la concernant et d’en obtenir la rectification.
    \item Le respect de ces règles est soumis au contrôle d’une autorité indépendante.
\end{enumerate}
\fg
L'objet de cette section est de comprendre comment ce droit fondamental entre en conflit avec les attaques décrites dans ce rapport au travers de l'étude de textes légaux.

L'article 4 paragraphe 1 du Règlement Général sur la Protection des Données, le RGPD, dispose que 
\og Une donnée à caractère personnel est toute information se rapportant à une personne physique identifiée ou identifiable \fg.
Cette définition est importante dans le cadre des attaques de modèles car elle permet de rapidement identifier le cadre légal : 
si nous pouvons rattacher l'inférence à une personne, il s'agit d'une donnée personnelle, elle doit donc être utilisée conformément au RGPD \cite{RGPD}
et à la loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés\cite{78-17}.

On se place dans le cadre où la base de données ayant servi d'entraînement au modèle de machine learning 
contient des données personnelles et des données sensibles.
On suppose aussi que l'utilisation de ces données pour l'entraînement du modèle est licite.

Dans nos travaux sur l'équitée nous avons étudié plusieurs attaques sur les attributs sensibles tels que l'ethnie ou le genre.
Nous nous sommes placés notamment dans le cadre où l'attribut sensible n'est pas utilisé dans l'entraînement du modèle,
ce qui signifie que la personne ayant fourni la donnée n'a pas donné son accord pour l'utilisation de l'attribut sensible.
Retrouver cet attribut sensible à partir du modèle est possible~\cite{malekzadeh2021honestbutcurious,Song2020Overlearning}.
Le traitement de cet attribut au sens de la définition de l'article 4 paragraphe 2 du RGPD est :
\og
toute opération ou tout ensemble d'opérations effectuées ou non à l'aide de procédés automatisés et appliquées à des données ou des ensembles de données à caractère personnel, telles que la collecte, l'enregistrement, l'organisation, la structuration, la conservation, l'adaptation ou la modification, l'extraction, la consultation, l'utilisation, la communication par transmission, la diffusion ou toute autre forme de mise à disposition, le rapprochement ou l'interconnexion, la limitation, l'effacement ou la destruction.
\fg

L'article 9 paragraphe 1 du RGPD dispose que 
\og
Le traitement des données à caractère personnel qui révèle l'origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d'identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique sont interdits.
\fg
Donc, publier un modèle avec lequel il est possible de retrouver l'ethnie ou le genre est donc illégal, sauf exceptions.

Même si l'attribut sensible ne rentrait pas dans le cadre de l'article 9 paragraphe 1 du RGPD le fait de pouvoir utiliser une attaque d'attribut constitue une violation des données personnelles au sens de l'article 4 paragraphe 12 du RGPD qui dispose qu'une violation des données personnelles est
\og
 une violation de la sécurité entraînant, de manière accidentelle ou illicite, la destruction, la perte, l'altération, la divulgation non autorisée de données à caractère personnel transmises, conservées ou traitées d'une autre manière, ou l'accès non autorisé à de telles données.
\fg

\subsection{Discrimination}
\label{sec:contexte-legal-discrimination}
Les facteur de discrimination et les données personels ont une grande intersection, (ethnie, couleur de peau, coryance religieuses, etc).
Si un adversaire utilise une attaque d'attribut pour inférer un facteur de discrimination et l'utilise pour réaliser une décision conernant un utilisateur, ou si un facteur de discrimination est implicitement ou explicitement utilisé par un modèle, il est possible que cette situation tombe dans le cadre des loi sur les discriminations.
Sur le site de \url{servie-publique.fr} nous trouvons la définition suivante de discrimination.
\textquote{La discrimination est un délit interdit par la loi et puni d'une amende et/ou d'une peine d'emprisonnement inférieure à 10 ans qui consiste à traiter défavorablement une personne en s'appuyant sur un motif interdit par la loi}~\cite{servicepubdiscrimination}.
Les motifs interdit par la loi se comptent au nombre de 25 critères de discrimination qui nous listons en Annexe~\ref{anx:discri}. 
Nous remarquons bien que ces critères sont ceux souvent classifier d'attribut sensible dans la litérature IA~\cite{Song2020Overlearning,malekzadeh2021honestbutcurious}.

En France, la lutte contre les discrimination fait parti des fondements de notre république.
Le mot \textquote{égalité} est dans la dévise de la cinquième république comme en dispose l'article 2 de la Constitution du 3 Juin 1958.
L'Article permier de notre Constitution dispose que
\textquote{Elle [la France] assure l'égalité devant la loi de tous les citoyens sans distinction d'origine, de race ou de religion. Elle respecte toutes les croyances.}.
De plus, l'article
71 alinéa 1 de la Constitution met en place 
la Défenseure des droits veille notament à défendre les personnes victimes de discimination~\cite{defenseure}.
Cette instance pousse aussi pour plus de responssabilisation des utilisateurs d'IA qui utilisent ces technologie sans considérer leur biais~\cite{defenseure2024lutter}.

Donnons un cas concret : l'utilisation de l'IA pour automatiser le recrutement est de plus en plus courant~\cite{defenseur2015emploi}.
Si les logiciels utilisé présentent de facteur de discrimination ou collecte trop d'informations sur les candidats au recrutemnt, l'employeur est dans l'illégalité.
En effet, l'article L 1221 alinéa 6 du Code du travail dispose que les informations demandé
\textquote{doivent présenter un lien direct et nécessaire avec l'emploi proposé ou avec l'évaluation des aptitudes professionnelles}.
De plus l'article L 1132 alinée 1 dispose que \textquote{aucune personne ne peut être écartée d'une procédure de recrutement ou de nomination ou de l'accès à un stage ou à une période de formation en entreprise, aucun salarié ne peut être sanctionné, licencié ou faire l'objet d'une mesure discriminatoire, directe ou indirecte}.

Comparativement à la loi française, aux Etats Unis d'Amérique, l'effet différencié\footnote{\textit{Disparate impact}} est une manière pratique de contrôler si une procédure crée un désavantage, une discrimination, contre une minoritée~\cite{biddle2006adverse}.
Cet effet différencie est une qunatité qui peut être calculé sur sur le modèle d'IA ou sur tout autre procédure qui réalise une séléction binaire comme l'admission dans une école, l'attribution et pret ou encore l'embauche.
C'est tout simplement la proportion d'admis de la minorité discriminé divisé par la majorité favorisé.
Nous en donnerons une définition plus formelle à la Section~\ref{sec:background-eq}
C'est dons une quantité qui varie entre 0 et 1 où 0 indique que personne dans la minorité n'est séléctioné et 1 indique que autant de personne de la majorité que de la minorité sont sélectione : c'est la parité.
Aux Etats Unis, si l'effet différencié est inférieur à $0,8$ cela constitu une preuve au regard de la loi qui fait jursiprudence que le système de selection fait preuce de discrimination.
En France nous n'avons pas de tel précédent ou un métrique précise est utilisé.

\subsection{Protection des bases de données}
On considère dans cette section que le producteur de la base de données bénéficie d'une protection par le droit sui generis au sens de l'article L.341-1 du Code de la Propriété Intellectuelle qui dispose que \og Le producteur d'une base de données, entendu comme la
personne qui prend l'initiative et le risque des investissements
correspondants, bénéficie d'une protection du contenu de la base lorsque
la constitution, la vérification ou la présentation de celui-ci atteste d'un
investissement financier, matériel ou humain substantiel \fg.

On peut imaginer plusieurs cas où les attaques présentées dans ce manuscrit peuvent porter atteinte aux droits du producteur de la base de données.

Supposons que le producteur décide d'interdire \og l'extraction ou la réutilisation répétée et systématique de parties qualitativement ou quantitativement non substantielles du contenu de la base lorsque ces opérations excèdent manifestement les conditions d'utilisation normales de la base de données.\fg,
comme le prévoit l'article L.342-2 du Code de la Propriété Intelectuelle.
Nous sommes alors en droit de penser qu'une attaque de reconstruction représente l'extraction d'une partie de la base de données, en l'occurence une colonne de la base de données.
De plus cette attaque excède les conditions d'utilisation car, dans ce cas, la condition d'utilisation normale est l'entraînement d'un modèle de machine learning.
Ici, la personne menant l'attaque porte atteinte aux droits du producteur de la base de données.

Considéreon maintenant que c'est le fournisseur de solution de machine learning, exploitant la base de données, qui porte atteinte aux droits du producteur.
    On se place dans le cas où le producteur interdit \og la réutilisation, par la mise à la disposition du public de la totalité ou d'une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu'en soit la forme.\fg, conformément à l'article L.342-1 alinéa 2 du Code de la Propriété Intelectuelle.
        Dans le cas où le fournisseur de modèle de machine learning permet à ses clients (le public) de mener à bien des attributs inference attack, il met à disposition une partie de la base par sa négligence à utiliser une méthode d'apprentissage résistante à ce type d'attaque.

Notons que l'article L.343-4 du Code de la Propriété Intellectuelle dispose qu'\og est puni de trois ans d'emprisonnement et de 300 000 euros d'amende le fait de porter atteinte aux droits du producteur d'une base de données tels que définis à l'article L. 342-1.\fg

\subsection{Secret des affaires}
L'attaque d'inférence de propriété peut révéler des statistiques globales sur une entreprise ayant utilisé une base de données qu'elle tient secrète pour l'entraînement d'un modèle de machine learning ensuite publié.
Ces statistiques sont des informations qui :
\begin{itemize}
    \item Ne sont pas connues ou aisément accessibles pour les personnes familières de ce type d'information.
    \item Revêtent une valeur commerciale, effective ou potentielle, du fait de leur caractère secret.
    \item Font l'objet de la part de son détenteur légitime de mesures de protection raisonnables, compte tenu des circonstances, pour en conserver le caractère secret.
\end{itemize}
Au titre de l'article L.151-1 du Code de Commerce, ces statistiques sont protégées en tant que secret des affaires.

De plus l'article L.151-4 alinéa 2 du Code de Commerce dispose que \og L'obtention d'un secret des affaires est illicite lorsqu'elle est réalisée sans le consentement de son détenteur légitime et qu'elle résulte [...] de tout autre comportement considéré, compte tenu des circonstances, comme déloyal et contraire aux usages en matière commerciale. \fg 

Ces articles datent de la loi n° 2018-670 du 30 juillet 2018 relative à la protection du secret des affaires.
Il n'y a pas de jurisprudence pour confirmer mais on peut raisonnablement penser qu'une attaque sur un modèle d'IA peut être considérée comme déloyale et contraire aux usages en matière commerciale.

Mais d'un autre côté, l'article L.151-3 alinéa 2 du Code de Commerce dispose que \og Constituent des modes d'obtention licite d'un secret des affaires l'observation, l'étude, le démontage ou le test d'un produit ou d'un objet qui a été mis à la disposition du public ou qui est de façon licite en possession de la personne qui obtient l'information, sauf stipulation contractuelle interdisant ou limitant l'obtention du secret. \fg
On pourrait donc dire que l'attaque s'apparente à une observation ou une étude d'un produit qui a été mis à la disposition du public.

Il faut donc attendre une jurisprudence en la matière pour savoir si cette attaque représente une atteinte au secret des affaires.
Quoi qu'il en soit, il est dans l'intérêt du producteur de la base de données de s'assurer que le fournisseur de solution IA sécurise convenablement ses modèles contre ce genre d'attaque.

\subsection{Usage illicite de l'IA}
Comme nous l'avons vu à la Section~\ref{sec:contexte-insti} avec l'exemple de la Chine, l'IA peut-être utilisé pour des raisons qui vont à l'encontre des droits les plus fondamentaux.
Face à cette menace, 
l'Union Européene a établie le règlement (UE) 2024/1689 du parlement européen et du conseil
du 13 juin 2024
établissant des règles harmonisées concernant l’intelligence artificielle~\cite{aiact}.
Etant un réglement il est directement applicable en droit français.
Ce réglement a trois approches visant à limité une utilisation de l'IA qui serait contraire aux droit fondamentaux.

La première approche consiste à résponsabiliser les fournisseur et les deployeurs de système d'IA quand au potentielles dérive avec l'Article 4.
De plus l'Article 50 dispose de l'obligation des frounisseur etdeployeurs de transparance, c'est à dire informer les utilisateurs qu'ils interagissent avec une IA.
Enfin de part leur nature générale et pouvant amener à la création d'IA mutliples, les fournisseurs de modèle de fondation\footnote{\textit{Fundation model}} comme ChatGPT ou Llama sont soumis à de plus grande obligations et responsabilités.

La seconde approche très pragmatique consiste à interdire un certaine nombre de pratiques qui sont listé à l'Article 5.
Citons certaines qui sont en rapport avec ce manuscrit.
Le paragraphe 1 alinéa c point (i) dispose que
\textquote{
Les pratiques en matière d’IA suivantes sont interdites:[...]
la mise sur le marché, la mise en service ou l’utilisation de systèmes d’IA pour l’évaluation ou la classification de
personnes physiques ou de groupes de personnes[...]
conduisant [au] 
traitement préjudiciable ou défavorable de certaines personnes physiques ou de groupes de personnes dans des
contextes sociaux dissociés du contexte dans lequel les données ont été générées ou collectées à l’origine
}
Ce qui, en plus de lois française sur les discriminations que nous avons cité plus haut, permet de clairment intérdire l'utilisation d'IA qui vont utiliser des critère de discrimination dans leur décision.
Ce point est particulièrement imporant pour ce manuscrit car nous allons déveloper aux Chapitres~\ref{sec:fini} et~\ref{sec:aia} une méthode d'audit des systèmes d'IA qui permet de savoir si un système utilise un critère de discrimination pour réaliser un prédiction.

Citons aussi le paragraph 1 alinéa d qui dispose que sont intérdit les sytème d'IA
\textquote{visant à évaluer ou à prédire le risque qu’une personne physique commette une infraction pénale}.
C'est un point de divergence important avec la législation de Etats Unis qui utilise ce genre de système comme nous l'avons vus à la Section~\ref{sec:contexte-insti}.
Dans ce manuscrit nous avons utilisé des bases de donée Etats Unienne pour construir ce genre de système IA pour les étudier.
Bien que nos conclusions sur ces sytèmes ne pourront pas s'appliquer en Union Européenne vu qu'ils sont désormais intérdits, notre analyse théorique reste valable et applicable à d'autres systèmes.
Nous avons d'ailleur évalué nos solutions sur d'autres modèles n'impliquant pas la justice prédictive.

La troisième approche consiste à classifier un certain nombre de pratique comme des \textquote{système d'IA à haut risques}.
Comme en dispose l'article 6, paragraphe 2 les système à haut risques sont par exemple des système qui concernent :
\begin{itemize}
    \item Emploi, gestion de la main-d'œuvre et accès à l'emploi indépendant (Annexe III, paragraphe 4)
    \item Accès et droit aux services privés essentiels et aux services publics et prestations sociales essentiels (Annexe III, paragraph 5)
\end{itemize}
Ce sont deux points pour lesquelles nous avons construit des système d'IA à titre illustratif dans ce manuscrit à la Section~\ref{sec:aia}.
Cette classification d'IA à haut risque impose des régles plus restrictive pour le déployement.
Par exemple l'Article 9, paragraph 1 dispose qu'un système de gestion des risques doit être établis.
L'Article 13 quand à lui impose un certain niveau d'exlicabilité du système.
Enfin nous atirons l'atention du.de la lecteur.rice sur l'Articel 15 qui met l'accent sur la sécurité de tel système forcant les fournisseurs de contrôler par exemple que leur système ne contient pas de porte dérobées.