Dans cette section nous allons évaluer comment se comporte notre algorithme dans des cas d'usage pratiques. \subsection{Classification de données tabulaires} Nous allons évaluer notre nouvel algorithme sur les jeux de données COMPAS et sur LAW. Nous présenterons plus en détail ces bases de données à la Section~\ref{sec:aia-methodo-jeu}. Disons pour le moment que COMPAS est un jeu tabulaire utilisé en justice prédictive pour créer des RAI comme nous les avons présentés en Section~\ref{sec:contexte-insti} et que LAW sert aux écoles de droit aux États-Unis pour sélectionner les étudiants en première année. Nous allons entraîner notre algorithme ainsi qu'une forêt aléatoire pour prédire si un coupable est récidiviste ou non sur COMPAS et pour prédire si un étudiant en droit va réussir l'examen du barreau par LAW. \begin{figure} \centering \begin{subfigure}{0.44\textwidth} \includegraphics[width=\textwidth]{classification_finie/figure/ba/COMPAS.pdf} \caption{COMPAS} \end{subfigure} \begin{subfigure}{0.44\textwidth} \includegraphics[width=\textwidth]{classification_finie/figure/ba/LAW.pdf} \caption{LAW} \end{subfigure} \caption{Comparaison de l'exactitude équilibrée entre une forêt aléatoire (random forest) et notre algorithme (finit classifier).} \label{fig:ba} \end{figure} Nous observons les résultats de l'exactitude équilibrée sur la Figure~\ref{fig:ba}. Les boîtes à moustache ont été obtenues grâce au processus de validations croisées\footnote{\textit{Cross validation}}. Nous n'observons pas de différence significative d'exactitude équilibrée pour COMPAS ; en revanche sur LAW notre algorithme est meilleur de plus de 10 points d'exactitude équilibrée. Sur COMPAS nous observons que pour certaines étapes de validation la forêt aléatoire dépasse notre algorithme. Cela ne va pas à l'encontre du fait que notre algorithme produise la meilleure exactitude équilibrée car cette assertion est vraie pour les données d'entraînement et ces résultats sont obtenus sur les données d'évaluation qui n'ont jamais été vues à l'entraînement. \begin{figure} \centering \begin{subfigure}{0.44\textwidth} \includegraphics[width=\textwidth]{classification_finie/figure/time/COMPAS.pdf} \caption{COMPAS} \end{subfigure} \begin{subfigure}{0.44\textwidth} \includegraphics[width=\textwidth]{classification_finie/figure/time/LAW.pdf} \caption{LAW} \end{subfigure} \caption{Comparaison du temps de calcul pour l'entraînement entre une forêt aléatoire (random forest) et notre algorithme (finit classifier).} \label{fig:time} \end{figure} Comme nous l'avons vu à la Section~\ref{sec:contexte-conso} la consommation d'énergie est un enjeu capital de l'IA. Nous avons donc enregistré le temps que prend l'ordinateur pour apprendre le modèle. Nous comparons donc notre algorithme à une forêt aléatoire dans la Figure~\ref{fig:time}. Nous utilisons l'implémentation de forêt aléatoire de scikit-learn~\cite{scikit-learn} sur un ordinateur portable Dell Latitude 5420 avec un processeur i7-1165G7 @ 2.8 GHz. Notre algorithme est trois fois plus rapide sur LAW et quatre fois plus rapide sur COMPAS. \FloatBarrier \subsection{Classification de données disparates} Les données disparates sont de formes et de types hétérogènes comme par exemple des images de dimensions différentes. C'est un cas courant qui se produit après avoir récupéré des données brutes et rend l'application directe de la plupart des algorithmes d'apprentissage automatique impossible sans prétraitement\footnote{\textit{Preprocessing}} ou intervention manuelle~\cite{ben2002theoretical}. Notre algorithme développé plus haut ne soufre pas de tel problème car nous travaillons uniquement sur les indices des éléments que l'on souhaite classifier. Nous explorons cet aspect avec l'expérience suivante : nous avons demandé à un panel d'utilisateur.ice.s de décrire en quelques mots les styles des tableaux de Paul Cézanne, un peintre impressionniste connu principalement pour ses tableaux de Provence. Les utilisateur.ices.s ont vu défiler les tableaux un-à-un. Pour chaque tableau il.elle.s devaient remplir un champ de textes n'imposant aucune restriction. Cela a créé des réponses très hétérogènes comme par exemple \textit{Paul Alexis lisant à Émile Zola} montré en Figure~\ref{fig:zola} qui à été classifié comme \textquote{Hôpital psychiatrique}. Les utilisateur.rice.s peuvent être vu.e.s comme l'ensemble des classifieurs faibles dont notre algorithme va cumuler les prédictions pour en créer une qui fasse consensus au sens de la maximisation de l'exactitude équilibrée. C'est donc une méthode qui se rapproche de la votation. \begin{figure} \centering \includegraphics[width=0.70\linewidth]{classification_finie/figure/cezanne/44.png} \caption{\textit{Paul Alexis lisant à Emile Zola}, Paul Cézanne, 1869-1870 (Huile sur toile) São Paulo, MASP, Museu de Arte de São Paulo Assis Chateaubriand © Museu de Arte, Sao Paulo, Brazil / Giraudon / Bridgeman Giraudon} \label{fig:zola} \end{figure} Nous obtenons un exactitude équilibrée de 0,48 pour une évaluation sur 20 tableaux, soit un aléatoire à $\frac{1}{20}=0,005$. \FloatBarrier