Le but du calcul différentiel est l'étude des variations infinitésimales des fonctions. Nous allons nous contenter ici d'étudier les fonctionnelles, c'est-à-dire des fonctions de $\mathbb{R}^n$ dans $\mathbb{R}$ car c'est ce dont nous allons avoir besoin en apprentissage automatique. \begin{definition}[Produit scalaire euclidien] \label{def:background-dif-scal} Soit $(x,y){\in\mathbb{R}^n}^2$ alors le produit scalaire euclidien est \begin{equation*} \langle x,y \rangle = \sum_{i=0}^{n-1}x_iy_i \end{equation*} \end{definition} \begin{definition}[Norme euclidienne] \label{def:background-dif-eucl} Soit $x\in\mathbb{R}^n$, nous définissons le norme euclidienne de $x$ par l'expression suivante \begin{equation*} ||x||={\langle x,x\rangle}^{\frac{1}{2}} \end{equation*} \end{definition}  \begin{definition}[Limite] \label{def:background-dif-lim} Soit $f$ une fonction de $\mathbb{R}^m$ dans $\mathbb{R}^n$. Soit $x\in\mathbb{R}^m$. Nous dirons que $f$ admet une limite en $x$ s'il existe $y\in\mathbb{R}^n$ tel que \begin{equation*} \forall\varepsilon>0\exists\delta>0\forall a\in\mathbb{R}^m~||a-x||<\delta\implies||f(a)-y||<\varepsilon \end{equation*} Nous écrivons $lim_{a\rightarrow x}f(a)=y$ car $y$ est alors unique~\cite{Bourrigan2021-dd}. \end{definition} \begin{definition}[Différentielle] \label{def:background-dif-dif} Soit $f$ une fonction de $\mathbb{R}^n$ dans $\mathbb{R}$. Nous dirons que $f$ est différentiable en $a\in\mathbb{R}^n$ si et seulement si il existe $df(a)\in\mathbb{L}(\mathbb{R}^n,\mathbb{R})$ tel qu'il existe $\varepsilon:\mathbb{R}^n\rightarrow \mathbb{R}$ tel que pour tout $h\in\mathbb{R}^n$ \begin{equation*} f(a+h) = f(a)+df(a)h+||h||\varepsilon(h) \end{equation*} avec $lim_{h\rightarrow 0}\varepsilon(h)=0$. $df(a)$ s'appelle la \emph{différentielle} de $f$ en $a$. \end{definition} \begin{definition} \label{def:background-math-grad} Pour tout $x\in\mathbb{R}$ nous définissons la $i$ème dérivée partielle de $f$ par \begin{equation*} \partial_i f :\left\{ \begin{matrix} \mathbb{R}\rightarrow \mathbb{R}\\ x\mapsto df(x)e_i \end{matrix} \right. \end{equation*} Où $e_i$ est le $i$ème vecteur de la base canonique de $\mathbb{R}^n$. Et nous définissons le gradient de $f$ par la formule suivante : \begin{equation*} \nabla f:\left\{ \begin{matrix} \mathbb{R}^n\rightarrow \mathbb{R}^n\\ x\mapsto\left( \begin{matrix} \partial_0 f(x)\\ \vdots\\ \partial_{n-1} f(x)\\ \end{matrix} \right) \end{matrix} \right. \end{equation*} \end{definition} Pour le.la lecteur.ice familier.ère avec la dérivabilité notons que \begin{equation*} lim_{h\rightarrow 0}\frac{f(x+he_i)-f(x)}{h} = \partial_i f(x) \end{equation*} \begin{propriete} Soit $f:\mathbb{R}^n\rightarrow \mathbb{R}$ différentiable. \begin{equation*} \forall (x+h)\in{\mathbb{R}^n}^2~df(x)h = \langle \nabla f(x),h\rangle \end{equation*} \end{propriete}