📋 Plan du Cours
- Réseaux neuronaux & architecture
- Fonction d'activation & non-linéarité
- Propagation avant & calcul de sortie
- Rétropropagation & ajustement poids
- Fonction de perte & optimisation
- Apprentissage supervisé & données d'entraînement
- Régularisation & prévention du surapprentissage
- Validation croisée & évaluation du modèle
- Applications & domaines d'utilisation
📖 1. Réseaux neuronaux & architecture
🔑 Notions clés & Définitions
- Neurone artificiel : unité de base d’un réseau neuronal, inspirée du neurone biologique, qui reçoit des entrées, effectue un calcul (souvent une somme pondérée), puis applique une fonction d’activation pour produire une sortie.
- Couches : ensembles de neurones alignés dans un réseau, comprenant la couche d’entrée, les couches cachées et la couche de sortie.
- Fonction d’activation : fonction appliquée à la sortie d’un neurone pour introduire de la non-linéarité, par exemple ReLU, sigmoid, tanh.
- Réseau feedforward : réseau où l’information circule dans une seule direction, de l’entrée vers la sortie, sans rétroaction.
- Réseau récurrent : réseau où des connexions rétrogrades permettent de traiter des séquences ou des données temporelles.
- Backpropagation : algorithme d’apprentissage permettant d’ajuster les poids du réseau en calculant l’erreur de sortie et en la propageant en arrière pour optimiser les paramètres.
📝 Points essentiels
- La structure d’un réseau neuronal comprend une couche d’entrée, plusieurs couches cachées, et une couche de sortie, chaque couche étant composée de neurones connectés entre eux.
- La non-linéarité introduite par les fonctions d’activation permet aux réseaux d’apprendre des fonctions complexes, contrairement à une simple combinaison linéaire.
- La rétropropagation est essentielle pour l’apprentissage supervisé, permettant d’ajuster efficacement les poids via la descente de gradient.
- La profondeur du réseau (nombre de couches cachées) influence sa capacité à modéliser des relations complexes, mais augmente aussi le risque de surapprentissage et la difficulté d’entraînement.
- Les architectures variées (CNN, RNN, Transformers) sont adaptées à différents types de données (images, séquences, texte).
💡 À retenir
Les réseaux neuronaux sont des modèles inspirés du cerveau permettant d’apprendre des représentations complexes grâce à leur architecture en couches et à l’utilisation de fonctions d’activation non-linéaires, leur entraînement reposant principalement sur la rétropropagation.
📖 2. Fonction d'activation & non-linéarité
🔑 Notions clés & Définitions
- Fonction d'activation : Fonction appliquée à la sortie d'un neurone pour introduire de la non-linéarité, permettant au réseau d'apprendre des relations complexes.
- Non-linéarité : Propriété d'une fonction qui ne peut pas être représentée par une ligne droite, essentielle pour modéliser des relations complexes.
- Fonction sigmoïde : Fonction d'activation dont la sortie est comprise entre 0 et 1, souvent utilisée pour la classification binaire.
- ReLU (Rectified Linear Unit) : Fonction d'activation définie par max(0, x), favorisant la convergence rapide et évitant le problème de vanishing gradient.
- Fonction d'activation linéaire : Fonction où la sortie est proportionnelle à l'entrée (f(x) = x), limitée à des cas spécifiques ou en dernière couche pour la régression.
📝 Points essentiels
- La non-linéarité introduite par la choix de la fonction d'activation permet aux réseaux neuronaux de modéliser des relations complexes et non linéaires.
- Sans fonctions d'activation non linéaires, un réseau profond se comporterait comme un seul neurone, limitant sa capacité d'apprentissage.
- La fonction sigmoïde a tendance à saturer, ce qui peut ralentir l'apprentissage (vanishing gradient), tandis que ReLU est plus efficace pour les réseaux profonds.
- La sélection de la fonction d'activation dépend du problème : sigmoïde pour la classification binaire, ReLU pour la majorité des tâches de deep learning.
- Des variantes comme Leaky ReLU ou ELU ont été proposées pour éviter certains inconvénients de ReLU (dying ReLU).
💡 À retenir
La fonction d'activation est cruciale pour permettre aux réseaux neuronaux d'apprendre des relations complexes ; le choix de cette fonction influence directement la performance et la convergence du modèle.
📖 3. Propagation avant & calcul de sortie
🔑 Notions clés & Définitions
- Propagation avant (Forward Propagation) : Processus par lequel les entrées d’un réseau de neurones sont transmises à travers les couches pour produire une sortie. Elle consiste à calculer les activations successives jusqu’à la couche de sortie.
- Fonction d’activation : Fonction appliquée à la sortie d’un neurone pour introduire de la non-linéarité, par exemple ReLU, sigmoid, tanh.
- Poids (Weights) : Paramètres ajustables du réseau qui déterminent la contribution de chaque entrée dans le calcul de la sortie d’un neurone.
- Biais (Bias) : Terme ajouté au calcul d’un neurone pour ajuster la sortie indépendamment des entrées.
- Sortie (Output) : Résultat final du réseau après propagation, utilisé pour la classification ou la régression.
- Fonction de perte (Loss Function) : Fonction qui mesure l’écart entre la sortie prédite et la sortie réelle, utilisée pour l’apprentissage.
📝 Points essentiels
- La propagation avant consiste à calculer, couche par couche, la sortie en utilisant la formule :
z(l)=W(l)a(l−1)+b(l)
où W(l) sont les poids, a(l−1) les activations de la couche précédente, et b(l) le biais.
- La sortie d’un neurone après activation est :
a(l)=σ(z(l)), avec σ la fonction d’activation.
- La sortie finale du réseau est utilisée pour calculer la perte, qui sera optimisée lors de l’apprentissage.
- La propagation avant est la première étape du processus d’apprentissage supervisé, suivie par la rétropropagation pour ajuster les poids.
- La complexité du calcul dépend du nombre de couches, de neurones par couche, et du type de fonction d’activation.
💡 À retenir
La propagation avant permet de transformer les entrées en sortie à travers un réseau de neurones en utilisant des opérations mathématiques simples, constituant la base pour l’apprentissage supervisé.
📖 4. Rétropropagation & ajustement poids
🔑 Notions clés & Définitions
- Rétropropagation (backpropagation) : Algorithme d'apprentissage supervisé permettant d'ajuster les poids d'un réseau de neurones en calculant l'erreur de sortie et en la propageant en arrière pour mettre à jour les poids.
- Fonction de perte (loss function) : Fonction qui mesure l'écart entre la sortie du réseau et la valeur attendue, servant à guider l'ajustement des poids.
- Gradient : Vecteur de dérivées partielles indiquant la direction de la pente la plus forte pour minimiser la fonction de perte.
- Descente de gradient : Méthode d'optimisation qui ajuste les poids dans la direction opposée au gradient pour réduire l'erreur.
- Taux d'apprentissage (learning rate) : Paramètre déterminant la taille des ajustements de poids lors de chaque itération de la descente de gradient.
- Propagation avant (forward propagation) : Passage des données d'entrée à travers le réseau pour obtenir la sortie.
📝 Points essentiels
- La rétropropagation repose sur le calcul du gradient de la fonction de perte par rapport aux poids via la règle de la chaîne.
- Elle se déroule en deux phases : propagation avant pour calculer la sortie, puis rétropropagation pour ajuster les poids.
- La mise à jour des poids se fait généralement par la formule :
wnew=wold−η∂w∂L
où η est le taux d'apprentissage et ∂w∂L le gradient de la perte.
- La convergence dépend du choix du taux d'apprentissage : trop élevé peut provoquer une divergence, trop faible ralentit l'apprentissage.
- La rétropropagation permet d'entraîner efficacement des réseaux profonds en ajustant tous les poids simultanément.
💡 À retenir
La rétropropagation est l'algorithme clé qui permet d'ajuster efficacement les poids d’un réseau de neurones en utilisant le gradient de la fonction de perte, ce qui facilite l'apprentissage à partir des erreurs.
📖 5. Fonction de perte & optimisation
🔑 Notions clés & Définitions
- Fonction de perte (Loss function) : Fonction qui mesure l'écart entre la prédiction du modèle et la valeur réelle. Elle guide l'apprentissage en indiquant à quel point le modèle est précis ou erroné.
- Fonction d'objectif (Objective function) : Fonction à minimiser lors de l'optimisation, souvent équivalente ou liée à la fonction de perte, intégrant parfois des termes de régularisation.
- Gradient (Gradient) : Vecteur de dérivées partielles indiquant la direction de la pente la plus forte pour minimiser la fonction de perte.
- Optimisation (Optimization) : Processus de recherche des paramètres du modèle qui minimisent la fonction de perte, généralement via des algorithmes comme la descente de gradient.
- Descente de gradient (Gradient descent) : Algorithme itératif pour ajuster les paramètres en suivant la direction opposée au gradient de la fonction de perte.
- Régularisation (Regularization) : Technique ajoutant une pénalité à la fonction de perte pour éviter le surapprentissage (overfitting), par exemple L1 ou L2.
📝 Points essentiels
- La fonction de perte est essentielle pour l'apprentissage supervisé, car elle quantifie l'erreur du modèle.
- La minimisation de la fonction de perte se fait souvent par la descente de gradient ou ses variantes (stochastique, mini-batch).
- La convergence de l'algorithme dépend du choix de la fonction de perte, du taux d'apprentissage, et de la nature du problème.
- La régularisation permet d'améliorer la généralisation en évitant que le modèle ne s'ajuste trop aux données d'entraînement.
- La sélection de la fonction de perte dépend du type de problème : MSE pour la régression, Cross-entropy pour la classification.
💡 À retenir
La fonction de perte guide l'apprentissage en quantifiant l'erreur, et l'optimisation vise à ajuster les paramètres du modèle pour la minimiser, assurant ainsi une meilleure performance et généralisation.
📖 6. Apprentissage supervisé & données d'entraînement
🔑 Notions clés & Définitions
- Apprentissage supervisé : Méthode d'apprentissage automatique où le modèle apprend à partir d’un ensemble de données étiquetées, c’est-à-dire avec des entrées associées à des sorties correctes.
- Données d'entraînement : Ensemble de données utilisé pour entraîner le modèle, comprenant des exemples avec leurs étiquettes ou réponses correctes.
- Fonction de perte : Fonction qui mesure l’écart entre la prédiction du modèle et la vérité terrain ; elle guide l’optimisation du modèle.
- Généralisation : Capacité du modèle à effectuer des prédictions précises sur de nouvelles données non vues lors de l’entraînement.
- Overfitting (surapprentissage) : Situation où le modèle apprend trop bien les données d’entraînement, y compris le bruit, au détriment de sa capacité à généraliser.
- Validation croisée : Technique pour évaluer la performance du modèle en le testant sur plusieurs sous-ensembles de données, afin d’éviter le surapprentissage.
📝 Points essentiels
- L'apprentissage supervisé nécessite des données étiquetées pour apprendre une fonction de prédiction.
- La qualité et la représentativité des données d’entraînement sont cruciales pour la performance du modèle.
- La fonction de perte doit être minimisée pour optimiser le modèle, souvent via des algorithmes comme la descente de gradient.
- La validation croisée permet d’évaluer la capacité de généralisation du modèle et d’éviter le surapprentissage.
- La complexité du modèle doit être adaptée à la quantité et à la diversité des données pour éviter le surapprentissage ou le sous-apprentissage.
- La séparation en ensembles d’entraînement, de validation et de test est essentielle pour une évaluation fiable.
💡 À retenir
L’apprentissage supervisé repose sur des données étiquetées pour entraîner un modèle capable de généraliser, mais il nécessite un équilibre entre complexité du modèle et quantité de données pour éviter le surapprentissage.
📖 7. Régularisation & prévention du surapprentissage
🔑 Notions clés & Définitions
- Surapprentissage (Overfitting) : phénomène où un modèle apprend parfaitement les données d'entraînement, y compris le bruit, au détriment de sa capacité à généraliser sur de nouvelles données.
- Régularisation : ensemble de techniques visant à réduire la complexité d’un modèle pour améliorer sa capacité de généralisation.
- L1 (Lasso) : technique de régularisation qui ajoute une pénalité proportionnelle à la somme des valeurs absolues des coefficients, favorisant la sparsité.
- L2 (Ridge) : technique de régularisation qui ajoute une pénalité proportionnelle à la somme des carrés des coefficients, réduisant leur magnitude sans les annuler.
- Dropout : méthode de régularisation en entraînant un réseau de neurones en désactivant aléatoirement certains neurones lors de chaque itération.
- Early stopping : technique qui consiste à arrêter l’entraînement dès que la performance sur un ensemble de validation commence à se dégrader, évitant ainsi le surapprentissage.
📝 Points essentiels
- Le surapprentissage survient lorsque le modèle est trop complexe par rapport à la quantité et la diversité des données.
- La régularisation L1 et L2 permettent de contrôler la complexité du modèle en pénalisant certains paramètres.
- Dropout et early stopping sont des techniques efficaces pour prévenir le surapprentissage dans les réseaux de neurones.
- La validation croisée est essentielle pour détecter le surapprentissage en évaluant la performance du modèle sur des données non vues.
- La sélection de modèles doit équilibrer biais et variance : un modèle trop simple sous-apprend, un modèle trop complexe surapprend.
- La régularisation doit être ajustée via la validation pour optimiser la généralisation.
💡 À retenir
La régularisation est indispensable pour éviter le surapprentissage, en contrôlant la complexité du modèle, afin d’assurer une bonne généralisation sur de nouvelles données.
📖 8. Validation croisée & évaluation du modèle
🔑 Notions clés & Définitions
- Validation croisée (Cross-validation) : Technique d’évaluation de la performance d’un modèle en le testant sur plusieurs sous-ensembles de données, afin d’assurer sa robustesse et sa généralisation.
- K-fold : Méthode de validation croisée où l’ensemble des données est divisé en K sous-ensembles (ou "folds"). Le modèle est entraîné sur K-1 folds et testé sur le fold restant, répété K fois.
- Score de performance : Mesure quantitative (ex : précision, rappel, F-mesure, erreur quadratique moyenne) permettant d’évaluer la qualité du modèle.
- Overfitting : Situation où le modèle s’ajuste trop étroitement aux données d’entraînement, perdant en capacité de généralisation.
- Validation : Processus de vérification de la performance du modèle sur des données non utilisées lors de l’entraînement, pour éviter le surapprentissage.
📝 Points essentiels
- La validation croisée permet d’obtenir une estimation fiable de la performance du modèle en utilisant plusieurs sous-ensembles de données.
- La méthode K-fold est la plus courante : elle divise l’ensemble en K parties, entraînant et testant le modèle K fois pour réduire la variance de l’évaluation.
- La sélection du nombre K influence la variance et le biais de l’estimation : K élevé (ex : 10) réduit le biais mais augmente la variance.
- La validation croisée aide à détecter le surapprentissage et à ajuster les hyperparamètres.
- Il est crucial de séparer les données de validation du processus d’entraînement pour éviter le biais d’évaluation.
- La métrique choisie dépend du type de problème (classification, régression) et doit refléter l’objectif principal.
💡 À retenir
La validation croisée, notamment la méthode K-fold, est essentielle pour évaluer la robustesse et la capacité de généralisation d’un modèle, en évitant le surapprentissage et en optimisant ses hyperparamètres.
📖 9. Applications & domaines d'utilisation
🔑 Notions clés & Définitions
- Intelligence artificielle (IA) : Ensemble de techniques permettant à des machines de simuler l'intelligence humaine, notamment par l'apprentissage, le raisonnement et la perception.
- Machine Learning (apprentissage automatique) : Sous-domaine de l'IA où les algorithmes apprennent à partir de données pour faire des prédictions ou des classifications.
- Deep Learning (apprentissage profond) : Technique de machine learning utilisant des réseaux de neurones profonds pour traiter des données complexes comme les images ou le langage naturel.
- Automatisation : Utilisation de systèmes automatisés ou d'IA pour réaliser des tâches répétitives ou complexes sans intervention humaine.
- Domaines d'application : Secteurs où l'IA est utilisée, tels que la santé, la finance, l'industrie, la robotique, le transport, etc.
📝 Points essentiels
- L'IA est omniprésente dans de nombreux secteurs, améliorant efficacité et précision.
- En médecine, elle permet le diagnostic assisté, la personnalisation des traitements et la recherche de nouvelles molécules.
- En finance, elle facilite la détection de fraudes, la gestion de portefeuilles et la prédiction de marchés.
- Dans l'industrie, l'automatisation et la maintenance prédictive optimisent la production.
- La robotique, combinée à l'IA, permet le développement de robots autonomes pour la logistique, la chirurgie ou l'exploration.
- La sécurité et l'éthique sont des enjeux majeurs liés à l'utilisation de l'IA, notamment en termes de confidentialité et de biais algorithmiques.
💡 À retenir
L'IA, en s'intégrant dans divers domaines, transforme profondément nos modes de vie et de travail, tout en soulevant des enjeux éthiques et sociétaux cruciaux.
📊 Tableaux de Synthèse
| Aspect | Réseaux neuronaux classiques | Architectures avancées (CNN, RNN, Transformers) |
|---|
| Structure | Couches denses, fully connected | Spécifiques : convolutionnelles, récurrentes, attentionnelles |
| Fonction d'activation | ReLU, sigmoid, tanh | Même, avec adaptations spécifiques (ex : attention) |
| Propagation | Forward + Backpropagation | Même, avec modules spécialisés (ex : convolution, attention) |
| Utilisation principale | Tâches générales (classification, régression) | Tâches complexes : vision, séquences, NLP |
| Aspect | Fonction d'activation classique | Fonction d'activation avancée |
|---|
| Sigmoïde | Limite entre 0 et 1, saturante | Utilisée en sortie pour classification binaire |
| ReLU | Rapide, évite vanishing gradient | Standard pour couches cachées, variants pour éviter dying ReLU |
| Tanh | Limite entre -1 et 1, centrée sur zéro | Moins utilisée, mais utile dans certains cas |
⚠️ Pièges & Confusions Fréquentes
- Confondre propagation avant et rétropropagation : la première calcule la sortie, la seconde ajuste les poids.
- Négliger l’effet du choix de la fonction d’activation : ReLU évite le vanishing gradient, sigmoid peut saturer.
- Confondre la fonction de perte avec la fonction d’activation : la perte mesure l’erreur, l’activation modifie la sortie.
- Ignorer le problème du surapprentissage : ne pas régulariser ou valider peut mener à un modèle surajusté.
- Sous-estimer l’importance du taux d’apprentissage : un mauvais taux ralentit ou empêche la convergence.
- Confondre réseaux feedforward et récurrents : ces derniers traitent des séquences avec rétroaction.
- Oublier que la profondeur augmente la capacité mais aussi la difficulté d’entraînement.
- Confondre la propagation avant et la rétropropagation : la première pour calculer la sortie, la seconde pour ajuster.
- Négliger la normalisation ou la régularisation : essentielles pour éviter le surapprentissage.
- Confondre l’utilisation de différentes architectures sans adapter leur paramétrage.
✅ Checklist Examen
- Définir un neurone artificiel et ses composants (poids, biais, fonction d’activation).
- Expliquer la différence entre réseau feedforward et réseau récurrent.
- Décrire le processus de propagation avant dans un réseau neuronal.
- Citer et expliquer l’utilité des principales fonctions d’activation (ReLU, sigmoid, tanh).
- Illustrer comment la rétropropagation ajuste les poids du réseau.
- Définir la fonction de perte et donner un exemple couramment utilisé.
- Expliquer le principe de la descente de gradient et son rôle dans l’apprentissage.
- Identifier les principaux risques de surapprentissage et comment les prévenir.
- Décrire l’importance de la validation croisée dans l’évaluation d’un modèle.
- Donner des exemples d’applications concrètes des réseaux neuronaux.
- Expliquer comment la régularisation (L1, L2, dropout) contribue à la généralisation.
- Mentionner au moins deux architectures spécialisées et leur domaine d’application.
Crea le tue schede di revisione
Importa il tuo corso e l'AI genera schede, quiz e flashcard in 30 secondi.
Generatore di schede