Scheda di revisione: Optimisation et Régularisation en Apprentissage Profond

1. 📌 L'essentiel

  • La fonction de perte totale est la moyenne ou somme sur tous les exemples.
  • La desc de gradient ajuste les paramètres en fonction gradient de la perte.
  • La backpropagation calcule efficacement les gradients via la règle de chaîne.
  • Le surapprentissage survient quand le modèle mémorise le bruit, contrôlé par régularisation et early stopping.
  • La régularisation L2 (weight decay) pénalise les poids importants, L1 favorise la sparsité.
  • Dropout désactive aléatoirement des neurones pour améliorer la généralisation.
  • Les optimisateurs avancés (Adam, RMSProp) combinent plusieurs techniques pour une convergence plus rapide.
  • La sélection des hyperparamètres (taux d'apprentissage, régularisation) est cruciale.
  • La complexité du paysage de la perte peut causer oscillations ou stagnation.
  • La capacité du modèle doit être adaptée pour éviter sous- ou sur-apprentissage.

2. 🧩 Structures & Composants clés

  • Modèle de réseau neuronal — fonction paramétrique non linéaire hω:XYh_\omega : X \to Y.
  • Fonction de perte — mesure l'erreur entre prédiction et vérité (L(ω)L(\omega)).
  • Activations non linéaires — ReLU, tanh, sigmoid, rendant hωh_\omega non linéaire.
  • Gradient descent — méthode d'optimisation pour ajuster ω\omega.
  • Backpropagation — calcul efficace des gradients par la règle de chaîne.
  • Régularisation — pénalités ajoutées pour limiter la capacité du modèle.
  • Optimiseurs — SGD, Momentum, Adagrad, RMSProp, Adam.
  • Hyperparamètres — taux d'apprentissage, taille de batch, régularisation.

3. 🔬 Fonctions, Mécanismes & Relations

  • La perte totale est la moyenne sur tous les exemples, permettant une mise à jour globale.
  • La descente de gradient ajuste ω\omega dans la direction du gradient négatif.
  • La backpropagation utilise la règle de chaîne pour calculer tous les gradients efficacement.
  • La régularisation L2 ajoute λω22\lambda \|\omega\|_2^2, décourageant les poids importants.
  • La régularisation L1 ajoute λω1\lambda \|\omega\|_1, favorisant la sparsité.
  • Dropout désactive aléatoirement des neurones, réduisant la co-dépendance.
  • Data augmentation augmente la diversité des données d'entraînement.
  • Adam combine momentum et adaptativité pour une meilleure convergence.
  • La difficulté réside dans le choix du taux d'apprentissage et la gestion du paysage de la perte.

4. Tableau comparatif : Régularisation L1 vs L2

ÉlémentCaractéristiques clésNotes / Différences
Régularisation L2L2(ω)=Ltrain+λω22L_{2}(\omega) = L_{train} + \lambda \|\omega\|_2^2Décourage les poids importants, lisse la surface
Régularisation L1L1(ω)=Ltrain+λω1L_{1}(\omega) = L_{train} + \lambda \|\omega\|_1Favorise la sparsité, peut conduire à des poids nuls

5. 🗂️ Diagramme Hiérarchique ASCII

Régularisation et Optimisation
 ├─ Modèle NN
 │   ├─ Fonction de perte
 │   ├─ Non linéarité (ReLU, tanh)
 │   └─ Gradient descent
 ├─ Surapprentissage
 │   ├─ Capacité excessive
 │   └─ Régularisation, early stopping
 ├─ Techniques de régularisation
 │   ├─ L2 (Weight decay)
 │   ├─ L1 (Sparsité)
 │   ├─ Dropout
 │   └─ Data augmentation
 └─ Optimiseurs avancés
     ├─ SGD + Momentum
     ├─ Adagrad
     ├─ RMSProp
     └─ Adam

6. ⚠️ Pièges & Confusions fréquentes

  • Confondre régularisation L1 et L2 : L1 favorise la sparsité, L2 décourage les poids importants.
  • Croire que dropout élimine totalement le surapprentissage : c'est une régularisation implicite.
  • Penser que la régularisation est toujours nécessaire : dépend du problème et de la complexité.
  • Sous-estimer l'importance du tuning hyperparamètres.
  • Confondre surcapacité (overfitting) et sous-capacité (underfitting).
  • Croire que tous les optimisateurs donnent des résultats similaires.
  • Ignorer l'effet du taux d'apprentissage sur la stabilité.
  • Confondre la régularisation sur poids et biais (souvent évitée).

7. ✅ Checklist Examen Final

  • Comprendre la différence entre sur- et sous-capacité.
  • Savoir comment la régularisation L1 et L2 agissent.
  • Expliquer le principe de la backpropagation.
  • Connaître les principaux optimisateurs (SGD, Adam, RMSProp).
  • Savoir quand utiliser early stopping.
  • Comprendre l’impact de la taille de batch.
  • Savoir comment la data augmentation limite le surapprentissage.
  • Être capable d’interpréter un paysage de perte.
  • Connaître les effets du dropout.
  • Savoir ajuster les hyperparamètres pour optimiser la convergence.
  • Comprendre la relation entre complexité du modèle et généralisation.
  • Identifier les pièges courants en optimisation.
  • Expliquer le rôle de la normalisation par batch.
  • Connaître les techniques pour limiter la croissance des poids (Max-Norm).
  • Savoir différencier régularisation et normalisation.
  • Être capable de choisir une technique de régularisation selon le contexte.
  • Maîtriser les notions de convergence et stabilité en optimisation.

Metti alla prova le tue conoscenze

Metti alla prova le tue conoscenze su Optimisation et Régularisation en Apprentissage Profond con 10 domande a scelta multipla con correzioni dettagliate.

1. Quelle est la principale fonction d'une régularisation en apprentissage profond ?

2. Quelle méthode est utilisée pour calculer de manière efficace les gradients dans un réseau de neurones ?

Fai il quiz →

Ripassa con le flashcard

Memorizza i concetti chiave di Optimisation et Régularisation en Apprentissage Profond con 10 flashcard interattive.

Régularisation L2 — rôle ?

Décourage les poids importants

Fonction de perte — définition?

Moyenne ou somme des erreurs sur tous les exemples.

Dropout — technique ?

Désactivation aléatoire de neurones

Vedi le flashcard →

Similar courses

Crea le tue schede di revisione

Importa il tuo corso e l'AI genera schede, quiz e flashcard in 30 secondi.

Generatore di schede