Ficha de revisão: Optimisation et Régularisation en Apprentissage Profond

1. 📌 L'essentiel

  • La fonction de perte totale est la moyenne ou somme sur tous les exemples.
  • La desc de gradient ajuste les paramètres en fonction gradient de la perte.
  • La backpropagation calcule efficacement les gradients via la règle de chaîne.
  • Le surapprentissage survient quand le modèle mémorise le bruit, contrôlé par régularisation et early stopping.
  • La régularisation L2 (weight decay) pénalise les poids importants, L1 favorise la sparsité.
  • Dropout désactive aléatoirement des neurones pour améliorer la généralisation.
  • Les optimisateurs avancés (Adam, RMSProp) combinent plusieurs techniques pour une convergence plus rapide.
  • La sélection des hyperparamètres (taux d'apprentissage, régularisation) est cruciale.
  • La complexité du paysage de la perte peut causer oscillations ou stagnation.
  • La capacité du modèle doit être adaptée pour éviter sous- ou sur-apprentissage.

2. 🧩 Structures & Composants clés

  • Modèle de réseau neuronal — fonction paramétrique non linéaire hω:XYh_\omega : X \to Y.
  • Fonction de perte — mesure l'erreur entre prédiction et vérité (L(ω)L(\omega)).
  • Activations non linéaires — ReLU, tanh, sigmoid, rendant hωh_\omega non linéaire.
  • Gradient descent — méthode d'optimisation pour ajuster ω\omega.
  • Backpropagation — calcul efficace des gradients par la règle de chaîne.
  • Régularisation — pénalités ajoutées pour limiter la capacité du modèle.
  • Optimiseurs — SGD, Momentum, Adagrad, RMSProp, Adam.
  • Hyperparamètres — taux d'apprentissage, taille de batch, régularisation.

3. 🔬 Fonctions, Mécanismes & Relations

  • La perte totale est la moyenne sur tous les exemples, permettant une mise à jour globale.
  • La descente de gradient ajuste ω\omega dans la direction du gradient négatif.
  • La backpropagation utilise la règle de chaîne pour calculer tous les gradients efficacement.
  • La régularisation L2 ajoute λω22\lambda \|\omega\|_2^2, décourageant les poids importants.
  • La régularisation L1 ajoute λω1\lambda \|\omega\|_1, favorisant la sparsité.
  • Dropout désactive aléatoirement des neurones, réduisant la co-dépendance.
  • Data augmentation augmente la diversité des données d'entraînement.
  • Adam combine momentum et adaptativité pour une meilleure convergence.
  • La difficulté réside dans le choix du taux d'apprentissage et la gestion du paysage de la perte.

4. Tableau comparatif : Régularisation L1 vs L2

ÉlémentCaractéristiques clésNotes / Différences
Régularisation L2L2(ω)=Ltrain+λω22L_{2}(\omega) = L_{train} + \lambda \|\omega\|_2^2Décourage les poids importants, lisse la surface
Régularisation L1L1(ω)=Ltrain+λω1L_{1}(\omega) = L_{train} + \lambda \|\omega\|_1Favorise la sparsité, peut conduire à des poids nuls

5. 🗂️ Diagramme Hiérarchique ASCII

Régularisation et Optimisation
 ├─ Modèle NN
 │   ├─ Fonction de perte
 │   ├─ Non linéarité (ReLU, tanh)
 │   └─ Gradient descent
 ├─ Surapprentissage
 │   ├─ Capacité excessive
 │   └─ Régularisation, early stopping
 ├─ Techniques de régularisation
 │   ├─ L2 (Weight decay)
 │   ├─ L1 (Sparsité)
 │   ├─ Dropout
 │   └─ Data augmentation
 └─ Optimiseurs avancés
     ├─ SGD + Momentum
     ├─ Adagrad
     ├─ RMSProp
     └─ Adam

6. ⚠️ Pièges & Confusions fréquentes

  • Confondre régularisation L1 et L2 : L1 favorise la sparsité, L2 décourage les poids importants.
  • Croire que dropout élimine totalement le surapprentissage : c'est une régularisation implicite.
  • Penser que la régularisation est toujours nécessaire : dépend du problème et de la complexité.
  • Sous-estimer l'importance du tuning hyperparamètres.
  • Confondre surcapacité (overfitting) et sous-capacité (underfitting).
  • Croire que tous les optimisateurs donnent des résultats similaires.
  • Ignorer l'effet du taux d'apprentissage sur la stabilité.
  • Confondre la régularisation sur poids et biais (souvent évitée).

7. ✅ Checklist Examen Final

  • Comprendre la différence entre sur- et sous-capacité.
  • Savoir comment la régularisation L1 et L2 agissent.
  • Expliquer le principe de la backpropagation.
  • Connaître les principaux optimisateurs (SGD, Adam, RMSProp).
  • Savoir quand utiliser early stopping.
  • Comprendre l’impact de la taille de batch.
  • Savoir comment la data augmentation limite le surapprentissage.
  • Être capable d’interpréter un paysage de perte.
  • Connaître les effets du dropout.
  • Savoir ajuster les hyperparamètres pour optimiser la convergence.
  • Comprendre la relation entre complexité du modèle et généralisation.
  • Identifier les pièges courants en optimisation.
  • Expliquer le rôle de la normalisation par batch.
  • Connaître les techniques pour limiter la croissance des poids (Max-Norm).
  • Savoir différencier régularisation et normalisation.
  • Être capable de choisir une technique de régularisation selon le contexte.
  • Maîtriser les notions de convergence et stabilité en optimisation.

Teste seu conhecimento

Teste seu conhecimento sobre Optimisation et Régularisation en Apprentissage Profond com 10 perguntas de múltipla escolha com correções detalhadas.

1. Quelle est la principale fonction d'une régularisation en apprentissage profond ?

2. Quelle méthode est utilisée pour calculer de manière efficace les gradients dans un réseau de neurones ?

Faça o quiz →

Revisar com flashcards

Memorize os conceitos chave de Optimisation et Régularisation en Apprentissage Profond com 10 flashcards interativos.

Régularisation L2 — rôle ?

Décourage les poids importants

Fonction de perte — définition?

Moyenne ou somme des erreurs sur tous les exemples.

Dropout — technique ?

Désactivation aléatoire de neurones

Veja os flashcards →

Similar courses

Crie suas próprias fichas de revisão

Importe seu curso e a IA gera fichas, quizzes e flashcards em 30 segundos.

Gerador de fichas