Лист за преговор: Optimisation et Régularisation en Apprentissage Profond

1. 📌 L'essentiel

  • La fonction de perte totale est la moyenne ou somme sur tous les exemples.
  • La desc de gradient ajuste les paramètres en fonction gradient de la perte.
  • La backpropagation calcule efficacement les gradients via la règle de chaîne.
  • Le surapprentissage survient quand le modèle mémorise le bruit, contrôlé par régularisation et early stopping.
  • La régularisation L2 (weight decay) pénalise les poids importants, L1 favorise la sparsité.
  • Dropout désactive aléatoirement des neurones pour améliorer la généralisation.
  • Les optimisateurs avancés (Adam, RMSProp) combinent plusieurs techniques pour une convergence plus rapide.
  • La sélection des hyperparamètres (taux d'apprentissage, régularisation) est cruciale.
  • La complexité du paysage de la perte peut causer oscillations ou stagnation.
  • La capacité du modèle doit être adaptée pour éviter sous- ou sur-apprentissage.

2. 🧩 Structures & Composants clés

  • Modèle de réseau neuronal — fonction paramétrique non linéaire hω:XYh_\omega : X \to Y.
  • Fonction de perte — mesure l'erreur entre prédiction et vérité (L(ω)L(\omega)).
  • Activations non linéaires — ReLU, tanh, sigmoid, rendant hωh_\omega non linéaire.
  • Gradient descent — méthode d'optimisation pour ajuster ω\omega.
  • Backpropagation — calcul efficace des gradients par la règle de chaîne.
  • Régularisation — pénalités ajoutées pour limiter la capacité du modèle.
  • Optimiseurs — SGD, Momentum, Adagrad, RMSProp, Adam.
  • Hyperparamètres — taux d'apprentissage, taille de batch, régularisation.

3. 🔬 Fonctions, Mécanismes & Relations

  • La perte totale est la moyenne sur tous les exemples, permettant une mise à jour globale.
  • La descente de gradient ajuste ω\omega dans la direction du gradient négatif.
  • La backpropagation utilise la règle de chaîne pour calculer tous les gradients efficacement.
  • La régularisation L2 ajoute λω22\lambda \|\omega\|_2^2, décourageant les poids importants.
  • La régularisation L1 ajoute λω1\lambda \|\omega\|_1, favorisant la sparsité.
  • Dropout désactive aléatoirement des neurones, réduisant la co-dépendance.
  • Data augmentation augmente la diversité des données d'entraînement.
  • Adam combine momentum et adaptativité pour une meilleure convergence.
  • La difficulté réside dans le choix du taux d'apprentissage et la gestion du paysage de la perte.

4. Tableau comparatif : Régularisation L1 vs L2

ÉlémentCaractéristiques clésNotes / Différences
Régularisation L2L2(ω)=Ltrain+λω22L_{2}(\omega) = L_{train} + \lambda \|\omega\|_2^2Décourage les poids importants, lisse la surface
Régularisation L1L1(ω)=Ltrain+λω1L_{1}(\omega) = L_{train} + \lambda \|\omega\|_1Favorise la sparsité, peut conduire à des poids nuls

5. 🗂️ Diagramme Hiérarchique ASCII

Régularisation et Optimisation
 ├─ Modèle NN
 │   ├─ Fonction de perte
 │   ├─ Non linéarité (ReLU, tanh)
 │   └─ Gradient descent
 ├─ Surapprentissage
 │   ├─ Capacité excessive
 │   └─ Régularisation, early stopping
 ├─ Techniques de régularisation
 │   ├─ L2 (Weight decay)
 │   ├─ L1 (Sparsité)
 │   ├─ Dropout
 │   └─ Data augmentation
 └─ Optimiseurs avancés
     ├─ SGD + Momentum
     ├─ Adagrad
     ├─ RMSProp
     └─ Adam

6. ⚠️ Pièges & Confusions fréquentes

  • Confondre régularisation L1 et L2 : L1 favorise la sparsité, L2 décourage les poids importants.
  • Croire que dropout élimine totalement le surapprentissage : c'est une régularisation implicite.
  • Penser que la régularisation est toujours nécessaire : dépend du problème et de la complexité.
  • Sous-estimer l'importance du tuning hyperparamètres.
  • Confondre surcapacité (overfitting) et sous-capacité (underfitting).
  • Croire que tous les optimisateurs donnent des résultats similaires.
  • Ignorer l'effet du taux d'apprentissage sur la stabilité.
  • Confondre la régularisation sur poids et biais (souvent évitée).

7. ✅ Checklist Examen Final

  • Comprendre la différence entre sur- et sous-capacité.
  • Savoir comment la régularisation L1 et L2 agissent.
  • Expliquer le principe de la backpropagation.
  • Connaître les principaux optimisateurs (SGD, Adam, RMSProp).
  • Savoir quand utiliser early stopping.
  • Comprendre l’impact de la taille de batch.
  • Savoir comment la data augmentation limite le surapprentissage.
  • Être capable d’interpréter un paysage de perte.
  • Connaître les effets du dropout.
  • Savoir ajuster les hyperparamètres pour optimiser la convergence.
  • Comprendre la relation entre complexité du modèle et généralisation.
  • Identifier les pièges courants en optimisation.
  • Expliquer le rôle de la normalisation par batch.
  • Connaître les techniques pour limiter la croissance des poids (Max-Norm).
  • Savoir différencier régularisation et normalisation.
  • Être capable de choisir une technique de régularisation selon le contexte.
  • Maîtriser les notions de convergence et stabilité en optimisation.

Тествайте знанията си

Тествайте знанията си по Optimisation et Régularisation en Apprentissage Profond с 10 въпроса с множество отговори с подробни корекции.

1. Quelle est la principale fonction d'une régularisation en apprentissage profond ?

2. Quelle méthode est utilisée pour calculer de manière efficace les gradients dans un réseau de neurones ?

Вземете теста →

Прегледайте с флашкарти

Запомнете ключовите концепции на Optimisation et Régularisation en Apprentissage Profond с 10 интерактивни флашкарти.

Régularisation L2 — rôle ?

Décourage les poids importants

Fonction de perte — définition?

Moyenne ou somme des erreurs sur tous les exemples.

Dropout — technique ?

Désactivation aléatoire de neurones

Вижте флашкартите →

Similar courses

Създайте свои собствени листове за преговор

Импортирайте курса си и AI генерира листове, тестове и флашкарти за 30 секунди.

Генератор на листове