Ficha de Revisão: Optimisation et Régularisation en Apprentissage Profond

1. 📌 L'essentiel

La fonction de perte totale est la moyenne ou somme sur tous les exemples.
La desc de gradient ajuste les paramètres en fonction gradient de la perte.
La backpropagation calcule efficacement les gradients via la règle de chaîne.
Le surapprentissage survient quand le modèle mémorise le bruit, contrôlé par régularisation et early stopping.
La régularisation L2 (weight decay) pénalise les poids importants, L1 favorise la sparsité.
Dropout désactive aléatoirement des neurones pour améliorer la généralisation.
Les optimisateurs avancés (Adam, RMSProp) combinent plusieurs techniques pour une convergence plus rapide.
La sélection des hyperparamètres (taux d'apprentissage, régularisation) est cruciale.
La complexité du paysage de la perte peut causer oscillations ou stagnation.
La capacité du modèle doit être adaptée pour éviter sous- ou sur-apprentissage.

2. 🧩 Structures & Composants clés

Modèle de réseau neuronal — fonction paramétrique non linéaire $h_\omega : X \to Y$ .
Fonction de perte — mesure l'erreur entre prédiction et vérité ( $L(\omega)$ ).
Activations non linéaires — ReLU, tanh, sigmoid, rendant $h_\omega$ non linéaire.
Gradient descent — méthode d'optimisation pour ajuster $\omega$ .
Backpropagation — calcul efficace des gradients par la règle de chaîne.
Régularisation — pénalités ajoutées pour limiter la capacité du modèle.
Optimiseurs — SGD, Momentum, Adagrad, RMSProp, Adam.
Hyperparamètres — taux d'apprentissage, taille de batch, régularisation.

3. 🔬 Fonctions, Mécanismes & Relations

La perte totale est la moyenne sur tous les exemples, permettant une mise à jour globale.
La descente de gradient ajuste $\omega$ dans la direction du gradient négatif.
La backpropagation utilise la règle de chaîne pour calculer tous les gradients efficacement.
La régularisation L2 ajoute $\lambda \|\omega\|_2^2$ , décourageant les poids importants.
La régularisation L1 ajoute $\lambda \|\omega\|_1$ , favorisant la sparsité.
Dropout désactive aléatoirement des neurones, réduisant la co-dépendance.
Data augmentation augmente la diversité des données d'entraînement.
Adam combine momentum et adaptativité pour une meilleure convergence.
La difficulté réside dans le choix du taux d'apprentissage et la gestion du paysage de la perte.

4. Tableau comparatif : Régularisation L1 vs L2

Élément	Caractéristiques clés	Notes / Différences
Régularisation L2	$L_{2}(\omega) = L_{train} + \lambda \\|\omega\\|_2^2$	Décourage les poids importants, lisse la surface
Régularisation L1	$L_{1}(\omega) = L_{train} + \lambda \\|\omega\\|_1$	Favorise la sparsité, peut conduire à des poids nuls

5. 🗂️ Diagramme Hiérarchique ASCII

Régularisation et Optimisation
 ├─ Modèle NN
 │   ├─ Fonction de perte
 │   ├─ Non linéarité (ReLU, tanh)
 │   └─ Gradient descent
 ├─ Surapprentissage
 │   ├─ Capacité excessive
 │   └─ Régularisation, early stopping
 ├─ Techniques de régularisation
 │   ├─ L2 (Weight decay)
 │   ├─ L1 (Sparsité)
 │   ├─ Dropout
 │   └─ Data augmentation
 └─ Optimiseurs avancés
     ├─ SGD + Momentum
     ├─ Adagrad
     ├─ RMSProp
     └─ Adam

6. ⚠️ Pièges & Confusions fréquentes

Confondre régularisation L1 et L2 : L1 favorise la sparsité, L2 décourage les poids importants.
Croire que dropout élimine totalement le surapprentissage : c'est une régularisation implicite.
Penser que la régularisation est toujours nécessaire : dépend du problème et de la complexité.
Sous-estimer l'importance du tuning hyperparamètres.
Confondre surcapacité (overfitting) et sous-capacité (underfitting).
Croire que tous les optimisateurs donnent des résultats similaires.
Ignorer l'effet du taux d'apprentissage sur la stabilité.
Confondre la régularisation sur poids et biais (souvent évitée).

7. ✅ Checklist Examen Final

Comprendre la différence entre sur- et sous-capacité.
Savoir comment la régularisation L1 et L2 agissent.
Expliquer le principe de la backpropagation.
Connaître les principaux optimisateurs (SGD, Adam, RMSProp).
Savoir quand utiliser early stopping.
Comprendre l’impact de la taille de batch.
Savoir comment la data augmentation limite le surapprentissage.
Être capable d’interpréter un paysage de perte.
Connaître les effets du dropout.
Savoir ajuster les hyperparamètres pour optimiser la convergence.
Comprendre la relation entre complexité du modèle et généralisation.
Identifier les pièges courants en optimisation.
Expliquer le rôle de la normalisation par batch.
Connaître les techniques pour limiter la croissance des poids (Max-Norm).
Savoir différencier régularisation et normalisation.
Être capable de choisir une technique de régularisation selon le contexte.
Maîtriser les notions de convergence et stabilité en optimisation.

1. 📌 L'essentiel

2. 🧩 Structures & Composants clés

3. 🔬 Fonctions, Mécanismes & Relations

4. Tableau comparatif : Régularisation L1 vs L2

5. 🗂️ Diagramme Hiérarchique ASCII

6. ⚠️ Pièges & Confusions fréquentes

7. ✅ Checklist Examen Final

Teste seu conhecimento

Revisar com flashcards

Similar courses

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Rôle d'un système d'exploitation

Questions techniques projet Compawgnon

Crie suas próprias fichas de revisão