Cuestionario: Optimisation et Régularisation en Apprentissage Profond — 10 preguntas

Preguntas y respuestas detalladas

1. Quelle est la principale fonction d'une régularisation en apprentissage profond ?

Réduire la complexité du modèle pour éviter le surapprentissage
Augmenter la capacité du modèle pour mieux s'adapter aux données
Augmenter la vitesse de convergence de l'algorithme de gradient
Diminuer la taille des données d'entraînement pour accélérer l'apprentissage

Réduire la complexité du modèle pour éviter le surapprentissage

Explicación

La régularisation vise à limiter la capacité du modèle afin d'éviter qu'il ne mémorise le bruit dans les données d'entraînement, ce qui conduit à un meilleur généralisation. Elle réduit donc la complexité du modèle pour prévenir le surapprentissage.

2. Quelle méthode est utilisée pour calculer de manière efficace les gradients dans un réseau de neurones ?

La descente de gradient par la règle de la chaîne.
La méthode du gradient à pas fixe.
La méthode des moindres carrés.
Les règles de l'algèbre linéaire classique.

La descente de gradient par la règle de la chaîne.

Explicación

La backpropagation utilise la règle de la chaîne pour calculer efficacement les gradients dans un réseau de neurones, ce qui permet une mise à jour efficace des paramètres.

3. Quel est le rôle de la méthode de Dropout dans la régularisation des réseaux neuronaux ?

Augmenter la taille du réseau en ajoutant des neurones
Augmenter la vitesse de convergence en modifiant la fonction de perte
Réduire le nombre de couches du réseau
Désactiver aléatoirement certains neurones pendant l'entraînement

Désactiver aléatoirement certains neurones pendant l'entraînement

Explicación

Dropout consiste à désactiver aléatoirement un pourcentage de neurones lors de chaque étape d'entraînement, ce qui empêche les neurones de devenir trop dépendants les uns des autres et améliore la capacité de généralisation du modèle.

4. Selon la fiche, quels optimisateurs avancés combinent plusieurs techniques pour améliorer la convergence ?

SGD et Momentum.
Adam et RMSProp.
Adagrad et Descente de gradient classique.
Méthodes basées uniquement sur la descente de gradient descendante vanilla.

Adam et RMSProp.

Explicación

Adam et RMSProp sont des optimiseurs avancés qui combinent plusieurs techniques comme l’adaptativité et le momentum pour accélérer la convergence.

5. Parmi les optimiseurs suivants, lequel combine à la fois la notion de momentum et une adaptation du taux d'apprentissage pour chaque paramètre ?

RMSProp
SGD classique
Adam
Adagrad

Adam

Explicación

L'optimiseur Adam combine les avantages du momentum (accumulation des gradients passés) et de l'adaptativité du taux d'apprentissage pour chaque paramètre, ce qui permet une convergence plus efficace et stable.

6. Quelle régularisation est recommandée pour encourager la sparsité dans les poids d'un réseau ?

Régularisation L2.
Régularisation L1.
Dropout.
Early stopping.

Régularisation L1.

Explicación

La régularisation L1 favorise la sparsité en ajoutant une pénalité basée sur la somme absolue des poids, ce qui incite certains à devenir nuls.

7. Quel problème survient quand un modèle de réseau neuronal mémorise le bruit dans les données d'entraînement ?

Sous-apprentissage.
Surapprentissage.
Convergence trop lente.
Overfitting dû à la régularisation excessive.

Surapprentissage.

Explicación

Le surapprentissage survient lorsque le modèle mémorise le bruit et le bruit spécifique des données d’entraînement, réduisant sa capacité à généraliser.

8. Parmi les éléments suivants, quel est un composant clé qui rend un modèle de réseau non linéaire ?

Les fonctions d'activation non linéaires telles que ReLU, tanh, sigmoid.
L'absence d'activations dans le réseau.
Une seule couche linéaire.
La moyenne des poids.

Les fonctions d'activation non linéaires telles que ReLU, tanh, sigmoid.

Explicación

Les fonctions d'activation non linéaires telles que ReLU, tanh, et sigmoid rendent le modèle non linéaire, ce qui est crucial pour apprendre des représentations complexes.

9. Quel phénomène peut être causé par une complexité excessive du paysage de la perte ?

Oscillations ou stagnation.
Une convergence très rapide.
Une réduction automatique du taux d'apprentissage.
Une capacité sous-optimale du modèle.

Oscillations ou stagnation.

Explicación

Une complexité trop élevée du paysage de perte peut entraîner des oscillations ou une stagnation lors de l'optimisation, rendant l'apprentissage difficile.

10. Quelle est la principale différence entre la régularisation L1 et L2 selon la fiche?

L1 favorise la sparsité, L2 décourage les poids importants.
L1 pénalise en ajoutant la norme au carré, L2 la norme absolue.
L1 et L2 ont le même effet sur la sparsité.
L2 est utilisable uniquement avec la descente de gradient, L1 pas.

L1 favorise la sparsité, L2 décourage les poids importants.

Explicación

La régularisation L1 favorise la sparsité des poids en ajoutant la norme absolue, alors que L2 pénalise la grandeur de tous les poids mais ne favorise pas la sparsité spécifiquement.

Repasa con tarjetas de memoria

Memoriza las respuestas con 10 tarjetas de memoria sobre Optimisation et Régularisation en Apprentissage Profond.

Régularisation L2 — rôle ?

Décourage les poids importants

Fonction de perte — définition?

Moyenne ou somme des erreurs sur tous les exemples.

Dropout — technique ?

Désactivation aléatoire de neurones

Ver tarjetas de memoria →

Estudia la hoja de repaso

Lee la hoja de repaso completa sobre Optimisation et Régularisation en Apprentissage Profond.

Ver hoja de repaso →

Similar courses

Crea tus propios cuestionarios

Importa tu curso y la IA genera cuestionarios con correcciones en 30 segundos.

Generador de cuestionarios