📋 Plan du Cours
- Données d'apprentissage supervisé
- Modèle mathématique ML
- Entraînement et optimisation
- Évaluation et généralisation
- Régression linéaire ML
- Biais et variance
- Régularisation ML
- Fonction de perte
- Gradient descent
- Modèles génératifs vs discriminatifs
- Overfitting et techniques
- Normalisation des couches
📖 1. Données d'apprentissage supervisé
🔑 Notions clés & Définitions
- Données étiquetées : Ensemble d'exemples où chaque entrée est associée à une sortie ou libellé (target). Exemple : image + catégorie.
- Ensemble d'entraînement : Sous-ensemble de données utilisé pour apprendre le modèle en ajustant ses paramètres.
- Fonction de perte (loss function) : Fonction qui mesure l'écart entre la prédiction du modèle et la valeur réelle ; objectif de l'apprentissage est de la minimiser.
- Généralisation : Capacité du modèle à bien performer sur des données non vues durant l'entraînement.
- Overfitting (sur-apprentissage) : Lorsque le modèle mémorise trop les données d'entraînement, perdant en capacité de généralisation.
- Inférence : Utilisation du modèle entraîné pour faire des prédictions sur de nouvelles données non étiquetées.
📝 Points essentiels
- Les ensembles de données doivent être variés et volumineux pour une meilleure performance.
- L'entraînement consiste à ajuster les paramètres du modèle pour minimiser la fonction de perte via des algorithmes comme la descente de gradient.
- La phase d’évaluation est cruciale pour vérifier la capacité de généralisation du modèle, en utilisant des métriques adaptées (ex : accuracy, MSE).
- La séparation en jeux de données (train, validation, test) permet d'éviter le sur-apprentissage et d’évaluer la performance finale.
- L'inférence permet d'appliquer le modèle à des données nouvelles pour faire des prédictions.
💡 À retenir
L'apprentissage supervisé repose sur l'utilisation de données étiquetées pour entraîner un modèle capable de généraliser ses prédictions, en évitant le sur- ou sous-apprentissage grâce à une validation rigoureuse.
📖 2. Modèle mathématique ML
🔑 Notions clés & Définitions
- Ensemble de données : Collection d’exemples comprenant des caractéristiques (features) et un libellé (target). Nécessite diversité et volume pour une bonne généralisation.
- Modèle : Représentation mathématique ou statistique qui relie les données d’entrée aux sorties attendues, permettant de faire des prédictions.
- Fonction de prédiction : Notée f(x,θ)=y, où x est l’entrée, θ les paramètres, et y la sortie.
- Entraînement : Processus d’ajustement des paramètres du modèle pour minimiser l’erreur entre prédictions et valeurs réelles via une fonction coût.
- Fonction de perte (loss function) : Mesure de l’écart entre prédictions et valeurs réelles (ex : MSE, cross-entropy). Son minimisation guide l’apprentissage.
- Rétropropagation (Backpropagation) : Calcul des gradients de la perte par rapport aux paramètres, utilisant la règle de la chaîne pour optimiser le modèle.
- Généralisation : Capacité du modèle à bien performer sur des données non vues, évitant sur- et sous-apprentissage.
📝 Points essentiels
- La phase d’entraînement ajuste les paramètres pour réduire l’erreur sur les données d’apprentissage, en utilisant des méthodes comme la descente de gradient.
- La validation croisée permet d’évaluer la robustesse du modèle et d’éviter le surapprentissage.
- La régularisation (L1, L2, Dropout) limite la complexité du modèle pour améliorer sa capacité de généralisation.
- La normalisation (BatchNorm, LayerNorm) stabilise et accélère l’apprentissage, en particulier dans les réseaux profonds.
- La distinction entre modèles génératifs (ex : GAN, VAE) et discriminatifs (ex : régression logistique, SVM) est fondamentale pour leur usage.
- La régression linéaire modélise une relation continue, la régression logistique une probabilité pour la classification binaire.
- La descente de gradient (GD, SGD, mini-batch) est l’algorithme principal pour optimiser les paramètres.
- Les architectures comme CNN, Transformer, Diffusion ont des mécanismes spécifiques pour traiter des types de données variés.
- La normalisation, la sélection de la fonction de perte, et la gestion du surapprentissage sont clés pour la performance.
💡 À retenir
Un modèle machine learning est une fonction paramétrée qui apprend à faire des prédictions à partir de données, en ajustant ses paramètres pour minimiser une erreur, tout en étant régularisé pour assurer sa capacité à généraliser sur de nouvelles données. La maîtrise de l’optimisation, de la régularisation et de l’évaluation est essentielle pour construire des modèles performants et robustes.
📖 3. Entraînement et optimisation
🔑 Notions clés & Définitions
- Entraînement : Processus par lequel un modèle apprend à partir d’un ensemble de données en ajustant ses paramètres pour minimiser une fonction de coût.
- Fonction de perte (loss function) : Fonction qui mesure l’écart entre la prédiction du modèle et la valeur réelle, permettant d’évaluer la performance. Exemples : MSE, cross-entropy.
- Rétropropagation (Backpropagation) : Algorithme qui calcule les gradients de la fonction de perte par rapport aux paramètres du modèle en utilisant la règle de la chaîne, pour ajuster ces paramètres.
- Gradient descent (descente de gradient) : Méthode d’optimisation qui met à jour les paramètres dans la direction opposée au gradient pour minimiser la fonction de coût.
- Overfitting (sur-apprentissage) : Situation où le modèle mémorise trop précisément les données d’entraînement, perdant sa capacité à généraliser.
- Regularisation : Technique visant à limiter la complexité du modèle pour éviter le sur-apprentissage, par exemple L1, L2, Dropout.
📝 Points essentiels
- L’entraînement consiste en une boucle itérative : initialisation → prédiction → calcul de la perte → rétropropagation → mise à jour des paramètres.
- La convergence est atteinte lorsque la perte se stabilise ou diminue de façon satisfaisante.
- L’évaluation sur des données non vues (validation/test) permet de détecter le sur- ou sous-apprentissage.
- La régularisation (L1, L2, Dropout, early stopping) est cruciale pour améliorer la généralisation.
- La normalisation (BatchNorm, LayerNorm) accélère l’entraînement et stabilise le processus.
- La sélection du taux d’apprentissage influence la vitesse et la stabilité de la convergence.
- La différence entre modèles génératifs (ex : GAN, diffusion) et discriminatifs (ex : régression logistique, SVM) réside dans leur objectif : générer vs classifier.
- La technique de validation croisée permet une évaluation robuste de la performance.
- Les architectures modernes (ResNet, Transformers) intègrent des mécanismes pour lutter contre le vanishing gradient.
- La normalisation et les fonctions d’activation (ReLU) jouent un rôle clé dans l’efficacité de l’entraînement.
💡 À retenir
L’entraînement efficace d’un modèle repose sur une boucle d’optimisation itérative utilisant la rétropropagation, complétée par des techniques de régularisation et de normalisation pour garantir une bonne généralisation. La sélection des hyperparamètres, notamment le taux d’apprentissage, est essentielle pour une convergence rapide et stable.
📖 4. Évaluation et généralisation
🔑 Notions clés & Définitions
- Généralisation : Capacité d’un modèle à effectuer des prédictions précises sur des données nouvelles, non vues lors de l’entraînement.
- Overfitting (sur-apprentissage) : Situation où le modèle apprend trop précisément les données d’entraînement, y compris le bruit, et performe mal sur de nouvelles données.
- Underfitting (sous-apprentissage) : Modèle trop simple qui ne capture pas la structure des données, entraînant de mauvaises performances aussi bien sur l’entraînement que sur la généralisation.
- Validation croisée (Cross-validation) : Technique d’évaluation qui consiste à diviser le dataset en plusieurs sous-ensembles pour tester la stabilité et la performance du modèle.
- Métriques de performance : Indicateurs quantitatifs pour mesurer la qualité du modèle, tels que l’accuracy, la précision, le rappel, le F1-score, MSE, R², etc.
- Régularisation : Ensemble de méthodes visant à limiter la complexité du modèle pour éviter le sur-apprentissage, par exemple L1, L2, Dropout, Early stopping.
📝 Points essentiels
- La phase d’évaluation permet de mesurer la capacité de généralisation d’un modèle sur des données non vues.
- L’évaluation se fait à l’aide de métriques adaptées au type de tâche (classification ou régression).
- La validation croisée est une méthode robuste pour estimer la performance et éviter l’overfitting.
- Le compromis biais-variance est central : un modèle trop complexe peut sur-apprendre, un modèle trop simple peut sous-apprendre.
- La régularisation, le dropout, l’early stopping, et la validation croisée sont des techniques clés pour améliorer la généralisation.
- La séparation en jeux de données train, validation et test est essentielle pour un entraînement et une évaluation fiables.
💡 À retenir
L’évaluation de la performance d’un modèle sur des données non vues est cruciale pour garantir sa capacité à généraliser, et nécessite l’utilisation de techniques comme la validation croisée et la régularisation pour éviter le sur- ou sous-apprentissage.
📖 5. Régression linéaire ML
🔑 Notions clés & Définitions
-
Régression linéaire : Technique statistique visant à modéliser la relation entre une variable dépendante y et une ou plusieurs variables indépendantes xi par une relation linéaire y=w1x1+w2x2+⋯+wnxn+b.
-
Fonction de perte (Loss function) : Fonction qui mesure l’écart entre les valeurs prédites par le modèle et les valeurs réelles. Exemple : MSE (Mean Squared Error).
-
Gradient descent (Descente de gradient) : Algorithme d’optimisation itératif pour ajuster les paramètres du modèle en minimisant la fonction de perte en suivant le gradient négatif.
-
Overfitting (Surapprentissage) : Situation où le modèle apprend trop bien les données d’entraînement, y compris le bruit, et ne généralise pas bien sur de nouvelles données.
-
Régularisation : Technique pour limiter la complexité du modèle et éviter le surapprentissage. Exemples : L1 (Lasso), L2 (Ridge).
📝 Points essentiels
- La régression linéaire établit une relation directe entre features et cible via une équation linéaire.
- La phase d’entraînement consiste à ajuster les poids wi et le biais b pour minimiser la perte (souvent MSE en régression).
- La fonction de perte (ex : MSE) quantifie l’erreur de prédiction ; sa minimisation guide l’apprentissage.
- La descente de gradient permet d’optimiser les paramètres en utilisant le gradient de la perte.
- La régularisation (L1, L2) est essentielle pour améliorer la généralisation et éviter le surapprentissage.
- La validation croisée est recommandée pour évaluer la capacité de généralisation du modèle.
- La différence principale avec la régression logistique : la linéaire prédit une valeur continue, la logistique une probabilité pour une classification.
💡 À retenir
La régression linéaire est une méthode simple et efficace pour modéliser une relation linéaire entre variables, mais elle doit être régularisée et évaluée pour éviter le surapprentissage et assurer une bonne généralisation.
📖 6. Biais et variance
🔑 Notions clés & Définitions
- Biais : Erreur systématique introduite par un modèle trop simple ou mal adapté, qui empêche de capturer la complexité des données. Il reflète la capacité du modèle à représenter la relation réelle.
- Variance : Sensibilité du modèle aux fluctuations des données d’entraînement. Un modèle à haute variance s’ajuste trop aux données d’entraînement, capturant le bruit (sur-apprentissage).
- Sous-apprentissage (Underfitting) : Situation où le modèle est trop simple, avec un biais élevé, ne parvenant pas à capturer la tendance des données.
- Sur-apprentissage (Overfitting) : Situation où le modèle est trop complexe, avec une variance élevée, mémorisant le bruit et ne généralise pas bien.
- Le compromis biais-variance : Équilibre entre un modèle trop simple (biais élevé, sous-apprentissage) et trop complexe (variance élevée, sur-apprentissage) pour minimiser l’erreur de généralisation.
📝 Points essentiels
- La performance d’un modèle dépend de l’équilibre entre biais et variance.
- Un biais élevé indique un modèle sous-adapté, un faible pouvoir de modélisation.
- Une variance élevée indique un modèle qui s’adapte trop aux données d’entraînement, perdant en capacité de généralisation.
- La réduction du biais tend à augmenter la variance, et inversement ; il faut donc trouver un compromis optimal.
- Techniques pour gérer ce compromis : régularisation (L1, L2), validation croisée, pruning, early stopping, dropout.
- La régularisation L1 favorise la sparsité (sélection de variables), L2 stabilise le modèle en réduisant l’amplitude des poids.
- La validation croisée permet d’évaluer la capacité de généralisation du modèle.
- La normalisation (BatchNorm, LayerNorm) et les architectures résiduelles aident à atténuer le problème du vanishing gradient, facilitant l’entraînement de modèles profonds.
💡 À retenir
Le biais et la variance forment un compromis essentiel en machine learning : réduire l’un augmente souvent l’autre. L’objectif est de trouver un équilibre qui minimise l’erreur de généralisation, en utilisant des techniques de régularisation et de validation appropriées.
📖 7. Régularisation ML
🔑 Notions clés & Définitions
- Régularisation : Technique visant à limiter le sur-apprentissage en contraignant la complexité du modèle pour améliorer sa capacité de généralisation.
- Overfitting (sur-apprentissage) : Situation où le modèle apprend trop parfaitement les données d’entraînement, y compris le bruit, et performe mal sur de nouvelles données.
- Underfitting (sous-apprentissage) : Modèle trop simple, incapable de capturer la relation sous-jacente, entraînant une mauvaise performance même sur les données d’entraînement.
- Régularisation L1 (Lasso) : Ajoute une pénalité proportionnelle à la somme des valeurs absolues des poids, favorisant la sparsité et la sélection de variables.
- Régularisation L2 (Ridge) : Ajoute une pénalité proportionnelle à la somme des carrés des poids, réduisant leur amplitude pour stabiliser le modèle.
- Dropout : Technique de régularisation pour réseaux de neurones consistant à désactiver aléatoirement un pourcentage de neurones lors de l’entraînement pour éviter la co-adaptation.
📝 Points essentiels
- La régularisation permet de trouver un compromis entre biais et variance, évitant à la fois le sous- et le sur-apprentissage.
- La régularisation L1 favorise la sparsité en annulant certains poids, utile pour la sélection de variables.
- La régularisation L2 stabilise le modèle en réduisant l’amplitude des poids, ce qui diminue la variance.
- Techniques complémentaires pour lutter contre l’overfitting : early stopping, validation croisée, pruning, augmentation des données, Dropout, normalisation.
- La régularisation doit être adaptée au contexte et combinée à d’autres méthodes pour optimiser la généralisation.
- La normalisation (BatchNorm, LayerNorm) peut aussi contribuer à la régularisation en stabilisant l’entraînement.
💡 À retenir
La régularisation est essentielle pour éviter le sur-apprentissage en contrôlant la complexité du modèle, permettant ainsi une meilleure généralisation sur de nouvelles données. Elle se combine souvent avec d’autres techniques pour optimiser la performance.
📖 8. Fonction de perte
🔑 Notions clés & Définitions
-
Fonction de perte (Loss Function) : Fonction mathématique qui mesure l’écart entre la prédiction du modèle et la vrai valeur. Elle guide l’apprentissage en indiquant dans quelle direction ajuster les paramètres.
-
Erreur de prédiction : Quantification de la différence entre la sortie prédite et la sortie réelle. Exemples : MSE, Cross-Entropy.
-
Fonction de coût : Autre terme pour la fonction de perte, souvent utilisée pour désigner la moyenne de la perte sur l’ensemble des données.
-
Minimisation : Processus d’optimisation visant à réduire la valeur de la fonction de perte pour améliorer la performance du modèle.
-
Exemples de fonctions de perte :
- Régression : MSE (Mean Squared Error), MAE (Mean Absolute Error)
- Classification binaire : Binary Cross-Entropy
- Classification multi-classe : Categorical Cross-Entropy
📝 Points essentiels
- La fonction de perte est essentielle pour l’apprentissage supervisé, car elle quantifie l’erreur à minimiser lors de l’entraînement.
- La sélection de la fonction de perte dépend du type de tâche (régression ou classification).
- La fonction de perte influence directement la convergence et la performance du modèle.
- La minimisation de la perte se fait via des algorithmes d’optimisation comme la descente de gradient.
- La fonction de perte doit être différentiable pour permettre le calcul des gradients.
- La bonne utilisation de la fonction de perte permet d’éviter le sur-apprentissage ou le sous-apprentissage.
💡 À retenir
La fonction de perte est le critère principal qui guide l’apprentissage d’un modèle en quantifiant l’écart entre ses prédictions et la réalité, et sa bonne sélection est cruciale pour la performance finale.
📖 9. Gradient descent
🔑 Notions clés & Définitions
- Gradient (∇f) : vecteur de dérivées partielles d’une fonction, indiquant la direction de la pente la plus forte. En machine learning, il montre comment ajuster les paramètres pour réduire la perte.
- Descente de gradient (Gradient Descent) : algorithme d’optimisation itératif qui ajuste les paramètres dans la direction opposée au gradient pour minimiser une fonction de coût.
- Taux d’apprentissage (learning rate) : hyperparamètre qui détermine la taille des pas lors de la mise à jour des paramètres à chaque itération.
- Fonction de coût (loss function) : mesure l’erreur entre la prédiction du modèle et la valeur réelle, que l’on cherche à minimiser.
- Convergence : état où la mise à jour des paramètres ne modifie plus significativement la fonction de coût, indiquant que l’algorithme a trouvé un minimum local ou global.
- Minimisation : processus de recherche du point où la fonction de coût atteint son minimum, optimisant ainsi la performance du modèle.
📝 Points essentiels
- La descente de gradient permet d’optimiser les paramètres d’un modèle en suivant la pente de la fonction de coût.
- La méthode peut être appliquée de différentes manières : Batch Gradient Descent (sur tout le dataset), Stochastic Gradient Descent (SGD) (sur un seul exemple), ou Mini-Batch Gradient Descent (sur un sous-ensemble).
- La convergence dépend du taux d’apprentissage : un taux trop élevé peut provoquer des oscillations, un taux trop faible ralentit la progression.
- La normalisation des gradients ou l’utilisation d’optimiseurs avancés (Adam, RMSprop) améliore la stabilité et la vitesse de convergence.
- La sélection du bon taux d’apprentissage et la gestion du sur/sous-apprentissage sont cruciales pour un entraînement efficace.
💡 À retenir
La descente de gradient est la pierre angulaire de l’optimisation en machine learning, permettant d’ajuster efficacement les paramètres du modèle pour minimiser l’erreur, à condition de bien choisir le taux d’apprentissage et la méthode adaptée.
📖 10. Modèles génératifs vs discriminatifs
🔑 Notions clés & Définitions
-
Modèle génératif : Modèle qui apprend la distribution conjointe P(X,y) ou P(X), capable de générer de nouvelles données similaires à l’entraînement.
Exemples : Naive Bayes, GANs, VAE.
Point essentiel : Peut produire des données synthétiques réalistes.
-
Modèle discriminatif : Modèle qui apprend la frontière de décision entre classes, c’est-à-dire P(y∣X).
Exemples : Régression logistique, SVM, réseaux de neurones discriminatifs.
Point essentiel : Optimisé pour la classification ou la prédiction directe.
-
Différence fondamentale :
- Génératif → modélise la distribution des données, peut générer de nouvelles instances.
- Discriminatif → se concentre sur la frontière de décision, souvent plus performant pour la classification.
-
Objectif :
- Génératif : Comprendre la structure des données, générer de nouvelles données.
- Discriminatif : Optimiser la précision de la prédiction.
📝 Points essentiels
💡 À retenir
Les modèles génératifs cherchent à comprendre et à reproduire la distribution des données, permettant la génération de nouvelles instances, tandis que les modèles discriminatifs se concentrent sur la frontière entre classes pour une meilleure performance en classification. Leur choix dépend de l’objectif : synthèse ou prédiction.
📖 11. Overfitting et techniques
🔑 Notions clés & Définitions
-
Overfitting (sur-apprentissage) : phénomène où un modèle apprend trop précisément les détails et le bruit du jeu d’entraînement, au point de perdre sa capacité à généraliser sur de nouvelles données. Résulte en une performance élevée sur l’entraînement mais faible sur la validation/test.
-
Biais : erreur due à des hypothèses simplificatrices du modèle, entraînant un sous-apprentissage (underfitting). Un biais élevé indique que le modèle ne capture pas bien la relation entre features et cible.
-
Variance : sensibilité du modèle aux fluctuations des données d’entraînement. Une variance élevée indique un sur-apprentissage, où le modèle mémorise le bruit.
-
Régularisation : ensemble de techniques visant à limiter la complexité du modèle pour éviter l’overfitting, en ajoutant une pénalité lors de l’optimisation.
-
Dropout : technique de régularisation dans les réseaux de neurones où, pendant l’entraînement, un pourcentage aléatoire de neurones est désactivé pour réduire la co-dépendance.
-
Early Stopping : méthode qui consiste à arrêter l’entraînement lorsque la performance sur un set de validation commence à se dégrader, évitant ainsi le sur-apprentissage.
📝 Points essentiels
- L’overfitting survient lorsque la variance du modèle est trop élevée, souvent dû à une complexité excessive ou à un manque de régularisation.
- La régularisation L1 (Lasso) favorise la sparsité en annulant certains poids, tandis que la L2 (Ridge) réduit leur amplitude pour stabiliser le modèle.
- La validation croisée permet d’évaluer la capacité de généralisation en utilisant plusieurs sous-ensembles de données.
- Techniques complémentaires pour lutter contre l’overfitting : Dropout, Early Stopping, pruning, augmentation des données.
- La normalisation (BatchNorm, LayerNorm) contribue aussi à stabiliser l’entraînement, mais n’est pas une technique de régularisation à proprement parler.
- La sélection du modèle doit équilibrer biais et variance pour optimiser la performance sur données non vues.
💡 À retenir
L’overfitting se combat par la régularisation, la validation croisée, et des techniques d’arrêt précoce, afin d’obtenir un modèle capable de bien généraliser sur de nouvelles données. La clé est de trouver le juste équilibre entre complexité et simplicité pour minimiser l’erreur de généralisation.
📖 12. Normalisation des couches
🔑 Notions clés & Définitions
-
Normalisation des couches (Layer Normalization) : Technique qui consiste à normaliser les activations d'une couche en soustrayant la moyenne et en divisant par l’écart-type, calculés sur chaque exemple individuellement, pour stabiliser et accélérer l’entraînement.
-
Batch Normalization : Normalisation des activations par lot, qui calcule la moyenne et la variance sur un mini-batch, permettant une meilleure convergence dans les CNN.
-
Objectif de la normalisation : Réduire la covariate shift interne, c’est-à-dire la variation des distributions d’activation durant l’entraînement, pour améliorer la stabilité et la vitesse d’apprentissage.
-
Invariance au batch : La normalisation par couche (LayerNorm) est indépendante de la taille du batch, contrairement à BatchNorm, ce qui la rend adaptée aux RNN et NLP.
-
Paramètres de normalisation : La normalisation inclut souvent des paramètres appris (gamma, beta) pour permettre au réseau de retrouver la distribution initiale si nécessaire.
📝 Points essentiels
- La normalisation des couches est une étape clé pour entraîner efficacement des réseaux profonds, en stabilisant les distributions d’activation.
- BatchNorm est très efficace pour CNN, mais dépend de la taille du batch et est moins adaptée aux données séquentielles ou aux petits batchs.
- LayerNorm est plus adaptée aux architectures séquentielles (RNN, Transformer) car elle normalise chaque exemple indépendamment.
- La normalisation accélère la convergence, permet d’utiliser des taux d’apprentissage plus élevés, et peut agir comme une régularisation.
- La normalisation doit être utilisée en complément d’autres techniques comme Dropout ou régularisation pour optimiser la généralisation.
💡 À retenir
La normalisation des couches stabilise et accélère l’entraînement des réseaux profonds, en normalisant les activations à l’échelle de chaque exemple, ce qui est particulièrement utile dans les architectures séquentielles et les Transformers.
📊 Tableaux de Synthèse
| Aspect | Modèle discriminatif | Modèle génératif |
|---|
| Objectif | Classifier ou prédire directement la sortie | Générer des données ou modéliser la distribution des données |
| Exemple | Régression logistique, SVM | GAN, VAE |
| Fonction de perte | Cross-entropy, hinge loss | Fonction de vraisemblance, ELBO |
| Utilisation principale | Classification, détection d’anomalies | Génération, modélisation de la distribution |
| Avantages | Plus simple, souvent plus performant en classification | Capable de générer des données réalistes |
| Aspect | Entraînement classique | Entraînement avec régularisation |
|---|
| Objectif | Minimiser la fonction de perte | Minimiser la perte + pénalité de régularisation |
| Techniques principales | Descente de gradient, rétropropagation | L1, L2, Dropout, early stopping |
| Risque principal | Overfitting | Surapprentissage, complexité excessive |
| Solution | Régularisation, validation croisée | Régularisation, normalisation, dropout |
⚠️ Pièges & Confusions Fréquentes
- Confondre modèle génératif et discriminatif : le premier modélise la distribution globale, le second se concentre sur la frontière de décision.
- Sous-estimer l’impact de la régularisation : absence de régularisation favorise l’overfitting.
- Confondre normalisation et standardisation : la normalisation ajuste la moyenne et l’écart-type, la standardisation ajuste la moyenne à 0 et l’écart-type à 1.
- Mal interpréter la métrique d’évaluation : accuracy peut être trompeuse en cas de classes déséquilibrées.
- Confondre gradient descent et descente de gradient stochastique : SGD utilise un sous-ensemble de données à chaque étape.
- Ignorer la différence entre overfitting et underfitting : le premier est dû à un modèle trop complexe, le second à un modèle trop simple.
- Négliger la validation croisée : elle permet d’éviter la sur-optimisation sur un seul jeu de validation.
✅ Checklist Examen
- Maîtriser la différence entre données étiquetées, ensemble d’entraînement, validation et test.
- Connaître la définition et le rôle de la fonction de perte dans l’apprentissage.
- Savoir expliquer le processus de rétropropagation et la descente de gradient.
- Identifier les techniques de régularisation (L1, L2, Dropout) et leur but.
- Comprendre la différence entre modèles génératifs et discriminatifs.
- Savoir décrire la régression linéaire et la régression logistique.
- Connaître les mécanismes de normalisation (BatchNorm, LayerNorm).
- Expliquer ce qu’est le sur- et sous-apprentissage, et comment les détecter.
- Comprendre l’importance de la validation croisée pour l’évaluation.
- Savoir ce qu’est la généralisation et comment l’améliorer.
- Maîtriser les concepts liés à l’optimisation (taux d’apprentissage, convergence).
- Connaître les techniques pour lutter contre l’overfitting (early stopping, régularisation).
Crea tus propias hojas de repaso
Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.
Generador de hojas