Scheda di revisione: Principes et Méthodes de Régression

📋 Plan du Cours

  1. Fonction de perte MSE
  2. Fonction de perte MAE
  3. Fonction de perte Huber
  4. Fonction de perte Quantile
  5. Biais et Variance
  6. Dancede complexité du modèle
  7. Régression linéaire
  8. Régression Ridge (L2)
  9. Régression Lasso (L1)
  10. Arbre de décision
  11. Forêt aléatoire
  12. Gradient Boosting

📖 1. Fonction de perte MSE

🔑 Notions clés & Définitions

  • Fonction de perte (Loss Function) : Mesure quantitative de l'erreur ou de la "wrongness" d’un modèle, permettant d’optimiser ses paramètres.
  • MSE (Mean Squared Error) : Moyenne des carrés des écarts entre les valeurs prédites et les valeurs réelles. Formel : MSE=1ni=1n(yiy^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2.
  • Intuition du MSE : Punition quadratique des erreurs, ce qui signifie que les erreurs importantes sont pénalisées de manière plus sévère que les erreurs faibles.
  • Sensibilité aux outliers : Le MSE est très sensible aux valeurs aberrantes, car il amplifie les grandes erreurs par leur carré.
  • Points essentiels : Utilisé lorsque la différentiabilité et la smoothness sont nécessaires, notamment pour la descente de gradient.
  • Point à retenir : Le MSE favorise des modèles précis pour les erreurs faibles mais peut conduire à des modèles surajustés en présence d’outliers.

Astuce mémoire

  • Le carré des erreurs accentue leur impact, ce qui en fait un choix strict pour minimiser l’erreur globale, mais à risque de surajustement si les données contiennent des valeurs extrêmes.

📖 2. Fonction de perte MAE

🔑 Notions clés & Définitions

  • MAE (Mean Absolute Error) : La moyenne des valeurs absolues des écarts entre les valeurs prédites et les valeurs réelles.
    Formule : MAE=1ni=1nyiy^i\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} | y_i - \hat{y}_i |
    Point essentiel : Mesure la précision de manière linéaire, chaque erreur a le même poids.

  • Robustesse : Capacité du MAE à résister aux valeurs aberrantes (outliers).
    Point essentiel : Contrairement au MSE, le MAE ne pénalise pas fortement les erreurs importantes, ce qui le rend plus robuste.

  • Estimation médiane : La minimisation du MAE conduit à une estimation médiane des données, contrairement au MSE qui cible la moyenne.
    Point essentiel : Cela explique la robustesse du MAE face aux outliers.

  • Sensibilité aux outliers : Le MAE est moins sensible aux valeurs extrêmes que le MSE, car il ne pénalise pas quadratiquement.
    Point essentiel : Favorise une modélisation plus stable en présence de données bruitées ou aberrantes.

  • Utilisation pratique : Approprié lorsque l’on souhaite une métrique simple, interprétable, et robuste, notamment pour des données avec outliers ou bruit.
    Point essentiel : Idéal pour des applications où chaque erreur a une importance équivalente.

Point à retenir

Le MAE offre une mesure linéaire de l’erreur, privilégiant la robustesse et la simplicité d’interprétation, ce qui en fait une métrique privilégiée pour évaluer la précision dans des contextes où la présence d’outliers doit être minimisée.

📖 3. Fonction de perte Huber

🔑 Notions clés & Définitions

  • Fonction de perte Huber : Une fonction de coût utilisée en régression, combinant les avantages de l’erreur quadratique (MSE) pour les petites erreurs et de l’erreur absolue (MAE) pour les grandes erreurs, afin d’être robuste aux outliers tout en conservant une différentiabilité.

  • Seuil δ (delta) : La valeur à partir de laquelle la perte passe de la quadratic (carrée) à la linéaire. Elle détermine la sensibilité aux erreurs importantes.

  • Formule de la perte Huber :
    LHuber(y,y^)={12(yy^)2si yy^δδ(yy^12δ)sinonL_{\text{Huber}}(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{si } |y - \hat{y}| \leq \delta \\ \delta \left(|y - \hat{y}| - \frac{1}{2} \delta \right) & \text{sinon} \end{cases} Elle combine une partie quadratique pour les erreurs faibles et une partie linéaire pour les erreurs importantes.

  • Robustesse : La capacité de la perte Huber à limiter l’impact des outliers, évitant qu’ils ne déforment excessivement le modèle.

  • Différentiabilité : La perte Huber est différentiable partout, ce qui facilite l’optimisation par descente de gradient, contrairement à la MAE qui a un point anguleux.

📝 Points essentiels

  • La fonction de perte Huber est une solution intermédiaire entre MSE (très sensible aux outliers) et MAE (plus robuste mais non différentiable en zéro).
  • Le choix du seuil δ est crucial :
    • Si δ est trop grand, la perte devient proche de MSE, sensible aux outliers.
    • Si δ est trop petit, elle se rapproche de MAE, moins précise pour les erreurs faibles.
  • La perte Huber est particulièrement adaptée lorsque l’on souhaite une robustesse tout en conservant une optimisation efficace.
  • Elle est souvent utilisée dans des contextes où la présence d’outliers est probable mais pas souhaitée de fausser complètement le modèle.

💡 À retenir

La fonction de perte Huber offre un compromis intelligent entre précision et robustesse, en adaptant la pénalisation des erreurs selon leur magnitude grâce au seuil δ, ce qui en fait un choix privilégié pour des modèles de régression confrontés à des données bruitées ou contenant des outliers.

📖 4. Fonction de perte Quantile

🔑 Notions clés & Définitions

  • Fonction de perte Quantile : Fonction utilisée pour estimer un quantile spécifique d'une distribution de données, en pénalisant différemment les erreurs selon qu'elles soient au-dessus ou en dessous du quantile ciblé.
  • Quantile : Valeur séparant une distribution en pourcentages spécifiques, par exemple le 90e percentile, qui indique la valeur en dessous de laquelle se trouve 90 % des données.
  • Pénalisation asymétrique : La perte quantile applique une pénalité différente pour les erreurs positives et négatives, permettant d'estimer des quantiles autres que la moyenne.
  • Formule de la perte quantile : Lτ(y,y^)={τ(yy^)si yy^(1τ)(y^y)si y<y^L_{\tau}(y, \hat{y}) = \begin{cases} \tau (y - \hat{y}) & \text{si } y \geq \hat{y} \\ (1 - \tau) (\hat{y} - y) & \text{si } y < \hat{y} \end{cases}, où τ\tau est le quantile visé (ex : 0.9 pour le 90e).
  • Objectif : Minimiser cette perte pour obtenir une estimation précise du quantile souhaité, utile en gestion des risques et prévisions extrêmes.

📝 Points essentiels

  • La fonction de perte quantile permet d'estimer des valeurs de seuil ou de risque en se concentrant sur des extrêmes ou des pourcentages spécifiques de la distribution.
  • Elle est particulièrement adaptée pour des applications où l'on souhaite modéliser des scénarios de worst-case ou de limite supérieure, comme la Value at Risk en finance ou la demande maximale en énergie.
  • La perte est asymétrique : elle pénalise différemment les erreurs selon qu'elles soient au-dessus ou en dessous du quantile, ce qui permet de cibler précisément le niveau de risque ou de performance souhaité.
  • La sélection du τ\tau détermine le quantile estimé : par exemple, τ=0.5\tau=0.5 pour la médiane, τ=0.9\tau=0.9 pour le 90e percentile.
  • La perte quantile est une généralisation de la perte absolue, adaptée pour des estimations non centrales.

💡 À retenir

La fonction de perte quantile est un outil puissant pour modéliser et prévoir des extrêmes ou des seuils spécifiques dans une distribution, en ajustant la pénalisation des erreurs selon le quantile ciblé.

📖 5. Biais et Variance

🔑 Notions clés & Définitions

  • Biais (Bias) : Erreur systématique introduite par un modèle simplifié ou inadapté, qui empêche d'apprendre la relation réelle entre les variables. Un biais élevé indique un sous-apprentissage (underfitting).
  • Variance : Sensibilité du modèle aux fluctuations des données d'entraînement, reflétant sa capacité à s'adapter aux bruits ou aux variations. Une variance élevée indique un surapprentissage (overfitting).
  • Erreur totale (Total Error) : Somme de l'erreur due au biais, à la variance et au bruit irreprésentable dans les données. Elle se formule :
    Erreur=Biais2+Variance+Bruit\text{Erreur} = \text{Biais}^2 + \text{Variance} + \text{Bruit}
  • Sous-apprentissage (Underfitting) : Modèle trop simple, avec un biais élevé, qui ne capture pas la complexité des données.
  • Sur-apprentissage (Overfitting) : Modèle trop complexe, avec une variance élevée, qui mémorise le bruit des données d'entraînement, perdant en généralisation.

points essentiels

  • Le compromis biais-variance est crucial pour optimiser la performance d’un modèle : réduire l’un peut augmenter l’autre.
  • La courbe de biais-variance montre que la complexité du modèle doit être équilibrée pour minimiser l’erreur totale.
  • La zone idéale se situe dans un quadrant où le biais et la variance sont faibles, assurant une bonne généralisation.
  • La compréhension de ce compromis permet de choisir la bonne complexité de modèle et d’éviter le sur ou sous-apprentissage.

💡 À retenir

L’erreur de prédiction résulte d’un équilibre entre biais et variance : un modèle doit être suffisamment complexe pour capturer la tendance sans mémoriser le bruit, afin d’assurer une bonne généralisation.

📖 6. Dancede complexité du modèle

🔑 Notions clés & Définitions

  • Complexité du modèle : Capacité d’un modèle à s’adapter à des variations dans les données, influençant son biais et sa variance. Plus un modèle est complexe, plus il peut capturer des détails fins, mais il risque aussi de surajuster.

  • Sous- ajustement (Underfitting) : Situation où un modèle est trop simple pour capturer la structure des données, entraînant des performances faibles aussi bien sur l’entraînement que sur le test. Il présente un biais élevé.

  • Surajustement (Overfitting) : Lorsqu’un modèle est trop complexe, il mémorise le bruit des données d’entraînement, performe très bien sur celles-ci mais mal sur de nouvelles données. Il présente une variance élevée.

  • Balance biais-variance : Équilibre entre la simplicité (biais élevé, variance faible) et la complexité (biais faible, variance élevée) pour minimiser l’erreur totale du modèle.

  • Quadrants de performance : Classification des modèles selon leur biais et variance : sous- ajusté, surajusté, équilibré, ou instable, permettant d’évaluer leur adéquation à la tâche.

📝 Points essentiels

  • La complexité du modèle doit être adaptée à la quantité et à la nature des données pour éviter sous- ou sur- ajustement.

  • La courbe de biais-variance montre que l’erreur totale est minimisée à un point d’équilibre, souvent appelé le « sweet spot ».

  • La sélection de la complexité passe par des techniques comme la validation croisée, la régularisation, ou la pruning (élagage) pour contrôler la capacité du modèle.

  • La compréhension de la complexité permet d’éviter les pièges de l’overfitting (modèle trop complexe) et de l’underfitting (modèle trop simple), optimisant ainsi la généralisation.

💡 À retenir

L’ajustement de la complexité du modèle est crucial pour atteindre un compromis optimal entre biais et variance, garantissant une bonne capacité de généralisation tout en évitant le surapprentissage ou le sous-apprentissage.

📖 7. Régression linéaire

🔑 Notions clés & Définitions

  • Régression linéaire : Modèle statistique qui établit une relation linéaire entre une variable dépendante (cible) et une ou plusieurs variables indépendantes (features). La formule générale est y=Xβ+εy = X\beta + \varepsilon, où β\beta représente les coefficients à estimer.

  • Coefficient (β) : Paramètre estimé qui indique l’impact d’une variable indépendante sur la variable dépendante. Chaque coefficient correspond à la pente de la relation linéaire pour une feature.

  • Fonction de coût (Loss Function) : Fonction qui mesure l’erreur entre les valeurs prédites et les valeurs réelles. En régression linéaire, la plus courante est la moindres carrés (MSE).

  • Moindres carrés (Least Squares) : Méthode d’estimation des coefficients qui minimise la somme des carrés des erreurs (écarts entre valeurs observées et prédites). Formule : β^=(XTX)1XTy\hat{\beta} = (X^TX)^{-1}X^Ty.

  • Hypothèse de linéarité : Supposition que la relation entre variables indépendantes et dépendante est linéaire. La validité de cette hypothèse est essentielle pour la pertinence du modèle.

📝 Points essentiels

  • La régression linéaire est simple, interprétable et rapide, idéale pour des relations linéaires ou comme baseline.
  • La qualité du modèle dépend de la conformité à l’hypothèse de linéarité, de la présence de multicolinéarité, et de la qualité des données.
  • La méthode des moindres carrés est sensible aux valeurs aberrantes (outliers), qui peuvent fortement influencer les coefficients.
  • La régularisation (Ridge, Lasso) peut être ajoutée pour éviter le surapprentissage ou pour la sélection de variables.
  • La validation croisée est recommandée pour évaluer la performance et éviter le surajustement.

💡 À retenir

La régression linéaire est un modèle simple, puissant pour comprendre et modéliser des relations linéaires, mais ses performances dépendent de la conformité à ses hypothèses et de la qualité des données.

📖 8. Régression Ridge (L2)

🔑 Notions clés & Définitions

  • Régression Ridge (L2) : Méthode de régression linéaire régularisée qui ajoute une pénalité proportionnelle à la somme des carrés des coefficients pour réduire la complexité du modèle et éviter le surapprentissage.

  • Pénalité L2 (Ridge) : Termes de régularisation sous forme de somme des carrés des coefficients (λ∑w_j²), qui contraint les coefficients à rester faibles tout en conservant tous les variables.

  • Lambda (λ) : Hyperparamètre contrôlant la force de la régularisation. Plus λ est élevé, plus les coefficients sont contraints vers zéro, simplifiant le modèle.

  • Effet de la régularisation : Réduit la variance du modèle en limitant la magnitude des coefficients, ce qui peut augmenter le biais mais améliorer la généralisation.

  • Solution analytique : La formule fermée de Ridge est donnée par :
    β^=(XTX+λI)1XTy\hat{\beta} = (X^T X + \lambda I)^{-1} X^T yXX est la matrice de caractéristiques, yy le vecteur cible, et II la matrice identité.

  • Points essentiels :

    • La régularisation L2 ne réalise pas de sélection de variables, contrairement à Lasso.
    • Elle est efficace pour gérer la multicolinéarité.
    • La valeur de λ doit être choisie via validation croisée pour équilibrer biais et variance.

Point à retenir

La régression Ridge est une extension de la régression linéaire qui introduit une pénalité pour limiter la complexité du modèle, permettant d'améliorer la stabilité et la capacité de généralisation face à des données multicolinéaires ou bruitées.

📖 9. Régression Lasso (L1)

🔑 Notions clés & Définitions

  • Régression Lasso (Least Absolute Shrinkage and Selection Operator) : Méthode de régression linéaire qui intègre une pénalité L1 pour encourager la sparsité des coefficients, favorisant la sélection automatique de variables pertinentes.

  • Pénalité L1 : Termes de régularisation proportionnels à la somme des valeurs absolues des coefficients, ce qui peut conduire à la réduction de certains coefficients à zéro.

  • Coefficient nul : Résultat typique du Lasso où certaines variables sont exclues du modèle, car leur coefficient est ramené à zéro, permettant une sélection automatique de caractéristiques.

  • Hyperparamètre λ (lambda) : Paramètre de régularisation contrôlant la force de la pénalité L1. Plus λ est élevé, plus de coefficients seront nuls, renforçant la sparsité.

  • Sparsité : Caractéristique d’un modèle où la majorité des coefficients sont nuls, ce qui facilite l’interprétation et réduit le risque de surapprentissage.

  • Avantages du Lasso : Sélection automatique de variables, réduction de la complexité du modèle, meilleure interprétabilité.

  • Inconvénients du Lasso : Peut être instable lorsque des variables sont fortement corrélées, tend à sélectionner une seule variable parmi un groupe fortement corrélé.

📝 Points essentiels

  • La régression Lasso combine la minimisation de l’erreur quadratique moyenne avec une pénalité L1, ce qui favorise la sparsité des coefficients.
  • La pénalité L1 pousse certains coefficients à zéro, permettant une sélection automatique de variables pertinentes.
  • La valeur du hyperparamètre λ détermine le degré de régularisation : un λ élevé entraîne une réduction plus forte des coefficients.
  • La Lasso est particulièrement utile dans les contextes avec un grand nombre de variables, notamment pour la réduction de dimension.
  • La sélection de λ se fait généralement via validation croisée pour équilibrer biais et variance.
  • La régression Lasso peut être combinée avec d’autres méthodes (ex : Elastic Net) pour gérer la corrélation entre variables.

💡 À retenir

La régression Lasso est une technique efficace pour la sélection automatique de variables dans un modèle linéaire, grâce à sa pénalité L1 qui favorise la sparsité, tout en permettant de réduire la complexité et d’améliorer l’interprétabilité du modèle.

📖 10. Arbre de décision

🔑 Notions clés & Définitions

  • Arbre de décision : Modèle prédictif qui utilise une structure arborescente pour prendre des décisions en divisant successivement les données selon des critères (tests sur des variables) afin de prédire une valeur ou une catégorie.

  • Nœud interne : Point de décision dans l’arbre où une variable est testée pour déterminer la branche à suivre. Il représente une condition ou un critère de séparation.

  • Feuille (ou terminal) : Nœud final de l’arbre qui donne la prédiction (valeur continue ou catégorie). Il ne possède pas d’enfants.

  • Critère de séparation : Fonction utilisée pour choisir la variable et le seuil qui optimisent la division des données (ex : indice de Gini, entropie, variance). Elle vise à maximiser la pureté ou à réduire l’hétérogénéité.

  • Pruning (élagage) : Technique pour simplifier l’arbre en supprimant certaines branches ou nœuds pour éviter le surapprentissage (overfitting) et améliorer la généralisation.

📝 Points essentiels

  • Construction de l’arbre : Se fait par un processus récursif de division des données en utilisant un critère de séparation, jusqu’à atteindre un critère d’arrêt (profondeur maximale, nombre minimum d’échantillons, pureté).

  • Hyperparamètres clés : Profondeur maximale, nombre minimum d’échantillons par feuille, critère de division, méthode d’élagage.

  • Avantages : Facile à comprendre et interpréter, peu de prétraitement nécessaire, capable de gérer des variables qualitatives et quantitatives.

  • Inconvénients : Susceptible au surapprentissage, instable (petites modifications des données peuvent changer la structure), peut produire des arbres très profonds.

  • Utilisation en ensemble : Souvent combiné avec d’autres modèles (forêts aléatoires, gradient boosting) pour améliorer la performance.

💡 À retenir

L’arbre de décision est un modèle intuitif et flexible, mais il doit être contrôlé par des techniques d’élagage et d’ensemble pour éviter le surapprentissage et garantir une bonne généralisation.

📖 11. Forêt aléatoire

🔑 Notions clés & Définitions

  • Forêt aléatoire (Random Forest) : Algorithme d'ensemble utilisant plusieurs arbres de décision construits à partir d'échantillons aléatoires et de sous-ensembles de caractéristiques, puis combinant leurs prédictions (majorité ou moyenne).
  • Bootstrap (échantillonnage avec remise) : Technique consistant à tirer aléatoirement des sous-ensembles de données pour entraîner chaque arbre, favorisant la diversité des modèles.
  • Hyperparamètres principaux : Nombre d'arbres (n_estimators), profondeur maximale (max_depth), nombre de caractéristiques par split (max_features), et méthode d'échantillonnage (bootstrap).
  • Overfitting et Underfitting : Risque que la forêt mémorise trop ou pas assez les données, contrôlé par la profondeur des arbres et le nombre d'arbres.
  • Vote ou moyenne : Méthode de combinaison des prédictions, par majorité pour la classification ou moyenne pour la régression, permettant de réduire la variance.

📝 Points essentiels

  • La forêt aléatoire réduit le surapprentissage en introduisant de la diversité entre les arbres via l’échantillonnage et la sélection aléatoire de caractéristiques.
  • La performance dépend fortement du nombre d’arbres (n_estimators) et de la profondeur (max_depth) ; plus d’arbres tend à améliorer la stabilité, mais avec un coût computationnel.
  • La sélection des hyperparamètres doit se faire par validation croisée pour éviter le surapprentissage ou sous-apprentissage.
  • La forêt est robuste face aux données bruitées et aux valeurs aberrantes, grâce à la moyenne des arbres.
  • La complexité du modèle peut être ajustée pour équilibrer précision et vitesse d’inférence.

💡 À retenir

La forêt aléatoire est un modèle d'ensemble puissant, capable d'améliorer la précision tout en contrôlant le surapprentissage, grâce à la diversité introduite par l’échantillonnage et la sélection aléatoire des caractéristiques.

📖 12. Gradient Boosting

🔑 Notions clés & Définitions

Gradient Boosting
Méthode d'apprentissage supervisé qui construit un modèle prédictif en combinant plusieurs faibles apprenants (souvent des arbres de décision) de manière séquentielle, chaque nouveau modèle corrigeant les erreurs du précédent en utilisant la technique du gradient pour optimiser une fonction de perte.

Faible apprenant (Weak Learner)
Modèle simple, généralement un arbre peu profond, qui ne performe que légèrement mieux que le hasard. Utilisé comme base dans le boosting pour construire un modèle robuste.

Fonction de perte (Loss Function)
Fonction qui mesure l’erreur ou la "wrongness" du modèle. Gradient Boosting optimise cette fonction en ajustant chaque étape en direction du gradient négatif pour réduire l’erreur.

Gradient
Vecto dérivé de la fonction de perte par rapport aux prédictions, indiquant la direction et la magnitude de la correction à apporter pour améliorer le modèle.

Learning Rate (Taux d'apprentissage)
Paramètre contrôlant la contribution de chaque arbre ajouté à l’ensemble. Un taux faible nécessite plus d’arbres, mais évite le surapprentissage.

Hyperparamètres
Paramètres ajustables tels que le nombre d’arbres (n_estimators), la profondeur maximale des arbres (max_depth), et le taux d’apprentissage (learning_rate), qui influencent la performance et la généralisation du modèle.

📝 Points essentiels

  • Construction séquentielle : chaque arbre est entraîné pour corriger les erreurs résiduelles du modèle précédent, en utilisant la dérivée de la fonction de perte (gradient).
  • Optimisation par gradient : la méthode ajuste les prédictions en suivant la direction du gradient négatif pour minimiser l’erreur.
  • Contrôle du surapprentissage : le taux d’apprentissage et la profondeur des arbres sont cruciaux pour équilibrer biais et variance.
  • Avantages : haute précision, capacité à gérer des données complexes, flexibilité avec différentes fonctions de perte.
  • Inconvénients : temps d’entraînement plus long, risque de surajustement si mal paramétré, nécessite une validation croisée rigoureuse.

💡 À retenir

Le Gradient Boosting construit un modèle puissant en corrigeant itérativement ses erreurs via la méthode du gradient, mais demande une gestion fine des hyperparamètres pour éviter le surapprentissage et optimiser la performance.

📊 Tableaux de Synthèse

CritèreMSE (Erreur Quadratique Moyenne)MAE (Erreur Absolue Moyenne)Huber (Perte combinée)Quantile (Perte asymétrique)
Sensibilité aux outliersÉlevéeFaibleMoyenneVariable selon τ\tau
Fonction dérivableOuiNon (point anguleux en zéro)OuiOui
Utilisation principaleRégression précise, faible bruitRobustesse, outliers présentsRégression robusteEstimation quantiles
Formule principale1n(yy^)2\frac{1}{n} \sum (y - \hat{y})^2$\frac{1}{n} \sumy - \hat{y}$
ObjectifMinimiser erreur quadratiqueMinimiser erreur absolueEquilibre entre précision et robustesseEstimer un quantile spécifique

⚠️ Pièges & Confusions Fréquentes

  1. Confondre MSE et MAE : MSE punit fortement les erreurs importantes, MAE traite chaque erreur de façon linéaire.
  2. Utiliser MAE au lieu de MSE pour des modèles nécessitant une différentiabilité optimale (descente de gradient).
  3. Penser que Huber est équivalent à MSE ou MAE : c’est un compromis, dépend du seuil δ\delta.
  4. Mal choisir le seuil δ\delta dans Huber : trop grand ou trop petit peut dégrader la robustesse ou la précision.
  5. Confondre la perte quantile avec la moyenne ou la médiane : elle cible un quantile précis, pas une moyenne.
  6. Oublier que la perte quantile est asymétrique, pénalisant différemment erreurs au-dessus et en dessous du quantile.
  7. Croire que la réduction du biais ou de la variance seule suffit : il faut équilibrer pour éviter sous ou sur-apprentissage.

✅ Checklist Examen

  • Maîtriser la formule et l’intuition du MSE, MAE, Huber, et Quantile.
  • Savoir quand privilégier chaque fonction de perte selon le contexte (présence d’outliers, estimation de quantiles).
  • Comprendre la différence entre biais et variance, et leur impact sur le modèle.
  • Identifier les modèles de régression linéaire, Ridge, Lasso, et leurs particularités.
  • Connaître la structure et le fonctionnement d’un arbre de décision.
  • Savoir ce qu’est une forêt aléatoire et ses avantages par rapport à un arbre seul.
  • Comprendre le principe du Gradient Boosting et ses applications.
  • Être capable d’expliquer la sensibilité de chaque méthode aux outliers et bruit.
  • Connaître les critères de complexité d’un modèle (overfitting vs underfitting).
  • Vérifier la maîtrise des concepts de biais, variance, et leur équilibre.
  • Identifier la différence entre L1 (Lasso) et L2 (Ridge) en termes de régularisation.
  • S’assurer de la compréhension des notions de sous et sur-apprentissage.

Metti alla prova le tue conoscenze

Metti alla prova le tue conoscenze su Principes et Méthodes de Régression con 12 domande a scelta multipla con correzioni dettagliate.

1. Quelle est la définition correcte de la fonction de perte MSE en régression ?

2. Quelle est la formule exacte de la fonction de perte MAE ?

Fai il quiz →

Ripassa con le flashcard

Memorizza i concetti chiave di Principes et Méthodes de Régression con 24 flashcard interattive.

Fonction de perte MSE — définition ?

Moyenne des carrés des écarts entre prévisions et réalité.

MAE — rôle ?

Mesure la précision linéaire en moyenne des erreurs absolues.

Fonction de perte Huber — mécanisme ?

Combine MSE pour petites erreurs et MAE pour grandes erreurs.

Vedi le flashcard →

Similar courses

Crea le tue schede di revisione

Importa il tuo corso e l'AI genera schede, quiz e flashcard in 30 secondi.

Generatore di schede