Lernzettel: Principes et Méthodes de Régression

Plan du Cours

Fonction de perte MSE
Fonction de perte MAE
Fonction de perte Huber
Fonction de perte Quantile
Biais et Variance
Dancede complexité du modèle
Régression linéaire
Régression Ridge (L2)
Régression Lasso (L1)
Arbre de décision
Forêt aléatoire
Gradient Boosting

1. Fonction de perte MSE

Notions clés & Définitions

Fonction de perte (Loss Function) : Mesure quantitative de l'erreur ou de la "wrongness" d’un modèle, permettant d’optimiser ses paramètres.
MSE (Mean Squared Error) : Moyenne des carrés des écarts entre les valeurs prédites et les valeurs réelles. Formel : $\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$ .
Intuition du MSE : Punition quadratique des erreurs, ce qui signifie que les erreurs importantes sont pénalisées de manière plus sévère que les erreurs faibles.
Sensibilité aux outliers : Le MSE est très sensible aux valeurs aberrantes, car il amplifie les grandes erreurs par leur carré.
Points essentiels : Utilisé lorsque la différentiabilité et la smoothness sont nécessaires, notamment pour la descente de gradient.
Point à retenir : Le MSE favorise des modèles précis pour les erreurs faibles mais peut conduire à des modèles surajustés en présence d’outliers.

Astuce mémoire

Le carré des erreurs accentue leur impact, ce qui en fait un choix strict pour minimiser l’erreur globale, mais à risque de surajustement si les données contiennent des valeurs extrêmes.

2. Fonction de perte MAE

Notions clés & Définitions

MAE (Mean Absolute Error) : La moyenne des valeurs absolues des écarts entre les valeurs prédites et les valeurs réelles.
Formule : $\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} | y_i - \hat{y}_i |$
Point essentiel : Mesure la précision de manière linéaire, chaque erreur a le même poids.
Robustesse : Capacité du MAE à résister aux valeurs aberrantes (outliers).
Point essentiel : Contrairement au MSE, le MAE ne pénalise pas fortement les erreurs importantes, ce qui le rend plus robuste.
Estimation médiane : La minimisation du MAE conduit à une estimation médiane des données, contrairement au MSE qui cible la moyenne.
Point essentiel : Cela explique la robustesse du MAE face aux outliers.
Sensibilité aux outliers : Le MAE est moins sensible aux valeurs extrêmes que le MSE, car il ne pénalise pas quadratiquement.
Point essentiel : Favorise une modélisation plus stable en présence de données bruitées ou aberrantes.
Utilisation pratique : Approprié lorsque l’on souhaite une métrique simple, interprétable, et robuste, notamment pour des données avec outliers ou bruit.
Point essentiel : Idéal pour des applications où chaque erreur a une importance équivalente.

Point à retenir

Le MAE offre une mesure linéaire de l’erreur, privilégiant la robustesse et la simplicité d’interprétation, ce qui en fait une métrique privilégiée pour évaluer la précision dans des contextes où la présence d’outliers doit être minimisée.

3. Fonction de perte Huber

Notions clés & Définitions

Fonction de perte Huber : Une fonction de coût utilisée en régression, combinant les avantages de l’erreur quadratique (MSE) pour les petites erreurs et de l’erreur absolue (MAE) pour les grandes erreurs, afin d’être robuste aux outliers tout en conservant une différentiabilité.
Seuil δ (delta) : La valeur à partir de laquelle la perte passe de la quadratic (carrée) à la linéaire. Elle détermine la sensibilité aux erreurs importantes.
Formule de la perte Huber :
$L_{\text{Huber}}(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{si } |y - \hat{y}| \leq \delta \\ \delta \left(|y - \hat{y}| - \frac{1}{2} \delta \right) & \text{sinon} \end{cases}$ Elle combine une partie quadratique pour les erreurs faibles et une partie linéaire pour les erreurs importantes.
Robustesse : La capacité de la perte Huber à limiter l’impact des outliers, évitant qu’ils ne déforment excessivement le modèle.
Différentiabilité : La perte Huber est différentiable partout, ce qui facilite l’optimisation par descente de gradient, contrairement à la MAE qui a un point anguleux.

Points essentiels

La fonction de perte Huber est une solution intermédiaire entre MSE (très sensible aux outliers) et MAE (plus robuste mais non différentiable en zéro).
Le choix du seuil δ est crucial :
- Si δ est trop grand, la perte devient proche de MSE, sensible aux outliers.
- Si δ est trop petit, elle se rapproche de MAE, moins précise pour les erreurs faibles.
La perte Huber est particulièrement adaptée lorsque l’on souhaite une robustesse tout en conservant une optimisation efficace.
Elle est souvent utilisée dans des contextes où la présence d’outliers est probable mais pas souhaitée de fausser complètement le modèle.

À retenir

La fonction de perte Huber offre un compromis intelligent entre précision et robustesse, en adaptant la pénalisation des erreurs selon leur magnitude grâce au seuil δ, ce qui en fait un choix privilégié pour des modèles de régression confrontés à des données bruitées ou contenant des outliers.

4. Fonction de perte Quantile

Notions clés & Définitions

Fonction de perte Quantile : Fonction utilisée pour estimer un quantile spécifique d'une distribution de données, en pénalisant différemment les erreurs selon qu'elles soient au-dessus ou en dessous du quantile ciblé.
Quantile : Valeur séparant une distribution en pourcentages spécifiques, par exemple le 90e percentile, qui indique la valeur en dessous de laquelle se trouve 90 % des données.
Pénalisation asymétrique : La perte quantile applique une pénalité différente pour les erreurs positives et négatives, permettant d'estimer des quantiles autres que la moyenne.
Formule de la perte quantile : $L_{\tau}(y, \hat{y}) = \begin{cases} \tau (y - \hat{y}) & \text{si } y \geq \hat{y} \\ (1 - \tau) (\hat{y} - y) & \text{si } y < \hat{y} \end{cases}$ , où $\tau$ est le quantile visé (ex : 0.9 pour le 90e).
Objectif : Minimiser cette perte pour obtenir une estimation précise du quantile souhaité, utile en gestion des risques et prévisions extrêmes.

Points essentiels

La fonction de perte quantile permet d'estimer des valeurs de seuil ou de risque en se concentrant sur des extrêmes ou des pourcentages spécifiques de la distribution.
Elle est particulièrement adaptée pour des applications où l'on souhaite modéliser des scénarios de worst-case ou de limite supérieure, comme la Value at Risk en finance ou la demande maximale en énergie.
La perte est asymétrique : elle pénalise différemment les erreurs selon qu'elles soient au-dessus ou en dessous du quantile, ce qui permet de cibler précisément le niveau de risque ou de performance souhaité.
La sélection du $\tau$ détermine le quantile estimé : par exemple, $\tau=0.5$ pour la médiane, $\tau=0.9$ pour le 90e percentile.
La perte quantile est une généralisation de la perte absolue, adaptée pour des estimations non centrales.

À retenir

La fonction de perte quantile est un outil puissant pour modéliser et prévoir des extrêmes ou des seuils spécifiques dans une distribution, en ajustant la pénalisation des erreurs selon le quantile ciblé.

5. Biais et Variance

Notions clés & Définitions

Biais (Bias) : Erreur systématique introduite par un modèle simplifié ou inadapté, qui empêche d'apprendre la relation réelle entre les variables. Un biais élevé indique un sous-apprentissage (underfitting).
Variance : Sensibilité du modèle aux fluctuations des données d'entraînement, reflétant sa capacité à s'adapter aux bruits ou aux variations. Une variance élevée indique un surapprentissage (overfitting).
Erreur totale (Total Error) : Somme de l'erreur due au biais, à la variance et au bruit irreprésentable dans les données. Elle se formule :
$\text{Erreur} = \text{Biais}^2 + \text{Variance} + \text{Bruit}$
Sous-apprentissage (Underfitting) : Modèle trop simple, avec un biais élevé, qui ne capture pas la complexité des données.
Sur-apprentissage (Overfitting) : Modèle trop complexe, avec une variance élevée, qui mémorise le bruit des données d'entraînement, perdant en généralisation.

points essentiels

Le compromis biais-variance est crucial pour optimiser la performance d’un modèle : réduire l’un peut augmenter l’autre.
La courbe de biais-variance montre que la complexité du modèle doit être équilibrée pour minimiser l’erreur totale.
La zone idéale se situe dans un quadrant où le biais et la variance sont faibles, assurant une bonne généralisation.
La compréhension de ce compromis permet de choisir la bonne complexité de modèle et d’éviter le sur ou sous-apprentissage.

À retenir

L’erreur de prédiction résulte d’un équilibre entre biais et variance : un modèle doit être suffisamment complexe pour capturer la tendance sans mémoriser le bruit, afin d’assurer une bonne généralisation.

6. Dancede complexité du modèle

Notions clés & Définitions

Complexité du modèle : Capacité d’un modèle à s’adapter à des variations dans les données, influençant son biais et sa variance. Plus un modèle est complexe, plus il peut capturer des détails fins, mais il risque aussi de surajuster.
Sous- ajustement (Underfitting) : Situation où un modèle est trop simple pour capturer la structure des données, entraînant des performances faibles aussi bien sur l’entraînement que sur le test. Il présente un biais élevé.
Surajustement (Overfitting) : Lorsqu’un modèle est trop complexe, il mémorise le bruit des données d’entraînement, performe très bien sur celles-ci mais mal sur de nouvelles données. Il présente une variance élevée.
Balance biais-variance : Équilibre entre la simplicité (biais élevé, variance faible) et la complexité (biais faible, variance élevée) pour minimiser l’erreur totale du modèle.
Quadrants de performance : Classification des modèles selon leur biais et variance : sous- ajusté, surajusté, équilibré, ou instable, permettant d’évaluer leur adéquation à la tâche.

Points essentiels

La complexité du modèle doit être adaptée à la quantité et à la nature des données pour éviter sous- ou sur- ajustement.
La courbe de biais-variance montre que l’erreur totale est minimisée à un point d’équilibre, souvent appelé le « sweet spot ».
La sélection de la complexité passe par des techniques comme la validation croisée, la régularisation, ou la pruning (élagage) pour contrôler la capacité du modèle.
La compréhension de la complexité permet d’éviter les pièges de l’overfitting (modèle trop complexe) et de l’underfitting (modèle trop simple), optimisant ainsi la généralisation.

À retenir

L’ajustement de la complexité du modèle est crucial pour atteindre un compromis optimal entre biais et variance, garantissant une bonne capacité de généralisation tout en évitant le surapprentissage ou le sous-apprentissage.

7. Régression linéaire

Notions clés & Définitions

Régression linéaire : Modèle statistique qui établit une relation linéaire entre une variable dépendante (cible) et une ou plusieurs variables indépendantes (features). La formule générale est $y = X\beta + \varepsilon$ , où $\beta$ représente les coefficients à estimer.
Coefficient (β) : Paramètre estimé qui indique l’impact d’une variable indépendante sur la variable dépendante. Chaque coefficient correspond à la pente de la relation linéaire pour une feature.
Fonction de coût (Loss Function) : Fonction qui mesure l’erreur entre les valeurs prédites et les valeurs réelles. En régression linéaire, la plus courante est la moindres carrés (MSE).
Moindres carrés (Least Squares) : Méthode d’estimation des coefficients qui minimise la somme des carrés des erreurs (écarts entre valeurs observées et prédites). Formule : $\hat{\beta} = (X^TX)^{-1}X^Ty$ .
Hypothèse de linéarité : Supposition que la relation entre variables indépendantes et dépendante est linéaire. La validité de cette hypothèse est essentielle pour la pertinence du modèle.

Points essentiels

La régression linéaire est simple, interprétable et rapide, idéale pour des relations linéaires ou comme baseline.
La qualité du modèle dépend de la conformité à l’hypothèse de linéarité, de la présence de multicolinéarité, et de la qualité des données.
La méthode des moindres carrés est sensible aux valeurs aberrantes (outliers), qui peuvent fortement influencer les coefficients.
La régularisation (Ridge, Lasso) peut être ajoutée pour éviter le surapprentissage ou pour la sélection de variables.
La validation croisée est recommandée pour évaluer la performance et éviter le surajustement.

À retenir

La régression linéaire est un modèle simple, puissant pour comprendre et modéliser des relations linéaires, mais ses performances dépendent de la conformité à ses hypothèses et de la qualité des données.

8. Régression Ridge (L2)

Notions clés & Définitions

Régression Ridge (L2) : Méthode de régression linéaire régularisée qui ajoute une pénalité proportionnelle à la somme des carrés des coefficients pour réduire la complexité du modèle et éviter le surapprentissage.
Pénalité L2 (Ridge) : Termes de régularisation sous forme de somme des carrés des coefficients (λ∑w_j²), qui contraint les coefficients à rester faibles tout en conservant tous les variables.
Lambda (λ) : Hyperparamètre contrôlant la force de la régularisation. Plus λ est élevé, plus les coefficients sont contraints vers zéro, simplifiant le modèle.
Effet de la régularisation : Réduit la variance du modèle en limitant la magnitude des coefficients, ce qui peut augmenter le biais mais améliorer la généralisation.
Solution analytique : La formule fermée de Ridge est donnée par :
$\hat{\beta} = (X^T X + \lambda I)^{-1} X^T y$ où $X$ est la matrice de caractéristiques, $y$ le vecteur cible, et $I$ la matrice identité.
Points essentiels :
- La régularisation L2 ne réalise pas de sélection de variables, contrairement à Lasso.
- Elle est efficace pour gérer la multicolinéarité.
- La valeur de λ doit être choisie via validation croisée pour équilibrer biais et variance.

Point à retenir

La régression Ridge est une extension de la régression linéaire qui introduit une pénalité pour limiter la complexité du modèle, permettant d'améliorer la stabilité et la capacité de généralisation face à des données multicolinéaires ou bruitées.

9. Régression Lasso (L1)

Notions clés & Définitions

Régression Lasso (Least Absolute Shrinkage and Selection Operator) : Méthode de régression linéaire qui intègre une pénalité L1 pour encourager la sparsité des coefficients, favorisant la sélection automatique de variables pertinentes.
Pénalité L1 : Termes de régularisation proportionnels à la somme des valeurs absolues des coefficients, ce qui peut conduire à la réduction de certains coefficients à zéro.
Coefficient nul : Résultat typique du Lasso où certaines variables sont exclues du modèle, car leur coefficient est ramené à zéro, permettant une sélection automatique de caractéristiques.
Hyperparamètre λ (lambda) : Paramètre de régularisation contrôlant la force de la pénalité L1. Plus λ est élevé, plus de coefficients seront nuls, renforçant la sparsité.
Sparsité : Caractéristique d’un modèle où la majorité des coefficients sont nuls, ce qui facilite l’interprétation et réduit le risque de surapprentissage.
Avantages du Lasso : Sélection automatique de variables, réduction de la complexité du modèle, meilleure interprétabilité.
Inconvénients du Lasso : Peut être instable lorsque des variables sont fortement corrélées, tend à sélectionner une seule variable parmi un groupe fortement corrélé.

Points essentiels

La régression Lasso combine la minimisation de l’erreur quadratique moyenne avec une pénalité L1, ce qui favorise la sparsité des coefficients.
La pénalité L1 pousse certains coefficients à zéro, permettant une sélection automatique de variables pertinentes.
La valeur du hyperparamètre λ détermine le degré de régularisation : un λ élevé entraîne une réduction plus forte des coefficients.
La Lasso est particulièrement utile dans les contextes avec un grand nombre de variables, notamment pour la réduction de dimension.
La sélection de λ se fait généralement via validation croisée pour équilibrer biais et variance.
La régression Lasso peut être combinée avec d’autres méthodes (ex : Elastic Net) pour gérer la corrélation entre variables.

À retenir

La régression Lasso est une technique efficace pour la sélection automatique de variables dans un modèle linéaire, grâce à sa pénalité L1 qui favorise la sparsité, tout en permettant de réduire la complexité et d’améliorer l’interprétabilité du modèle.

10. Arbre de décision

Notions clés & Définitions

Arbre de décision : Modèle prédictif qui utilise une structure arborescente pour prendre des décisions en divisant successivement les données selon des critères (tests sur des variables) afin de prédire une valeur ou une catégorie.
Nœud interne : Point de décision dans l’arbre où une variable est testée pour déterminer la branche à suivre. Il représente une condition ou un critère de séparation.
Feuille (ou terminal) : Nœud final de l’arbre qui donne la prédiction (valeur continue ou catégorie). Il ne possède pas d’enfants.
Critère de séparation : Fonction utilisée pour choisir la variable et le seuil qui optimisent la division des données (ex : indice de Gini, entropie, variance). Elle vise à maximiser la pureté ou à réduire l’hétérogénéité.
Pruning (élagage) : Technique pour simplifier l’arbre en supprimant certaines branches ou nœuds pour éviter le surapprentissage (overfitting) et améliorer la généralisation.

Points essentiels

Construction de l’arbre : Se fait par un processus récursif de division des données en utilisant un critère de séparation, jusqu’à atteindre un critère d’arrêt (profondeur maximale, nombre minimum d’échantillons, pureté).
Hyperparamètres clés : Profondeur maximale, nombre minimum d’échantillons par feuille, critère de division, méthode d’élagage.
Avantages : Facile à comprendre et interpréter, peu de prétraitement nécessaire, capable de gérer des variables qualitatives et quantitatives.
Inconvénients : Susceptible au surapprentissage, instable (petites modifications des données peuvent changer la structure), peut produire des arbres très profonds.
Utilisation en ensemble : Souvent combiné avec d’autres modèles (forêts aléatoires, gradient boosting) pour améliorer la performance.

À retenir

L’arbre de décision est un modèle intuitif et flexible, mais il doit être contrôlé par des techniques d’élagage et d’ensemble pour éviter le surapprentissage et garantir une bonne généralisation.

11. Forêt aléatoire

Notions clés & Définitions

Forêt aléatoire (Random Forest) : Algorithme d'ensemble utilisant plusieurs arbres de décision construits à partir d'échantillons aléatoires et de sous-ensembles de caractéristiques, puis combinant leurs prédictions (majorité ou moyenne).
Bootstrap (échantillonnage avec remise) : Technique consistant à tirer aléatoirement des sous-ensembles de données pour entraîner chaque arbre, favorisant la diversité des modèles.
Hyperparamètres principaux : Nombre d'arbres (n_estimators), profondeur maximale (max_depth), nombre de caractéristiques par split (max_features), et méthode d'échantillonnage (bootstrap).
Overfitting et Underfitting : Risque que la forêt mémorise trop ou pas assez les données, contrôlé par la profondeur des arbres et le nombre d'arbres.
Vote ou moyenne : Méthode de combinaison des prédictions, par majorité pour la classification ou moyenne pour la régression, permettant de réduire la variance.

Points essentiels

La forêt aléatoire réduit le surapprentissage en introduisant de la diversité entre les arbres via l’échantillonnage et la sélection aléatoire de caractéristiques.
La performance dépend fortement du nombre d’arbres (n_estimators) et de la profondeur (max_depth) ; plus d’arbres tend à améliorer la stabilité, mais avec un coût computationnel.
La sélection des hyperparamètres doit se faire par validation croisée pour éviter le surapprentissage ou sous-apprentissage.
La forêt est robuste face aux données bruitées et aux valeurs aberrantes, grâce à la moyenne des arbres.
La complexité du modèle peut être ajustée pour équilibrer précision et vitesse d’inférence.

À retenir

La forêt aléatoire est un modèle d'ensemble puissant, capable d'améliorer la précision tout en contrôlant le surapprentissage, grâce à la diversité introduite par l’échantillonnage et la sélection aléatoire des caractéristiques.

12. Gradient Boosting

Notions clés & Définitions

Gradient Boosting
Méthode d'apprentissage supervisé qui construit un modèle prédictif en combinant plusieurs faibles apprenants (souvent des arbres de décision) de manière séquentielle, chaque nouveau modèle corrigeant les erreurs du précédent en utilisant la technique du gradient pour optimiser une fonction de perte.

Faible apprenant (Weak Learner)
Modèle simple, généralement un arbre peu profond, qui ne performe que légèrement mieux que le hasard. Utilisé comme base dans le boosting pour construire un modèle robuste.

Fonction de perte (Loss Function)
Fonction qui mesure l’erreur ou la "wrongness" du modèle. Gradient Boosting optimise cette fonction en ajustant chaque étape en direction du gradient négatif pour réduire l’erreur.

Gradient
Vecto dérivé de la fonction de perte par rapport aux prédictions, indiquant la direction et la magnitude de la correction à apporter pour améliorer le modèle.

Learning Rate (Taux d'apprentissage)
Paramètre contrôlant la contribution de chaque arbre ajouté à l’ensemble. Un taux faible nécessite plus d’arbres, mais évite le surapprentissage.

Hyperparamètres
Paramètres ajustables tels que le nombre d’arbres (n_estimators), la profondeur maximale des arbres (max_depth), et le taux d’apprentissage (learning_rate), qui influencent la performance et la généralisation du modèle.

Points essentiels

Construction séquentielle : chaque arbre est entraîné pour corriger les erreurs résiduelles du modèle précédent, en utilisant la dérivée de la fonction de perte (gradient).
Optimisation par gradient : la méthode ajuste les prédictions en suivant la direction du gradient négatif pour minimiser l’erreur.
Contrôle du surapprentissage : le taux d’apprentissage et la profondeur des arbres sont cruciaux pour équilibrer biais et variance.
Avantages : haute précision, capacité à gérer des données complexes, flexibilité avec différentes fonctions de perte.
Inconvénients : temps d’entraînement plus long, risque de surajustement si mal paramétré, nécessite une validation croisée rigoureuse.

À retenir

Le Gradient Boosting construit un modèle puissant en corrigeant itérativement ses erreurs via la méthode du gradient, mais demande une gestion fine des hyperparamètres pour éviter le surapprentissage et optimiser la performance.

Tableaux de Synthèse

Critère	MSE (Erreur Quadratique Moyenne)	MAE (Erreur Absolue Moyenne)	Huber (Perte combinée)	Quantile (Perte asymétrique)
Sensibilité aux outliers	Élevée	Faible	Moyenne	Variable selon $\tau$
Fonction dérivable	Oui	Non (point anguleux en zéro)	Oui	Oui
Utilisation principale	Régression précise, faible bruit	Robustesse, outliers présents	Régression robuste	Estimation quantiles
Formule principale	$\frac{1}{n} \sum (y - \hat{y})^2$	$\frac{1}{n} \sum	y - \hat{y}	$
Objectif	Minimiser erreur quadratique	Minimiser erreur absolue	Equilibre entre précision et robustesse	Estimer un quantile spécifique

Pièges & Confusions Fréquentes

Confondre MSE et MAE : MSE punit fortement les erreurs importantes, MAE traite chaque erreur de façon linéaire.
Utiliser MAE au lieu de MSE pour des modèles nécessitant une différentiabilité optimale (descente de gradient).
Penser que Huber est équivalent à MSE ou MAE : c’est un compromis, dépend du seuil $\delta$ .
Mal choisir le seuil $\delta$ dans Huber : trop grand ou trop petit peut dégrader la robustesse ou la précision.
Confondre la perte quantile avec la moyenne ou la médiane : elle cible un quantile précis, pas une moyenne.
Oublier que la perte quantile est asymétrique, pénalisant différemment erreurs au-dessus et en dessous du quantile.
Croire que la réduction du biais ou de la variance seule suffit : il faut équilibrer pour éviter sous ou sur-apprentissage.

Checklist Examen

Maîtriser la formule et l’intuition du MSE, MAE, Huber, et Quantile.
Savoir quand privilégier chaque fonction de perte selon le contexte (présence d’outliers, estimation de quantiles).
Comprendre la différence entre biais et variance, et leur impact sur le modèle.
Identifier les modèles de régression linéaire, Ridge, Lasso, et leurs particularités.
Connaître la structure et le fonctionnement d’un arbre de décision.
Savoir ce qu’est une forêt aléatoire et ses avantages par rapport à un arbre seul.
Comprendre le principe du Gradient Boosting et ses applications.
Être capable d’expliquer la sensibilité de chaque méthode aux outliers et bruit.
Connaître les critères de complexité d’un modèle (overfitting vs underfitting).
Vérifier la maîtrise des concepts de biais, variance, et leur équilibre.
Identifier la différence entre L1 (Lasso) et L2 (Ridge) en termes de régularisation.
S’assurer de la compréhension des notions de sous et sur-apprentissage.

📋 Plan du Cours

📖 1. Fonction de perte MSE

🔑 Notions clés & Définitions

Astuce mémoire

📖 2. Fonction de perte MAE

🔑 Notions clés & Définitions

Point à retenir

📖 3. Fonction de perte Huber

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Fonction de perte Quantile

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Biais et Variance

🔑 Notions clés & Définitions

points essentiels

💡 À retenir

📖 6. Dancede complexité du modèle

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Régression linéaire

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Régression Ridge (L2)

🔑 Notions clés & Définitions

Point à retenir

📖 9. Régression Lasso (L1)

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 10. Arbre de décision

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 11. Forêt aléatoire

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 12. Gradient Boosting

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Teste dein Wissen

Mit Karteikarten lernen

Similar courses

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Erstelle deine eigenen Lernzettel

Plan du Cours

1. Fonction de perte MSE

Notions clés & Définitions

2. Fonction de perte MAE

Notions clés & Définitions

3. Fonction de perte Huber

Notions clés & Définitions

Points essentiels

À retenir

4. Fonction de perte Quantile

Notions clés & Définitions

Points essentiels

À retenir

5. Biais et Variance

Notions clés & Définitions

À retenir

6. Dancede complexité du modèle

Notions clés & Définitions

Points essentiels

À retenir

7. Régression linéaire

Notions clés & Définitions

Points essentiels

À retenir

8. Régression Ridge (L2)

Notions clés & Définitions

9. Régression Lasso (L1)

Notions clés & Définitions

Points essentiels

À retenir

10. Arbre de décision

Notions clés & Définitions

Points essentiels

À retenir

11. Forêt aléatoire

Notions clés & Définitions

Points essentiels

À retenir

12. Gradient Boosting

Notions clés & Définitions

Points essentiels

À retenir

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen