MAE (Mean Absolute Error) : La moyenne des valeurs absolues des écarts entre les valeurs prédites et les valeurs réelles.
Formule :
Point essentiel : Mesure la précision de manière linéaire, chaque erreur a le même poids.
Robustesse : Capacité du MAE à résister aux valeurs aberrantes (outliers).
Point essentiel : Contrairement au MSE, le MAE ne pénalise pas fortement les erreurs importantes, ce qui le rend plus robuste.
Estimation médiane : La minimisation du MAE conduit à une estimation médiane des données, contrairement au MSE qui cible la moyenne.
Point essentiel : Cela explique la robustesse du MAE face aux outliers.
Sensibilité aux outliers : Le MAE est moins sensible aux valeurs extrêmes que le MSE, car il ne pénalise pas quadratiquement.
Point essentiel : Favorise une modélisation plus stable en présence de données bruitées ou aberrantes.
Utilisation pratique : Approprié lorsque l’on souhaite une métrique simple, interprétable, et robuste, notamment pour des données avec outliers ou bruit.
Point essentiel : Idéal pour des applications où chaque erreur a une importance équivalente.
Le MAE offre une mesure linéaire de l’erreur, privilégiant la robustesse et la simplicité d’interprétation, ce qui en fait une métrique privilégiée pour évaluer la précision dans des contextes où la présence d’outliers doit être minimisée.
Fonction de perte Huber : Une fonction de coût utilisée en régression, combinant les avantages de l’erreur quadratique (MSE) pour les petites erreurs et de l’erreur absolue (MAE) pour les grandes erreurs, afin d’être robuste aux outliers tout en conservant une différentiabilité.
Seuil δ (delta) : La valeur à partir de laquelle la perte passe de la quadratic (carrée) à la linéaire. Elle détermine la sensibilité aux erreurs importantes.
Formule de la perte Huber :
Elle combine une partie quadratique pour les erreurs faibles et une partie linéaire pour les erreurs importantes.
Robustesse : La capacité de la perte Huber à limiter l’impact des outliers, évitant qu’ils ne déforment excessivement le modèle.
Différentiabilité : La perte Huber est différentiable partout, ce qui facilite l’optimisation par descente de gradient, contrairement à la MAE qui a un point anguleux.
La fonction de perte Huber offre un compromis intelligent entre précision et robustesse, en adaptant la pénalisation des erreurs selon leur magnitude grâce au seuil δ, ce qui en fait un choix privilégié pour des modèles de régression confrontés à des données bruitées ou contenant des outliers.
La fonction de perte quantile est un outil puissant pour modéliser et prévoir des extrêmes ou des seuils spécifiques dans une distribution, en ajustant la pénalisation des erreurs selon le quantile ciblé.
L’erreur de prédiction résulte d’un équilibre entre biais et variance : un modèle doit être suffisamment complexe pour capturer la tendance sans mémoriser le bruit, afin d’assurer une bonne généralisation.
Complexité du modèle : Capacité d’un modèle à s’adapter à des variations dans les données, influençant son biais et sa variance. Plus un modèle est complexe, plus il peut capturer des détails fins, mais il risque aussi de surajuster.
Sous- ajustement (Underfitting) : Situation où un modèle est trop simple pour capturer la structure des données, entraînant des performances faibles aussi bien sur l’entraînement que sur le test. Il présente un biais élevé.
Surajustement (Overfitting) : Lorsqu’un modèle est trop complexe, il mémorise le bruit des données d’entraînement, performe très bien sur celles-ci mais mal sur de nouvelles données. Il présente une variance élevée.
Balance biais-variance : Équilibre entre la simplicité (biais élevé, variance faible) et la complexité (biais faible, variance élevée) pour minimiser l’erreur totale du modèle.
Quadrants de performance : Classification des modèles selon leur biais et variance : sous- ajusté, surajusté, équilibré, ou instable, permettant d’évaluer leur adéquation à la tâche.
La complexité du modèle doit être adaptée à la quantité et à la nature des données pour éviter sous- ou sur- ajustement.
La courbe de biais-variance montre que l’erreur totale est minimisée à un point d’équilibre, souvent appelé le « sweet spot ».
La sélection de la complexité passe par des techniques comme la validation croisée, la régularisation, ou la pruning (élagage) pour contrôler la capacité du modèle.
La compréhension de la complexité permet d’éviter les pièges de l’overfitting (modèle trop complexe) et de l’underfitting (modèle trop simple), optimisant ainsi la généralisation.
L’ajustement de la complexité du modèle est crucial pour atteindre un compromis optimal entre biais et variance, garantissant une bonne capacité de généralisation tout en évitant le surapprentissage ou le sous-apprentissage.
Régression linéaire : Modèle statistique qui établit une relation linéaire entre une variable dépendante (cible) et une ou plusieurs variables indépendantes (features). La formule générale est , où représente les coefficients à estimer.
Coefficient (β) : Paramètre estimé qui indique l’impact d’une variable indépendante sur la variable dépendante. Chaque coefficient correspond à la pente de la relation linéaire pour une feature.
Fonction de coût (Loss Function) : Fonction qui mesure l’erreur entre les valeurs prédites et les valeurs réelles. En régression linéaire, la plus courante est la moindres carrés (MSE).
Moindres carrés (Least Squares) : Méthode d’estimation des coefficients qui minimise la somme des carrés des erreurs (écarts entre valeurs observées et prédites). Formule : .
Hypothèse de linéarité : Supposition que la relation entre variables indépendantes et dépendante est linéaire. La validité de cette hypothèse est essentielle pour la pertinence du modèle.
La régression linéaire est un modèle simple, puissant pour comprendre et modéliser des relations linéaires, mais ses performances dépendent de la conformité à ses hypothèses et de la qualité des données.
Régression Ridge (L2) : Méthode de régression linéaire régularisée qui ajoute une pénalité proportionnelle à la somme des carrés des coefficients pour réduire la complexité du modèle et éviter le surapprentissage.
Pénalité L2 (Ridge) : Termes de régularisation sous forme de somme des carrés des coefficients (λ∑w_j²), qui contraint les coefficients à rester faibles tout en conservant tous les variables.
Lambda (λ) : Hyperparamètre contrôlant la force de la régularisation. Plus λ est élevé, plus les coefficients sont contraints vers zéro, simplifiant le modèle.
Effet de la régularisation : Réduit la variance du modèle en limitant la magnitude des coefficients, ce qui peut augmenter le biais mais améliorer la généralisation.
Solution analytique : La formule fermée de Ridge est donnée par :
où est la matrice de caractéristiques, le vecteur cible, et la matrice identité.
Points essentiels :
La régression Ridge est une extension de la régression linéaire qui introduit une pénalité pour limiter la complexité du modèle, permettant d'améliorer la stabilité et la capacité de généralisation face à des données multicolinéaires ou bruitées.
Régression Lasso (Least Absolute Shrinkage and Selection Operator) : Méthode de régression linéaire qui intègre une pénalité L1 pour encourager la sparsité des coefficients, favorisant la sélection automatique de variables pertinentes.
Pénalité L1 : Termes de régularisation proportionnels à la somme des valeurs absolues des coefficients, ce qui peut conduire à la réduction de certains coefficients à zéro.
Coefficient nul : Résultat typique du Lasso où certaines variables sont exclues du modèle, car leur coefficient est ramené à zéro, permettant une sélection automatique de caractéristiques.
Hyperparamètre λ (lambda) : Paramètre de régularisation contrôlant la force de la pénalité L1. Plus λ est élevé, plus de coefficients seront nuls, renforçant la sparsité.
Sparsité : Caractéristique d’un modèle où la majorité des coefficients sont nuls, ce qui facilite l’interprétation et réduit le risque de surapprentissage.
Avantages du Lasso : Sélection automatique de variables, réduction de la complexité du modèle, meilleure interprétabilité.
Inconvénients du Lasso : Peut être instable lorsque des variables sont fortement corrélées, tend à sélectionner une seule variable parmi un groupe fortement corrélé.
La régression Lasso est une technique efficace pour la sélection automatique de variables dans un modèle linéaire, grâce à sa pénalité L1 qui favorise la sparsité, tout en permettant de réduire la complexité et d’améliorer l’interprétabilité du modèle.
Arbre de décision : Modèle prédictif qui utilise une structure arborescente pour prendre des décisions en divisant successivement les données selon des critères (tests sur des variables) afin de prédire une valeur ou une catégorie.
Nœud interne : Point de décision dans l’arbre où une variable est testée pour déterminer la branche à suivre. Il représente une condition ou un critère de séparation.
Feuille (ou terminal) : Nœud final de l’arbre qui donne la prédiction (valeur continue ou catégorie). Il ne possède pas d’enfants.
Critère de séparation : Fonction utilisée pour choisir la variable et le seuil qui optimisent la division des données (ex : indice de Gini, entropie, variance). Elle vise à maximiser la pureté ou à réduire l’hétérogénéité.
Pruning (élagage) : Technique pour simplifier l’arbre en supprimant certaines branches ou nœuds pour éviter le surapprentissage (overfitting) et améliorer la généralisation.
Construction de l’arbre : Se fait par un processus récursif de division des données en utilisant un critère de séparation, jusqu’à atteindre un critère d’arrêt (profondeur maximale, nombre minimum d’échantillons, pureté).
Hyperparamètres clés : Profondeur maximale, nombre minimum d’échantillons par feuille, critère de division, méthode d’élagage.
Avantages : Facile à comprendre et interpréter, peu de prétraitement nécessaire, capable de gérer des variables qualitatives et quantitatives.
Inconvénients : Susceptible au surapprentissage, instable (petites modifications des données peuvent changer la structure), peut produire des arbres très profonds.
Utilisation en ensemble : Souvent combiné avec d’autres modèles (forêts aléatoires, gradient boosting) pour améliorer la performance.
L’arbre de décision est un modèle intuitif et flexible, mais il doit être contrôlé par des techniques d’élagage et d’ensemble pour éviter le surapprentissage et garantir une bonne généralisation.
n_estimators), profondeur maximale (max_depth), nombre de caractéristiques par split (max_features), et méthode d'échantillonnage (bootstrap).n_estimators) et de la profondeur (max_depth) ; plus d’arbres tend à améliorer la stabilité, mais avec un coût computationnel.La forêt aléatoire est un modèle d'ensemble puissant, capable d'améliorer la précision tout en contrôlant le surapprentissage, grâce à la diversité introduite par l’échantillonnage et la sélection aléatoire des caractéristiques.
Gradient Boosting
Méthode d'apprentissage supervisé qui construit un modèle prédictif en combinant plusieurs faibles apprenants (souvent des arbres de décision) de manière séquentielle, chaque nouveau modèle corrigeant les erreurs du précédent en utilisant la technique du gradient pour optimiser une fonction de perte.
Faible apprenant (Weak Learner)
Modèle simple, généralement un arbre peu profond, qui ne performe que légèrement mieux que le hasard. Utilisé comme base dans le boosting pour construire un modèle robuste.
Fonction de perte (Loss Function)
Fonction qui mesure l’erreur ou la "wrongness" du modèle. Gradient Boosting optimise cette fonction en ajustant chaque étape en direction du gradient négatif pour réduire l’erreur.
Gradient
Vecto dérivé de la fonction de perte par rapport aux prédictions, indiquant la direction et la magnitude de la correction à apporter pour améliorer le modèle.
Learning Rate (Taux d'apprentissage)
Paramètre contrôlant la contribution de chaque arbre ajouté à l’ensemble. Un taux faible nécessite plus d’arbres, mais évite le surapprentissage.
Hyperparamètres
Paramètres ajustables tels que le nombre d’arbres (n_estimators), la profondeur maximale des arbres (max_depth), et le taux d’apprentissage (learning_rate), qui influencent la performance et la généralisation du modèle.
Le Gradient Boosting construit un modèle puissant en corrigeant itérativement ses erreurs via la méthode du gradient, mais demande une gestion fine des hyperparamètres pour éviter le surapprentissage et optimiser la performance.
| Critère | MSE (Erreur Quadratique Moyenne) | MAE (Erreur Absolue Moyenne) | Huber (Perte combinée) | Quantile (Perte asymétrique) |
|---|---|---|---|---|
| Sensibilité aux outliers | Élevée | Faible | Moyenne | Variable selon |
| Fonction dérivable | Oui | Non (point anguleux en zéro) | Oui | Oui |
| Utilisation principale | Régression précise, faible bruit | Robustesse, outliers présents | Régression robuste | Estimation quantiles |
| Formule principale | $\frac{1}{n} \sum | y - \hat{y} | $ | |
| Objectif | Minimiser erreur quadratique | Minimiser erreur absolue | Equilibre entre précision et robustesse | Estimer un quantile spécifique |
Teste dein Wissen zu Principes et Méthodes de Régression mit 12 Multiple-Choice-Fragen mit detaillierten Korrekturen.
1. Quelle est la définition correcte de la fonction de perte MSE en régression ?
2. Quelle est la formule exacte de la fonction de perte MAE ?
Merke dir die Schlüsselkonzepte von Principes et Méthodes de Régression mit 24 interaktiven Karteikarten.
Fonction de perte MSE — définition ?
Moyenne des carrés des écarts entre prévisions et réalité.
MAE — rôle ?
Mesure la précision linéaire en moyenne des erreurs absolues.
Fonction de perte Huber — mécanisme ?
Combine MSE pour petites erreurs et MAE pour grandes erreurs.
Intelligence Artificielle
Bases de données
Bases de données
Bases de données
Importiere deinen Kurs und die KI erstellt in 30 Sekunden Lernzettel, Quizze und Karteikarten.
Lernzettel-Generator