Apprentissage supervisé : méthode d’apprentissage automatique où la fonction est apprise à partir d’un ensemble de couples pour lesquels on connaît le résultat . La méthode nécessite des données avec résultats connus, appelées aussi observations ou caractéristiques (x) et étiquettes ou labels (y).
Source : Thierry Montaut (2023)
Ensemble de couples : collection de données où chaque observation est associée à une étiquette , permettant d’apprendre la relation entre les deux.
Problème de classification : lorsqu’on cherche à prédire dans un ensemble fini, souvent avec discret. La fonction à prédire est un classificateur. En cas de deux valeurs possibles pour , on parle de classificateur binaire, de prédicteur ou de fonction de décision.
Source : Thierry Montaut (2023)
Problème de régression : lorsque est un sous-ensemble de , la tâche consiste à prédire une valeur continue. La fonction à apprendre est un prédicteur.
Hyper paramètres : paramètres fixés par le concepteur du modèle (ex : nombre de couches dans un réseau de neurones, taille des couches). Leur choix intervient lors de la phase de création du modèle.
Source : Thierry Montaut (2023)
L’apprentissage supervisé consiste à apprendre une fonction à partir de données étiquetées, en équilibrant complexité et capacité de généralisation pour optimiser la performance sur des données non vues.
La séparation et la préparation des données sont des étapes cruciales pour garantir la fiabilité et la performance d’un modèle d’apprentissage supervisé, en assurant une évaluation objective et une généralisation efficace.
Y ensemble fini : Ensemble de résultats possibles dans un problème de classification, où le nombre de classes est limité et connu. Selon Thierry Montaut (date), cela correspond à un problème où la variable cible Y appartient à un ensemble fini, ce qui permet de définir une tâche de classification.
Classificateur : Fonction qui, à partir d’un ensemble d’observations, prédit une classe parmi un ensemble fini. Selon Thierry Montaut (date), c’est la fonction à prédire dans un problème de classification, souvent notée f : X → Y.
Cas particulier : classificateur binaire : Classificateur où Y n’a que deux valeurs possibles, souvent représenté comme un prédicteur ou une fonction de décision. Thierry Montaut (date) précise que c’est une situation fréquente dans la classification, simplifiant la prise de décision.
Fonction de décision : Fonction qui détermine la classe prédite en fonction des observations, souvent utilisée dans le contexte de classificateurs binaires ou plus complexes. Elle traduit la sortie du modèle en une classe spécifique.
La classification concerne des problèmes où Y est un ensemble fini, ce qui implique une prédiction de classes discrètes (voir Y ensemble fini). La fonction à apprendre est appelée classificateur et doit associer chaque observation x à une classe y dans Y.
Le cas particulier du classificateur binaire est très fréquent, où le modèle doit décider entre deux classes, ce qui simplifie la fonction de décision en une simple règle de seuil ou une fonction de décision binaire.
La fonction de décision est souvent dérivée du classificateur et peut utiliser des méthodes comme la maximisation de la probabilité ou des seuils pour déterminer la classe prédite.
La distinction entre classificateur et prédicteur est importante : le classificateur se concentre sur la prédiction de classes, tandis que le prédicteur peut aussi prévoir des valeurs continues (voir problèmes de régression).
La validation et l’évaluation des classificateurs reposent sur des métriques comme la précision, le taux d’erreur, ou la matrice de confusion, pour mesurer leur performance.
Les problèmes de classification consistent à prédire une classe parmi un ensemble fini, avec des cas particuliers comme la classification binaire, où la fonction de décision joue un rôle central pour déterminer la classe prédite.
Problème de régression : Il s'agit d'un problème d'apprentissage supervisé où l'ensemble Y est un sous-ensemble de R, et la tâche consiste à prédire une valeur continue y à partir d'une observation x. La fonction à apprendre, f : X → Y, doit fournir une estimation de y pour tout x donné (Thierry Montaut, 1/1/2023).
Fonction à prédire dans la régression : La fonction f qui associe chaque observation x à une valeur y réelle. Elle est inconnue et doit être estimée à partir des données d'apprentissage (Thierry Montaut, 1/1/2023).
Métriques spécifiques aux régressions :
La régression consiste à modéliser une fonction continue à partir de données d’apprentissage, en utilisant des métriques comme MAE, MSE ou MedAE pour évaluer la précision des prédictions, tout en évitant le surapprentissage pour assurer une bonne généralisation.
Hyper paramètres : paramètres fixés par le concepteur du modèle avant l'apprentissage, qui déterminent la structure et le comportement du modèle. Exemples : nombre de couches, taille des couches dans un réseau de neurones, fonction d’activation, taux d’apprentissage. (Thierry Montaut, 1/1)
Rôle dans la création du modèle : lors de la phase de conception, le choix des hyper paramètres influence la capacité du modèle à apprendre efficacement, sa complexité, et sa capacité de généralisation. La sélection de ces hyper paramètres est cruciale pour optimiser la performance finale. (Thierry Montaut, 4/1)
Différence avec paramètres appris : les hyper paramètres sont fixés par le concepteur, tandis que les paramètres appris sont ajustés automatiquement par la phase d’apprentissage pour minimiser l’erreur sur les données d’entraînement. (Thierry Montaut, 5/1)
La phase de création d’un modèle consiste à choisir la nature du modèle et ses hyper paramètres (ex : nombre de couches, taille des couches dans un réseau de neurones, fonction d’activation). Ces choix influencent la capacité d’apprentissage et la généralisation du modèle. (Thierry Montaut, 4/1)
La sélection des hyper paramètres se fait souvent par essais et erreurs ou par des méthodes d’optimisation (recherche grid, recherche aléatoire). Leur bon réglage est essentiel pour éviter le surapprentissage ou le sous-apprentissage. (Thierry Montaut, 6/1)
La validation croisée et la courbe d’apprentissage permettent d’évaluer l’impact des hyper paramètres sur la performance et la convergence du modèle. (Thierry Montaut, 14/1)
La phase d’apprentissage ajuste les paramètres variables pour minimiser l’erreur, tandis que la phase de création fixe les hyper paramètres pour définir la structure du modèle. (Thierry Montaut, 5/1)
Les hyper paramètres, fixés par le concepteur, déterminent la structure du modèle et influencent directement sa capacité à apprendre efficacement et à généraliser. Leur choix judicieux est essentiel pour optimiser la performance globale.
Les paramètres appris sont les valeurs ajustées durant l’apprentissage pour minimiser l’erreur, tandis que les hyper paramètres sont fixés par le concepteur. La qualité du modèle dépend de la bonne optimisation de ces paramètres et de sa capacité à généraliser.
La validation du modèle repose sur la vérification de sa convergence via la courbe d’apprentissage, suivie d’un test de ses performances sur des données indépendantes pour assurer sa capacité de généralisation.
Généralisation : Capacité d’un modèle à effectuer des prédictions précises sur des données non vues lors de l’apprentissage, c’est-à-dire à bien prédire en dehors du jeu d’entraînement. (Thierry Montaut, 2023)
Surapprentissage (Overfitting) : Phénomène où un modèle trop complexe s’ajuste parfaitement aux données d’apprentissage, y compris aux bruits et aux données rares, ce qui nuit à sa capacité à généraliser. Il collant excessivement aux données d’entraînement, il performe mal sur de nouvelles données. (Thierry Montaut, 2023)
Sous-apprentissage (Underfitting) : Situation où un modèle trop simple ne capture pas suffisamment la structure des données, conduisant à de mauvaises performances aussi bien sur l’entraînement que sur les nouvelles données. (Thierry Montaut, 2023)
Compromis entre complexité et généralisation : Nécessité d’optimiser la complexité du modèle pour éviter à la fois le surapprentissage et le sous-apprentissage, en trouvant un équilibre permettant une bonne capacité de généralisation. (Thierry Montaut, 2023)
La phase d’apprentissage consiste à ajuster un modèle sur un jeu de données d’entraînement, mais un bon modèle doit aussi bien prédire sur de nouvelles données, ce qui correspond à sa capacité de généralisation. (Thierry Montaut, 2023)
Le surapprentissage survient lorsque le modèle devient trop complexe, en s’ajustant aux détails spécifiques et aux bruits du jeu d’entraînement, ce qui limite sa performance sur des données inédites. La solution consiste à contrôler la complexité du modèle et à utiliser des techniques comme la validation croisée pour évaluer sa stabilité. (Thierry Montaut, 2023)
La validation croisée permet de répéter la séparation des données en plusieurs sous-ensembles pour mesurer la variance de l’erreur de généralisation, aidant ainsi à détecter le surapprentissage. (Thierry Montaut, 2023)
La courbe d’apprentissage illustre la performance en fonction du nombre de données d’entraînement, permettant de déterminer si le modèle bénéficie encore de plus de données ou si la saturation est atteinte. (Thierry Montaut, 2023)
La recherche d’un compromis entre complexité et capacité de généralisation est essentielle pour éviter le surapprentissage et sous-apprentissage, ce qui nécessite une phase d’optimisation des hyper paramètres. (Thierry Montaut, 2023)
Un bon modèle d’apprentissage doit non seulement bien performer sur les données d’entraînement, mais surtout être capable de généraliser efficacement à de nouvelles données, en évitant à la fois le surapprentissage et le sous-apprentissage grâce à un compromis bien ajusté.
Principe de la validation croisée : méthode consistant à partitionner un jeu de données en N parties, puis à entraîner le modèle sur N-1 parties et à tester sur la partie restante, en répétant cette opération pour chaque partie afin d’évaluer la stabilité et la performance du modèle (Thierry Montaut, 2023).
Validation croisée (cross validation) : technique qui permet d’estimer la performance d’un modèle en utilisant plusieurs partitions du jeu de données, en calculant la moyenne et la variance de l’erreur de généralisation sur ces partitions (Thierry Montaut, 2023).
Rôle de la validation croisée : vérifier la stabilité de l’erreur de généralisation, éviter le surapprentissage en s’assurant que le modèle n’est pas trop ajusté aux données d’apprentissage, et optimiser la sélection des hyper paramètres (Thierry Montaut, 2023).
Partitionnement N-fold : méthode où le jeu de données est divisé en N sous-ensembles, et pour chaque itération, un sous-ensemble est utilisé comme jeu de test, tandis que les autres servent à l’entraînement, permettant une évaluation robuste (Thierry Montaut, 2023).
Points à retenir : la validation croisée permet d’obtenir une estimation fiable de la performance du modèle en répétant plusieurs fois la partition des données, ce qui limite le risque de biais lié à un seul découpage.
Courbe d’apprentissage : Représentation graphique du score d’un modèle en fonction du nombre de données utilisées pour l’apprentissage. Elle permet d’évaluer si l’ajout de données améliore la performance (d’après Thierry Montaut, 2023).
Utilisation de la courbe d’apprentissage : Outil permettant de déterminer si le nombre de données disponibles est suffisant pour atteindre une performance optimale ou si un accroissement des données pourrait encore améliorer le modèle.
Plateau : Point sur la courbe d’apprentissage où le score se stabilise, indiquant une saturation des performances et que l’ajout de nouvelles données n’apporte plus d’amélioration significative (Thierry Montaut, 2023).
MAE (Mean Absolute Error) : Montaut (2023) : moyenne des erreurs absolues entre les valeurs observées et les valeurs prédites , calculée par . Elle mesure la précision moyenne d’un modèle de régression, avec une sensibilité aux erreurs constantes.
MSE (Mean Squared Error) : Montaut (2023) : moyenne des erreurs quadratiques, donnée par . Elle amplifie l’impact des erreurs importantes, favorisant les modèles qui minimisent les grandes déviations.
MedAE (Median Absolute Error) : Montaut (2023) : médiane des erreurs absolues , permettant de réduire l’effet des points aberrants et d’obtenir une mesure robuste de l’erreur pour la régression.
Taux d’erreur (accuracy) : Montaut (2023) : pour la classification, pourcentage de prédictions correctes, calculé par . Indicateur simple de performance pour les classificateurs.
Matrice de confusion : Montaut (2023) : tableau récapitulatif des performances d’un classificateur, affichant les vrais positifs, faux positifs, vrais négatifs et faux négatifs, permettant d’évaluer la précision, le rappel, et d’autres métriques dérivées.
Les critères pour la régression (MAE, MSE, MedAE) permettent d’évaluer la précision d’un modèle en quantifiant l’écart entre valeurs observées et prédites. MAE est simple et robuste, MSE favorise la minimisation des erreurs importantes, MedAE est utile en présence de points aberrants.
Pour la classification, le taux d’erreur (accuracy) est une métrique globale indiquant la proportion de bonnes prédictions. La matrice de confusion est un outil essentiel pour analyser en détail les performances, notamment en distinguant les types d’erreurs (faux positifs/négatifs).
La sélection du critère dépend du contexte : la MSE est privilégiée quand l’erreur quadratique est significative, MedAE en cas de données bruitées ou aberrantes, et l’accuracy pour une évaluation globale en classification.
La compréhension et l’utilisation combinée de ces critères permettent d’optimiser et de valider efficacement un modèle d’apprentissage, en évitant le surapprentissage ou le sous-apprentissage.
Les critères de performance pour la régression (MAE, MSE, MedAE) quantifient la précision du modèle, tandis que pour la classification, le taux d’erreur (accuracy) et la matrice de confusion offrent une évaluation détaillée de sa capacité à prédire correctement.
| Thème | Notions Clés | Définition / Commentaire | Auteur / Référence |
|---|---|---|---|
| Apprentissage supervisé | Fonction | Apprentissage à partir de couples pour modéliser | Thierry Montaut (2023) |
| Données d'entraînement | Séparation | Division en jeux d’apprentissage (80%) et test (20%) | Thierry Montaut (2023) |
| Problèmes de classification | Ensemble fini | Classes discrètes à prédire, avec cas binaire | Thierry Montaut (2023) |
| Problèmes de régression | Prédiction de valeurs continues | Thierry Montaut (2023) | |
| Hyper paramètres | Fixés par le concepteur | Ex : nombre de couches, taille des couches | Thierry Montaut (2023) |
| Paramètres appris | Ajustés lors de l’entraînement | Ex : poids dans un réseau de neurones | Thierry Montaut (2023) |
| Validation du modèle | Courbe d’apprentissage | Indique la convergence ou la nécessité de continuer | Thierry Montaut (2023) |
| Généralisation | Bonne performance sur données non vues | Capacité à prédire sur nouvelles données | Thierry Montaut (2023) |
| Surapprentissage | Modèle trop ajusté aux données d’entraînement | Perd en capacité de généraliser | Thierry Montaut (2023) |
| Validation croisée | N partitions | Entraînement sur N-1, test sur 1, répété | Thierry Montaut (2023) |
| Courbe d'apprentissage | Erreur en fonction de l’échantillon | Permet d’évaluer la convergence | Thierry Montaut (2023) |
| Critères de performance | MAE, MSE, accuracy | Mesures pour régression et classification | Thierry Montaut (2023) |
Тествайте знанията си по Principes fondamentaux de l'apprentissage supervisé с 8 въпроса с множество отговори с подробни корекции.
1. Quelle est la proportion typique utilisée pour diviser un ensemble de données en jeux d'apprentissage et de test selon Thierry Montaut (2023) ?
2. Quel est le rôle principal de l'apprentissage supervisé en machine learning ?
Запомнете ключовите концепции на Principes fondamentaux de l'apprentissage supervisé с 9 интерактивни флашкарти.
Apprentissage supervisé — définition ?
Apprentissage basé sur des couples $(x, y)$ pour modéliser $y = f(x)$.
Apprentissage supervisé — définition?
Apprentissage avec données étiquetées.
Données d'entraînement — rôle ?
Elles servent à ajuster la fonction $f$ en utilisant un ensemble de couples $(x, y)$.
Intelligence Artificielle
Bases de données
Bases de données
Импортирайте курса си и AI генерира листове, тестове и флашкарти за 30 секунди.
Генератор на листове