Лист за преговор: Introduction à l'Apprentissage Supervisé

📋 Plan du Cours

Apprentissage supervisé
Données d'entraînement
Problèmes de classification
Problèmes de régression
Hyper paramètres
Paramètres appris
Validation du modèle
Généralisation et surapprentissage
Validation croisée
Courbe d'apprentissage
Critères de performance

📖 1. Apprentissage supervisé

🔑 Notions clés & Définitions

Apprentissage supervisé : méthode d’apprentissage automatique où la fonction f est apprise à partir de données étiquetées, c’est-à-dire des couples {(x₁, y₁), ..., (xₙ, yₙ)} avec yᵢ = f(xᵢ). Selon Thierry Montaut (2023), cette méthode nécessite la connaissance exacte des résultats pour chaque observation afin de guider l’apprentissage.
Données étiquetées : ensemble de couples (x, y) où x représente une observation ou caractéristique, et y l’étiquette ou résultat associé. Les observations (x) sont aussi appelées variables, features, ou descripteurs, tandis que y sont appelés étiquettes, labels ou outcomes.
Problème de classification : lorsqu’on cherche à apprendre une fonction f : X → Y avec Y un ensemble fini, souvent binaire (Y ⊆ {0,1}), où la sortie est une classe ou catégorie. Selon Thierry Montaut (2023), la fonction à prédire est un classificateur, notamment dans le cas binaire.
Problème de régression : lorsque Y ⊆ R, c’est-à-dire que la sortie est une valeur réelle continue. La fonction à apprendre est une prédiction continue, utilisée pour modéliser des relations quantitatives.
Hyper paramètres : paramètres fixés par le concepteur du modèle, tels que le nombre de couches ou la taille des couches dans un réseau de neurones. Selon Thierry Montaut (2023), ils déterminent la configuration initiale du modèle avant l’apprentissage.
Paramètres appris : paramètres ajustés à partir des données lors de la phase d’apprentissage, tels que les poids d’un réseau de neurones. Leur optimisation vise à minimiser l’erreur sur les données d’entraînement.

📝 Points essentiels

L’apprentissage supervisé repose sur l’utilisation de données étiquetées {(x, y)} pour entraîner un modèle à prédire y à partir de x, en utilisant des couples où y = f(x) (Montaut, 2023).
La distinction entre problèmes de classification et de régression dépend de la nature de Y : fini pour la classification, réel pour la régression.
La phase de création du modèle consiste à choisir la nature du modèle et ses hyper paramètres, puis à apprendre les paramètres variables pour minimiser l’erreur (Montaut, 2023).
La validation du modèle inclut l’évaluation de la convergence via la courbe d’apprentissage, puis le test de ses performances sur des données non vues.
La séparation des données en jeux d’apprentissage et de test est essentielle pour éviter le surapprentissage et assurer une bonne généralisation (Montaut, 2023).
La généralisation est la capacité du modèle à bien prédire sur de nouvelles données, tandis que le surapprentissage correspond à un modèle trop ajusté aux données d’entraînement, au détriment de la performance sur de nouvelles données (Montaut, 2023).

💡 À retenir

L’apprentissage supervisé consiste à entraîner un modèle à partir de données étiquetées pour qu’il puisse prédire efficacement sur de nouvelles observations, en trouvant un équilibre entre complexité et capacité de généralisation.

📖 2. Données d'entraînement

🔑 Notions clés & Définitions

Séparation des données : processus consistant à diviser un ensemble de données en deux sous-ensembles distincts, généralement un jeu d’entraînement (training set) et un jeu de test, afin d’évaluer la performance du modèle sur des données non vues (Thierry Montaut, 2023).
Données d’entraînement (training set) : sous-ensemble de données utilisé pour ajuster et apprendre les paramètres du modèle, en minimisant l’erreur sur ces données (Thierry Montaut, 2023).
Données de test : sous-ensemble de données réservé à l’évaluation finale de la performance du modèle, permettant de mesurer sa capacité de généralisation (Thierry Montaut, 2023).
Préparation des données : étape initiale comprenant l’étude statistique, la visualisation, et la normalisation des données, visant à optimiser leur qualité pour l’apprentissage (Thierry Montaut, 2023).
Rôle des données d’entraînement : fournir la base pour ajuster les paramètres du modèle via la minimisation de l’erreur, tout en évitant le surapprentissage en séparant clairement cette phase de l’évaluation finale (Thierry Montaut, 2023).

📝 Points essentiels

La séparation en jeux d’entraînement et de test est fondamentale pour éviter le surapprentissage et assurer la capacité de généralisation du modèle (Thierry Montaut, 2023).
La préparation des données inclut une étude statistique pour vérifier les hypothèses, la visualisation pour détecter anomalies ou tendances, et la normalisation pour uniformiser les variables (Thierry Montaut, 2023).
La taille du jeu d’entraînement est généralement d’environ 80% du total, le reste étant réservé pour le test, afin d’évaluer la performance réelle du modèle (Thierry Montaut, 2023).
La validation croisée, en répétant la partition plusieurs fois, permet de mesurer la stabilité de l’erreur de généralisation et d’éviter une dépendance à une seule division (Thierry Montaut, 2023).
La phase de préparation est cruciale pour garantir la qualité des données, ce qui influence directement la précision et la robustesse du modèle final (Thierry Montaut, 2023).

💡 À retenir

La séparation claire entre données d’entraînement et de test, associée à une préparation rigoureuse des données, est essentielle pour construire un modèle capable de bien se généraliser à de nouvelles données.

📖 3. Problèmes de classification

🔑 Notions clés & Définitions

Problème de classification : problème d’apprentissage où l’ensemble Y est fini, et la tâche consiste à attribuer une étiquette (label) à chaque observation x en fonction d’une fonction f : X → Y, avec Y fini. Thierry Montaut (2023) : "Quand Y est un ensemble fini, on parle de problème de classification."
Classificateur : fonction à prédire dans un problème de classification, qui associe chaque observation x à une étiquette y dans Y. C’est la fonction que l’on apprend à partir des données.
Classificateur binaire : cas particulier de classification où Y n’a que deux valeurs possibles, souvent appelé aussi prédicteur ou fonction de décision. Thierry Montaut (2023) : "Dans le cas fréquent où Y n’a que deux valeurs, on parle également de classificateur binaire."
Ensemble Y fini : ensemble de toutes les étiquettes possibles dans un problème de classification, qui contient un nombre limité d’éléments.
Fonction à prédire : fonction f qui associe à chaque observation x une étiquette y dans Y, et que l’on cherche à approximer à partir des données.

📝 Points essentiels

La classification concerne la prédiction d’étiquettes dans un ensemble fini Y, ce qui la distingue des problèmes de régression où Y est un sous-ensemble de R.
La fonction à apprendre est un classificateur, qui peut être binaire ou multi-classes. La distinction entre ces deux types est fondamentale pour la conception et l’évaluation des modèles.
La définition repose sur l’utilisation de données étiquetées {(x₁, y₁), ..., (xₙ, yₙ)} où chaque yᵢ est connu et correspond à une observation xᵢ.
La classification binaire est un cas particulier souvent rencontré, où Y = {0, 1} ou {−1, 1}.
La tâche consiste à apprendre une fonction f à partir des données d’entraînement pour effectuer des prédictions sur de nouvelles observations.

💡 À retenir

La classification est un problème où l’objectif est d’attribuer une étiquette finie à chaque observation en apprenant une fonction classificateur à partir de données étiquetées, avec la particularité du cas binaire souvent rencontré.

📖 4. Problèmes de régression

🔑 Notions clés & Définitions

Problème de régression : Ensemble Y inclus dans R, où la fonction à prédire est une fonction réelle continue. La tâche consiste à estimer une fonction f : X → R, permettant de prédire une valeur continue y à partir d’un vecteur d’observations x.
Fonction continue : Fonction dont la valeur ne présente pas de discontinuités sur l’ensemble de définition, essentielle en régression pour assurer une prédiction fluide et sans saut.
Ensemble Y : Ensemble des valeurs possibles de la variable à prédire. En régression, Y est un sous-ensemble de R, ce qui distingue ce problème de ceux où Y est fini (classification).
Problème de régression (Thierry Montaut, 2/1) : Consiste à apprendre une fonction f à partir d’un ensemble de couples {(x₁, y₁), ..., (xₙ, yₙ)} où chaque yᵢ est une valeur réelle continue, afin de prédire la valeur y pour de nouvelles observations x.
Fonction à prédire : Fonction réelle continue que l’on cherche à approximer à partir des données, permettant de faire des prédictions sur de nouvelles observations.

📝 Points essentiels

La régression vise à modéliser une relation continue entre observations x et valeurs y, en utilisant une fonction f : X → R, où Y ⊆ R.
La variable Y étant un sous-ensemble de R, cela implique que la sortie est une valeur réelle continue, contrairement à la classification où Y est fini.
La fonction f doit être continue pour garantir une prédiction fluide, sans discontinuités, ce qui est crucial pour la modélisation de phénomènes continus.
La définition repose sur l’ensemble Y inclus dans R, ce qui distingue la régression des autres problèmes d’apprentissage automatique (voir section 3).
La tâche consiste à apprendre cette fonction à partir d’un ensemble de couples {(xᵢ, yᵢ)} où yᵢ = f(xᵢ), en minimisant l’erreur de prédiction sur de nouvelles observations.

💡 À retenir

La régression consiste à modéliser une fonction réelle continue à partir de données, en assurant la continuité de la prédiction pour garantir une approximation fluide et précise des phénomènes étudiés.

📖 5. Hyper paramètres

🔑 Notions clés & Définitions

Hyper paramètres : paramètres fixés par le concepteur du modèle avant l’apprentissage, qui déterminent la structure et le comportement du modèle. AUTEUR (Thierry Montaut, 2023) : "Les hyper paramètres sont des paramètres que l’on choisit manuellement pour configurer le modèle, comme le nombre de couches ou la fonction d’activation dans un réseau de neurones."
Rôle des hyper paramètres : ils influencent la capacité du modèle à apprendre et à généraliser, en contrôlant la complexité et la structure du modèle. AUTEUR (Thierry Montaut, 2023) : "Ils fixent la configuration initiale du modèle, avant l’apprentissage, et ont un impact direct sur la performance finale."
Exemples d’hyper paramètres : fonction d’activation (sigmoïde, ReLU), architecture du modèle (nombre et taille des couches dans un réseau de neurones). AUTEUR (Thierry Montaut, 2023) : "Par exemple, dans un réseau de neurones, le nombre de couches et la taille de chaque couche sont des hyper paramètres."

📝 Points essentiels

Les hyper paramètres sont déterminés lors de la phase de création du modèle, avant l’apprentissage, et restent fixes durant l’entraînement.
La sélection des hyper paramètres est cruciale : une mauvaise configuration peut entraîner un sous-apprentissage ou un surapprentissage, affectant la capacité de généralisation.
La phase d’apprentissage ajuste uniquement les paramètres variables (paramètres appris), tandis que les hyper paramètres restent constants.
La méthode de choix des hyper paramètres peut inclure la validation croisée, la recherche par grille ou la recherche aléatoire.
La configuration optimale des hyper paramètres dépend du problème, des données, et du modèle utilisé.

💡 À retenir

Les hyper paramètres sont des choix de configuration fixés par le concepteur, qui influencent la structure et la performance du modèle, et leur sélection est essentielle pour équilibrer complexité et capacité de généralisation.

📖 6. Paramètres appris

🔑 Notions clés & Définitions

Paramètres variables : Ce sont les paramètres du modèle qui sont ajustés ou optimisés lors de la phase d’apprentissage à partir des données. Leur rôle est de minimiser l’erreur sur le jeu d’entraînement, permettant ainsi au modèle de mieux représenter la relation entre observations et résultats (Thierry Montaut, 1/1).
Paramètres appris : Ce sont les paramètres variables qui ont été déterminés par le processus d’apprentissage. Leur ajustement se fait via des fonctions d’apprentissage visant à réduire l’erreur sur les données d’entraînement, contribuant à la performance du modèle (Thierry Montaut, 5/1).
Hyper paramètres : Paramètres fixés par le concepteur du modèle, tels que le nombre de couches ou la taille des couches dans un réseau de neurones. Ils déterminent la configuration du modèle avant l’apprentissage et ne sont pas ajustés à partir des données (Thierry Montaut, 5/1).

📝 Points essentiels

La phase de création d’un modèle consiste à choisir la nature du modèle et à fixer ses hyper paramètres, comme la taille des couches dans un réseau de neurones ou la fonction d’activation. La phase d’apprentissage consiste ensuite à ajuster les paramètres variables pour minimiser l’erreur sur les données d’entraînement, ce qui permet au modèle de s’adapter aux données tout en conservant une capacité de généralisation (Thierry Montaut, 4/1).
La distinction fondamentale réside dans le fait que les hyper paramètres sont fixés avant l’apprentissage, tandis que les paramètres appris sont ajustés durant l’apprentissage à partir des données. La qualité du modèle dépend de la bonne sélection des hyper paramètres et de l’efficacité de l’algorithme d’apprentissage pour optimiser les paramètres variables (Thierry Montaut, 5/1).
La minimisation de l’erreur sur les données d’apprentissage par l’ajustement des paramètres variables est essentielle pour que le modèle puisse faire des prédictions précises sur de nouvelles données, tout en évitant le surapprentissage ou le sous-apprentissage (Thierry Montaut, 6/1).

💡 À retenir

Les paramètres appris sont les variables ajustées lors de l’apprentissage pour minimiser l’erreur sur les données d’entraînement, tandis que les hyper paramètres fixent la configuration initiale du modèle. Leur bonne gestion est cruciale pour assurer la performance et la capacité de généralisation du modèle.

📖 7. Validation du modèle

🔑 Notions clés & Définitions

Validation du modèle : Ensemble des étapes permettant d’évaluer si un modèle d’apprentissage automatique a bien convergé et est capable de généraliser ses prédictions à de nouvelles données. Elle inclut l’évaluation de la convergence de l’apprentissage, la vérification de la progression via la courbe d’apprentissage, et le test des performances finales (Thierry Montaut, 1/1).
Courbe d’apprentissage : Graphique représentant le score du modèle en fonction du nombre de données d’apprentissage. Elle permet de vérifier si le modèle bénéficie d’un nombre de données suffisant ou si ses performances peuvent encore s’améliorer, en observant notamment un plateau indiquant la saturation des performances (Thierry Montaut, 14/1).
Test des performances : Évaluation finale du modèle sur des données de test, qui n’ont pas été utilisées lors de l’apprentissage. Elle permet de mesurer la capacité de généralisation du modèle, en utilisant des critères comme la précision, le taux d’erreur ou d’autres métriques spécifiques (Thierry Montaut, 16/1).

📝 Points essentiels

La validation du modèle comporte plusieurs étapes : évaluer la convergence de l’apprentissage, vérifier la progression à l’aide de la courbe d’apprentissage, puis tester ses performances sur des données indépendantes (Thierry Montaut, 7/1).
La convergence de l’apprentissage doit être confirmée pour s’assurer que le modèle n’est pas en phase d’amélioration continue mais stabilisée. La courbe d’apprentissage aide à déterminer si le modèle a atteint un plateau ou si davantage de données pourraient améliorer ses performances (Thierry Montaut, 14/1).
La séparation des données en jeux d’entraînement et de test est cruciale pour éviter le surapprentissage. La performance sur le jeu de test donne une indication fiable de la capacité de généralisation du modèle (Thierry Montaut, 8/1).
La méthode de validation croisée consiste à partitionner plusieurs fois le jeu de données pour obtenir une estimation plus stable de l’erreur de généralisation, en entraînant le modèle sur toutes les parties sauf une, puis en la testant sur cette dernière (Thierry Montaut, 13/1).
Les critères de performance varient selon le type de problème : pour la régression, on utilise MAE, MSE ou MedAE ; pour la classification, le taux d’erreur (accuracy) et la matrice de confusion sont privilégiés (Thierry Montaut, 16/1-18/1).

💡 À retenir

La validation du modèle est essentielle pour garantir sa capacité à généraliser, en combinant évaluation de la convergence, analyse de la progression via la courbe d’apprentissage, et tests sur des données indépendantes.

📖 8. Généralisation et surapprentissage

🔑 Notions clés & Définitions

Généralisation : La capacité d’un modèle à effectuer des prédictions précises sur des données non vues lors de l’apprentissage, c’est-à-dire à bien s’adapter à de nouvelles situations (voir section 10).
Surapprentissage (Overfitting) : Phénomène où un modèle trop complexe s’ajuste trop précisément aux données d’apprentissage, y compris le bruit ou les données rares, ce qui nuit à sa capacité à prédire sur de nouvelles données (voir section 11).
Sous-apprentissage (Underfitting) : Situation où un modèle trop simple ne capture pas suffisamment la structure des données, conduisant à des performances faibles aussi bien sur l’apprentissage que sur la généralisation (voir section 11).
Compromis entre complexité et généralisation : Nécessité d’un équilibre lors de la phase d’optimisation pour éviter à la fois le surapprentissage et le sous-apprentissage, en ajustant la complexité du modèle (voir section 12).
Validation croisée : Technique consistant à partitionner plusieurs fois le jeu de données pour évaluer la stabilité et la performance de la généralisation du modèle, en entraînant sur N-1 parties et en testant sur la partie restante (voir section 14).
Courbe d’apprentissage : Graphique représentant la performance du modèle en fonction du nombre de données d’apprentissage, permettant d’évaluer si davantage de données pourraient améliorer la généralisation (voir section 15).

📝 Points essentiels

La généralisation est l’objectif principal en apprentissage supervisé, car un bon modèle doit bien prédire sur des données inédites, pas seulement sur celles utilisées pour l’entraînement.
Le surapprentissage survient lorsqu’un modèle trop complexe s’ajuste aux détails spécifiques des données d’apprentissage, y compris le bruit, ce qui limite sa capacité à généraliser. Ce phénomène est souvent associé à une complexité excessive du modèle, comme le montre ****(Thierry Montaut, 2023)**.
À l’inverse, le sous-apprentissage se produit lorsque le modèle est trop simple pour capturer la structure sous-jacente des données, ce qui entraîne une performance médiocre sur l’ensemble d’apprentissage et de test.
La recherche d’un compromis entre complexité du modèle et capacité de généralisation nécessite une phase d’optimisation et de validation, notamment via la validation croisée.
La courbe d’apprentissage permet d’évaluer si le nombre de données d’apprentissage est suffisant ou si l’ajout de données supplémentaires pourrait améliorer la performance, en observant si la courbe atteint un plateau (voir section 15).
La performance en généralisation est souvent mesurée par des critères de performance spécifiques, comme le taux d’erreurs en classification ou la MAE, MSE en régression, en fonction du problème (voir section 16).

💡 À retenir

Un bon modèle doit trouver un équilibre entre complexité et capacité de généralisation, en évitant à la fois le surapprentissage et le sous-apprentissage, pour assurer des prédictions fiables sur de nouvelles données.

📖 9. Validation croisée

🔑 Notions clés & Définitions

Principe de validation croisée : méthode consistant à partitionner un jeu de données en plusieurs sous-ensembles, puis à entraîner le modèle sur N-1 parties et à tester sur la partie restante, afin d’évaluer la stabilité de l’erreur de généralisation ( Thierry Montaut (2023) ).
Partitionnement multiple : processus de division répétée des données en sous-ensembles pour effectuer plusieurs cycles d’entraînement et de test, permettant d’obtenir une estimation robuste de la performance du modèle ( Thierry Montaut (2023) ).
Mesure de la stabilité : évaluation de la constance de l’erreur de généralisation à travers différentes partitions, généralement par calcul de la moyenne et de la variance des erreurs obtenues ( Thierry Montaut (2023) ).

📝 Points essentiels

La validation croisée permet de vérifier la stabilité de l’erreur de généralisation en répétant le processus de partitionnement plusieurs fois, ce qui évite le biais d’une seule division aléatoire ( Thierry Montaut (2023) ).
La méthode consiste à diviser le jeu de données en N parties (ou "folds"). Pour chaque cycle, on entraîne le modèle sur N-1 parties et on évalue la performance sur la partie restante, puis on calcule la moyenne et la variance des erreurs pour obtenir une estimation fiable de la performance globale ( Thierry Montaut (2023) ).
La validation croisée est particulièrement utile pour éviter le surapprentissage en assurant que le modèle généralise bien sur différentes sous-ensembles de données, et pour optimiser le choix des hyper paramètres ( Thierry Montaut (2023) ).
La technique permet aussi d’évaluer la robustesse du modèle face à la variabilité des données, en mesurant la dispersion des erreurs ( Thierry Montaut (2023) ).

💡 À retenir

La validation croisée est une méthode essentielle pour estimer la stabilité et la capacité de généralisation d’un modèle en répétant plusieurs cycles d’entraînement et de test sur des sous-ensembles différents, permettant ainsi d’éviter le surapprentissage et d’optimiser ses hyper paramètres.

📖 10. Courbe d'apprentissage

🔑 Notions clés & Définitions

Courbe d’apprentissage : Représentation graphique du score d’un modèle en fonction du nombre de données d’apprentissage. Elle permet d’évaluer si l’ajout de données supplémentaires pourrait améliorer la performance du modèle (Thierry Montaut, 2023).
Saturation des performances : Situation où la courbe d’apprentissage atteint un plateau, indiquant que l’ajout de nouvelles données n’améliorera plus significativement la performance du modèle. Cela suggère que le modèle a exploité au maximum les données disponibles (Thierry Montaut, 2023).
Utilisation de la courbe d’apprentissage : Elle sert à déterminer si le nombre de données d’apprentissage est suffisant ou si un accroissement du volume de données pourrait encore améliorer la généralisation du modèle. Elle aide aussi à diagnostiquer un surapprentissage ou un sous-apprentissage (Thierry Montaut, 2023).

📝 Points essentiels

La courbe d’apprentissage trace le score (ex : précision, erreur) du modèle en fonction du nombre de données d’apprentissage utilisées, souvent exprimé en fraction ou en nombre absolu (Thierry Montaut, 2023).
Elle permet d’évaluer la saturation des performances : si la courbe atteint un plateau, cela indique que le modèle ne gagne plus en performance même en ajoutant des données supplémentaires, ce qui peut signaler une saturation ou un plafond de performance.
La courbe d’apprentissage est un outil crucial pour diagnostiquer le comportement du modèle : un plateau précoce peut indiquer un sous-apprentissage, tandis qu’une courbe en croissance continue suggère qu’un plus grand volume de données pourrait améliorer la généralisation.
La validation croisée est souvent utilisée pour générer la courbe d’apprentissage, en répétant la partition des données pour assurer la stabilité et la fiabilité des résultats.
La compréhension de cette courbe permet d’orienter les efforts d’amélioration : augmenter la taille du jeu de données, ajuster la complexité du modèle ou modifier la stratégie d’apprentissage.

💡 À retenir

La courbe d’apprentissage est un outil essentiel pour diagnostiquer la saturation des performances d’un modèle, permettant de décider si l’ajout de données ou l’ajustement du modèle est nécessaire pour améliorer la généralisation.

📖 11. Critères de performance

🔑 Notions clés & Définitions

MAE (Mean Absolute Error) : AUTEUR (date) : moyenne des erreurs absolues, calculée comme la moyenne des valeurs absolues des écarts entre les valeurs observées $y_i$ et les valeurs prédites $f(x_i)$ , soit $\frac{1}{n} \sum_{i=1}^n | y_i - f(x_i) |$ . Elle mesure la précision d’un modèle de régression en donnant une erreur moyenne en unités de la variable cible.
MSE (Mean Squared Error) : AUTEUR (date) : moyenne des erreurs quadratiques, calculée comme la moyenne des carrés des écarts $( y_i - f(x_i) )^2$ , soit $\frac{1}{n} \sum_{i=1}^n ( y_i - f(x_i) )^2$ . Elle amplifie l’impact des erreurs importantes et est sensible aux valeurs extrêmes.
MedAE (Median Absolute Error) : AUTEUR (date) : médiane des erreurs absolues, correspondant à la valeur centrale de la distribution des erreurs absolues $| y_i - f(x_i) |$ . Elle est robuste face aux points aberrants.
Taux d’erreurs (accuracy) : AUTEUR (date) : pour la classification, c’est le pourcentage de prédictions correctes, calculé comme le ratio du nombre de bonnes classifications sur le total, exprimé en pourcentage. C’est un critère simple pour évaluer la performance globale.
Matrice de confusion : AUTEUR (date) : tableau récapitulatif pour les classificateurs, qui présente le nombre de vrais positifs, vrais négatifs, faux positifs et faux négatifs, permettant une analyse détaillée des performances par classe.

📝 Points essentiels

Les critères pour la régression (MAE, MSE, MedAE) permettent d’évaluer la précision du modèle en quantifiant l’écart entre valeurs prédites et observées. MAE est simple et interprétable, MSE est sensible aux erreurs importantes, MedAE est robuste aux valeurs aberrantes.
Pour la classification, le taux d’erreurs (accuracy) est souvent utilisé pour une évaluation globale, mais la matrice de confusion offre une analyse fine, notamment pour détecter les déséquilibres entre classes.
La sélection du critère dépend de la nature du problème : en régression, on privilégie MAE ou MSE selon la sensibilité aux erreurs importantes ; en classification, accuracy ou la matrice de confusion sont privilégiés pour une compréhension détaillée.
La validation croisée permet d’estimer la stabilité des performances en répétant le processus de partitionnement des données, ce qui est essentiel pour éviter le surapprentissage.
La courbe d’apprentissage aide à déterminer si le nombre de données est suffisant ou si le modèle doit être amélioré, en observant la saturation des performances.

💡 À retenir

Les critères de performance, tels que MAE, MSE, MedAE pour la régression et accuracy pour la classification, sont essentiels pour mesurer la précision et la robustesse d’un modèle, permettant d’orienter l’amélioration et la validation de l’apprentissage.

📊 Tableaux de Synthèse

Critère / Aspect	Apprentissage Supervisé	Données d'Entraînement	Classification	Régression
Définition	Apprentissage à partir de données étiquetées (Montaut, 2023)	Séparation en jeux d’entraînement et test (Montaut, 2023)	Problème avec Y fini, attribuer une étiquette (Montaut, 2023)	Y dans R, prédiction d’une valeur continue (Montaut, 2023)
Objectif	Modèle capable de généraliser (Montaut, 2023)	Préparer et évaluer la performance du modèle (Montaut, 2023)	Apprendre une fonction de classification (Montaut, 2023)	Estimer une fonction continue (Montaut, 2023)
Paramètres	Hyper paramètres (fixes), paramètres appris (ajustés)	Séparation pour éviter surapprentissage (Montaut, 2023)	Fonction à prédire f : X → Y (Y fini)	Fonction à prédire f : X → R (continue)
Performance	Validation via courbe d’apprentissage, généralisation (Montaut, 2023)	Préparation des données pour meilleure qualité (Montaut, 2023)	Évaluation par précision, recall, etc. (Montaut, 2023)	Évaluation par erreur quadratique, MAE, etc. (Montaut, 2023)

Critère / Aspect	Hyper paramètres	Paramètres appris	Validation du modèle	Surapprentissage / Généralisation
Définition	Paramètres fixés par le concepteur (Montaut, 2023)	Paramètres ajustés lors de l’apprentissage (Montaut, 2023)	Évaluation sur données non vues (Montaut, 2023)	Surapprentissage : modèle trop ajusté, mauvaise généralisation (Montaut, 2023)
Rôle	Définir la configuration initiale du modèle (Montaut, 2023)	Optimiser pour minimiser erreur (Montaut, 2023)	Vérifier la capacité de généralisation (Montaut, 2023)	Éviter le surapprentissage pour une meilleure généralisation (Montaut, 2023)

⚠️ Pièges & Confusions Fréquentes

Confondre données étiquetées et non étiquetées, notamment dans l’apprentissage semi-supervisé.
Confusion entre hyper paramètres (fixes) et paramètres appris (ajustés).
Croire que la séparation entraînement/test n’est pas essentielle, ce qui favorise le surapprentissage.
Confondre problème de classification (Y fini) et de régression (Y dans R).
Sous-estimer l’importance de la préparation des données (normalisation, visualisation).
Négliger la validation croisée, qui permet d’éviter la dépendance à une seule partition.
Confondre surapprentissage et sous-apprentissage, en ne vérifiant pas la performance sur données non vues.

✅ Checklist Examen

Connaître la définition de l’apprentissage supervisé selon Thierry Montaut (2023).
Savoir distinguer problème de classification et de régression, en précisant la nature de Y.
Expliquer le rôle des données étiquetées dans l’apprentissage supervisé.
Identifier les hyper paramètres typiques d’un modèle (ex : nombre de couches, taille).
Définir ce que sont les paramètres appris et comment ils sont optimisés.
Connaître l’importance de la séparation entre données d’entraînement et de test pour éviter le surapprentissage.
Comprendre le rôle de la validation croisée dans l’évaluation de la stabilité du modèle.
Savoir ce qu’est une courbe d’apprentissage et comment elle indique la convergence.
Connaître les critères de performance principaux : précision, erreur quadratique, MAE, etc. (Montaut, 2023).
Maîtriser la procédure de préparation des données : étude statistique, visualisation, normalisation (Montaut, 2023).
Savoir définir et différencier hyper paramètres et paramètres appris.
Comprendre le concept de généralisation et ses enjeux dans l’apprentissage automatique.

📋 Plan du Cours

📖 1. Apprentissage supervisé

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Données d'entraînement

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 3. Problèmes de classification

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Problèmes de régression

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Hyper paramètres

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Paramètres appris

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 7. Validation du modèle

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Généralisation et surapprentissage

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 9. Validation croisée

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 10. Courbe d'apprentissage

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 11. Critères de performance

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Тествайте знанията си

Прегледайте с флашкарти

Similar courses

Introduction à l'Intelligence Artificielle Symbolique

Introduction aux documents et sécurité en construction

Introduction à l'Informatique et IA

Introduction aux marchés publics et réglementations du bâtiment

Gestion des imprimantes Windows et PDF

Introduction aux bases de données relationnelles

Създайте свои собствени листове за преговор