Scheda di revisione: Introduction aux Méthodes de Classification

📋 Plan du Cours

  1. Classification : définition et caractéristiques
  2. Exemples de problèmes de classification
  3. Processus de classification en deux étapes
  4. Train test split et estimation du taux d’erreur
  5. Cross validation pour valider le modèle
  6. Évaluation : matrice de confusion et indicateurs
  7. Accuracy, recall, précision et F1 score
  8. Courbe ROC et interprétation AUC
  9. Méthodes de classification courantes

📖 1. Classification : définition et caractéristiques

🔑 Notions clés & Définitions

  • Classification : La classification est une tâche d’apprentissage qui prédit l’appartenance d’une entité à une catégorie parmi un ensemble de classes.
  • Classes : Les classes sont les groupes cibles que le modèle doit identifier à partir de profils et d’observations.
  • Apprentissage supervisé : L’apprentissage supervisé est un cadre où les classes sont connues à l’avance grâce à des exemples étiquetés.
  • Taux d’erreur : Le taux d’erreur mesure la proportion de prédictions incorrectes produites par un modèle de classification.

📝 Points essentiels

  • La classification consiste à décider si une entité appartient à une classe donnée à partir de ses caractéristiques.
  • Les classes correspondent à des groupes identifiés par des profils particuliers observables dans les données.
  • En classification supervisée, les étiquettes de classe sont fournies pendant l’entraînement.
  • La qualité d’une classification se résume notamment par son taux d’erreur.
  • Un modèle de classification peut aussi produire une décision binaire (ex. spam / non-spam) ou multi-classes selon le problème.

💡 Astuce mémo

Décision de classe = “Qui est-ce ?” : on compare les caractéristiques à des profils connus (supervisé) pour choisir la bonne étiquette, puis on compte les erreurs.

📖 2. Exemples de problèmes de classification

🔑 Notions clés & Définitions

  • Données démographiques : Les données démographiques sont des variables liées aux caractéristiques d’une population, utilisées pour prédire une classe ou un niveau de risque.
  • Niveau de risque : Le niveau de risque est une étiquette numérique ou catégorielle associée à un individu, servant à estimer la probabilité d’une maladie.
  • Ensemble d’apprentissage : L’ensemble d’apprentissage (training set) regroupe les exemples utilisés pour construire le modèle de classification.
  • Ensemble de test : L’ensemble de test (test set) contient des exemples séparés de l’apprentissage pour mesurer la précision du modèle.
  • Règles de classification : Les règles de classification sont la forme sous laquelle le modèle exprime comment attribuer une classe à une nouvelle donnée.

📝 Points essentiels

  • La classification peut utiliser des données démographiques croisées pour attribuer une note de risque et estimer la probabilité d’une maladie.
  • Le processus de classification se déroule en deux étapes : construction du modèle puis utilisation du modèle.
  • Le modèle est construit à partir du training set, où chaque donnée est associée à une classe via l’attribut classe.
  • Le modèle sert ensuite à classer de nouvelles données (ou inconnues) et à estimer son taux d’erreur.
  • Le taux d’erreur correspond au pourcentage de tests dont la classe prédite est incorrecte.
  • Le train test split consiste à partitionner les données en deux ensembles indépendants : environ 80% (ou 70%) pour l’apprentissage et 20% (ou 30%) pour le test.

💡 Astuce mémo

Train/Test : 80-20 (ou 70-30) pour apprendre puis vérifier l’erreur.

📖 3. Processus de classification en deux étapes

🔑 Notions clés & Définitions

  • Train test split : Méthode de classification qui sépare les données en un ensemble d’apprentissage et un ensemble de test indépendants pour estimer les erreurs.
  • Ensemble d’apprentissage : Sous-ensemble de données utilisé pour entraîner le modèle, généralement constitué d’environ 80% (ou 70%) des données.
  • Ensemble de test : Sous-ensemble de données utilisé pour évaluer le modèle, généralement constitué d’environ 20% (ou 30%) des données.
  • Cross validation : Procédure d’évaluation qui entraîne et valide le modèle sur plusieurs découpages possibles du train set afin d’obtenir une estimation plus robuste.
  • k sous-ensembles : Découpage du train set en k parties, dont k−1 servent à l’apprentissage et 1 sert au test à chaque itération.

📝 Points essentiels

  • Le train test split consiste à partitionner les données en deux ensembles indépendants pour estimer les taux d’erreurs du modèle.
  • En pratique, l’ensemble d’apprentissage représente souvent 80% (ou 70%) des données et l’ensemble de test 20% (ou 30%).
  • La cross validation entraîne puis valide le modèle sur plusieurs découpes possibles du train set.
  • On divise le train set en k sous-ensembles, puis on répète k fois l’évaluation en changeant le sous-ensemble de test.
  • À chaque itération, k−1 sous-ensembles sont utilisés pour l’apprentissage et le sous-ensemble restant pour le test.
  • Le choix de la cross validation vise à réduire la dépendance de l’évaluation à une seule découpe du train set.

💡 Astuce mémo

Train/Test : 80/20 (ou 70/30) pour estimer l’erreur une fois ; Cross-val : k tours (k−1 pour apprendre, 1 pour tester).

📖 4. Train test split et estimation du taux d’erreur

🔑 Notions clés & Définitions

  • Train test split : Procédure de séparation des données en un ensemble d’apprentissage et un ensemble de test pour évaluer la généralisation du modèle.
  • Ensemble de test : Jeu de données utilisé uniquement pour mesurer la performance, sans servir à construire le modèle de classification.
  • Estimation du taux d’erreur : Mesure de la proportion de prédictions incorrectes calculée sur l’ensemble de test pour approcher l’erreur en déploiement.
  • Généralisation : Capacité d’un modèle à conserver de bonnes performances sur des données nouvelles non vues pendant l’apprentissage.

📝 Points essentiels

  • L’évaluation doit être faite sur l’échantillon de test, pas sur les données utilisées pour construire le modèle.
  • Le train test split sert à obtenir une estimation plus réaliste de la performance en déploiement.
  • Le taux d’erreur estimé correspond aux erreurs observées sur le test, ce qui reflète la fiabilité attendue.
  • Tester sur des données déjà vues peut surestimer la performance et masquer un manque de généralisation.
  • Comparer plusieurs modèles nécessite des évaluations sur des tests comparables afin de juger lequel est le plus performant selon l’objectif visé.

💡 Astuce mémo

Test = données inconnues : erreur mesurée sur l’inconnu pour estimer l’erreur en production.

📖 5. Cross validation pour valider le modèle

🔑 Notions clés & Définitions

  • Train set : En apprentissage supervisé, l’ensemble d’entraînement regroupe les données utilisées pour construire le modèle.
  • Test set : En évaluation, l’ensemble de test contient des données de référence distinctes de celles vues pendant l’entraînement.
  • Matrice de confusion : La matrice de confusion est un tableau qui compare les prédictions du modèle aux classes réelles pour mesurer la qualité de la classification.
  • Classification supervisée binaire : La classification supervisée binaire est un problème où la variable cible prend deux valeurs, notées 0 et 1, correspondant aux classes négative et positive.
  • Score de confiance : Le score de confiance correspond à la performance observée sur des données de test, utilisée pour estimer la fiabilité de la prédiction future.

📝 Points essentiels

  • La performance d’un score se juge en le testant sur un test set distinct du train set pour éviter de surestimer le modèle.
  • Une matrice de confusion sert à évaluer une classification en confrontant prédictions et classes de référence sur le test set.
  • En classification binaire, la classe 1 est la classe positive et la classe 0 la classe négative.
  • Les faux négatifs (FN) sont les cas où le client a résilié mais où le modèle prédit à tort qu’il restera abonné.
  • Les faux positifs (FP) sont les cas où le client est resté abonné mais où le modèle prédit à tort qu’il résiliera.
  • Les vrais positifs (VP) sont les cas où le client a résilié et où le modèle prédit correctement la résiliation, et les vrais négatifs (VN) sont les cas restés abonnés prédits correctement.

💡 Astuce mémo

Train pour apprendre, Test pour juger : même modèle, données différentes.

📖 6. Évaluation : matrice de confusion et indicateurs

🔑 Notions clés & Définitions

  • Matrice de confusion : Matrice de comptage qui croise les prédictions du modèle avec les classes réelles pour dénombrer vrais positifs, faux positifs, vrais négatifs et faux négatifs.
  • Précision : Indicateur de classification qui mesure la proportion des prédictions positives qui sont réellement correctes.
  • Recall : Indicateur de classification qui mesure la proportion des positifs réels qui ont été correctement identifiés.
  • Faux positifs : Erreurs où le modèle prédit la classe positive alors que l’exemple réel appartient à la classe négative.
  • Faux négatifs : Erreurs où le modèle prédit la classe négative alors que l’exemple réel appartient à la classe positive.

📝 Points essentiels

  • La précision répond à la question : quelle fraction des identifications positives prédites est effectivement correcte ?
  • La précision se calcule comme Precision=vrais positifsvrais positifs+faux positifs\text{Precision}=\dfrac{\text{vrais positifs}}{\text{vrais positifs}+\text{faux positifs}}.
  • Le recall répond à la question : quelle fraction des positifs réels a été identifiée correctement ?
  • Le recall se calcule comme Recall=vrais positifsvrais positifs+faux neˊgatifs\text{Recall}=\dfrac{\text{vrais positifs}}{\text{vrais positifs}+\text{faux négatifs}}.
  • Un modèle qui ne produit aucun faux négatif a un recall égal à 1,01,0.
  • Un modèle qui ne produit aucun faux positif a une précision égale à 1,01,0.

💡 Astuce mémo

Précision = “positifs prédits corrects” (peu de faux positifs) ; Recall = “positifs réels retrouvés” (peu de faux négatifs).

📖 7. Accuracy, recall, précision et F1 score

🔑 Notions clés & Définitions

  • Précision : La précision mesure la proportion de prédictions positives qui sont réellement positives.
  • Recall : Le rappel mesure la proportion des positifs réels qui sont correctement retrouvés par le modèle.
  • Tension précision rappel : La tension précision-rappel décrit le fait que gagner en précision se fait souvent au détriment du rappel, et inversement.
  • F1 score : Le F1 score combine précision et rappel en une seule métrique via leur moyenne harmonique.
  • Moyenne harmonique : La moyenne harmonique est une moyenne qui pénalise davantage les valeurs déséquilibrées entre deux grandeurs.

📝 Points essentiels

  • Aucun faux positif avec un classificateur implique une précision de 1,0.
  • Précision et rappel doivent être analysés ensemble pour évaluer correctement un classificateur.
  • Quand le classificateur A a un recall plus élevé et B une précision plus élevée, on ne peut pas trancher avec une seule métrique.
  • Des métriques combinant précision et rappel existent pour comparer des modèles malgré la tension entre les deux.
  • Le F1 score sert à comparer deux classificateurs dans le cas où l’un favorise le recall et l’autre la précision.
  • Le F1 score est calculé par F1=2×(Recall×Precision)(Recall+Precision)F1=2\times\frac{(Recall\times Precision)}{(Recall+Precision)}.

💡 Astuce mémo

Précision = « vrais positifs parmi prédits positifs » ; Recall = « vrais positifs parmi positifs réels » ; F1 = « moyenne harmonique » qui punit le déséquilibre.

📖 8. Courbe ROC et interprétation AUC

🔑 Notions clés & Définitions

  • Courbe ROC : Une courbe ROC est un graphique qui mesure les performances d’un classifieur pour tous les seuils possibles en reliant vrais positifs et faux positifs.
  • Seuil de classification : Un seuil de classification est la valeur qui décide si une prédiction est classée comme positive ou négative, en fonction du score du modèle.
  • Taux de vrais positifs : Le taux de vrais positifs (TVP) est la proportion de vrais positifs parmi tous les exemples réellement positifs.
  • Taux de faux positifs : Le taux de faux positifs (TFP) est la proportion de faux positifs parmi tous les exemples réellement négatifs.
  • AUC : L’AUC est un indicateur synthétique lié à la surface sous la courbe ROC, utilisé pour résumer la performance globale du modèle.

📝 Points essentiels

  • La courbe ROC trace TVP en fonction de TFP pour différents seuils de classification.
  • TVP = vrais positifs / (vrais positifs + faux négatifs).
  • TFP = faux positifs / (faux positifs + vrais négatifs).
  • Diminuer le seuil augmente le nombre d’éléments classés positifs, ce qui accroît à la fois TVP et TFP.
  • La ROC permet de comparer deux modèles indépendamment des matrices de confusion.
  • La ROC reste utile même avec des distributions très déséquilibrées, car elle évite les effets pervers liés à l’affectation par seuil dans la matrice de confusion.

💡 Astuce mémo

TVP monte et TFP suit quand tu baisses le seuil : ROC = compromis vrais positifs vs faux positifs.

📖 9. Méthodes de classification courantes

🔑 Notions clés & Définitions

  • AUC : L’AUC est une mesure de performance d’un modèle de score basée sur la courbe ROC, quantifiant la qualité de discrimination.
  • Courbe ROC : La courbe ROC représente le compromis entre taux de vrais positifs et taux de faux positifs pour différents seuils de décision.
  • Enveloppe convexe : L’enveloppe convexe est la frontière des courbes ROC qui ne sont jamais dominées par une autre courbe à un seuil donné.
  • k-Nearest Neighbor : k-NN est une méthode de classification qui prédit la classe d’un point à partir des k voisins les plus proches.
  • Arbre de décision : Un arbre de décision est une méthode de classification qui partitionne l’espace par des tests successifs jusqu’à une prédiction de classe.

📝 Points essentiels

  • L’AUC correspond à l’aire sous la courbe ROC et mesure la discrimination d’un score entre positifs et négatifs.
  • L’AUC traduit la probabilité qu’un vrai positif reçoive un score supérieur à celui d’un faux positif.
  • L’AUC varie entre 0 et 1, et en pratique elle se situe souvent entre 0,5 et 1.
  • Si l’AUC est < 0,5, cela indique que les scores sont inversés (positifs et négatifs “mélangés” dans l’ordre).
  • Quand AUC = 1, le score place systématiquement un positif devant un négatif dans le meilleur des cas.
  • Les courbes sur l’enveloppe convexe correspondent aux modèles potentiellement les plus performants pour une matrice de coût donnée (selon le compromis recherché).

💡 Astuce mémo

AUC = “Aire = Probabilité” : c’est la chance qu’un positif soit mieux classé qu’un négatif.

📅 Repères chronologiques

DateÉvénement
1 Octobre 2020Début du support de cours (Classification Chapitre 3 Partie 1)
6 Octobre 2020Diapositive sur la définition de la classification et ses caractéristiques
7 Octobre 2020Diapositive sur des exemples de problèmes de classification
8 Octobre 2020Diapositive sur le processus de classification en deux étapes
10 Octobre 2020Diapositive sur l’estimation du taux d’erreur via le test set
11 Octobre 2020Diapositive sur le train test split
12 Octobre 2020Diapositive sur la cross validation
16 Octobre 2020Diapositive sur l’évaluation des méthodes de classification (importance et test set)
17 Octobre 2020Diapositive sur la remarque : évaluer sur l’échantillon de test
18 Octobre 2020Diapositive listant les indicateurs : accuracy, recall, precision, F1 score

📊 Tableaux de synthèse

Indicateurs issus de la matrice de confusion

IndicateurQuestionFormule (selon cours)
AccuracyPourcentage de bonnes prédictionsAccuracy = (vrais positifs + vrais négatifs) / total
RecallQuelle proportion de positifs réels est identifiée correctement ?Recall = vrais positifs / (vrais positifs + faux négatifs)
PrécisionQuelle proportion d’identifications positives est effectivement correcte ?Precision = vrais positifs / (vrais positifs + faux positifs)
F1 scoreCombiner précision et rappelF1 score = 2 * (Recall * Precision) / (Recall + Precision)

⚠️ Pièges & confusions fréquents

  1. Confondre train set et test set : évaluer sur le train set surestime la performance et masque un manque de généralisation.
  2. Inverser les définitions de faux positifs et faux négatifs : FP et FN dépendent de la classe positive (ici y∈{0,1}).
  3. Croire que l’accuracy suffit toujours : sur un jeu très déséquilibré, un modèle peut obtenir une accuracy élevée sans détecter la classe 1.
  4. Penser qu’on peut trancher avec une seule métrique quand précision et recall s’opposent : un recall plus élevé ne garantit pas une meilleure précision.
  5. Se tromper sur l’effet du seuil en ROC : diminuer le seuil augmente à la fois TVP et TFP (plus de positifs prédits).
  6. Interpréter mal l’AUC : si AUC < 0,5 les scores sont inversés (positifs et négatifs mélangés dans l’ordre).
  7. Oublier le rôle de l’enveloppe convexe : les courbes hors enveloppe peuvent être dominées pour une matrice de coût donnée.

✅ Checklist Examen

  1. Définir la classification, les classes, l’apprentissage supervisé et le taux d’erreur.
  2. Expliquer un exemple de classification (spams ou risque santé) et le rôle des caractéristiques/données démographiques.
  3. Décrire le processus de classification en deux étapes : construction du modèle sur le training set puis utilisation sur le test set et de nouvelles données.
  4. Expliquer comment chaque donnée d’apprentissage est affectée à une classe via l’attribut classe et comment le modèle est représenté (règles de classification).
  5. Calculer/exprimer le taux d’erreur à partir du test set : pourcentage de tests incorrectement classés.
  6. Décrire le train test split et les proportions typiques 80%/20% (ou 70%/30%) et l’idée d’ensembles indépendants.
  7. Décrire la cross validation : découper le train set en k sous-ensembles, utiliser k−1 pour apprendre et 1 pour tester, répéter k fois.
  8. Justifier pourquoi l’évaluation se fait toujours sur l’échantillon de test distinct du train set.
  9. Construire/interpréter une matrice de confusion binaire : VP, VN, FP, FN et leur signification dans l’exemple de résiliation.
  10. Calculer et interpréter accuracy, recall et précision à partir de VP/VN/FP/FN, y compris les cas limites (rappel=1, précision=1).
  11. Expliquer la tension précision-rappel et pourquoi on analyse souvent les deux ensemble.
  12. Calculer le F1 score avec la formule donnée et l’utiliser pour comparer deux classificateurs quand précision et recall diffèrent.
  13. Définir la courbe ROC, les notions TVP/TFP et l’effet du seuil sur ces taux.
  14. Interpréter l’AUC : surface sous la courbe ROC, variation 0 à 1, cas AUC<0,5 et signification probabiliste (positif devant négatif).

Metti alla prova le tue conoscenze

Metti alla prova le tue conoscenze su Introduction aux Méthodes de Classification con 9 domande a scelta multipla con correzioni dettagliate.

1. Quelles sont les deux étapes du processus de classification ?

2. Dans quel type de problème la classification peut-elle être utilisée ?

Fai il quiz →

Ripassa con le flashcard

Memorizza i concetti chiave di Introduction aux Méthodes de Classification con 18 flashcard interattive.

Classification — définition ?

Prédire l’appartenance à une catégorie.

Classes — rôle ?

Groupes cibles à identifier.

Apprentissage supervisé — rôle ?

Utilise des données étiquetées.

Vedi le flashcard →

Similar courses

Crea le tue schede di revisione

Importa il tuo corso e l'AI genera schede, quiz e flashcard in 30 secondi.

Generatore di schede