Scheda di Revisione: Introduction aux Méthodes de Classification

Plan du Cours

Classification : définition et caractéristiques
Exemples de problèmes de classification
Processus de classification en deux étapes
Train test split et estimation du taux d’erreur
Cross validation pour valider le modèle
Évaluation : matrice de confusion et indicateurs
Accuracy, recall, précision et F1 score
Courbe ROC et interprétation AUC
Méthodes de classification courantes

1. Classification : définition et caractéristiques

Notions clés & Définitions

Classification : La classification est une tâche d’apprentissage qui prédit l’appartenance d’une entité à une catégorie parmi un ensemble de classes.
Classes : Les classes sont les groupes cibles que le modèle doit identifier à partir de profils et d’observations.
Apprentissage supervisé : L’apprentissage supervisé est un cadre où les classes sont connues à l’avance grâce à des exemples étiquetés.
Taux d’erreur : Le taux d’erreur mesure la proportion de prédictions incorrectes produites par un modèle de classification.

Points essentiels

La classification consiste à décider si une entité appartient à une classe donnée à partir de ses caractéristiques.
Les classes correspondent à des groupes identifiés par des profils particuliers observables dans les données.
En classification supervisée, les étiquettes de classe sont fournies pendant l’entraînement.
La qualité d’une classification se résume notamment par son taux d’erreur.
Un modèle de classification peut aussi produire une décision binaire (ex. spam / non-spam) ou multi-classes selon le problème.

Astuce mémo

Décision de classe = “Qui est-ce ?” : on compare les caractéristiques à des profils connus (supervisé) pour choisir la bonne étiquette, puis on compte les erreurs.

2. Exemples de problèmes de classification

Notions clés & Définitions

Données démographiques : Les données démographiques sont des variables liées aux caractéristiques d’une population, utilisées pour prédire une classe ou un niveau de risque.
Niveau de risque : Le niveau de risque est une étiquette numérique ou catégorielle associée à un individu, servant à estimer la probabilité d’une maladie.
Ensemble d’apprentissage : L’ensemble d’apprentissage (training set) regroupe les exemples utilisés pour construire le modèle de classification.
Ensemble de test : L’ensemble de test (test set) contient des exemples séparés de l’apprentissage pour mesurer la précision du modèle.
Règles de classification : Les règles de classification sont la forme sous laquelle le modèle exprime comment attribuer une classe à une nouvelle donnée.

Points essentiels

La classification peut utiliser des données démographiques croisées pour attribuer une note de risque et estimer la probabilité d’une maladie.
Le processus de classification se déroule en deux étapes : construction du modèle puis utilisation du modèle.
Le modèle est construit à partir du training set, où chaque donnée est associée à une classe via l’attribut classe.
Le modèle sert ensuite à classer de nouvelles données (ou inconnues) et à estimer son taux d’erreur.
Le taux d’erreur correspond au pourcentage de tests dont la classe prédite est incorrecte.
Le train test split consiste à partitionner les données en deux ensembles indépendants : environ 80% (ou 70%) pour l’apprentissage et 20% (ou 30%) pour le test.

Astuce mémo

Train/Test : 80-20 (ou 70-30) pour apprendre puis vérifier l’erreur.

3. Processus de classification en deux étapes

Notions clés & Définitions

Train test split : Méthode de classification qui sépare les données en un ensemble d’apprentissage et un ensemble de test indépendants pour estimer les erreurs.
Ensemble d’apprentissage : Sous-ensemble de données utilisé pour entraîner le modèle, généralement constitué d’environ 80% (ou 70%) des données.
Ensemble de test : Sous-ensemble de données utilisé pour évaluer le modèle, généralement constitué d’environ 20% (ou 30%) des données.
Cross validation : Procédure d’évaluation qui entraîne et valide le modèle sur plusieurs découpages possibles du train set afin d’obtenir une estimation plus robuste.
k sous-ensembles : Découpage du train set en k parties, dont k−1 servent à l’apprentissage et 1 sert au test à chaque itération.

Points essentiels

Le train test split consiste à partitionner les données en deux ensembles indépendants pour estimer les taux d’erreurs du modèle.
En pratique, l’ensemble d’apprentissage représente souvent 80% (ou 70%) des données et l’ensemble de test 20% (ou 30%).
La cross validation entraîne puis valide le modèle sur plusieurs découpes possibles du train set.
On divise le train set en k sous-ensembles, puis on répète k fois l’évaluation en changeant le sous-ensemble de test.
À chaque itération, k−1 sous-ensembles sont utilisés pour l’apprentissage et le sous-ensemble restant pour le test.
Le choix de la cross validation vise à réduire la dépendance de l’évaluation à une seule découpe du train set.

Astuce mémo

Train/Test : 80/20 (ou 70/30) pour estimer l’erreur une fois ; Cross-val : k tours (k−1 pour apprendre, 1 pour tester).

4. Train test split et estimation du taux d’erreur

Notions clés & Définitions

Train test split : Procédure de séparation des données en un ensemble d’apprentissage et un ensemble de test pour évaluer la généralisation du modèle.
Ensemble de test : Jeu de données utilisé uniquement pour mesurer la performance, sans servir à construire le modèle de classification.
Estimation du taux d’erreur : Mesure de la proportion de prédictions incorrectes calculée sur l’ensemble de test pour approcher l’erreur en déploiement.
Généralisation : Capacité d’un modèle à conserver de bonnes performances sur des données nouvelles non vues pendant l’apprentissage.

Points essentiels

L’évaluation doit être faite sur l’échantillon de test, pas sur les données utilisées pour construire le modèle.
Le train test split sert à obtenir une estimation plus réaliste de la performance en déploiement.
Le taux d’erreur estimé correspond aux erreurs observées sur le test, ce qui reflète la fiabilité attendue.
Tester sur des données déjà vues peut surestimer la performance et masquer un manque de généralisation.
Comparer plusieurs modèles nécessite des évaluations sur des tests comparables afin de juger lequel est le plus performant selon l’objectif visé.

Astuce mémo

Test = données inconnues : erreur mesurée sur l’inconnu pour estimer l’erreur en production.

5. Cross validation pour valider le modèle

Notions clés & Définitions

Train set : En apprentissage supervisé, l’ensemble d’entraînement regroupe les données utilisées pour construire le modèle.
Test set : En évaluation, l’ensemble de test contient des données de référence distinctes de celles vues pendant l’entraînement.
Matrice de confusion : La matrice de confusion est un tableau qui compare les prédictions du modèle aux classes réelles pour mesurer la qualité de la classification.
Classification supervisée binaire : La classification supervisée binaire est un problème où la variable cible prend deux valeurs, notées 0 et 1, correspondant aux classes négative et positive.
Score de confiance : Le score de confiance correspond à la performance observée sur des données de test, utilisée pour estimer la fiabilité de la prédiction future.

Points essentiels

La performance d’un score se juge en le testant sur un test set distinct du train set pour éviter de surestimer le modèle.
Une matrice de confusion sert à évaluer une classification en confrontant prédictions et classes de référence sur le test set.
En classification binaire, la classe 1 est la classe positive et la classe 0 la classe négative.
Les faux négatifs (FN) sont les cas où le client a résilié mais où le modèle prédit à tort qu’il restera abonné.
Les faux positifs (FP) sont les cas où le client est resté abonné mais où le modèle prédit à tort qu’il résiliera.
Les vrais positifs (VP) sont les cas où le client a résilié et où le modèle prédit correctement la résiliation, et les vrais négatifs (VN) sont les cas restés abonnés prédits correctement.

Astuce mémo

Train pour apprendre, Test pour juger : même modèle, données différentes.

6. Évaluation : matrice de confusion et indicateurs

Notions clés & Définitions

Matrice de confusion : Matrice de comptage qui croise les prédictions du modèle avec les classes réelles pour dénombrer vrais positifs, faux positifs, vrais négatifs et faux négatifs.
Précision : Indicateur de classification qui mesure la proportion des prédictions positives qui sont réellement correctes.
Recall : Indicateur de classification qui mesure la proportion des positifs réels qui ont été correctement identifiés.
Faux positifs : Erreurs où le modèle prédit la classe positive alors que l’exemple réel appartient à la classe négative.
Faux négatifs : Erreurs où le modèle prédit la classe négative alors que l’exemple réel appartient à la classe positive.

Points essentiels

La précision répond à la question : quelle fraction des identifications positives prédites est effectivement correcte ?
La précision se calcule comme $\text{Precision}=\dfrac{\text{vrais positifs}}{\text{vrais positifs}+\text{faux positifs}}$ .
Le recall répond à la question : quelle fraction des positifs réels a été identifiée correctement ?
Le recall se calcule comme $\text{Recall}=\dfrac{\text{vrais positifs}}{\text{vrais positifs}+\text{faux négatifs}}$ .
Un modèle qui ne produit aucun faux négatif a un recall égal à $1,0$ .
Un modèle qui ne produit aucun faux positif a une précision égale à $1,0$ .

Astuce mémo

Précision = “positifs prédits corrects” (peu de faux positifs) ; Recall = “positifs réels retrouvés” (peu de faux négatifs).

7. Accuracy, recall, précision et F1 score

Notions clés & Définitions

Précision : La précision mesure la proportion de prédictions positives qui sont réellement positives.
Recall : Le rappel mesure la proportion des positifs réels qui sont correctement retrouvés par le modèle.
Tension précision rappel : La tension précision-rappel décrit le fait que gagner en précision se fait souvent au détriment du rappel, et inversement.
F1 score : Le F1 score combine précision et rappel en une seule métrique via leur moyenne harmonique.
Moyenne harmonique : La moyenne harmonique est une moyenne qui pénalise davantage les valeurs déséquilibrées entre deux grandeurs.

Points essentiels

Aucun faux positif avec un classificateur implique une précision de 1,0.
Précision et rappel doivent être analysés ensemble pour évaluer correctement un classificateur.
Quand le classificateur A a un recall plus élevé et B une précision plus élevée, on ne peut pas trancher avec une seule métrique.
Des métriques combinant précision et rappel existent pour comparer des modèles malgré la tension entre les deux.
Le F1 score sert à comparer deux classificateurs dans le cas où l’un favorise le recall et l’autre la précision.
Le F1 score est calculé par $F1=2\times\frac{(Recall\times Precision)}{(Recall+Precision)}$ .

Astuce mémo

Précision = « vrais positifs parmi prédits positifs » ; Recall = « vrais positifs parmi positifs réels » ; F1 = « moyenne harmonique » qui punit le déséquilibre.

8. Courbe ROC et interprétation AUC

Notions clés & Définitions

Courbe ROC : Une courbe ROC est un graphique qui mesure les performances d’un classifieur pour tous les seuils possibles en reliant vrais positifs et faux positifs.
Seuil de classification : Un seuil de classification est la valeur qui décide si une prédiction est classée comme positive ou négative, en fonction du score du modèle.
Taux de vrais positifs : Le taux de vrais positifs (TVP) est la proportion de vrais positifs parmi tous les exemples réellement positifs.
Taux de faux positifs : Le taux de faux positifs (TFP) est la proportion de faux positifs parmi tous les exemples réellement négatifs.
AUC : L’AUC est un indicateur synthétique lié à la surface sous la courbe ROC, utilisé pour résumer la performance globale du modèle.

Points essentiels

La courbe ROC trace TVP en fonction de TFP pour différents seuils de classification.
TVP = vrais positifs / (vrais positifs + faux négatifs).
TFP = faux positifs / (faux positifs + vrais négatifs).
Diminuer le seuil augmente le nombre d’éléments classés positifs, ce qui accroît à la fois TVP et TFP.
La ROC permet de comparer deux modèles indépendamment des matrices de confusion.
La ROC reste utile même avec des distributions très déséquilibrées, car elle évite les effets pervers liés à l’affectation par seuil dans la matrice de confusion.

Astuce mémo

TVP monte et TFP suit quand tu baisses le seuil : ROC = compromis vrais positifs vs faux positifs.

9. Méthodes de classification courantes

Notions clés & Définitions

AUC : L’AUC est une mesure de performance d’un modèle de score basée sur la courbe ROC, quantifiant la qualité de discrimination.
Courbe ROC : La courbe ROC représente le compromis entre taux de vrais positifs et taux de faux positifs pour différents seuils de décision.
Enveloppe convexe : L’enveloppe convexe est la frontière des courbes ROC qui ne sont jamais dominées par une autre courbe à un seuil donné.
k-Nearest Neighbor : k-NN est une méthode de classification qui prédit la classe d’un point à partir des k voisins les plus proches.
Arbre de décision : Un arbre de décision est une méthode de classification qui partitionne l’espace par des tests successifs jusqu’à une prédiction de classe.

Points essentiels

L’AUC correspond à l’aire sous la courbe ROC et mesure la discrimination d’un score entre positifs et négatifs.
L’AUC traduit la probabilité qu’un vrai positif reçoive un score supérieur à celui d’un faux positif.
L’AUC varie entre 0 et 1, et en pratique elle se situe souvent entre 0,5 et 1.
Si l’AUC est < 0,5, cela indique que les scores sont inversés (positifs et négatifs “mélangés” dans l’ordre).
Quand AUC = 1, le score place systématiquement un positif devant un négatif dans le meilleur des cas.
Les courbes sur l’enveloppe convexe correspondent aux modèles potentiellement les plus performants pour une matrice de coût donnée (selon le compromis recherché).

Astuce mémo

AUC = “Aire = Probabilité” : c’est la chance qu’un positif soit mieux classé qu’un négatif.

Repères chronologiques

Date	Événement
1 Octobre 2020	Début du support de cours (Classification Chapitre 3 Partie 1)
6 Octobre 2020	Diapositive sur la définition de la classification et ses caractéristiques
7 Octobre 2020	Diapositive sur des exemples de problèmes de classification
8 Octobre 2020	Diapositive sur le processus de classification en deux étapes
10 Octobre 2020	Diapositive sur l’estimation du taux d’erreur via le test set
11 Octobre 2020	Diapositive sur le train test split
12 Octobre 2020	Diapositive sur la cross validation
16 Octobre 2020	Diapositive sur l’évaluation des méthodes de classification (importance et test set)
17 Octobre 2020	Diapositive sur la remarque : évaluer sur l’échantillon de test
18 Octobre 2020	Diapositive listant les indicateurs : accuracy, recall, precision, F1 score

Tableaux de synthèse

Indicateurs issus de la matrice de confusion

Indicateur	Question	Formule (selon cours)
Accuracy	Pourcentage de bonnes prédictions	Accuracy = (vrais positifs + vrais négatifs) / total
Recall	Quelle proportion de positifs réels est identifiée correctement ?	Recall = vrais positifs / (vrais positifs + faux négatifs)
Précision	Quelle proportion d’identifications positives est effectivement correcte ?	Precision = vrais positifs / (vrais positifs + faux positifs)
F1 score	Combiner précision et rappel	F1 score = 2 * (Recall * Precision) / (Recall + Precision)

Pièges & confusions fréquents

Confondre train set et test set : évaluer sur le train set surestime la performance et masque un manque de généralisation.
Inverser les définitions de faux positifs et faux négatifs : FP et FN dépendent de la classe positive (ici y∈{0,1}).
Croire que l’accuracy suffit toujours : sur un jeu très déséquilibré, un modèle peut obtenir une accuracy élevée sans détecter la classe 1.
Penser qu’on peut trancher avec une seule métrique quand précision et recall s’opposent : un recall plus élevé ne garantit pas une meilleure précision.
Se tromper sur l’effet du seuil en ROC : diminuer le seuil augmente à la fois TVP et TFP (plus de positifs prédits).
Interpréter mal l’AUC : si AUC < 0,5 les scores sont inversés (positifs et négatifs mélangés dans l’ordre).
Oublier le rôle de l’enveloppe convexe : les courbes hors enveloppe peuvent être dominées pour une matrice de coût donnée.

Checklist Examen

Définir la classification, les classes, l’apprentissage supervisé et le taux d’erreur.
Expliquer un exemple de classification (spams ou risque santé) et le rôle des caractéristiques/données démographiques.
Décrire le processus de classification en deux étapes : construction du modèle sur le training set puis utilisation sur le test set et de nouvelles données.
Expliquer comment chaque donnée d’apprentissage est affectée à une classe via l’attribut classe et comment le modèle est représenté (règles de classification).
Calculer/exprimer le taux d’erreur à partir du test set : pourcentage de tests incorrectement classés.
Décrire le train test split et les proportions typiques 80%/20% (ou 70%/30%) et l’idée d’ensembles indépendants.
Décrire la cross validation : découper le train set en k sous-ensembles, utiliser k−1 pour apprendre et 1 pour tester, répéter k fois.
Justifier pourquoi l’évaluation se fait toujours sur l’échantillon de test distinct du train set.
Construire/interpréter une matrice de confusion binaire : VP, VN, FP, FN et leur signification dans l’exemple de résiliation.
Calculer et interpréter accuracy, recall et précision à partir de VP/VN/FP/FN, y compris les cas limites (rappel=1, précision=1).
Expliquer la tension précision-rappel et pourquoi on analyse souvent les deux ensemble.
Calculer le F1 score avec la formule donnée et l’utiliser pour comparer deux classificateurs quand précision et recall diffèrent.
Définir la courbe ROC, les notions TVP/TFP et l’effet du seuil sur ces taux.
Interpréter l’AUC : surface sous la courbe ROC, variation 0 à 1, cas AUC<0,5 et signification probabiliste (positif devant négatif).

📋 Plan du Cours

📖 1. Classification : définition et caractéristiques

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 2. Exemples de problèmes de classification

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 3. Processus de classification en deux étapes

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 4. Train test split et estimation du taux d’erreur

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 5. Cross validation pour valider le modèle

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 6. Évaluation : matrice de confusion et indicateurs

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 7. Accuracy, recall, précision et F1 score

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 8. Courbe ROC et interprétation AUC

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 9. Méthodes de classification courantes

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📅 Repères chronologiques

📊 Tableaux de synthèse

⚠️ Pièges & confusions fréquents

✅ Checklist Examen

Metti alla prova le tue conoscenze

Ripassa con le flashcard

Similar courses

Missions de l’assistant utilisateurs

Parcours d’études numériques et commerce

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Crea le tue schede di revisione

Plan du Cours

1. Classification : définition et caractéristiques

Notions clés & Définitions

Points essentiels

Astuce mémo

2. Exemples de problèmes de classification

Notions clés & Définitions

Points essentiels

Astuce mémo

3. Processus de classification en deux étapes

Notions clés & Définitions

Points essentiels

Astuce mémo

4. Train test split et estimation du taux d’erreur

Notions clés & Définitions

Points essentiels

Astuce mémo

5. Cross validation pour valider le modèle

Notions clés & Définitions

Points essentiels

Astuce mémo

6. Évaluation : matrice de confusion et indicateurs

Notions clés & Définitions

Points essentiels

Astuce mémo

7. Accuracy, recall, précision et F1 score

Notions clés & Définitions

Points essentiels

Astuce mémo

8. Courbe ROC et interprétation AUC

Notions clés & Définitions

Points essentiels

Astuce mémo

9. Méthodes de classification courantes

Notions clés & Définitions

Points essentiels

Astuce mémo

Repères chronologiques

Tableaux de synthèse

Pièges & confusions fréquents

Checklist Examen