Scheda di Revisione: Introduction au Machine Learning

Plan du Cours

Définition et applications du machine learning
Processus de machine learning
Types d’apprentissage automatique
Apprentissage supervisé : classification et régression
Complexité du modèle et surapprentissage
Analyse exploratoire des données
Caractéristiques et variable cible
K plus proches voisins KNN
Apprentissage et prédiction en Python
Évaluation des modèles et train test split
Régression linéaire et moindre carrés ordinaires
Régularisation ridge et lasso

1. Définition et applications du machine learning

Notions clés & Définitions

Intelligence artificielle : L’intelligence artificielle regroupe des théories et techniques visant à faire réaliser par des machines des comportements proches de l’intelligence humaine.
Machine Learning : Le machine learning est un sous-ensemble de l’intelligence artificielle où des algorithmes apprennent à partir de données pour prédire ou décider sans être explicitement programmés.
Données d’entraînement : Les données d’entraînement sont les exemples fournis à l’algorithme pour construire un modèle mathématique capable de généraliser à de nouvelles entrées.
Modèle mathématique : Un modèle mathématique est la représentation construite par l’algorithme à partir des données d’entraînement pour produire des prédictions ou des décisions.

Points essentiels

Le ML construit un modèle à partir d’échantillons de données afin d’effectuer des prédictions ou décisions sans règles codées explicitement pour la tâche.
Le ML fait partie de l’IA, qui regroupe plus largement des théories et techniques pour simuler l’intelligence humaine.
Les algorithmes ML apprennent à partir des données d’entraînement pour généraliser à de nouvelles entrées.
Les applications citées incluent la détection de maladies, les systèmes de recommandation et la vision par ordinateur.
Quand un algorithme conventionnel est difficile ou impossible à concevoir efficacement, le ML devient une alternative adaptée.

Astuce mémo

IA = grand ensemble ; ML = sous-ensemble qui apprend sur des données pour prédire (pas de programmation explicite de la tâche).

2. Processus de machine learning

Notions clés & Définitions

Apprentissage supervisé : Approche où l’on apprend à partir de paires entrée/sortie connues pour prédire une sortie à partir d’une entrée.
Jeu d’entrainement : Ensemble d’observations entrée/sortie utilisé pour construire et ajuster le modèle pendant l’apprentissage.
Jeu de test : Données non utilisées pour l’apprentissage servant à évaluer le modèle sur de nouvelles entrées.
Variable cible : Sortie que le modèle cherche à prédire à partir des variables prédictives.
Analyse exploratoire des données : Étape d’exploration statistique et graphique pour comprendre les variables, repérer patterns, erreurs et valeurs aberrantes.

Points essentiels

Le training set contient des observations d’entrainement, chacune décrite par un vecteur de caractéristiques (features).
Le jeu d’entrainement peut être représenté sous forme de matrice dans le modèle mathématique.
En classification, la variable cible est une étiquette choisie parmi des classes prédéfinies.
En régression, la variable cible est une valeur numérique continue que l’algorithme détermine.
Le modèle est évalué sur un jeu de test pour estimer son comportement sur des données nouvelles.
Le processus supervisé suit : pré-traitement, apprentissage (comparaison de modèles), évaluation, puis prédiction sur données de test non vues.

Astuce mémo

Supervisé = Entrées connues → Apprendre sur training set → Tester sur test set.

3. Types d’apprentissage automatique

Notions clés & Définitions

Machine Learning : Approche d’apprentissage où un modèle apprend à partir de données pour faire des prédictions ou des décisions sur de nouvelles entrées.
Analyse exploratoire des données : Étape d’exploration qui utilise des visualisations et statistiques pour comprendre la structure des données et la variable cible.
K plus proches voisins : Méthode de classification ou de régression qui prédit à partir des k observations les plus proches dans l’ensemble d’apprentissage.
Régression linéaire : Modèle qui relie une variable cible à une ou plusieurs caractéristiques via une combinaison linéaire paramétrée.
Boston Housing : Jeu de données de régression utilisé pour prédire la valeur moyenne de maisons à Boston à partir de caractéristiques.

Points essentiels

Le dataset Iris sert d’exemple de classification avec une variable cible Species et des caractéristiques comme sepal length et petal width.
Le boxplot et l’histogramme sont des visualisations utilisées en analyse exploratoire pour repérer la distribution et la dispersion des variables.
Le nuage de points (scatterplot) sert à visualiser les relations entre deux variables numériques.
En KNN, le modèle est non-paramétrique car il mémorise les observations de l’ensemble d’apprentissage.
En KNN, la prédiction dépend de la tâche : en régression c’est la moyenne des k voisins, en classification c’est la classe majoritaire.
En Python, l’apprentissage se fait avec fit() et la prédiction avec predict().

Astuce mémo

KNN = k voisins → majorité (classe) ou moyenne (valeur).

4. Apprentissage supervisé : classification et régression

Notions clés & Définitions

Régression linéaire multiple : Modèle supervisé qui prédit une variable cible comme combinaison linéaire des caractéristiques, avec des coefficients et un biais à apprendre.
Moindres carrés ordinaires : Méthode d’estimation qui choisit les paramètres d’un modèle de régression en minimisant l’erreur quadratique sur les données.
Régularisation Ridge : Variante de régression linéaire qui ajoute une pénalité L2 pour limiter la taille des coefficients et réduire le sur-apprentissage.
Régularisation Lasso : Variante de régression linéaire qui ajoute une pénalité L1 pour pousser certains coefficients exactement à zéro.
Validation croisée k-plis : Technique d’évaluation qui découpe les données en k parties et répète l’entraînement/test pour obtenir une performance de généralisation plus stable.

Points essentiels

La régression linéaire multiple s’écrit $y=a_1x_1+a_2x_2+\cdots+a_nx_n+b$ , où $y$ est la cible et $x_i$ les caractéristiques.
Le choix des paramètres se fait en définissant une fonction d’erreur et en sélectionnant la droite (ou hyperplan) qui minimise l’erreur quadratique.
Le MCO (Ordinary Least Squares) correspond à la minimisation de l’erreur quadratique pour estimer les paramètres de la régression.
La régression linéaire est sensible aux données aberrantes et suppose implicitement des relations plutôt linéaires entre entrées et cible.
La régression linéaire ne capture que la tendance moyenne de la variable cible et peut être affectée par la colinéarité entre attributs.
Ridge (L2) pénalise la somme des carrés des coefficients : $\text{L2} = \text{OLS} + \alpha\sum_{i=1}^n(a_i)^2$ , avec $\alpha$ contrôlant la complexité du modèle.

Astuce mémo

MCO = Minimiser l’Erreur Quadratique ; Ridge = Réduire (L2) ; Lasso = Laisser (L1) des zéros ; k-plis = k fois Train/Test pour stabiliser.

5. Complexité du modèle et surapprentissage

Notions clés & Définitions

Surapprentissage : Le surapprentissage est un phénomène où un modèle apprend trop bien les données d’entraînement et se généralise mal à de nouvelles données.
Complexité du modèle : La complexité du modèle désigne la capacité du modèle à représenter des relations variées, souvent liée à sa flexibilité.
Validation croisée : La validation croisée est une méthode d’évaluation qui mesure la performance en entraînant et testant sur plusieurs découpages des données.
Matrice de confusion : La matrice de confusion est un tableau qui décompose les prédictions en vrais positifs, vrais négatifs, faux positifs et faux négatifs.

Points essentiels

Un modèle trop complexe peut obtenir de bonnes performances sur l’entraînement tout en échouant sur des données nouvelles, ce qui caractérise le surapprentissage.
La validation croisée réduit le risque de juger un modèle sur un découpage chanceux en évaluant la performance sur plusieurs folds.
L’accuracy peut être trompeuse quand les classes sont déséquilibrées, car un modèle peut prédire majoritairement la classe la plus fréquente.
Les erreurs de type I correspondent aux faux positifs (FP) et les erreurs de type II aux faux négatifs (FN) dans la matrice de confusion.
La courbe ROC utilise le couple TVP (rappel/sensibilité) et TFP pour analyser l’effet du seuil de détection sur les performances.

Astuce mémo

Complexité ↑ → entraînement ↑ mais généralisation ↓ : surapprentissage ; validation croisée = test répété pour éviter l’illusion.

6. Analyse exploratoire des données

Notions clés & Définitions

Courbe ROC : La courbe ROC représente le compromis entre vrais positifs et faux positifs selon le seuil de décision du modèle.
AUC : L’AUC est l’aire sous la courbe ROC, résumant la capacité du modèle à classer correctement les classes positive et négative.
TVP : La TVP est la proportion de vrais positifs parmi l’ensemble des données réellement positives, équivalente au rappel ou à la sensibilité.
TFP : La TFP est la proportion de faux positifs parmi l’ensemble des données réellement négatives, et vaut 1 moins la spécificité.
Seuil de décision : Le seuil de décision est la valeur utilisée pour convertir une probabilité prédite en classe positive ou négative.

Points essentiels

Pour tracer la ROC, on calcule pour chaque observation sa prédiction avec la probabilité associée, puis on balaie les seuils possibles.
La TVP correspond au rappel (sensibilité) : c’est la part des positifs correctement détectés parmi tous les positifs.
La TFP se calcule comme 1 − spécificité, donc elle mesure la part de négatifs incorrectement classés en positifs.
Sur la ROC, l’axe des abscisses correspond à la TFP et l’axe des ordonnées à la TVP, puis on relie les points.
AUC = 1 correspond au cas idéal : les deux classes sont parfaitement séparées et la courbe ne se chevauche pas.
AUC ≈ 0.5 indique une absence de discrimination : le modèle ne distingue pas vraiment les classes, et l’AUC ≈ 0 correspond à une inversion (positif et négatif confondus).

Astuce mémo

ROC = Rappel (TVP) vs Faux positifs (TFP) ; AUC mesure la séparation : 1 parfait, 0.5 hasard, 0 inversion.

7. Caractéristiques et variable cible

Notions clés & Définitions

Hyperparamètres : Paramètres du modèle fixés avant l’entraînement, dont la valeur influence directement les performances.
Recherche aléatoire : Méthode d’optimisation des hyperparamètres qui teste seulement un sous-ensemble des combinaisons possibles.
Recherche sur grille : Méthode d’optimisation des hyperparamètres qui essaie toutes les combinaisons fournies pour chaque hyperparamètre.
Données catégorielles : Données dont les valeurs n’ont pas de sens quantitatif et qui décrivent des catégories (ex. genre, couleur).
Variable cible : Variable à prédire par le modèle, utilisée comme sortie (label) pendant l’entraînement.

Points essentiels

La recherche sur grille teste toutes les combinaisons possibles des valeurs fournies pour chaque hyperparamètre.
La recherche aléatoire teste un sous-ensemble des combinaisons possibles, ce qui réduit le nombre d’essais.
La recherche aléatoire peut tirer des valeurs depuis des listes ou en choisissant sur des intervalles continus.
Les variables catégorielles binaires ont exactement deux résultats (ex. féminin/masculin).
Les variables nominales décrivent des groupes sans ordre (ex. couleurs, marques).
Les variables ordinales décrivent des groupes avec un ordre (ex. excellent→mauvais).

Astuce mémo

Grille = toutes les combinaisons ; Aléatoire = échantillon.

8. K plus proches voisins KNN

Notions clés & Définitions

K plus proches voisins : Algorithme de classification ou de régression qui prédit une sortie à partir des $K$ exemples les plus proches dans l’espace des caractéristiques.
Valeur de K : Paramètre $K$ qui fixe le nombre de voisins utilisés pour décider la classe ou estimer la valeur prédite.
Distance entre points : Mesure de proximité entre deux observations, utilisée pour déterminer quels exemples sont les plus proches.
Vote des voisins : Mécanisme de décision où les $K$ voisins influencent la prédiction, typiquement par majorité de classes en classification.

9. Apprentissage et prédiction en Python

Notions clés & Définitions

Gain d’information : Le gain d’information mesure combien une division réduit l’impureté d’un nœud via l’entropie, et sert à choisir la meilleure séparation.
Arbre de décision de classification : Un arbre de décision de classification apprend des règles de séparation pour prédire une classe à partir des attributs.
Arbre de décision de régression : Un arbre de décision de régression apprend des séparations pour prédire une valeur numérique continue.
Méthodes ensemblistes : Les méthodes ensemblistes combinent plusieurs modèles pour obtenir des prédictions plus fiables que celles de chaque modèle seul.
VotingClassifier : VotingClassifier est un méta-modèle qui agrège les prédictions de plusieurs classificateurs via vote majoritaire ou vote probabiliste.

Points essentiels

L’impureté d’un nœud varie entre 0 (nœud pur) et 1 (nœud complètement impur).
Le gain d’information s’écrit $Gain(Y,X)=E(Y)-E(Y|X)$ et correspond à la baisse d’entropie due à la variable $X$ .
Dans un arbre de décision, chaque nœud est scindé en choisissant la division qui maximise le gain d’information.
En régression, l’arbre prédit une valeur numérique (et non une classe) à partir des séparations apprises.
Les méthodes ensemblistes se divisent en boosting (séquentiel) et bagging (parallèle).
Le boosting agrège des estimateurs par moyenne pondérée (régression) ou vote majoritaire (classification) et chaque modèle corrige les faiblesses du précédent.

Astuce mémo

Gain d’info = Entropie avant − Entropie après : plus il baisse, plus la séparation est bonne.

10. Évaluation des modèles et train test split

Notions clés & Définitions

Train test split : Méthode de séparation des données en un ensemble d’entraînement et un ensemble de test pour évaluer la généralisation d’un modèle.
Out of Bag (OOB) : Technique d’évaluation propre au bagging qui utilise les échantillons non tirés pour estimer la performance sans jeu de test dédié.
BaggingRegressor : Modèle scikit-learn de bagging pour la régression qui agrège les prédictions de plusieurs modèles entraînés sur des sous-échantillons.
RandomForestClassifier : Modèle scikit-learn de forêt aléatoire pour la classification qui agrège des arbres par vote majoritaire.
RandomForestRegressor : Modèle scikit-learn de forêt aléatoire pour la régression qui agrège des arbres par moyenne des prédictions.

Points essentiels

Le train test split sert à mesurer la performance sur des données jamais vues pendant l’entraînement, pour limiter le surapprentissage.
Dans le bagging, chaque modèle est entraîné sur un sous-échantillon issu d’un tirage aléatoire, ce qui permet d’évaluer aussi via les échantillons OOB.
Score OOB : la performance OOB globale s’obtient en additionnant les contributions OOB de chaque modèle puis en divisant par le nombre de modèles.
Random Forest est une méthode ensembliste de type bagging basée sur l’assemblage d’arbres de décision.
En classification, la prédiction finale d’une forêt aléatoire se fait par vote (classe la plus fréquente) et, en régression, par moyenne des prédictions.

Astuce mémo

OOB = Out Of Bag : ce que le modèle n’a pas vu sert à l’évaluer.

11. Régression linéaire et moindre carrés ordinaires

12. Régularisation ridge et lasso

Notions clés & Définitions

Ridge : Ridge est une régularisation qui pénalise les coefficients pour limiter leur amplitude et réduire le surapprentissage.
Lasso : Lasso est une régularisation qui pénalise les coefficients et peut forcer certains coefficients à devenir exactement nuls.
Régularisation : La régularisation est une technique qui ajoute une pénalité à l’apprentissage pour contrôler la complexité du modèle.
Surapprentissage : Le surapprentissage est un phénomène où le modèle apprend trop les données d’entraînement et généralise mal.

Tableaux de synthèse

Supervisé vs non supervisé vs renforcement

Type	Données	Objectif / sortie
Apprentissage supervisé	données annotées (paires entrée/sortie)	prédire une sortie (classification: étiquette; régression: valeur numérique)
Apprentissage non supervisé	données non annotées	clustering (regrouper en clusters) et réduction de dimensions (garder l’essentiel)
Apprentissage par renforcement	un environnement et des récompenses	choisir des actions pour maximiser les récompenses au cours du temps

Pièges & confusions fréquents

Confondre IA et ML : l’IA est l’ensemble des théories/techniques, le ML est un sous-ensemble où les algorithmes apprennent à partir de données.
Mélanger training set et test set : calculer l’accuracy sur le training set donne une performance non indicative (risque de surapprentissage).
Inverser classification et régression : classification prédit une étiquette parmi des classes, régression prédit une valeur numérique continue.
Confondre rappel et précision : le rappel mesure la part des positifs détectés, la précision mesure la part des vrais positifs parmi les positifs prédits.
Se tromper sur la ROC : l’abscisse est la TFP (1 − spécificité) et l’ordonnée la TVP (rappel/sensibilité), pas l’inverse.
Croire que l’accuracy suffit toujours : elle peut être trompeuse en cas de classes déséquilibrées (ex. 99% en prédisant toujours la classe majoritaire).
Confondre Ridge et Lasso : Ridge (L2) réduit l’amplitude des coefficients, Lasso (L1) peut forcer certains coefficients à devenir exactement nuls.

Checklist Examen

Définir IA et ML, puis expliquer comment un algorithme ML construit un modèle mathématique à partir des données d’entraînement pour prédire/décider sans programmation explicite.
Décrire les 3 phases du processus ML : préparation des données, construction du modèle (choix d’algorithme + apprentissage), puis évaluation/validation sur de nouvelles données.
Expliquer les types de ML : supervisé (classification/régression), non supervisé (clustering/réduction de dimensions), et renforcement (actions pour maximiser des récompenses).
Pour l’apprentissage supervisé, préciser training set (matrice de features), variable cible (étiquette ou valeur continue), et le rôle du jeu de test pour évaluer la généralisation.
Présenter le pipeline supervisé : pré-traitement, apprentissage (comparaison de modèles), évaluation, puis prédiction sur données de test non vues.
Expliquer KNN : non-paramétrique (mémorisation), prédiction en régression = moyenne des k voisins, en classification = classe majoritaire.
Savoir écrire/raisonner la régression linéaire multiple et le principe MCO : minimiser l’erreur quadratique pour estimer les paramètres.
Comparer Ridge (L2) et Lasso (L1) : pénalité sur coefficients, effet attendu sur la taille des coefficients et possibilité de zéros exacts pour Lasso.
Expliquer surapprentissage et sous-apprentissage via la complexité du modèle, puis justifier l’usage de la validation croisée plutôt que d’un seul train_test_split.
Décrire train_test_split et validation croisée k-plis : découpage en folds, entraînement sur k−1 et test sur le fold restant, moyenne des scores.
Construire/Interpréter la matrice de confusion : VN/VP/FP/FN, relier FP à erreurs de type I et FN à erreurs de type II, puis relier rappel/sensibilité et spécificité à la ROC.
Expliquer ROC/AUC : calcul sur probabilités en balayant les seuils, abscisse TFP et ordonnée TVP, et interprétation AUC (1 idéal, ~0.5 hasard, ~0 inversion).

📋 Plan du Cours

📖 1. Définition et applications du machine learning

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 2. Processus de machine learning

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 3. Types d’apprentissage automatique

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 4. Apprentissage supervisé : classification et régression

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 5. Complexité du modèle et surapprentissage

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 6. Analyse exploratoire des données

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 7. Caractéristiques et variable cible

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 8. K plus proches voisins KNN

🔑 Notions clés & Définitions

📖 9. Apprentissage et prédiction en Python

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 10. Évaluation des modèles et train test split

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 11. Régression linéaire et moindre carrés ordinaires

📖 12. Régularisation ridge et lasso

🔑 Notions clés & Définitions

📊 Tableaux de synthèse

⚠️ Pièges & confusions fréquents

✅ Checklist Examen

Metti alla prova le tue conoscenze

Ripassa con le flashcard

Similar courses

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Crea le tue schede di revisione

Plan du Cours

1. Définition et applications du machine learning

Notions clés & Définitions

Points essentiels

Astuce mémo

2. Processus de machine learning

Notions clés & Définitions

Points essentiels

Astuce mémo

3. Types d’apprentissage automatique

Notions clés & Définitions

Points essentiels

Astuce mémo

4. Apprentissage supervisé : classification et régression

Notions clés & Définitions

Points essentiels

Astuce mémo

5. Complexité du modèle et surapprentissage

Notions clés & Définitions

Points essentiels

Astuce mémo

6. Analyse exploratoire des données

Notions clés & Définitions

Points essentiels

Astuce mémo

7. Caractéristiques et variable cible

Notions clés & Définitions

Points essentiels

Astuce mémo

8. K plus proches voisins KNN

Notions clés & Définitions

9. Apprentissage et prédiction en Python

Notions clés & Définitions

Points essentiels

Astuce mémo

10. Évaluation des modèles et train test split

Notions clés & Définitions

Points essentiels

Astuce mémo

11. Régression linéaire et moindre carrés ordinaires

12. Régularisation ridge et lasso

Notions clés & Définitions

Tableaux de synthèse

Pièges & confusions fréquents

Checklist Examen