X = matrice (exemples × features) ; y = vecteur (exemples) ; dataset = lignes = observations, colonnes = variables.
Matrice = lignes = exemples, colonnes = features : relie l’exemple à la feature .
Cible discrète → classes finies → classification ; Échelles différentes → normalisation (sinon le grand nombre “écrase” le reste).
Échelles → Normalisation (0-1) ou Standardisation (z-score) : K-NN/SVM/NN veulent des nombres comparables.
Quantiles = mêmes effectifs par intervalle ; Test = dernière photo (une seule fois).
Convergence = erreur qui baisse, Early stopping = validation qui remonte, Généralisation = écart train/test pas trop grand.
Hold-Out = 1 séparation (rapide), k-fold = k essais (moyenne), LOO = n essais (max données).
k-fold : k tests, 1 fold à la fois ; leave-one-out : 1 test = 1 exemple ; stratifié : mêmes % de classes partout.
MAE = moyenne des erreurs absolues (robuste aux outliers), MSE = erreurs au carré (outliers punis), RMSE = MSE puis racine (retour à l’unité).
Diagonale = bon (TP/TN) ; hors diagonale = erreurs (FP/FN) ; Precision = « parmi mes + », Recall = « parmi les vrais + ».
| Méthode | Test | Points clés |
|---|---|---|
| Hold-Out | Une seule séparation train/test | Simple/rapide, dépend du tirage, test non utilisé pour entraîner |
| Validation croisée k-fold | Un fold différent à chaque itération | Score final = moyenne des k scores, utilise toutes les données, plus coûteux |
| Leave-One-Out (LOO) | Chaque exemple une fois en test | Max données, déterministe, très coûteux et variance élevée |
| Métrique | Forme de l’erreur | Interprétation |
|---|---|---|
| MSE | Erreur au carré puis moyenne | Pénalise fortement les grosses erreurs, unité en (unité de y)² |
| RMSE | Racine de la MSE | Même unité que y, plus interprétable |
| MAE | Erreur absolue puis moyenne | Moins sensible aux outliers, même unité que y |
| R² | 1 - (résidus²)/(variance totale) | % de variance expliquée, peut être négatif si très mauvais |
Teste dein Wissen zu Introduction aux données et validation en ML mit 20 Multiple-Choice-Fragen mit detaillierten Korrekturen.
1. Que représente l’espace de données d’apprentissage dans un problème supervisé ?
2. Dans une représentation matricielle des données, que désigne généralement X ?
Merke dir die Schlüsselkonzepte von Introduction aux données et validation en ML mit 19 interaktiven Karteikarten.
Espace de données d’apprentissage — composants ?
Features, labels, représentation numérique
Dataset — sous-ensembles principaux ?
Training, validation, test
Features numériques — types ?
Continue, discrète
Intelligence Artificielle
Bases de données
Bases de données
Bases de données
Importiere deinen Kurs und die KI erstellt in 30 Sekunden Lernzettel, Quizze und Karteikarten.
Lernzettel-Generator