X = matrice (exemples × features) ; y = vecteur (exemples) ; dataset = lignes = observations, colonnes = variables.
Matrice = lignes = exemples, colonnes = features : relie l’exemple à la feature .
Cible discrète → classes finies → classification ; Échelles différentes → normalisation (sinon le grand nombre “écrase” le reste).
Échelles → Normalisation (0-1) ou Standardisation (z-score) : K-NN/SVM/NN veulent des nombres comparables.
Quantiles = mêmes effectifs par intervalle ; Test = dernière photo (une seule fois).
Convergence = erreur qui baisse, Early stopping = validation qui remonte, Généralisation = écart train/test pas trop grand.
Hold-Out = 1 séparation (rapide), k-fold = k essais (moyenne), LOO = n essais (max données).
k-fold : k tests, 1 fold à la fois ; leave-one-out : 1 test = 1 exemple ; stratifié : mêmes % de classes partout.
MAE = moyenne des erreurs absolues (robuste aux outliers), MSE = erreurs au carré (outliers punis), RMSE = MSE puis racine (retour à l’unité).
Diagonale = bon (TP/TN) ; hors diagonale = erreurs (FP/FN) ; Precision = « parmi mes + », Recall = « parmi les vrais + ».
| Méthode | Test | Points clés |
|---|---|---|
| Hold-Out | Une seule séparation train/test | Simple/rapide, dépend du tirage, test non utilisé pour entraîner |
| Validation croisée k-fold | Un fold différent à chaque itération | Score final = moyenne des k scores, utilise toutes les données, plus coûteux |
| Leave-One-Out (LOO) | Chaque exemple une fois en test | Max données, déterministe, très coûteux et variance élevée |
| Métrique | Forme de l’erreur | Interprétation |
|---|---|---|
| MSE | Erreur au carré puis moyenne | Pénalise fortement les grosses erreurs, unité en (unité de y)² |
| RMSE | Racine de la MSE | Même unité que y, plus interprétable |
| MAE | Erreur absolue puis moyenne | Moins sensible aux outliers, même unité que y |
| R² | 1 - (résidus²)/(variance totale) | % de variance expliquée, peut être négatif si très mauvais |
Pon a prueba tus conocimientos sobre Introduction aux données et validation en ML con 20 preguntas de opción múltiple con correcciones detalladas.
1. Que représente l’espace de données d’apprentissage dans un problème supervisé ?
2. Dans une représentation matricielle des données, que désigne généralement X ?
Memoriza los conceptos clave de Introduction aux données et validation en ML con 19 tarjetas de memoria interactivas.
Espace de données d’apprentissage — composants ?
Features, labels, représentation numérique
Dataset — sous-ensembles principaux ?
Training, validation, test
Features numériques — types ?
Continue, discrète
Bases de données
Bases de données
Bases de données
Programmation
Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.
Generador de hojas