X = matrice (exemples × features) ; y = vecteur (exemples) ; dataset = lignes = observations, colonnes = variables.
Matrice = lignes = exemples, colonnes = features : relie l’exemple à la feature .
Cible discrète → classes finies → classification ; Échelles différentes → normalisation (sinon le grand nombre “écrase” le reste).
Échelles → Normalisation (0-1) ou Standardisation (z-score) : K-NN/SVM/NN veulent des nombres comparables.
Quantiles = mêmes effectifs par intervalle ; Test = dernière photo (une seule fois).
Convergence = erreur qui baisse, Early stopping = validation qui remonte, Généralisation = écart train/test pas trop grand.
Hold-Out = 1 séparation (rapide), k-fold = k essais (moyenne), LOO = n essais (max données).
k-fold : k tests, 1 fold à la fois ; leave-one-out : 1 test = 1 exemple ; stratifié : mêmes % de classes partout.
MAE = moyenne des erreurs absolues (robuste aux outliers), MSE = erreurs au carré (outliers punis), RMSE = MSE puis racine (retour à l’unité).
Diagonale = bon (TP/TN) ; hors diagonale = erreurs (FP/FN) ; Precision = « parmi mes + », Recall = « parmi les vrais + ».
| Méthode | Test | Points clés |
|---|---|---|
| Hold-Out | Une seule séparation train/test | Simple/rapide, dépend du tirage, test non utilisé pour entraîner |
| Validation croisée k-fold | Un fold différent à chaque itération | Score final = moyenne des k scores, utilise toutes les données, plus coûteux |
| Leave-One-Out (LOO) | Chaque exemple une fois en test | Max données, déterministe, très coûteux et variance élevée |
| Métrique | Forme de l’erreur | Interprétation |
|---|---|---|
| MSE | Erreur au carré puis moyenne | Pénalise fortement les grosses erreurs, unité en (unité de y)² |
| RMSE | Racine de la MSE | Même unité que y, plus interprétable |
| MAE | Erreur absolue puis moyenne | Moins sensible aux outliers, même unité que y |
| R² | 1 - (résidus²)/(variance totale) | % de variance expliquée, peut être négatif si très mauvais |
Teste seu conhecimento sobre Introduction aux données et validation en ML com 20 perguntas de múltipla escolha com correções detalhadas.
1. Que représente l’espace de données d’apprentissage dans un problème supervisé ?
2. Dans une représentation matricielle des données, que désigne généralement X ?
Memorize os conceitos chave de Introduction aux données et validation en ML com 19 flashcards interativos.
Espace de données d’apprentissage — composants ?
Features, labels, représentation numérique
Dataset — sous-ensembles principaux ?
Training, validation, test
Features numériques — types ?
Continue, discrète
Bases de données
Bases de données
Bases de données
Programmation
Importe seu curso e a IA gera fichas, quizzes e flashcards em 30 segundos.
Gerador de fichas