Quiz: Introduction aux données et validation en ML — 20 domande

Domande e risposte dettagliate

1. Que représente l’espace de données d’apprentissage dans un problème supervisé ?

Le résultat final obtenu après l’évaluation sur le jeu de test
Un tableau de paramètres déjà optimisés du modèle
L’ensemble des informations utilisées pour entraîner un modèle, avec les entrées et les sorties attendues
Uniquement les valeurs de sortie à prédire, sans variables d’entrée

L’ensemble des informations utilisées pour entraîner un modèle, avec les entrées et les sorties attendues

Spiegazione

L’espace de données d’apprentissage regroupe toutes les informations nécessaires à l’entraînement, notamment les entrées et les sorties attendues. Les autres propositions confondent données, modèle et phase d’évaluation.

2. Dans une représentation matricielle des données, que désigne généralement X ?

Le vecteur des labels de sortie, de taille identique à celle des classes
La liste des erreurs commises par le modèle pendant l’entraînement
Le tableau des scores obtenus sur le jeu de validation
La matrice des features d’entrée, de taille nombre d’exemples par nombre de variables

La matrice des features d’entrée, de taille nombre d’exemples par nombre de variables

Spiegazione

X correspond aux features d’entrée organisées en matrice, avec une ligne par exemple et une colonne par variable. Le vecteur des labels est noté y, pas X.

3. Dans un dataset supervisé, quelle structure décrit le mieux un exemple d’apprentissage ?

Une observation associée à des features X et à une sortie y
Un ensemble de règles d’optimisation pour ajuster les paramètres
Une suite de poids du modèle sans variable d’entrée
Une métrique de performance calculée après entraînement

Une observation associée à des features X et à une sortie y

Spiegazione

Un dataset supervisé contient des exemples décrits par des features et associés à une sortie cible y. Les autres choix décrivent le modèle ou son évaluation, pas un exemple de données.

4. Quelle situation correspond à une feature catégorielle ordinale ?

Une variable réelle comme la température ou le prix
Une variable comme ville ou couleur sans ordre naturel
Une variable binaire codée directement en 0 et 1
Une variable comme Petit, Moyen, Grand où les catégories ont un ordre

Une variable comme Petit, Moyen, Grand où les catégories ont un ordre

Spiegazione

Une feature ordinale possède des catégories ordonnées, ce qui justifie un encodage respectant cet ordre. Ville ou couleur sont des exemples de variables nominales sans ordre.

5. Pourquoi une variable cible discrète oriente-t-elle vers un problème de classification ?

Parce qu’elle prend un nombre fini de classes distinctes
Parce qu’elle ne peut pas être représentée numériquement
Parce qu’elle impose une régression linéaire
Parce qu’elle est toujours continue et mesurée sur un intervalle

Parce qu’elle prend un nombre fini de classes distinctes

Spiegazione

Une cible discrète correspond à un ensemble fini de classes, ce qui définit un problème de classification. Une cible continue, au contraire, conduit plutôt à une régression.

6. Quel traitement est adapté à des données manquantes lorsque leur nombre est faible ?

Les remplacer par des valeurs aléatoires pour chaque ligne
Les convertir automatiquement en variables catégorielles
Les laisser telles quelles sans préparation
Les supprimer ou les imputer avec une valeur estimée

Les supprimer ou les imputer avec une valeur estimée

Spiegazione

Les données manquantes peuvent être supprimées si elles sont rares ou imputées à l’aide d’une estimation comme la moyenne ou la médiane. Les laisser en l’état perturbe l’apprentissage.

7. Quel est l’objectif principal de la normalisation des variables ?

Supprimer toutes les valeurs extrêmes
Mettre les variables sur une échelle comparable pour éviter qu’une domine
Réduire obligatoirement le nombre de classes
Transformer une cible discrète en cible continue

Mettre les variables sur une échelle comparable pour éviter qu’une domine

Spiegazione

La normalisation sert à rendre les variables comparables afin qu’une feature à grandes valeurs ne domine pas les autres. Elle ne change pas la nature de la cible ni ne supprime automatiquement les outliers.

8. Quelle transformation correspond au Z-Score Standardization ?

Une transformation qui centre les données autour de 0 avec une dispersion de référence
Une transformation qui ramène les valeurs strictement dans l’intervalle [0,1]
Une transformation qui supprime les doublons du jeu de données
Une transformation qui remplace les catégories par des entiers ordonnés

Une transformation qui centre les données autour de 0 avec une dispersion de référence

Spiegazione

Le Z-score standardise les données en utilisant la moyenne et l’écart-type pour obtenir des valeurs centrées et comparables. L’intervalle [0,1] correspond plutôt au Min-Max Scaling.

9. Qu’est-ce que le binning sémantique ?

Une discrétisation fondée sur des intervalles ayant un sens métier
Une méthode qui conserve les valeurs brutes sans découpage
Un encodage des catégories sous forme de texte UTF-8
Une normalisation qui centre les variables autour de 0

Une discrétisation fondée sur des intervalles ayant un sens métier

Spiegazione

Le binning sémantique regroupe les valeurs en intervalles choisis selon une logique métier ou de catégories. Ce n’est pas une normalisation ni un encodage de texte.

10. Pourquoi faut-il éviter d’évaluer un modèle sur les données d’entraînement ?

Parce qu’on mesurerait surtout la mémorisation plutôt que la généralisation
Parce que cela améliore artificiellement la variance du test
Parce que le modèle ne peut pas faire de prédictions sur ces données
Parce que le jeu d’entraînement ne contient jamais de labels

Parce qu’on mesurerait surtout la mémorisation plutôt que la généralisation

Spiegazione

Évaluer sur les données d’entraînement donne une mesure trop optimiste, car le modèle a déjà vu ces exemples. On veut au contraire mesurer sa capacité à généraliser sur des données nouvelles.

11. Quel est le but du feature engineering ?

Transformer ou créer des variables pour les rendre plus exploitables par le modèle
Supprimer toute variable catégorielle du problème
Remplacer le jeu de test par le jeu d’entraînement
Calculer uniquement la précision d’un classifieur

Transformer ou créer des variables pour les rendre plus exploitables par le modèle

Spiegazione

Le feature engineering consiste à améliorer les variables par des transformations, créations ou sélections pour faciliter l’apprentissage. Il ne s’agit pas d’une métrique ni d’une simple suppression des catégories.

12. Quand l’early stopping doit-il arrêter l’entraînement ?

Quand le nombre de features est plus grand que le nombre d’exemples
Quand l’erreur sur validation cesse de diminuer et commence à augmenter
Quand le jeu de test a déjà été utilisé une fois
Quand l’erreur d’entraînement atteint exactement zéro

Quand l’erreur sur validation cesse de diminuer et commence à augmenter

Spiegazione

L’early stopping interrompt l’apprentissage dès que la performance sur validation se dégrade, ce qui signale un début de sur-apprentissage. Ce n’est pas lié au jeu de test ni à une erreur d’entraînement nulle.

13. Quelle phase consiste à ajuster progressivement les paramètres du modèle à partir de l’erreur mesurée ?

Le calcul du score final sur test
La séparation stratifiée
La discrétisation des variables
L’entraînement itératif

L’entraînement itératif

Spiegazione

L’entraînement itératif met à jour les paramètres en fonction de l’erreur observée jusqu’à convergence. Les autres propositions concernent la validation ou la préparation des données.

14. À quoi sert principalement la comparaison entre erreur train et erreur test ?

À calculer directement la matrice de confusion
À diagnostiquer un sur-apprentissage ou une bonne généralisation
À remplacer la phase de validation
À déterminer le type d’encodage des variables catégorielles

À diagnostiquer un sur-apprentissage ou une bonne généralisation

Spiegazione

Comparer les erreurs train et test permet d’évaluer si le modèle généralise bien ou s’il sur-apprend. Un écart important entre les deux signale souvent un sur-apprentissage.

15. Quelle affirmation décrit correctement le Hold-Out ?

Une méthode où chaque exemple sert exactement une fois de test
Une moyenne de scores obtenus sur autant d’itérations que d’exemples
Une séparation unique du dataset en entraînement et test
Une stratégie qui conserve les proportions de classes dans chaque fold

Une séparation unique du dataset en entraînement et test

Spiegazione

Le Hold-Out repose sur une seule division des données en jeu d’entraînement et jeu de test. La validation stratifiée et le leave-one-out décrivent d’autres stratégies.

16. Pourquoi la validation stratifiée est-elle utile ?

Pour conserver les proportions de classes dans chaque fold ou split
Pour éviter tout besoin de jeu de test
Pour transformer un problème de classification en régression
Pour augmenter artificiellement le nombre d’exemples d’entraînement

Pour conserver les proportions de classes dans chaque fold ou split

Spiegazione

La validation stratifiée répartit les classes de façon équilibrée dans les sous-ensembles, ce qui limite les splits déséquilibrés. Elle est particulièrement utile quand les classes sont inégales.

17. Quelle métrique pénalise davantage les grosses erreurs en raison de l’élévation au carré ?

La MAE
L’accuracy
Le rappel
La MSE

La MSE

Spiegazione

La MSE élève les erreurs au carré avant de les moyenner, ce qui amplifie l’effet des grandes erreurs. La MAE reste moins sensible aux valeurs extrêmes car elle utilise la valeur absolue.

18. Que signifie une valeur de R² égale à 0 ?

Le modèle ne peut pas être évalué
Le modèle prédit parfaitement toutes les valeurs
Le modèle fait aussi bien qu’une prédiction par la moyenne
Le modèle explique 100 % de la variance

Le modèle fait aussi bien qu’une prédiction par la moyenne

Spiegazione

Un R² nul signifie que le modèle ne fait pas mieux qu’un baseline basé sur la moyenne. Une valeur de 1 correspond à des prédictions parfaites.

19. Dans une matrice de confusion, que représente un faux positif ?

Une prédiction négative alors que la réalité est positive
Une prédiction positive alors que la réalité est négative
Une prédiction positive correcte
Une prédiction négative correcte

Une prédiction positive alors que la réalité est négative

Spiegazione

Un faux positif correspond à une alerte inutile : le modèle prédit positif alors que la classe réelle est négative. À l’inverse, un faux négatif manque un cas positif.

20. Que mesure la précision dans un problème de classification ?

La proportion de vrais positifs détectés parmi tous les positifs réels
La proportion de prédictions positives qui sont réellement positives
Le nombre total de prédictions négatives dans le jeu de test
La proportion totale de bonnes prédictions sur l’ensemble des classes

La proportion de prédictions positives qui sont réellement positives

Spiegazione

La précision répond à la question : parmi les prédictions positives, combien sont correctes ? Le rappel mesure plutôt la proportion de vrais positifs retrouvés parmi tous les positifs réels.

Ripassa con le flashcard

Memorizza le risposte con 19 flashcard su Introduction aux données et validation en ML.

Espace de données d’apprentissage — composants ?

Features, labels, représentation numérique

Dataset — sous-ensembles principaux ?

Training, validation, test

Features numériques — types ?

Continue, discrète

Vedi le flashcard →

Studia la scheda di revisione

Leggi la scheda di revisione completa su Introduction aux données et validation en ML.

Vedi la scheda di revisione →

Similar courses

Crea i tuoi quiz

Importa il tuo corso e l'AI genera quiz con correzioni in 30 secondi.

Generatore di quiz