Quiz: Introduction aux données et validation en ML — 20 domande

Question 1

1. Que représente l’espace de données d’apprentissage dans un problème supervisé ?

Le résultat final obtenu après l’évaluation sur le jeu de test

Un tableau de paramètres déjà optimisés du modèle

L’ensemble des informations utilisées pour entraîner un modèle, avec les entrées et les sorties attendues

Uniquement les valeurs de sortie à prédire, sans variables d’entrée

Spiegazione

L’espace de données d’apprentissage regroupe toutes les informations nécessaires à l’entraînement, notamment les entrées et les sorties attendues. Les autres propositions confondent données, modèle et phase d’évaluation.

Answer

L’ensemble des informations utilisées pour entraîner un modèle, avec les entrées et les sorties attendues

Question 2

2. Dans une représentation matricielle des données, que désigne généralement X ?

Le vecteur des labels de sortie, de taille identique à celle des classes

La liste des erreurs commises par le modèle pendant l’entraînement

Le tableau des scores obtenus sur le jeu de validation

La matrice des features d’entrée, de taille nombre d’exemples par nombre de variables

Spiegazione

X correspond aux features d’entrée organisées en matrice, avec une ligne par exemple et une colonne par variable. Le vecteur des labels est noté y, pas X.

Answer

La matrice des features d’entrée, de taille nombre d’exemples par nombre de variables

Question 3

3. Dans un dataset supervisé, quelle structure décrit le mieux un exemple d’apprentissage ?

Une observation associée à des features X et à une sortie y

Un ensemble de règles d’optimisation pour ajuster les paramètres

Une suite de poids du modèle sans variable d’entrée

Une métrique de performance calculée après entraînement

Spiegazione

Un dataset supervisé contient des exemples décrits par des features et associés à une sortie cible y. Les autres choix décrivent le modèle ou son évaluation, pas un exemple de données.

Answer

Une observation associée à des features X et à une sortie y

Question 4

4. Quelle situation correspond à une feature catégorielle ordinale ?

Une variable réelle comme la température ou le prix

Une variable comme ville ou couleur sans ordre naturel

Une variable binaire codée directement en 0 et 1

Une variable comme Petit, Moyen, Grand où les catégories ont un ordre

Spiegazione

Une feature ordinale possède des catégories ordonnées, ce qui justifie un encodage respectant cet ordre. Ville ou couleur sont des exemples de variables nominales sans ordre.

Answer

Une variable comme Petit, Moyen, Grand où les catégories ont un ordre

Question 5

5. Pourquoi une variable cible discrète oriente-t-elle vers un problème de classification ?

Parce qu’elle prend un nombre fini de classes distinctes

Parce qu’elle ne peut pas être représentée numériquement

Parce qu’elle impose une régression linéaire

Parce qu’elle est toujours continue et mesurée sur un intervalle

Spiegazione

Une cible discrète correspond à un ensemble fini de classes, ce qui définit un problème de classification. Une cible continue, au contraire, conduit plutôt à une régression.

Answer

Parce qu’elle prend un nombre fini de classes distinctes

Question 6

6. Quel traitement est adapté à des données manquantes lorsque leur nombre est faible ?

Les remplacer par des valeurs aléatoires pour chaque ligne

Les convertir automatiquement en variables catégorielles

Les laisser telles quelles sans préparation

Les supprimer ou les imputer avec une valeur estimée

Spiegazione

Les données manquantes peuvent être supprimées si elles sont rares ou imputées à l’aide d’une estimation comme la moyenne ou la médiane. Les laisser en l’état perturbe l’apprentissage.

Answer

Les supprimer ou les imputer avec une valeur estimée

Question 7

7. Quel est l’objectif principal de la normalisation des variables ?

Supprimer toutes les valeurs extrêmes

Mettre les variables sur une échelle comparable pour éviter qu’une domine

Réduire obligatoirement le nombre de classes

Transformer une cible discrète en cible continue

Spiegazione

La normalisation sert à rendre les variables comparables afin qu’une feature à grandes valeurs ne domine pas les autres. Elle ne change pas la nature de la cible ni ne supprime automatiquement les outliers.

Answer

Mettre les variables sur une échelle comparable pour éviter qu’une domine

Question 8

8. Quelle transformation correspond au Z-Score Standardization ?

Une transformation qui centre les données autour de 0 avec une dispersion de référence

Une transformation qui ramène les valeurs strictement dans l’intervalle [0,1]

Une transformation qui supprime les doublons du jeu de données

Une transformation qui remplace les catégories par des entiers ordonnés

Spiegazione

Le Z-score standardise les données en utilisant la moyenne et l’écart-type pour obtenir des valeurs centrées et comparables. L’intervalle [0,1] correspond plutôt au Min-Max Scaling.

Answer

Une transformation qui centre les données autour de 0 avec une dispersion de référence

Question 9

9. Qu’est-ce que le binning sémantique ?

Une discrétisation fondée sur des intervalles ayant un sens métier

Une méthode qui conserve les valeurs brutes sans découpage

Un encodage des catégories sous forme de texte UTF-8

Une normalisation qui centre les variables autour de 0

Spiegazione

Le binning sémantique regroupe les valeurs en intervalles choisis selon une logique métier ou de catégories. Ce n’est pas une normalisation ni un encodage de texte.

Answer

Une discrétisation fondée sur des intervalles ayant un sens métier

Question 10

10. Pourquoi faut-il éviter d’évaluer un modèle sur les données d’entraînement ?

Parce qu’on mesurerait surtout la mémorisation plutôt que la généralisation

Parce que cela améliore artificiellement la variance du test

Parce que le modèle ne peut pas faire de prédictions sur ces données

Parce que le jeu d’entraînement ne contient jamais de labels

Spiegazione

Évaluer sur les données d’entraînement donne une mesure trop optimiste, car le modèle a déjà vu ces exemples. On veut au contraire mesurer sa capacité à généraliser sur des données nouvelles.

Answer

Parce qu’on mesurerait surtout la mémorisation plutôt que la généralisation

Question 11

11. Quel est le but du feature engineering ?

Transformer ou créer des variables pour les rendre plus exploitables par le modèle

Supprimer toute variable catégorielle du problème

Remplacer le jeu de test par le jeu d’entraînement

Calculer uniquement la précision d’un classifieur

Spiegazione

Le feature engineering consiste à améliorer les variables par des transformations, créations ou sélections pour faciliter l’apprentissage. Il ne s’agit pas d’une métrique ni d’une simple suppression des catégories.

Answer

Transformer ou créer des variables pour les rendre plus exploitables par le modèle

Question 12

12. Quand l’early stopping doit-il arrêter l’entraînement ?

Quand le nombre de features est plus grand que le nombre d’exemples

Quand l’erreur sur validation cesse de diminuer et commence à augmenter

Quand le jeu de test a déjà été utilisé une fois

Quand l’erreur d’entraînement atteint exactement zéro

Spiegazione

L’early stopping interrompt l’apprentissage dès que la performance sur validation se dégrade, ce qui signale un début de sur-apprentissage. Ce n’est pas lié au jeu de test ni à une erreur d’entraînement nulle.

Answer

Quand l’erreur sur validation cesse de diminuer et commence à augmenter

Question 13

13. Quelle phase consiste à ajuster progressivement les paramètres du modèle à partir de l’erreur mesurée ?

Le calcul du score final sur test

La séparation stratifiée

La discrétisation des variables

L’entraînement itératif

Spiegazione

L’entraînement itératif met à jour les paramètres en fonction de l’erreur observée jusqu’à convergence. Les autres propositions concernent la validation ou la préparation des données.

Answer

L’entraînement itératif

Question 14

14. À quoi sert principalement la comparaison entre erreur train et erreur test ?

À calculer directement la matrice de confusion

À diagnostiquer un sur-apprentissage ou une bonne généralisation

À remplacer la phase de validation

À déterminer le type d’encodage des variables catégorielles

Spiegazione

Comparer les erreurs train et test permet d’évaluer si le modèle généralise bien ou s’il sur-apprend. Un écart important entre les deux signale souvent un sur-apprentissage.

Answer

À diagnostiquer un sur-apprentissage ou une bonne généralisation

Question 15

15. Quelle affirmation décrit correctement le Hold-Out ?

Une méthode où chaque exemple sert exactement une fois de test

Une moyenne de scores obtenus sur autant d’itérations que d’exemples

Une séparation unique du dataset en entraînement et test

Une stratégie qui conserve les proportions de classes dans chaque fold

Spiegazione

Le Hold-Out repose sur une seule division des données en jeu d’entraînement et jeu de test. La validation stratifiée et le leave-one-out décrivent d’autres stratégies.

Answer

Une séparation unique du dataset en entraînement et test

Question 16

16. Pourquoi la validation stratifiée est-elle utile ?

Pour conserver les proportions de classes dans chaque fold ou split

Pour éviter tout besoin de jeu de test

Pour transformer un problème de classification en régression

Pour augmenter artificiellement le nombre d’exemples d’entraînement

Spiegazione

La validation stratifiée répartit les classes de façon équilibrée dans les sous-ensembles, ce qui limite les splits déséquilibrés. Elle est particulièrement utile quand les classes sont inégales.

Answer

Pour conserver les proportions de classes dans chaque fold ou split

Question 17

17. Quelle métrique pénalise davantage les grosses erreurs en raison de l’élévation au carré ?

La MAE

L’accuracy

Le rappel

La MSE

Spiegazione

La MSE élève les erreurs au carré avant de les moyenner, ce qui amplifie l’effet des grandes erreurs. La MAE reste moins sensible aux valeurs extrêmes car elle utilise la valeur absolue.

Answer

Le modèle fait aussi bien qu’une prédiction par la moyenne

Answer

Une prédiction positive alors que la réalité est négative

Answer

La proportion de prédictions positives qui sont réellement positives

Question 18

18. Que signifie une valeur de R² égale à 0 ?

Le modèle ne peut pas être évalué

Le modèle prédit parfaitement toutes les valeurs

Le modèle fait aussi bien qu’une prédiction par la moyenne

Le modèle explique 100 % de la variance

Spiegazione

Un R² nul signifie que le modèle ne fait pas mieux qu’un baseline basé sur la moyenne. Une valeur de 1 correspond à des prédictions parfaites.

Question 19

19. Dans une matrice de confusion, que représente un faux positif ?

Une prédiction négative alors que la réalité est positive

Une prédiction positive alors que la réalité est négative

Une prédiction positive correcte

Une prédiction négative correcte

Spiegazione

Un faux positif correspond à une alerte inutile : le modèle prédit positif alors que la classe réelle est négative. À l’inverse, un faux négatif manque un cas positif.

Question 20

20. Que mesure la précision dans un problème de classification ?

La proportion de vrais positifs détectés parmi tous les positifs réels

La proportion de prédictions positives qui sont réellement positives

Le nombre total de prédictions négatives dans le jeu de test

La proportion totale de bonnes prédictions sur l’ensemble des classes

Spiegazione

La précision répond à la question : parmi les prédictions positives, combien sont correctes ? Le rappel mesure plutôt la proportion de vrais positifs retrouvés parmi tous les positifs réels.

Quiz: Introduction aux données et validation en ML — 20 domande

Domande e risposte dettagliate

1. Que représente l’espace de données d’apprentissage dans un problème supervisé ?

2. Dans une représentation matricielle des données, que désigne généralement X ?

3. Dans un dataset supervisé, quelle structure décrit le mieux un exemple d’apprentissage ?

4. Quelle situation correspond à une feature catégorielle ordinale ?

5. Pourquoi une variable cible discrète oriente-t-elle vers un problème de classification ?

6. Quel traitement est adapté à des données manquantes lorsque leur nombre est faible ?

7. Quel est l’objectif principal de la normalisation des variables ?

8. Quelle transformation correspond au Z-Score Standardization ?

9. Qu’est-ce que le binning sémantique ?

10. Pourquoi faut-il éviter d’évaluer un modèle sur les données d’entraînement ?

11. Quel est le but du feature engineering ?

12. Quand l’early stopping doit-il arrêter l’entraînement ?

13. Quelle phase consiste à ajuster progressivement les paramètres du modèle à partir de l’erreur mesurée ?

14. À quoi sert principalement la comparaison entre erreur train et erreur test ?

15. Quelle affirmation décrit correctement le Hold-Out ?

16. Pourquoi la validation stratifiée est-elle utile ?

17. Quelle métrique pénalise davantage les grosses erreurs en raison de l’élévation au carré ?

18. Que signifie une valeur de R² égale à 0 ?

19. Dans une matrice de confusion, que représente un faux positif ?

20. Que mesure la précision dans un problème de classification ?

Ripassa con le flashcard

Studia la scheda di revisione

Similar courses

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Rôle d'un système d'exploitation

Questions techniques projet Compawgnon

Crea i tuoi quiz