Quiz: Principes et Méthodes de Régression — 12 questions

Question 1

1. Quelle est la définition correcte de la fonction de perte MSE en régression ?

La somme des écarts entre les valeurs prédites et réelles.

La différence entre la moyenne des valeurs prédites et la moyenne des valeurs réelles.

La moyenne des écarts absolus entre les valeurs prédites et réelles.

La moyenne des carrés des écarts entre les valeurs prédites et réelles.

Explanation

La fonction de perte MSE (Mean Squared Error) est définie comme la moyenne des carrés des écarts entre les valeurs prédites et les valeurs réelles, ce qui correspond à l'option 2. Elle mesure la précision d'un modèle en régression en pénalisant fortement les erreurs importantes.

Answer

La moyenne des carrés des écarts entre les valeurs prédites et réelles.

Question 2

2. Quelle est la formule exacte de la fonction de perte MAE ?

$ ext{MAE} = rac{1}{n} ext{∑} ( y_i - ext{hat} y_i )$

$ ext{MAE} = rac{1}{n} ext{∑} ( y_i - ext{hat} y_i )^2$

$ ext{MAE} = ext{max}_i | y_i - ext{hat} y_i |$

$ ext{MAE} = rac{1}{n} ext{∑} | y_i - ext{hat} y_i |$

Explanation

La formule correcte de la MAE est la moyenne des valeurs absolues des erreurs, soit $rac{1}{n} ext{∑} | y_i - ext{hat} y_i |$, ce qui correspond à l'option 2. Les autres options représentent d'autres métriques ou formules incorrectes pour la MAE.

Answer

$ ext{MAE} = rac{1}{n} ext{∑} | y_i - ext{hat} y_i |$

Question 3

3. Quelle est la fonction principale de la perte de Huber dans un modèle de régression ?

Elle sert à augmenter la vitesse de convergence de l'algorithme d'optimisation.

Elle sert à sélectionner automatiquement les variables pertinentes dans le modèle.

Elle sert à mesurer l'erreur de prédiction tout en étant robuste aux valeurs aberrantes.

Elle sert à régulariser le modèle en limitant la complexité des coefficients.

Explanation

La perte de Huber est conçue pour mesurer l'erreur de prédiction en combinant les avantages du MSE et du MAE, offrant ainsi une robustesse face aux outliers tout en étant différentiable, ce qui facilite l'optimisation lors de la formation du modèle.

Answer

Elle sert à mesurer l'erreur de prédiction tout en étant robuste aux valeurs aberrantes.

Question 4

4. En quelle année la fonction de perte quantile a-t-elle été formellement introduite par Koenker et Bassett dans la littérature scientifique ?

1965

1985

1978

1990

Explanation

La fonction de perte quantile a été introduite en 1978 par Koenker et Bassett dans leur article qui a permis de développer la régression quantile, une avancée majeure dans l'estimation de quantiles spécifiques.

Answer

Le biais est une erreur systématique, tandis que la variance est une mesure de la sensibilité du modèle aux fluctuations des données.

Answer

Vladimir Vapnik

Answer

Le fait que la fonction de perte Huber combine la perte quadratique et la perte absolue

Answer

En utilisant une validation croisée pour choisir le paramètre de régularisation λ.

Answer

Elle tend à rendre certains coefficients nuls, favorisant la sélection de variables.

Answer

Un modèle basé sur une structure arborescente qui divise les données selon des critères pour faire des prédictions

Answer

Il contrôle le nombre d'arbres dans la forêt.

Answer

Construire un modèle en combinant plusieurs faibles apprenants de manière séquentielle, chaque nouveau corrigeant les erreurs du précédent en utilisant la technique du gradient.

Question 5

5. En quoi les concepts de biais et de variance diffèrent-ils ou se ressemblent-ils dans le contexte de l'apprentissage machine?

Le biais est lié aux erreurs aléatoires dans les données, alors que la variance est une erreur systématique due à la simplification du modèle.

Le biais est une erreur systématique, tandis que la variance est une mesure de la sensibilité du modèle aux fluctuations des données.

Le biais concerne la complexité du modèle, alors que la variance concerne la quantité de données nécessaires pour entraîner le modèle efficacement.

Le biais et la variance sont deux noms pour la même erreur, représentant la tendance du modèle à sous- ou sur-ajuster.

Explanation

Le biais est une erreur systématique liée à la simplification du modèle, empêchant d'apprendre la relation réelle, tandis que la variance reflète la sensibilité du modèle aux fluctuations des données d'entraînement, pouvant conduire à un surapprentissage. Ces deux concepts représentent deux sources d'erreur différentes dans le compromis biais-variance.

Question 6

6. Qui a formulé ou proposé la notion de complexité du modèle en apprentissage automatique ?

Vladimir Vapnik

Leo Breiman

Jerome Friedman

Leo Breiman

Explanation

Vladimir Vapnik est crédité pour avoir introduit et développé la théorie de la capacité des modèles, notamment à travers la notion de complexité du modèle dans le cadre de la théorie VC. Les autres options, comme Leo Breiman, sont associés à d'autres concepts (forêts aléatoires), mais pas à la formulation de la complexité du modèle.

Question 7

7. Quelle est la cause principale de l'effet de robustesse aux outliers dans la régression linéaire lorsqu'on utilise la fonction de perte Huber?

L'augmentation du nombre d'arbres dans le modèle

Le fait que la fonction de perte Huber combine la perte quadratique et la perte absolue

La réduction du taux d'apprentissage lors de l'entraînement

L'utilisation de la pénalité L1 dans la régularisation du modèle

Explanation

La fonction de perte Huber est conçue pour être robuste aux outliers en combinant la perte quadratique (sensibilité élevée aux erreurs importantes) pour les petites erreurs et la perte absolue (robustesse) pour les erreurs importantes, ce qui limite leur influence sur le modèle.

Question 8

8. Comment appliquer la régression Ridge (L2) dans un processus de modélisation pour améliorer la stabilité du modèle ?

En supprimant toutes les variables non significatives avant l’entraînement.

En utilisant une validation croisée pour choisir le paramètre de régularisation λ.

En augmentant le nombre de variables indépendantes dans le modèle.

En utilisant uniquement la formule analytique sans validation préalable.

Explanation

La régression Ridge s'applique en ajustant le paramètre de régularisation λ, généralement via validation croisée, pour contrôler la complexité du modèle et améliorer sa stabilité et sa capacité de généralisation.

Question 9

9. Quelle est la propriété principale de la régularisation Lasso (L1) en régression ?

Elle pénalise la somme des carrés des coefficients, ce qui réduit leur magnitude.

Elle tend à rendre certains coefficients nuls, favorisant la sélection de variables.

Elle minimise la somme des erreurs absolues, ce qui est robuste aux outliers.

Elle utilise une pénalité qui favorise la sparsité des coefficients, mais sans les rendre nuls.

Explanation

La propriété principale du Lasso (L1) est qu'il tend à rendre certains coefficients exactement nuls, ce qui facilite la sélection automatique de variables et simplifie le modèle.

Question 10

10. Qu'est-ce qu'un arbre de décision dans le contexte de l'apprentissage automatique ?

Un réseau de neurones profond utilisé pour la reconnaissance d'images

Un modèle basé sur une structure arborescente qui divise les données selon des critères pour faire des prédictions

Une technique de clustering non supervisée pour regrouper des données similaires

Un algorithme de régression linéaire pour prédire des valeurs continues

Explanation

L'arbre de décision est un modèle prédictif utilisant une structure arborescente pour prendre des décisions en divisant successivement les données selon des critères, ce qui correspond à la première option.

Question 11

11. Quel est le rôle du paramètre 'n_estimators' dans une forêt aléatoire ?

Il contrôle le nombre d'arbres dans la forêt.

Il ajuste la vitesse d'apprentissage lors de l'entraînement.

Il détermine la profondeur maximale de chaque arbre.

Il définit le nombre de caractéristiques utilisées pour chaque split.

Explanation

Le paramètre 'n_estimators' dans une forêt aléatoire correspond au nombre d'arbres qui seront construits et combinés pour faire la prédiction finale.

Question 12

12. Quel est le rôle principal du Gradient Boosting dans l'apprentissage supervisé ?

Construire un modèle en combinant plusieurs faibles apprenants de manière séquentielle, chaque nouveau corrigeant les erreurs du précédent en utilisant la technique du gradient.

Utiliser une méthode de bagging pour réduire la variance en entraînant plusieurs modèles indépendants et en combinant leurs prédictions.

Créer un seul arbre de décision profond pour capturer toutes les relations dans les données.

Optimiser une fonction de perte en ajustant directement tous les paramètres du modèle en une seule étape.

Explanation

Le Gradient Boosting construit un modèle en combinant plusieurs faibles apprenants de manière séquentielle, chaque étape corrigeant les erreurs du précédent en utilisant la dérivée de la fonction de perte, ce qui permet d'optimiser la performance globale.

Quiz: Principes et Méthodes de Régression — 12 questions

Detailed questions and answers

1. Quelle est la définition correcte de la fonction de perte MSE en régression ?

2. Quelle est la formule exacte de la fonction de perte MAE ?

3. Quelle est la fonction principale de la perte de Huber dans un modèle de régression ?

4. En quelle année la fonction de perte quantile a-t-elle été formellement introduite par Koenker et Bassett dans la littérature scientifique ?

5. En quoi les concepts de biais et de variance diffèrent-ils ou se ressemblent-ils dans le contexte de l'apprentissage machine?

6. Qui a formulé ou proposé la notion de complexité du modèle en apprentissage automatique ?

7. Quelle est la cause principale de l'effet de robustesse aux outliers dans la régression linéaire lorsqu'on utilise la fonction de perte Huber?

8. Comment appliquer la régression Ridge (L2) dans un processus de modélisation pour améliorer la stabilité du modèle ?

9. Quelle est la propriété principale de la régularisation Lasso (L1) en régression ?

10. Qu'est-ce qu'un arbre de décision dans le contexte de l'apprentissage automatique ?

11. Quel est le rôle du paramètre 'n_estimators' dans une forêt aléatoire ?

12. Quel est le rôle principal du Gradient Boosting dans l'apprentissage supervisé ?

Review with flashcards

Study the revision sheet

Similar courses

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Automated PCB Fault Diagnosis

Create your own quizzes