Lernzettel: Introduction à la régression linéaire

📋 Plan du Cours

  1. Régression linéaire et applications
  2. Définition et modèle supervisé
  3. Représentation graphique et types
  4. Équation de régression linéaire
  5. Fonction coût et moindres carrés
  6. Apprentissage par descente de gradient
  7. Exercice et mise en œuvre pratique

📖 1. Régression linéaire et applications

🔑 Notions clés & Définitions

  • Régression linéaire : Technique d’analyse qui prédit une valeur inconnue en reliant une variable dépendante à une variable ou plusieurs variables apparentées via une relation linéaire.
  • Variable cible Y : Variable dépendante, quantitative, que le modèle cherche à prédire à partir d’autres variables.
  • Variables explicatives X : Variables indépendantes utilisées pour expliquer ou prédire la valeur de la variable cible.

📝 Points essentiels

  • La régression linéaire sert à transformer des données brutes en informations exploitables via une formule interprétable pour la décision.
  • Elle est utilisée dans des secteurs comme finance (ventes, coûts), marketing (tendances), santé (analyse et prévision).
  • Une seule variable explicative correspond à une régression simple, tandis que plusieurs variables explicatives mènent à une régression multiple.

💡 Astuce mémo

Y dépend de X : le modèle cherche une droite (ou hyperplan) qui relie expliquer→prédire.

📖 2. Définition et modèle supervisé

🔑 Notions clés & Définitions

  • Apprentissage supervisé : Type d’apprentissage où le modèle apprend à partir d’exemples possédant une valeur cible Y à expliquer par des variables X.
  • Variable dépendante : La variable que l’on veut expliquer ou prédire, notée Y dans le modèle de régression.
  • Variable indépendante : La variable disponible utilisée comme entrée explicative, notée X, qui peut être quantitative ou qualitative.

📝 Points essentiels

  • En régression linéaire, Y est quantitative et X peut être quantitative ou qualitative selon le problème.
  • Le modèle vise à produire une prédiction de Y à partir des valeurs connues de X.
  • Le but est de relier mathématiquement X et Y par une équation linéaire de prédiction ou par une fonction coût à minimiser.

💡 Astuce mémo

Supervisé = on apprend avec la cible (Y) connue pour chaque exemple.

📖 3. Représentation graphique et types

🔑 Notions clés & Définitions

  • Nuage de points : Représentation des données d’entraînement où chaque observation correspond à un couple reliant X à Y.
  • Droite de régression : Ligne qui représente la relation linéaire recherchée entre X et Y et qui passe au milieu des points selon l’ajustement.
  • Régression simple : Cas où il n’existe qu’une seule variable explicative X pour prédire Y.
  • Régression multiple : Cas où plusieurs variables explicatives X sont utilisées pour prédire la variable cible Y.

📝 Points essentiels

  • Sur un graphique, X est porté sur l’axe horizontal et Y sur l’axe vertical.
  • Le modèle juge la convenance du caractère linéaire du phénomène en regardant si une droite résume bien le nuage.
  • La droite choisie correspond à la meilleure approximation des points disponibles plutôt qu’un passage exact par tous les points.

💡 Astuce mémo

Graphique : X horizontal, Y vertical, et la droite “au milieu” résume la tendance.

📖 4. Équation de régression linéaire

🔑 Notions clés & Définitions

  • Intercept B : Constante du modèle qui représente la valeur prédite lorsque X vaut 0.
  • Pente a : Coefficient qui indique de combien la prédiction de Y change quand X augmente de 1.
  • Erreur aléatoire ε : Composante non expliquée par le modèle qui représente l’écart résiduel.

📝 Points essentiels

  • Le modèle de régression linéaire s’écrit sous la forme Y=aX+b+εY = aX + b + \varepsilon, avec bb pour la constante et aa pour la pente.
  • Dans l’écriture du cours, l’écart est expliqué par une erreur aléatoire ε \varepsilon en plus de la relation linéaire.
  • Pour l’exercice, le modèle supposé est Y=2X+8Y = 2X + 8.

💡 Astuce mémo

Pente + intercept : augmente avec a, démarre à b.

📖 5. Fonction coût et moindres carrés

🔑 Notions clés & Définitions

  • Erreur de prédiction : Différence entre la valeur réelle observée et la valeur prédite par le modèle pour une observation donnée.
  • MSE : Moyenne de l’erreur quadratique, obtenue en élevant chaque erreur au carré puis en faisant la moyenne.
  • Moindres carrés : Méthode qui cherche la droite ou fonction linéaire qui minimise la somme des carrés des écarts entre prédictions et valeurs réelles.

📝 Points essentiels

  • La fonction coût mesure l’erreur globale du modèle sur l’ensemble des données et sert à évaluer sa performance.
  • Comme les erreurs peuvent être positives ou négatives, on élève au carré pour éviter qu’elles s’annulent.
  • Dans le cours, la formule du coût correspond à une moyenne basée sur (f(xi)yi)2(f(x_i)-y_i)^2 avec un facteur 12m\frac{1}{2m} pour faciliter l’optimisation.
  • Les moindres carrés visent à minimiser la somme des carrés des écarts et donc à ajuster au mieux la pente et l’ordonnée à l’origine.

💡 Astuce mémo

On “neutralise” les signes en mettant au carré : grosses erreurs pèsent davantage.

📖 6. Apprentissage par descente de gradient

🔑 Notions clés & Définitions

  • Descente de gradient : Méthode d’optimisation qui ajuste progressivement les paramètres pour atteindre un minimum de la fonction coût.
  • Paramètres du modèle : Valeurs numériques contrôlant la prédiction, comme la pente et l’intercept dans la régression linéaire simple.

📝 Points essentiels

  • Le processus d’apprentissage commence par une initialisation des paramètres, puis alterne prédiction, calcul de la fonction coût et ajustement.
  • Le but de l’apprentissage est de réduire progressivement l’erreur en cherchant le minimum de la fonction coût.
  • La descente de gradient est citée comme méthode permettant d’atteindre ce minimum.

💡 Astuce mémo

Boucle : prédire → mesurer l’erreur (coût) → modifier paramètres → recommencer.

📖 7. Exercice et mise en œuvre pratique

🔑 Notions clés & Définitions

  • Ensemble d’entraînement (training set) : Données utilisées pour construire et ajuster le modèle de régression linéaire.
  • Ensemble de test : Données réservées pour évaluer la performance du modèle après la construction.
  • Normalisation des données : Étape qui prépare les données avant l’apprentissage afin de stabiliser et faciliter la construction du modèle.
  • Séparation des variables : Étape qui consiste à isoler les entrées X des valeurs cibles Y avant l’entraînement.

📝 Points essentiels

  • Pour 5 heures avec Y=2X+8Y = 2X + 8, la note prédite vaut 2×5+8=182\times 5 + 8 = 18.
  • Pour 0 heure avec Y=2X+8Y = 2X + 8, la note prédite vaut 2×0+8=82\times 0 + 8 = 8.
  • Le coefficient 2 signifie que chaque heure supplémentaire augmente la note de 2 points.
  • Le nombre 8 représente la note estimée quand X=0X=0.
  • Une implémentation proposée inclut : importer, visualiser, séparer X et Y, diviser train/test, normaliser, construire le modèle, implémenter, évaluer, puis visualiser les résultats.

💡 Astuce mémo

Dans Y=2X+8Y=2X+8, 2 = effet de 1 sur X, 8 = valeur quand X vaut 0.

📊 Tableaux de synthèse

Régression simple vs multiple

CasNombre de XObjectif de prédiction
Régression simpleUne variable explicativePrévoir Y à partir d’un seul X selon une droite
Régression multiplePlusieurs variables explicativesPrévoir Y en exploitant plusieurs X simultanément

⚠️ Pièges & confusions fréquents

  1. Confondre Y et X : Y est la cible à prédire et X sont les variables explicatives servant à la prédiction.
  2. Additionner directement les erreurs sans les élever au carré annule les signes et fausse l’évaluation globale.
  3. Croire que la droite passe exactement par tous les points : le cours rappelle qu’il existe toujours une erreur.
  4. Interpréter le “8” comme une pente : dans Y=2X+8Y=2X+8, 8 est l’intercept (valeur quand X=0X=0).
  5. Prendre la régression comme “multiple” dès qu’il y a plusieurs exemples : plusieurs observations ne changent pas le nombre de variables explicatives.
  6. Oublier de définir la régression comme approche supervisée : ici l’apprentissage suppose la cible Y connue dans le training set.

✅ Checklist Examen

  1. Définir la régression linéaire et préciser ce que sont X (variables explicatives) et Y (variable cible) dans le modèle.
  2. Expliquer pourquoi il s’agit d’un apprentissage supervisé à partir des variables cible et explicatives.
  3. Décrire la représentation graphique correcte : axes X et Y, nuage de points et rôle de la droite de régression.
  4. Distinguer clairement régression simple et régression multiple à partir du nombre de variables explicatives X.
  5. Écrire et interpréter l’équation Y=aX+b+εY=aX+b+\varepsilon et préciser le rôle de aa, bb et ε\varepsilon.
  6. Donner le principe de la fonction coût pour la régression linéaire à partir des erreurs et de leur quadratisation.
  7. Expliquer pourquoi le signe des erreurs peut s’annuler si on les additionne sans carré, et pourquoi la MSE corrige ce problème.
  8. Relier les moindres carrés à l’idée de minimiser la somme des carrés des écarts entre prédictions et valeurs réelles.
  9. Décrire les étapes du processus d’apprentissage : initialisation, prédiction, calcul du coût, ajustement, répétition.
  10. Calculer une prédiction avec le modèle de l’exercice pour X=5X=5 puis pour X=0X=0.
  11. Interpréter le coefficient 2 (effet marginal sur la note) et interpréter le nombre 8 (valeur quand X=0X=0).
  12. Lister les étapes d’implémentation pratique proposées : import, données, visualisation, séparation, division train/test, normalisation, construction, évaluation, visualisation finale.

Teste dein Wissen

Teste dein Wissen zu Introduction à la régression linéaire mit 11 Multiple-Choice-Fragen mit detaillierten Korrekturen.

1. Dans une régression linéaire simple, quel élément joue le rôle de variable cible à prédire ?

2. Qu'est-ce que la régression linéaire en analyse de données ?

Quiz machen →

Mit Karteikarten lernen

Merke dir die Schlüsselkonzepte von Introduction à la régression linéaire mit 9 interaktiven Karteikarten.

Régression linéaire — définition ?

Analyse qui prédit une variable par une relation linéaire.

Régression linéaire

Prédit une valeur en reliant variables linéairement.

Apprentissage supervisé — rôle ?

Apprend à partir d'exemples avec cible connue.

Karteikarten ansehen →

Similar courses

Erstelle deine eigenen Lernzettel

Importiere deinen Kurs und die KI erstellt in 30 Sekunden Lernzettel, Quizze und Karteikarten.

Lernzettel-Generator