Revision sheet: Introduction à l’économétrie et modélisation linéaire

📋 Plan du Cours

  1. Rôle et fonctions de l’économétrie dans l’analyse économique
  2. Modèle linéaire de régression simple avec terme d’erreur et hypothèses associées
  3. Méthode des moindres carrés ordinaires (MCO) pour l’estimation des paramètres
  4. Analyse de la variance et coefficient de détermination dans le modèle simple
  5. Notions statistiques de base pour l’inférence dans le modèle de régression simple
  6. Construction des intervalles de confiance pour les paramètres du modèle
  7. Tests d’hypothèses statistiques et tests d’égalité des variances dans le modèle simple
  8. Extension au modèle de régression multiple et estimation par moindres carrés
  9. Estimation par la méthode du maximum de vraisemblance dans le modèle de régression multiple
  10. Tests d’hypothèses sur un ou plusieurs coefficients dans le modèle de régression multiple
  11. Prévision et intervalle de confiance de la valeur prédite dans le modèle de régression simple
  12. Variances, écart-types des estimateurs MCO et qualité de la régression

📖 1. Rôle et fonctions de l’économétrie dans l’analyse économique

🔑 Notions clés & Définitions

  • Théorème de Gauss-Markov : Etant donné les hypothèses du modèle linéaire de régression simple, les estimateurs des MCO sont les estimateurs ayant la plus petite variance parmi tous les estimateurs linéaires sans biais de β0 et de β1;
  • Économétrie : Ensemble de méthodes statistiques appliquées à l’économie, utilisé pour confronter les énoncés théoriques aux faits observés.
  • Validation de la théorie : Théories économiques découlent en général de raisonnements logiques rigoureux.

📝 Points essentiels

  • Les théories économiques, fondées sur des hypothèses plus ou moins réalistes, mènent à des conclusions (prise de décisions, portée positive et souvent normative) qui doivent être confrontées aux faits observés, ce qui constitue le champ d’application de l’économétrie.
  • Les hypothèses des théories économiques peuvent être contestées, ce qui permet la coexistence de plusieurs théories concurrentes et rend possible l’infirmation ou la confirmation des théories construites.
  • Les théories économiques sont des énoncés logiques qui reposent sur des hypothèses plus ou moins réalistes et mènent à des conclusions (prise de décisions par exemple) dont la portée est positive et souvent normative.
  • Selon Frisch (1933), l’économétrie est la branche de la science économique qui utilise des méthodes mathématiques et statistiques pour établir des lois ou vérifier des hypothèses à partir des données chiffrées tirées de la réalité.
  • L’analyse économique s’appuie sur des représentations théoriques (comportements des agents, mécanismes) qui doivent être confrontées aux faits observés.
  • L’économétrie est définie comme un ensemble de méthodes statistiques appliquées à l’économie.
  • Plusieurs théories concurrentes peuvent coexister car les hypothèses des théories économiques peuvent être contestées.
  • Les conclusions des théories (prise de décisions, portée positive et souvent normative) justifient la confrontation aux données.
  • 1 INTRODUCTION L’analyse économique est basée sur des représentations théoriques qui décrivent les comportements des agents et les mécanismes qui sont à l’origine des phénomènes observés.

💡 À retenir

Les théories économiques, fondées sur des hypothèses plus ou moins réalistes, mènent à des conclusions (prise de décisions, portée positive et souvent normative) qui doivent être confrontées aux faits observés, ce qui constitue le champ d’application de l’économétrie.

📖 2. Modèle linéaire de régression simple avec terme d’erreur et hypothèses associées

📝 Points essentiels

  • Le modèle linéaire de régression simple s’écrit avec une constante et une pente : les paramètres du modèle sont β0 et β1, et le terme d’erreur est εi.
  • La variable dépendante Y est aussi appelée variable expliquée, variable prédite ou régressant.
  • Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir
  • La variable indépendante X est aussi appelée variable explicative, variable prédicatrice ou régresseur.
  • Hypothèse H1 (linéarité) : le modèle est linéaire en Xi (ou en toute transformation monotonique de Xi).
  • Hypothèse H2 (exogénéité) : la variable indépendante est exogène, i.e. E(εi/Xi)=0.

💡 À retenir

Le modèle de régression simple formalise une relation entre Yi et Xi à l’aide des paramètres β0 (constante), β1 (pente) et du terme d’erreur εi, sous des hypothèses comme la linéarité (H1) et l’exogénéité (H2) pour que l’analyse soit fondée.

📖 3. Méthode des moindres carrés ordinaires (MCO) pour l’estimation des paramètres

🔑 Notions clés & Définitions

📝 Points essentiels

  • La résolution du système d’équations simultanées donne les estimateurs MCO de β0 et β1, notés β̂0 et β̂1.
  • Les estimateurs MCO sont notés β̂0 et β̂1 et sont appelés estimateurs des MCO de β0 et β1.
  • En posant xi = Xi − X̄ et yi = Yi − Ȳ, xi et yi représentent les déviations des variables X et Y par rapport à leurs moyennes.
  • Les données observées sont Xi et Yi, tandis que β0, β1 et εi ne sont pas observées.
  • Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir

💡 À retenir

Sous les hypothèses du modèle, les équations normales constituent un système en β0 et β1 ; sa résolution fournit les estimateurs MCO β̂0 et β̂1. En centrant les données avec xi = Xi − X̄ et yi = Yi − Ȳ, on peut ensuite exprimer β̂1 à partir de ces déviations.

📖 4. Analyse de la variance et coefficient de détermination dans le modèle simple

🔑 Notions clés & Définitions

  • Le tableau d’analyse de la variance : Tableau qui présente, pour une régression, la décomposition de la variation en trois sources : variation expliquée (SCE), variation résiduelle (SCR) et variation totale (SCT), avec SCT = SCE + SCR.
  • Le coefficient de détermination ajusté : Mesure de qualité de la régression calculée à partir de SCR et SCT, donnée par R² ajusté = 1 − (SCR/(n−K−1))/(SCT/(n−1)).
  • Somme des carrés totale (SCT) : Somme des carrés associée à la variation totale de Y, notée SCT, utilisée dans la relation SCT = SCE + SCR.

📝 Points essentiels

  • Les carrés moyens sont calculés en utilisant les degrés de liberté : SCE/K et SCR/(n−K−1) (dans l’exemple numérique, SCE/K = 26,5/2 = 13,25 et SCR/(n−K−1) = 1,5/1 = 0,75).
  • Le coefficient de détermination ajusté est calculé par R² ajusté = 1 − (SCR/(n−K−1))/(SCT/(n−1)).
  • Dans l’exemple numérique, le coefficient de détermination ajusté vaut 0,81 et est présenté comme indicateur de qualité de la régression.

💡 À retenir

Le coefficient de détermination ajusté est calculé par R² ajusté = 1 − (SCR/(n−K−1))/(SCT/(n−1)).

📖 5. Notions statistiques de base pour l’inférence dans le modèle de régression simple

🔑 Notions clés & Définitions

  • Variable aléatoire : Grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné.
  • Loi de probabilité : Règle de distribution caractérisée par la moyenne et la variance.

📝 Points essentiels

  • Dans l’inférence de régression, la statistique basée sur les erreurs conduit à des lois Khi-deux normalisées, avec apparition de degrés de liberté (n−1) et (n−2) selon le contexte d’estimation.
  • Une variable aléatoire est une grandeur mesurable dont les valeurs varient (dispersion) lors de la répétition d’un processus.

💡 À retenir

L’inférence dans le modèle de régression simple s’appuie sur des lois de probabilité : loi normale quand les paramètres sont connus, loi de Student quand ils sont estimés, et lois Khi-deux issues des erreurs pour les statistiques normalisées.

📖 6. Construction des intervalles de confiance pour les paramètres du modèle

📝 Points essentiels

  • L’intervalle de confiance de la variance de l’erreur s’exprime via une statistique Khi-deux, avec (n−1) et des quantiles χ² encadrant σ².
    • Calculer une prévision et son intervalle de confiance au seuil de 5% pour les valeurs 10 5X = , 20 10X = et 30 20X = 3;10;0,05 0,702 / 3 7,878 3,71 (1 0,702) / 10 F F= = > = − 2p = , 2 1 0,5 B   =  −  2 0,8ˆ 0,38 B   =  −  , 2 ˆ 0,013 0,0012 ˆ 6,745 0,0012 0,004p σΒ   =     = 0,013 0,0012 0,0012 0,004       4- La prévision dans le modèle de régression multiple Le problème consiste à déterminer quelle valeur doit être attribuée à la variable endogène lorsque nous connaissons les valeurs des variables exogènes.
  • Une valeur estimée (par exemple β̂1) fluctue d’un échantillon à l’autre : l’intervalle de confiance vise à contenir la valeur inconnue du paramètre avec une grande probabilité.
  • Lorsque la quantité (β̂ − β) normalisée suit une loi de Student, la loi de Student est utilisée pour construire l’intervalle de confiance.

💡 À retenir

Construire un intervalle de confiance consiste à relier la fluctuation d’échantillonnage à une loi de la statistique normalisée : loi de Student pour les paramètres β1 et β0, et loi de Khi-deux pour la variance de l’erreur.

📖 7. Tests d’hypothèses statistiques et tests d’égalité des variances dans le modèle simple

🔑 Notions clés & Définitions

  • Test d’un seul coefficient de régression : Test d’un coefficient de régression particulier βk : on teste H0 : βk = βk* contre H1 : βk ≠ βk* et on rejette H0 si la statistique de test dépasse le seuil donné par la table (seuil basé sur la loi appropriée).

📝 Points essentiels

  • Le test d’un seul coefficient βk s’écrit H0 : βk = βk* contre H1 : βk ≠ βk*.
  • La statistique de test pour βk est ct = (β̂k − βk*)/ (σ̂·√(…)), et la variance de β̂k provient de la composante correspondant à la kième ligne et la kième colonne de la matrice des variances-covariances.
  • La règle de décision compare la statistique calculée à la valeur lue dans la table statistique ; pour le test d’un coefficient, H0 est rejetée si (1−α/2)c n K t t >.
  • Le test d’égalité des variances utilise une statistique F : le rapport des estimateurs des variances suit une loi de Fisher sous H0, avec (n1−1) degrés de liberté (et la loi est donnée pour le test).
  • Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir
  • La théorie des tests consiste à utiliser une statistique de test pour décider de rejeter ou non une hypothèse nulle.
  • Test d’un seul coefficient : on teste une valeur particulière βk via H0: βk = βk* contre H1: βk ≠ βk*.
  • La règle de décision compare la statistique calculée à la valeur lue dans la table statistique (seuil basé sur la loi appropriée).
  • Test d’égalité des variances : la statistique F est utilisée et suit une loi F sous H0.

💡 À retenir

Le test d’un seul coefficient βk s’écrit H0 : βk = βk* contre H1 : βk ≠ βk*.

📖 8. Extension au modèle de régression multiple et estimation par moindres carrés

🔑 Notions clés & Définitions

  • Modèle de régression multiple : Modèle de régression contenant plus d’une variable explicative : il étend la relation du modèle de régression simple à plusieurs variables explicatives.

📝 Points essentiels

  • Le modèle de régression multiple s’écrit avec K variables explicatives : Yi = β0 + β1 X1i + … + βK XKi + εi.
  • 3- Inférence statistique dans le modèle de régression multiple 3.1- Propriétés et lois de distribution des estimateurs des MCO Si les hypothèses classiques du MRM sont satisfaites, le théorème de Gauss-Markov est vérifié.

💡 À retenir

Le modèle de régression multiple s’écrit avec K variables explicatives : Yi = β0 + β1 X1i + … + βK XKi + εi.

📖 9. Estimation par la méthode du maximum de vraisemblance dans le modèle de régression multiple

📝 Points essentiels

  • L’approche du maximum de vraisemblance est présentée comme une méthode d’estimation reposant sur une hypothèse sur la distribution de probabilité de εi.
  • L’estimateur de la variance de l’erreur σ² est relié à une statistique de type χ² : ( ) 2 2 1n K εσ − − χ∼.
  • La statistique Khi-deux associée à σ² a des degrés de liberté égaux à n−K.
  • L’encadrement de σ² s’exprime à partir de quantiles de la loi χ² au seuil α% (bornes construites avec χ²(α/2) et χ²(1−α/2)).
  • Les degrés de liberté apparaissent sous la forme n−K dans la statistique Khi-deux associée à l’estimateur de σ².
  • La mesure alternative, plus robuste à l’ajout des variables, qui corrige ce problème associé aux degrés de liberté est le coefficient de détermination ajusté ou corrigé 2 R .
  • L’approche du maximum de vraisemblance est présentée comme alternative d’estimation dans le modèle de régression multiple.
  • L’estimation de la variance de l’erreur σ² est reliée à une statistique Khi-deux.
  • L’estimateur de σ² est associé à une statistique de type χ² avec des degrés de liberté dépendant de n et K.
  • L’intervalle/encadrement de σ² s’exprime via des quantiles χ² (bornes inférieure et supérieure).

💡 À retenir

Dans le modèle de régression multiple, l’estimation MV de la variance de l’erreur σ² est associée à une statistique de type χ² dont les degrés de liberté sont n−K.

📖 10. Tests d’hypothèses sur un ou plusieurs coefficients dans le modèle de régression multiple

🔑 Notions clés & Définitions

  • Test sur plusieurs coefficients : Test visant l’égalité simultanée de certains coefficients de régression à des valeurs fixées, réalisé à l’aide d’une statistique de test de type F.
  • DANS LE MODELE DE REGRESSION : Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO.

📝 Points essentiels

  • Pour un seul coefficient kβ, on teste H0 : kβ = βk* contre H1 : kβ ≠ βk*.
  • La statistique de test pour un seul coefficient est notée ct et s’écrit ct = (β̂k − βk*) / σ(β̂k), avec σ(β̂k) obtenu à partir de la composante correspondant à la kième ligne et la kième colonne de la matrice des variances-covariances.
  • On rejette H0 pour le test d’un seul coefficient si c t > t(1−α/2; n−K).
  • Pour tester plusieurs coefficients simultanément, la statistique de test utilisée est la statistique F.
  • La statistique F est comparée à une valeur critique issue de la table de F au seuil basé sur α.
  • 3245 3840 Sénégal 1990 1995 2000 2005 2546 2875 3241 4329 2013 2398 2564 3089 2.2.3- La notion d’estimateur Puisqu’il est extrêmement coûteux voire impossible d’obtenir des informations concernant les variables sur l’ensemble de la population étudiée, on construit une base de données sur un échantillon de N individus. L’inférence statistique consiste à dériver les valeurs des paramètres de la population à partir des données de l’échantillon. Les valeurs numériques obtenue sont appelées estimateurs des paramètres du modèle. On peut calculer une estimation ponctuelle et obtenir une valeur spécifique de chaque paramètre. On peut également construire des estimations d’intervalle et obtenir alors un intervalle de confiance recouvrant avec une probabilité élevée la valeur réelle du paramètre. La méthode d’estimation dépend de la forme fonctionnelle du modèle (linéaire ou non linéaire) et de la nature des données. 2.3- La vérification de l’adéquation du modèle Avant toute utilisation des estimations à des fins de prévision, il est nécessaire de vérifier son adéquation au phénomène étudié. Il existe des tests statistiques permettant d’apprécier 7 l’écart entre les valeurs estimées et les valeurs réelles des paramètres. Si le modèle n’est pas globalement significatif, on reprend les étapes précédentes de sorte à améliorer la qualité des estimations. Lorsque le modèle est globalement
  • 3.2- Les tests d’hypothèses - Test d’un seul coefficient de régression Le problème consiste à tester la valeur d'un coefficient de régression particulier k β : * 0 * 1 : : k k k k H H β β β β  =  ≠ On calcule ˆ ˆ ˆ k k k ct β β β σ − = avec ( ) 12 2 ˆˆ ˆk kk X X ε βσ σ −  ′=   qui est simplement la composante correspondant à la kième ligne et la kième colonne de la matrice des variances covariances.
  • Le test sur un ou plusieurs coefficients consiste à comparer une hypothèse nulle portant sur des paramètres de régression à une hypothèse alternative.
  • Pour un seul coefficient dans le cadre multiple, la statistique de test t est construite à partir de la composante correspondante de la matrice des variances-covariances.
  • La statistique t est notée ct dans le texte et s’écrit comme un rapport entre (β̂k − βk*) et l’écart-type de β̂k.
  • Elle permet de déterminer des intervalles de confiance pour des paramètres du modèle ou tester si un paramètre est significativement inférieur, supérieur ou simplement différents d’une valeur fixée ; - la simulation qui mesure l’impact d’une modification de la valeur d’une variable sur une autre ; - la prévision qui est utilisée par les pouvoirs publics ou l’entreprise pour anticiper et éventuellement réagir à l’environnement économique.

💡 À retenir

Dans le modèle de régression multiple, on utilise la statistique t (ct) pour tester un seul coefficient, et la statistique F pour tester simultanément plusieurs coefficients, avec comparaison à une valeur critique issue de la table au seuil α.

📖 11. Prévision et intervalle de confiance de la valeur prédite dans le modèle de régression simple

🔑 Notions clés & Définitions

  • Modèle de régression : Modèle linéaire de régression simple où les paramètres β0 et β1 ne sont pas observés et où le terme d’erreur εi est ajouté au modèle.
  • Prévision : L’individu i n’a pas d’influence sur celle d’un autre individu.

📝 Points essentiels

  • L’erreur de prévision pour l’individu i est notée e0 et correspond à e0 = Y0 − Ŷ0, avec E(e0) = 0.
  • Les erreurs de prévisions ne sont pas corrélées : pour i ≠ j, E(εi, εj) = 0, ce qui signifie que l’erreur de prévision d’un individu n’a pas d’influence sur celle d’un autre.
  • L’intervalle de confiance de la valeur prédite est construit en tenant compte de la fluctuation d’échantillonnage et de la variance de l’erreur, via un terme qui dépend de n, de X0 et de la variance d’erreur estimée.
  • La construction de l’intervalle de confiance s’appuie sur la loi de Student lorsque la variance d’erreur est estimée (t intervient dans l’expression de l’intervalle).
  • 3245 3840 Sénégal 1990 1995 2000 2005 2546 2875 3241 4329 2013 2398 2564 3089 2.2.3- La notion d’estimateur Puisqu’il est extrêmement coûteux voire impossible d’obtenir des informations concernant les variables sur l’ensemble de la population étudiée, on construit une base de données sur un échantillon de N individus. L’inférence statistique consiste à dériver les valeurs des paramètres de la population à partir des données de l’échantillon. Les valeurs numériques obtenue sont appelées estimateurs des paramètres du modèle. On peut calculer une estimation ponctuelle et obtenir une valeur spécifique de chaque paramètre. On peut également construire des estimations d’intervalle et obtenir alors un intervalle de confiance recouvrant avec une probabilité élevée la valeur réelle du paramètre. La méthode d’estimation dépend de la forme fonctionnelle du modèle (linéaire ou non linéaire) et de la nature des données. 2.3- La vérification de l’adéquation du modèle Avant toute utilisation des estimations à des fins de prévision, il est nécessaire de vérifier son adéquation au phénomène étudié. Il existe des tests statistiques permettant d’apprécier 7 l’écart entre les valeurs estimées et les valeurs réelles des paramètres. Si le modèle n’est pas globalement significatif, on reprend les étapes précédentes de sorte à améliorer la qualité des estimations. Lorsque le modèle est globalement
    • Calculer une prévision et son intervalle de confiance au seuil de 5% pour les valeurs 10 5X = , 20 10X = et 30 20X = 3;10;0,05 0,702 / 3 7,878 3,71 (1 0,702) / 10 F F= = > = − 2p = , 2 1 0,5 B   =  −  2 0,8ˆ 0,38 B   =  −  , 2 ˆ 0,013 0,0012 ˆ 6,745 0,0012 0,004p σΒ   =     = 0,013 0,0012 0,0012 0,004       4- La prévision dans le modèle de régression multiple Le problème consiste à déterminer quelle valeur doit être attribuée à la variable endogène lorsque nous connaissons les valeurs des variables exogènes.
  • La prévision consiste à utiliser le modèle estimé pour obtenir une valeur prédite de Y à partir de X.
  • Elle permet de déterminer des intervalles de confiance pour des paramètres du modèle ou tester si un paramètre est significativement inférieur, supérieur ou simplement différents d’une valeur fixée ; - la simulation qui mesure l’impact d’une modification de la valeur d’une variable sur une autre ; - la prévision qui est utilisée par les pouvoirs publics ou l’entreprise pour anticiper et éventuellement réagir à l’environnement économique.

💡 À retenir

La prévision ponctuelle s’obtient à partir des coefficients estimés (Ŷ0 = β̂0 + β̂1X0), tandis que l’intervalle de confiance de la valeur prédite incorpore l’erreur de prévision et la variance de l’erreur, avec recours à la loi de Student via le facteur t lorsque la variance est estimée.

📖 12. Variances, écart-types des estimateurs MCO et qualité de la régression

🔑 Notions clés & Définitions

  • Fonction de régression : Relation entre la variable dépendante et les variables explicatives, exprimée pour la population par E(Yi|Xi)=β0+β1Xi et pour l’échantillon par Ŷi=β̂0+β̂1Xi.
  • Qualité de la régression : La qualité de la régression 3.1- L’équation d’analyse de la variance On sait que ˆ i i iY Y e= + .

📝 Points essentiels

  • Les variances et écart-types des estimateurs MCO mesurent la fluctuation d’échantillonnage : les paramètres estimés sont des variables aléatoires dont les valeurs numériques varient d’un échantillon à un autre.
  • L’écart-type est la racine carrée de la variance.
  • Lorsque la variance σ²_ε est connue, les variances des paramètres se déduisent directement des formules de variance des estimateurs.
  • Lorsque σ²_ε n’est pas connue, elle doit être estimée à l’aide de la formule utilisant la somme des carrés résiduelle et les degrés de liberté.
  • Le nombre de degrés de liberté correspond au nombre d’observations indépendantes.
  • Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir

💡 À retenir

Les variances et écart-types des estimateurs MCO mesurent la fluctuation d’échantillonnage : les paramètres estimés sont des variables aléatoires dont les valeurs numériques varient d’un échantillon à un autre.

🧩 Compléments de couverture

  1. Dans la fonction de consommation keynésienne, la propension marginale à consommer est supposée inférieure à l’unité : H1 : 0 < dC/dY < 1.
  2. La propension moyenne à consommer décroît avec le revenu : H2 : d(C/Y)/dY < 0.
  3. L’hypothèse d’homoscédasticité est donnée par E(εi2) = σ2 (variance constante du terme d’erreur).
  4. Le coefficient de détermination est défini à partir des sommes des carrés : R^2 = SCE/SCT.
  5. Le Tableau d’analyse de la variance : Source de variation Somme des carrés Degré de liberté Carrées moyens Variation expliquée 26,5SCE = 2 26.
  6. La règle de décision est : 0 Rejet de H0Rejet de H0 Acceptation de H0 t α/2 % tα/2- tα/2 α/2 % (1-α)% 22 Si ( 2), /2c nt t α−> , on rejette Ho et k β est significativement différent de * k β .
  7. Convergence : Lorsque la taille de l’échantillon n tend vers ∞, les estimateurs 0 ˆ β et 1 ˆ β convergent en probabilité vers les valeurs de 0 β et 1 β.
  8. Exemple : La fonction de consommation keynésienne Keynes postule que les dépenses de consommation (C) des ménages dépendent du niveau de leur revenu disponible (Y), C = f(Y)
  9. 2 - Un outil d’Investigation L’économétrie n’est pas seulement un système de validation, mais elle est également un outil d’analyse.
  10. Bien que simple à appliquer, la méthode des MCO est populaire parce qu’elle incarne des propriétés intéressantes résumées par le théorème de Gauss-Markov.
  11. Théorème Centrale limite : Supposons qu’il existe Y1, .
  12. Si de plus on se limite à la classe des estimateurs linéaires, un tel estimateur est appelé BLUE (Best Linear Unbiased Estimator).
  13. Il est équivalent de maximiser la vraisemblance L ou ( ) 1 log N i i L f y = = ∑ .
  14. Pour estimer le modèle, il faut soit exclure - la constante : 1 2 1 3 2 4 3 5 4t t t t t t tY X D D D D β β β β β ε= + + + + + ou, - une variable indicatrice : 0 1 2 1 3 2 4 3t t t t t tY X D D D β β β β β ε= + + + + + .
  15. Les étapes de l’analyse économétrique L’analyse économétrique est composée de 3 principales étapes : la spécification du modèle économétrique, l’estimation des paramètres du modèle et les tests d’adéquation du modèle.
  16. 5 Exemple d’une coupe d’instantanée des ménages à Abidjan Ménages (i) Revenu (Yi) Consommation (Ci) Quartier (qi) 1 2 3 4 : .
  17. 3- Les données de panels 6 Les données de panels ou données longitudinal sont une catégorie particulière de données en coupes instantanées ou chaque unité de l’échantillon est enquêtée dans le temps.
  18. De façon simple, la relation entre X et Y peut s’écrire : 0 1i i iY X β β ε= + + (2.

📊 Tableaux de Synthèse

Économétrie / ModèleContenu à maîtriser (issu du résumé)
Rôle de l’économétrieEnsemble de méthodes statistiques appliquées à l’économie, utilisé pour confronter les énoncés théoriques aux faits observés ; outil de validation mais aussi outil d’analyse.
Validation / contestation des théoriesLes théories économiques reposent sur des hypothèses plus ou moins réalistes ; leurs conclusions (prise de décisions, portée positive et souvent normative) doivent être confrontées aux faits observés ; hypothèses contestables → coexistence de théories concurrentes → infirmation ou confirmation.
Théorème de Gauss-Markov (lien avec MCO)Sous les hypothèses du modèle linéaire de régression simple, les estimateurs MCO ont la plus petite variance parmi tous les estimateurs linéaires sans biais de β0 et β1.
Notions d’inférence (base statistique)Variable aléatoire : grandeur mesurable soumise à une dispersion lors de la répétition ; loi de probabilité caractérisée par la moyenne et la variance.
Lois utilisées en inférence de régressionLoi normale quand les paramètres sont connus ; loi de Student quand ils sont estimés ; lois Khi-deux issues des erreurs pour les statistiques normalisées (degrés de liberté (n−1) et (n−2) selon le contexte).
Partie du coursPoints clés à relier entre eux
Modèle de régression simple (forme)Relation simple : Yi = β0 + β1 Xi + εi ; données observées : Xi et Yi ; β0, β1 et εi non observées.
Déviations autour des moyennesxi = Xi − X̄ et yi = Yi − Ȳ : déviations des variables X et Y par rapport à leurs moyennes.
MCO (estimation)Résolution du système d’équations simultanées → estimateurs MCO β̂0 et β̂1.
Étapes de l’analyse économétrique3 étapes : spécification du modèle économétrique, estimation des paramètres du modèle, tests d’adéquation du modèle.
Extension au modèle multipleModèle avec K variables explicatives : Yi = β0 + β1 X1i + … + βK XKi + εi.
Estimation par maximum de vraisemblance (MRM)Hypothèse sur la distribution de εi ; estimateur MV de σ² relié à une statistique de type χ² avec degrés de liberté n−K.

⚠️ Pièges & Confusions Fréquentes

  1. Confondre économétrie (ensemble de méthodes statistiques appliquées à l’économie) avec une simple “validation” : le résumé précise aussi un outil d’analyse.
  2. Penser que les théories économiques sont “vraies” sans confrontation : elles reposent sur des hypothèses plus ou moins réalistes et doivent être confrontées aux faits observés.
  3. Oublier le lien Gauss-Markov ↔ MCO : le résumé dit que, sous hypothèses du modèle linéaire simple, les MCO ont la plus petite variance parmi les estimateurs linéaires sans biais.
  4. Mélanger données observées et paramètres non observés : Xi et Yi sont observés, tandis que β0, β1 et εi ne le sont pas.
  5. Confondre les lois en inférence : normale si paramètres connus, Student si paramètres estimés, χ² issues des erreurs pour statistiques normalisées.
  6. Se tromper sur les degrés de liberté χ² : le résumé mentionne (n−1) et (n−2) selon le contexte d’estimation, et pour le MRM MV indique n−K.
  7. En tests sur coefficients en régression multiple : distinguer test d’un seul coefficient (statistique notée ct, comparaison à une valeur critique issue d’une table au seuil α/2 avec n−K dans le résumé) vs test sur plusieurs coefficients (statistique F).

✅ Checklist Examen

  • Définir l’économétrie comme ensemble de méthodes statistiques appliquées à l’économie.
  • Expliquer pourquoi l’économétrie sert à confronter des énoncés théoriques aux faits observés.
  • Relier “hypothèses contestables” à la coexistence de théories concurrentes et à l’infirmation/confirmation.
  • Énoncer le rôle du théorème de Gauss-Markov pour le modèle linéaire simple (plus petite variance parmi estimateurs linéaires sans biais).
  • Donner la forme du modèle de régression simple Yi = β0 + β1 Xi + εi et préciser ce qui est observé vs non observé.
  • Utiliser correctement les notations xi = Xi − X̄ et yi = Yi − Ȳ comme déviations autour des moyennes.
  • Savoir que la méthode des MCO fournit des estimateurs notés β̂0 et β̂1 via la résolution du système d’équations simultanées.
  • Citer les lois utilisées en inférence dans le modèle simple : normale (paramètres connus), Student (paramètres estimés), Khi-deux issues des erreurs (avec degrés de liberté mentionnés).
  • Expliquer comment construire un intervalle de confiance pour un paramètre via une statistique Khi-deux (variance d’erreur) et via Student lorsque la quantité normalisée suit une loi de Student.
  • Formuler le test d’un seul coefficient : H0 : βk = βk* contre H1 : βk ≠ βk*, avec la statistique ct telle que donnée dans le résumé.
  • Distinguer test d’un seul coefficient vs test simultané sur plusieurs coefficients : ct vs statistique F comparée à une valeur critique issue d’une table au seuil basé sur α.
  • Pour le modèle multiple : écrire Yi = β0 + β1 X1i + … + βK XKi + εi et rappeler que l’estimation MV relie σ² à une statistique χ² avec degrés de liberté n−K.

Test your knowledge

Test your knowledge on Introduction à l’économétrie et modélisation linéaire with 7 multiple-choice questions with detailed corrections.

1. Quelle conséquence directe a la résolution du système des équations normales en β0 et β1 ?

2. Quel est le rôle principal de l’économétrie dans l’analyse économique ?

Take the quiz →

Review with flashcards

Memorize the key concepts of Introduction à l’économétrie et modélisation linéaire with 9 interactive flashcards.

Rôle de l’économétrie — définition ?

Méthodes statistiques appliquées à l’économie pour confronter théories aux faits.

Rôle de l’économétrie

Confronter théorie et faits, établir lois

Gauss-Markov — propriété ?

Les estimateurs MCO ont la plus petite variance sans biais en modèle linéaire simple.

See flashcards →

Similar courses

Create your own revision sheets

Import your course and AI generates sheets, quizzes and flashcards in 30 seconds.

Sheet generator