Revision Sheet: Introduction à l’économétrie et modélisation linéaire

Plan du Cours

Rôle et fonctions de l’économétrie dans l’analyse économique
Modèle linéaire de régression simple avec terme d’erreur et hypothèses associées
Méthode des moindres carrés ordinaires (MCO) pour l’estimation des paramètres
Analyse de la variance et coefficient de détermination dans le modèle simple
Notions statistiques de base pour l’inférence dans le modèle de régression simple
Construction des intervalles de confiance pour les paramètres du modèle
Tests d’hypothèses statistiques et tests d’égalité des variances dans le modèle simple
Extension au modèle de régression multiple et estimation par moindres carrés
Estimation par la méthode du maximum de vraisemblance dans le modèle de régression multiple
Tests d’hypothèses sur un ou plusieurs coefficients dans le modèle de régression multiple
Prévision et intervalle de confiance de la valeur prédite dans le modèle de régression simple
Variances, écart-types des estimateurs MCO et qualité de la régression

1. Rôle et fonctions de l’économétrie dans l’analyse économique

Notions clés & Définitions

Théorème de Gauss-Markov : Etant donné les hypothèses du modèle linéaire de régression simple, les estimateurs des MCO sont les estimateurs ayant la plus petite variance parmi tous les estimateurs linéaires sans biais de β0 et de β1;
Économétrie : Ensemble de méthodes statistiques appliquées à l’économie, utilisé pour confronter les énoncés théoriques aux faits observés.
Validation de la théorie : Théories économiques découlent en général de raisonnements logiques rigoureux.

Points essentiels

Les théories économiques, fondées sur des hypothèses plus ou moins réalistes, mènent à des conclusions (prise de décisions, portée positive et souvent normative) qui doivent être confrontées aux faits observés, ce qui constitue le champ d’application de l’économétrie.
Les hypothèses des théories économiques peuvent être contestées, ce qui permet la coexistence de plusieurs théories concurrentes et rend possible l’infirmation ou la confirmation des théories construites.
Les théories économiques sont des énoncés logiques qui reposent sur des hypothèses plus ou moins réalistes et mènent à des conclusions (prise de décisions par exemple) dont la portée est positive et souvent normative.
Selon Frisch (1933), l’économétrie est la branche de la science économique qui utilise des méthodes mathématiques et statistiques pour établir des lois ou vérifier des hypothèses à partir des données chiffrées tirées de la réalité.
L’analyse économique s’appuie sur des représentations théoriques (comportements des agents, mécanismes) qui doivent être confrontées aux faits observés.
L’économétrie est définie comme un ensemble de méthodes statistiques appliquées à l’économie.
Plusieurs théories concurrentes peuvent coexister car les hypothèses des théories économiques peuvent être contestées.
Les conclusions des théories (prise de décisions, portée positive et souvent normative) justifient la confrontation aux données.
1 INTRODUCTION L’analyse économique est basée sur des représentations théoriques qui décrivent les comportements des agents et les mécanismes qui sont à l’origine des phénomènes observés.

À retenir

Les théories économiques, fondées sur des hypothèses plus ou moins réalistes, mènent à des conclusions (prise de décisions, portée positive et souvent normative) qui doivent être confrontées aux faits observés, ce qui constitue le champ d’application de l’économétrie.

2. Modèle linéaire de régression simple avec terme d’erreur et hypothèses associées

Points essentiels

Le modèle linéaire de régression simple s’écrit avec une constante et une pente : les paramètres du modèle sont β0 et β1, et le terme d’erreur est εi.
La variable dépendante Y est aussi appelée variable expliquée, variable prédite ou régressant.
Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir
La variable indépendante X est aussi appelée variable explicative, variable prédicatrice ou régresseur.
Hypothèse H1 (linéarité) : le modèle est linéaire en Xi (ou en toute transformation monotonique de Xi).
Hypothèse H2 (exogénéité) : la variable indépendante est exogène, i.e. E(εi/Xi)=0.

À retenir

Le modèle de régression simple formalise une relation entre Yi et Xi à l’aide des paramètres β0 (constante), β1 (pente) et du terme d’erreur εi, sous des hypothèses comme la linéarité (H1) et l’exogénéité (H2) pour que l’analyse soit fondée.

3. Méthode des moindres carrés ordinaires (MCO) pour l’estimation des paramètres

Notions clés & Définitions

Points essentiels

La résolution du système d’équations simultanées donne les estimateurs MCO de β0 et β1, notés β̂0 et β̂1.
Les estimateurs MCO sont notés β̂0 et β̂1 et sont appelés estimateurs des MCO de β0 et β1.
En posant xi = Xi − X̄ et yi = Yi − Ȳ, xi et yi représentent les déviations des variables X et Y par rapport à leurs moyennes.
Les données observées sont Xi et Yi, tandis que β0, β1 et εi ne sont pas observées.
Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir

À retenir

Sous les hypothèses du modèle, les équations normales constituent un système en β0 et β1 ; sa résolution fournit les estimateurs MCO β̂0 et β̂1. En centrant les données avec xi = Xi − X̄ et yi = Yi − Ȳ, on peut ensuite exprimer β̂1 à partir de ces déviations.

4. Analyse de la variance et coefficient de détermination dans le modèle simple

Notions clés & Définitions

Le tableau d’analyse de la variance : Tableau qui présente, pour une régression, la décomposition de la variation en trois sources : variation expliquée (SCE), variation résiduelle (SCR) et variation totale (SCT), avec SCT = SCE + SCR.
Le coefficient de détermination ajusté : Mesure de qualité de la régression calculée à partir de SCR et SCT, donnée par R² ajusté = 1 − (SCR/(n−K−1))/(SCT/(n−1)).
Somme des carrés totale (SCT) : Somme des carrés associée à la variation totale de Y, notée SCT, utilisée dans la relation SCT = SCE + SCR.

Points essentiels

Les carrés moyens sont calculés en utilisant les degrés de liberté : SCE/K et SCR/(n−K−1) (dans l’exemple numérique, SCE/K = 26,5/2 = 13,25 et SCR/(n−K−1) = 1,5/1 = 0,75).
Le coefficient de détermination ajusté est calculé par R² ajusté = 1 − (SCR/(n−K−1))/(SCT/(n−1)).
Dans l’exemple numérique, le coefficient de détermination ajusté vaut 0,81 et est présenté comme indicateur de qualité de la régression.

À retenir

Le coefficient de détermination ajusté est calculé par R² ajusté = 1 − (SCR/(n−K−1))/(SCT/(n−1)).

5. Notions statistiques de base pour l’inférence dans le modèle de régression simple

Notions clés & Définitions

Variable aléatoire : Grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné.
Loi de probabilité : Règle de distribution caractérisée par la moyenne et la variance.

Points essentiels

Dans l’inférence de régression, la statistique basée sur les erreurs conduit à des lois Khi-deux normalisées, avec apparition de degrés de liberté (n−1) et (n−2) selon le contexte d’estimation.
Une variable aléatoire est une grandeur mesurable dont les valeurs varient (dispersion) lors de la répétition d’un processus.

À retenir

L’inférence dans le modèle de régression simple s’appuie sur des lois de probabilité : loi normale quand les paramètres sont connus, loi de Student quand ils sont estimés, et lois Khi-deux issues des erreurs pour les statistiques normalisées.

6. Construction des intervalles de confiance pour les paramètres du modèle

Points essentiels

L’intervalle de confiance de la variance de l’erreur s’exprime via une statistique Khi-deux, avec (n−1) et des quantiles χ² encadrant σ².
- Calculer une prévision et son intervalle de confiance au seuil de 5% pour les valeurs 10 5X = , 20 10X = et 30 20X = 3;10;0,05 0,702 / 3 7,878 3,71 (1 0,702) / 10 F F= = > = − 2p = , 2 1 0,5 B   =  −  2 0,8ˆ 0,38 B   =  −  , 2 ˆ 0,013 0,0012 ˆ 6,745 0,0012 0,004p σΒ   =     = 0,013 0,0012 0,0012 0,004       4- La prévision dans le modèle de régression multiple Le problème consiste à déterminer quelle valeur doit être attribuée à la variable endogène lorsque nous connaissons les valeurs des variables exogènes.
Une valeur estimée (par exemple β̂1) fluctue d’un échantillon à l’autre : l’intervalle de confiance vise à contenir la valeur inconnue du paramètre avec une grande probabilité.
Lorsque la quantité (β̂ − β) normalisée suit une loi de Student, la loi de Student est utilisée pour construire l’intervalle de confiance.

À retenir

Construire un intervalle de confiance consiste à relier la fluctuation d’échantillonnage à une loi de la statistique normalisée : loi de Student pour les paramètres β1 et β0, et loi de Khi-deux pour la variance de l’erreur.

7. Tests d’hypothèses statistiques et tests d’égalité des variances dans le modèle simple

Notions clés & Définitions

Test d’un seul coefficient de régression : Test d’un coefficient de régression particulier βk : on teste H0 : βk = βk* contre H1 : βk ≠ βk* et on rejette H0 si la statistique de test dépasse le seuil donné par la table (seuil basé sur la loi appropriée).

Points essentiels

Le test d’un seul coefficient βk s’écrit H0 : βk = βk* contre H1 : βk ≠ βk*.
La statistique de test pour βk est ct = (β̂k − βk*)/ (σ̂·√(…)), et la variance de β̂k provient de la composante correspondant à la kième ligne et la kième colonne de la matrice des variances-covariances.
La règle de décision compare la statistique calculée à la valeur lue dans la table statistique ; pour le test d’un coefficient, H0 est rejetée si (1−α/2)c n K t t >.
Le test d’égalité des variances utilise une statistique F : le rapport des estimateurs des variances suit une loi de Fisher sous H0, avec (n1−1) degrés de liberté (et la loi est donnée pour le test).
Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir
La théorie des tests consiste à utiliser une statistique de test pour décider de rejeter ou non une hypothèse nulle.
Test d’un seul coefficient : on teste une valeur particulière βk via H0: βk = βk* contre H1: βk ≠ βk*.
La règle de décision compare la statistique calculée à la valeur lue dans la table statistique (seuil basé sur la loi appropriée).
Test d’égalité des variances : la statistique F est utilisée et suit une loi F sous H0.

À retenir

Le test d’un seul coefficient βk s’écrit H0 : βk = βk* contre H1 : βk ≠ βk*.

8. Extension au modèle de régression multiple et estimation par moindres carrés

Notions clés & Définitions

Modèle de régression multiple : Modèle de régression contenant plus d’une variable explicative : il étend la relation du modèle de régression simple à plusieurs variables explicatives.

Points essentiels

Le modèle de régression multiple s’écrit avec K variables explicatives : Yi = β0 + β1 X1i + … + βK XKi + εi.
3- Inférence statistique dans le modèle de régression multiple 3.1- Propriétés et lois de distribution des estimateurs des MCO Si les hypothèses classiques du MRM sont satisfaites, le théorème de Gauss-Markov est vérifié.

À retenir

Le modèle de régression multiple s’écrit avec K variables explicatives : Yi = β0 + β1 X1i + … + βK XKi + εi.

9. Estimation par la méthode du maximum de vraisemblance dans le modèle de régression multiple

Points essentiels

L’approche du maximum de vraisemblance est présentée comme une méthode d’estimation reposant sur une hypothèse sur la distribution de probabilité de εi.
L’estimateur de la variance de l’erreur σ² est relié à une statistique de type χ² : ( ) 2 2 1n K εσ − − χ∼.
La statistique Khi-deux associée à σ² a des degrés de liberté égaux à n−K.
L’encadrement de σ² s’exprime à partir de quantiles de la loi χ² au seuil α% (bornes construites avec χ²(α/2) et χ²(1−α/2)).
Les degrés de liberté apparaissent sous la forme n−K dans la statistique Khi-deux associée à l’estimateur de σ².
La mesure alternative, plus robuste à l’ajout des variables, qui corrige ce problème associé aux degrés de liberté est le coefficient de détermination ajusté ou corrigé 2 R .
L’approche du maximum de vraisemblance est présentée comme alternative d’estimation dans le modèle de régression multiple.
L’estimation de la variance de l’erreur σ² est reliée à une statistique Khi-deux.
L’estimateur de σ² est associé à une statistique de type χ² avec des degrés de liberté dépendant de n et K.
L’intervalle/encadrement de σ² s’exprime via des quantiles χ² (bornes inférieure et supérieure).

À retenir

Dans le modèle de régression multiple, l’estimation MV de la variance de l’erreur σ² est associée à une statistique de type χ² dont les degrés de liberté sont n−K.

10. Tests d’hypothèses sur un ou plusieurs coefficients dans le modèle de régression multiple

Notions clés & Définitions

Test sur plusieurs coefficients : Test visant l’égalité simultanée de certains coefficients de régression à des valeurs fixées, réalisé à l’aide d’une statistique de test de type F.
DANS LE MODELE DE REGRESSION : Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO.

Points essentiels

Pour un seul coefficient kβ, on teste H0 : kβ = βk* contre H1 : kβ ≠ βk*.
La statistique de test pour un seul coefficient est notée ct et s’écrit ct = (β̂k − βk*) / σ(β̂k), avec σ(β̂k) obtenu à partir de la composante correspondant à la kième ligne et la kième colonne de la matrice des variances-covariances.
On rejette H0 pour le test d’un seul coefficient si c t > t(1−α/2; n−K).
Pour tester plusieurs coefficients simultanément, la statistique de test utilisée est la statistique F.
La statistique F est comparée à une valeur critique issue de la table de F au seuil basé sur α.
3245 3840 Sénégal 1990 1995 2000 2005 2546 2875 3241 4329 2013 2398 2564 3089 2.2.3- La notion d’estimateur Puisqu’il est extrêmement coûteux voire impossible d’obtenir des informations concernant les variables sur l’ensemble de la population étudiée, on construit une base de données sur un échantillon de N individus. L’inférence statistique consiste à dériver les valeurs des paramètres de la population à partir des données de l’échantillon. Les valeurs numériques obtenue sont appelées estimateurs des paramètres du modèle. On peut calculer une estimation ponctuelle et obtenir une valeur spécifique de chaque paramètre. On peut également construire des estimations d’intervalle et obtenir alors un intervalle de confiance recouvrant avec une probabilité élevée la valeur réelle du paramètre. La méthode d’estimation dépend de la forme fonctionnelle du modèle (linéaire ou non linéaire) et de la nature des données. 2.3- La vérification de l’adéquation du modèle Avant toute utilisation des estimations à des fins de prévision, il est nécessaire de vérifier son adéquation au phénomène étudié. Il existe des tests statistiques permettant d’apprécier 7 l’écart entre les valeurs estimées et les valeurs réelles des paramètres. Si le modèle n’est pas globalement significatif, on reprend les étapes précédentes de sorte à améliorer la qualité des estimations. Lorsque le modèle est globalement
3.2- Les tests d’hypothèses - Test d’un seul coefficient de régression Le problème consiste à tester la valeur d'un coefficient de régression particulier k β : * 0 * 1 : : k k k k H H β β β β  =  ≠ On calcule ˆ ˆ ˆ k k k ct β β β σ − = avec ( ) 12 2 ˆˆ ˆk kk X X ε βσ σ −  ′=   qui est simplement la composante correspondant à la kième ligne et la kième colonne de la matrice des variances covariances.
Le test sur un ou plusieurs coefficients consiste à comparer une hypothèse nulle portant sur des paramètres de régression à une hypothèse alternative.
Pour un seul coefficient dans le cadre multiple, la statistique de test t est construite à partir de la composante correspondante de la matrice des variances-covariances.
La statistique t est notée ct dans le texte et s’écrit comme un rapport entre (β̂k − βk*) et l’écart-type de β̂k.
Elle permet de déterminer des intervalles de confiance pour des paramètres du modèle ou tester si un paramètre est significativement inférieur, supérieur ou simplement différents d’une valeur fixée ; - la simulation qui mesure l’impact d’une modification de la valeur d’une variable sur une autre ; - la prévision qui est utilisée par les pouvoirs publics ou l’entreprise pour anticiper et éventuellement réagir à l’environnement économique.

À retenir

Dans le modèle de régression multiple, on utilise la statistique t (ct) pour tester un seul coefficient, et la statistique F pour tester simultanément plusieurs coefficients, avec comparaison à une valeur critique issue de la table au seuil α.

11. Prévision et intervalle de confiance de la valeur prédite dans le modèle de régression simple

Notions clés & Définitions

Modèle de régression : Modèle linéaire de régression simple où les paramètres β0 et β1 ne sont pas observés et où le terme d’erreur εi est ajouté au modèle.
Prévision : L’individu i n’a pas d’influence sur celle d’un autre individu.

Points essentiels

L’erreur de prévision pour l’individu i est notée e0 et correspond à e0 = Y0 − Ŷ0, avec E(e0) = 0.
Les erreurs de prévisions ne sont pas corrélées : pour i ≠ j, E(εi, εj) = 0, ce qui signifie que l’erreur de prévision d’un individu n’a pas d’influence sur celle d’un autre.
L’intervalle de confiance de la valeur prédite est construit en tenant compte de la fluctuation d’échantillonnage et de la variance de l’erreur, via un terme qui dépend de n, de X0 et de la variance d’erreur estimée.
La construction de l’intervalle de confiance s’appuie sur la loi de Student lorsque la variance d’erreur est estimée (t intervient dans l’expression de l’intervalle).
3245 3840 Sénégal 1990 1995 2000 2005 2546 2875 3241 4329 2013 2398 2564 3089 2.2.3- La notion d’estimateur Puisqu’il est extrêmement coûteux voire impossible d’obtenir des informations concernant les variables sur l’ensemble de la population étudiée, on construit une base de données sur un échantillon de N individus. L’inférence statistique consiste à dériver les valeurs des paramètres de la population à partir des données de l’échantillon. Les valeurs numériques obtenue sont appelées estimateurs des paramètres du modèle. On peut calculer une estimation ponctuelle et obtenir une valeur spécifique de chaque paramètre. On peut également construire des estimations d’intervalle et obtenir alors un intervalle de confiance recouvrant avec une probabilité élevée la valeur réelle du paramètre. La méthode d’estimation dépend de la forme fonctionnelle du modèle (linéaire ou non linéaire) et de la nature des données. 2.3- La vérification de l’adéquation du modèle Avant toute utilisation des estimations à des fins de prévision, il est nécessaire de vérifier son adéquation au phénomène étudié. Il existe des tests statistiques permettant d’apprécier 7 l’écart entre les valeurs estimées et les valeurs réelles des paramètres. Si le modèle n’est pas globalement significatif, on reprend les étapes précédentes de sorte à améliorer la qualité des estimations. Lorsque le modèle est globalement
- Calculer une prévision et son intervalle de confiance au seuil de 5% pour les valeurs 10 5X = , 20 10X = et 30 20X = 3;10;0,05 0,702 / 3 7,878 3,71 (1 0,702) / 10 F F= = > = − 2p = , 2 1 0,5 B   =  −  2 0,8ˆ 0,38 B   =  −  , 2 ˆ 0,013 0,0012 ˆ 6,745 0,0012 0,004p σΒ   =     = 0,013 0,0012 0,0012 0,004       4- La prévision dans le modèle de régression multiple Le problème consiste à déterminer quelle valeur doit être attribuée à la variable endogène lorsque nous connaissons les valeurs des variables exogènes.
La prévision consiste à utiliser le modèle estimé pour obtenir une valeur prédite de Y à partir de X.
Elle permet de déterminer des intervalles de confiance pour des paramètres du modèle ou tester si un paramètre est significativement inférieur, supérieur ou simplement différents d’une valeur fixée ; - la simulation qui mesure l’impact d’une modification de la valeur d’une variable sur une autre ; - la prévision qui est utilisée par les pouvoirs publics ou l’entreprise pour anticiper et éventuellement réagir à l’environnement économique.

À retenir

La prévision ponctuelle s’obtient à partir des coefficients estimés (Ŷ0 = β̂0 + β̂1X0), tandis que l’intervalle de confiance de la valeur prédite incorpore l’erreur de prévision et la variance de l’erreur, avec recours à la loi de Student via le facteur t lorsque la variance est estimée.

12. Variances, écart-types des estimateurs MCO et qualité de la régression

Notions clés & Définitions

Fonction de régression : Relation entre la variable dépendante et les variables explicatives, exprimée pour la population par E(Yi|Xi)=β0+β1Xi et pour l’échantillon par Ŷi=β̂0+β̂1Xi.
Qualité de la régression : La qualité de la régression 3.1- L’équation d’analyse de la variance On sait que ˆ i i iY Y e= + .

Points essentiels

Les variances et écart-types des estimateurs MCO mesurent la fluctuation d’échantillonnage : les paramètres estimés sont des variables aléatoires dont les valeurs numériques varient d’un échantillon à un autre.
L’écart-type est la racine carrée de la variance.
Lorsque la variance σ²_ε est connue, les variances des paramètres se déduisent directement des formules de variance des estimateurs.
Lorsque σ²_ε n’est pas connue, elle doit être estimée à l’aide de la formule utilisant la somme des carrés résiduelle et les degrés de liberté.
Le nombre de degrés de liberté correspond au nombre d’observations indépendantes.
Chapitre 3 – INFERENCE STATISTIQUE DANS LE MODELE DE REGRESSION SIMPLE Le chapitre précédent a montré comment calculer les valeurs des estimateurs de 0 β , 1 β et 2 εσ par la méthode des MCO. Dans ce chapitre nous étudierons l’efficacité des estimateurs et conduirons des tests d’hypothèse en utilisant la statistique inférentielle, d’où le rappel statistique des notions de base. 1- Rappels Statistiques Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. Elle est régie par une loi de probabilité loi de probabilité loi de probabilité caractérisée par la moyenne et la variance. Soit une population caractérisée par une variable aléatoire Y. Un échantillon aléatoire de taille n de Y est une suite de n variables aléatoires (Y1, Y2, … , Yn) indépendantes et suivant toutes la même loi de probabilité que Y, notée f (Y, β) où β est un paramètre ou un vecteur de paramètres inconnus. C’est une suite de variables aléatoires identiquement et indépendamment distribuées (i.i.d.) de même distribution que la variable aléatoire X. Les n valeurs (y1, y2, . . . , yn) sont les réalisations identifiées aux données de l’échantillon aléatoire des n variables aléatoires (Y1, Y2, … , Yn). L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres β d’une population à partir

À retenir

Les variances et écart-types des estimateurs MCO mesurent la fluctuation d’échantillonnage : les paramètres estimés sont des variables aléatoires dont les valeurs numériques varient d’un échantillon à un autre.

🧩 Compléments de couverture

Dans la fonction de consommation keynésienne, la propension marginale à consommer est supposée inférieure à l’unité : H1 : 0 < dC/dY < 1.
La propension moyenne à consommer décroît avec le revenu : H2 : d(C/Y)/dY < 0.
L’hypothèse d’homoscédasticité est donnée par E(εi2) = σ2 (variance constante du terme d’erreur).
Le coefficient de détermination est défini à partir des sommes des carrés : R^2 = SCE/SCT.
Le Tableau d’analyse de la variance : Source de variation Somme des carrés Degré de liberté Carrées moyens Variation expliquée 26,5SCE = 2 26.
La règle de décision est : 0 Rejet de H0Rejet de H0 Acceptation de H0 t α/2 % tα/2- tα/2 α/2 % (1-α)% 22 Si ( 2), /2c nt t α−> , on rejette Ho et k β est significativement différent de * k β .
Convergence : Lorsque la taille de l’échantillon n tend vers ∞, les estimateurs 0 ˆ β et 1 ˆ β convergent en probabilité vers les valeurs de 0 β et 1 β.
Exemple : La fonction de consommation keynésienne Keynes postule que les dépenses de consommation (C) des ménages dépendent du niveau de leur revenu disponible (Y), C = f(Y)
2 - Un outil d’Investigation L’économétrie n’est pas seulement un système de validation, mais elle est également un outil d’analyse.
Bien que simple à appliquer, la méthode des MCO est populaire parce qu’elle incarne des propriétés intéressantes résumées par le théorème de Gauss-Markov.
Théorème Centrale limite : Supposons qu’il existe Y1, .
Si de plus on se limite à la classe des estimateurs linéaires, un tel estimateur est appelé BLUE (Best Linear Unbiased Estimator).
Il est équivalent de maximiser la vraisemblance L ou ( ) 1 log N i i L f y = = ∑ .
Pour estimer le modèle, il faut soit exclure - la constante : 1 2 1 3 2 4 3 5 4t t t t t t tY X D D D D β β β β β ε= + + + + + ou, - une variable indicatrice : 0 1 2 1 3 2 4 3t t t t t tY X D D D β β β β β ε= + + + + + .
Les étapes de l’analyse économétrique L’analyse économétrique est composée de 3 principales étapes : la spécification du modèle économétrique, l’estimation des paramètres du modèle et les tests d’adéquation du modèle.
5 Exemple d’une coupe d’instantanée des ménages à Abidjan Ménages (i) Revenu (Yi) Consommation (Ci) Quartier (qi) 1 2 3 4 : .
3- Les données de panels 6 Les données de panels ou données longitudinal sont une catégorie particulière de données en coupes instantanées ou chaque unité de l’échantillon est enquêtée dans le temps.
De façon simple, la relation entre X et Y peut s’écrire : 0 1i i iY X β β ε= + + (2.

Tableaux de Synthèse

Économétrie / Modèle	Contenu à maîtriser (issu du résumé)
Rôle de l’économétrie	Ensemble de méthodes statistiques appliquées à l’économie, utilisé pour confronter les énoncés théoriques aux faits observés ; outil de validation mais aussi outil d’analyse.
Validation / contestation des théories	Les théories économiques reposent sur des hypothèses plus ou moins réalistes ; leurs conclusions (prise de décisions, portée positive et souvent normative) doivent être confrontées aux faits observés ; hypothèses contestables → coexistence de théories concurrentes → infirmation ou confirmation.
Théorème de Gauss-Markov (lien avec MCO)	Sous les hypothèses du modèle linéaire de régression simple, les estimateurs MCO ont la plus petite variance parmi tous les estimateurs linéaires sans biais de β0 et β1.
Notions d’inférence (base statistique)	Variable aléatoire : grandeur mesurable soumise à une dispersion lors de la répétition ; loi de probabilité caractérisée par la moyenne et la variance.
Lois utilisées en inférence de régression	Loi normale quand les paramètres sont connus ; loi de Student quand ils sont estimés ; lois Khi-deux issues des erreurs pour les statistiques normalisées (degrés de liberté (n−1) et (n−2) selon le contexte).

Partie du cours	Points clés à relier entre eux
Modèle de régression simple (forme)	Relation simple : Yi = β0 + β1 Xi + εi ; données observées : Xi et Yi ; β0, β1 et εi non observées.
Déviations autour des moyennes	xi = Xi − X̄ et yi = Yi − Ȳ : déviations des variables X et Y par rapport à leurs moyennes.
MCO (estimation)	Résolution du système d’équations simultanées → estimateurs MCO β̂0 et β̂1.
Étapes de l’analyse économétrique	3 étapes : spécification du modèle économétrique, estimation des paramètres du modèle, tests d’adéquation du modèle.
Extension au modèle multiple	Modèle avec K variables explicatives : Yi = β0 + β1 X1i + … + βK XKi + εi.
Estimation par maximum de vraisemblance (MRM)	Hypothèse sur la distribution de εi ; estimateur MV de σ² relié à une statistique de type χ² avec degrés de liberté n−K.

Pièges & Confusions Fréquentes

Confondre économétrie (ensemble de méthodes statistiques appliquées à l’économie) avec une simple “validation” : le résumé précise aussi un outil d’analyse.
Penser que les théories économiques sont “vraies” sans confrontation : elles reposent sur des hypothèses plus ou moins réalistes et doivent être confrontées aux faits observés.
Oublier le lien Gauss-Markov ↔ MCO : le résumé dit que, sous hypothèses du modèle linéaire simple, les MCO ont la plus petite variance parmi les estimateurs linéaires sans biais.
Mélanger données observées et paramètres non observés : Xi et Yi sont observés, tandis que β0, β1 et εi ne le sont pas.
Confondre les lois en inférence : normale si paramètres connus, Student si paramètres estimés, χ² issues des erreurs pour statistiques normalisées.
Se tromper sur les degrés de liberté χ² : le résumé mentionne (n−1) et (n−2) selon le contexte d’estimation, et pour le MRM MV indique n−K.
En tests sur coefficients en régression multiple : distinguer test d’un seul coefficient (statistique notée ct, comparaison à une valeur critique issue d’une table au seuil α/2 avec n−K dans le résumé) vs test sur plusieurs coefficients (statistique F).

Checklist Examen

Définir l’économétrie comme ensemble de méthodes statistiques appliquées à l’économie.
Expliquer pourquoi l’économétrie sert à confronter des énoncés théoriques aux faits observés.
Relier “hypothèses contestables” à la coexistence de théories concurrentes et à l’infirmation/confirmation.
Énoncer le rôle du théorème de Gauss-Markov pour le modèle linéaire simple (plus petite variance parmi estimateurs linéaires sans biais).
Donner la forme du modèle de régression simple Yi = β0 + β1 Xi + εi et préciser ce qui est observé vs non observé.
Utiliser correctement les notations xi = Xi − X̄ et yi = Yi − Ȳ comme déviations autour des moyennes.
Savoir que la méthode des MCO fournit des estimateurs notés β̂0 et β̂1 via la résolution du système d’équations simultanées.
Citer les lois utilisées en inférence dans le modèle simple : normale (paramètres connus), Student (paramètres estimés), Khi-deux issues des erreurs (avec degrés de liberté mentionnés).
Expliquer comment construire un intervalle de confiance pour un paramètre via une statistique Khi-deux (variance d’erreur) et via Student lorsque la quantité normalisée suit une loi de Student.
Formuler le test d’un seul coefficient : H0 : βk = βk* contre H1 : βk ≠ βk*, avec la statistique ct telle que donnée dans le résumé.
Distinguer test d’un seul coefficient vs test simultané sur plusieurs coefficients : ct vs statistique F comparée à une valeur critique issue d’une table au seuil basé sur α.
Pour le modèle multiple : écrire Yi = β0 + β1 X1i + … + βK XKi + εi et rappeler que l’estimation MV relie σ² à une statistique χ² avec degrés de liberté n−K.

📋 Plan du Cours

📖 1. Rôle et fonctions de l’économétrie dans l’analyse économique

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 2. Modèle linéaire de régression simple avec terme d’erreur et hypothèses associées

📝 Points essentiels

💡 À retenir

📖 3. Méthode des moindres carrés ordinaires (MCO) pour l’estimation des paramètres

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 4. Analyse de la variance et coefficient de détermination dans le modèle simple

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 5. Notions statistiques de base pour l’inférence dans le modèle de régression simple

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 6. Construction des intervalles de confiance pour les paramètres du modèle

📝 Points essentiels

💡 À retenir

📖 7. Tests d’hypothèses statistiques et tests d’égalité des variances dans le modèle simple

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 8. Extension au modèle de régression multiple et estimation par moindres carrés

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 9. Estimation par la méthode du maximum de vraisemblance dans le modèle de régression multiple

📝 Points essentiels

💡 À retenir

📖 10. Tests d’hypothèses sur un ou plusieurs coefficients dans le modèle de régression multiple

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 11. Prévision et intervalle de confiance de la valeur prédite dans le modèle de régression simple

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

📖 12. Variances, écart-types des estimateurs MCO et qualité de la régression

🔑 Notions clés & Définitions

📝 Points essentiels

💡 À retenir

🧩 Compléments de couverture

📊 Tableaux de Synthèse

⚠️ Pièges & Confusions Fréquentes

✅ Checklist Examen

Test your knowledge

Review with flashcards

Similar courses

Lexique des ressources humaines

Économétrie et régression linéaire

Absentéisme en entreprise

Disposal of Non-Current Assets

Marchés et financement des entreprises

Les externalités et les défaillances du marché

Create your own revision sheets

Plan du Cours

1. Rôle et fonctions de l’économétrie dans l’analyse économique

Notions clés & Définitions

Points essentiels

À retenir

2. Modèle linéaire de régression simple avec terme d’erreur et hypothèses associées

Points essentiels

À retenir

3. Méthode des moindres carrés ordinaires (MCO) pour l’estimation des paramètres

Notions clés & Définitions

Points essentiels

À retenir

4. Analyse de la variance et coefficient de détermination dans le modèle simple

Notions clés & Définitions

Points essentiels

À retenir

5. Notions statistiques de base pour l’inférence dans le modèle de régression simple

Notions clés & Définitions

Points essentiels

À retenir

6. Construction des intervalles de confiance pour les paramètres du modèle

Points essentiels

À retenir

7. Tests d’hypothèses statistiques et tests d’égalité des variances dans le modèle simple

Notions clés & Définitions

Points essentiels

À retenir

8. Extension au modèle de régression multiple et estimation par moindres carrés

Notions clés & Définitions

Points essentiels

À retenir

9. Estimation par la méthode du maximum de vraisemblance dans le modèle de régression multiple

Points essentiels

À retenir

10. Tests d’hypothèses sur un ou plusieurs coefficients dans le modèle de régression multiple

Notions clés & Définitions

Points essentiels

À retenir

11. Prévision et intervalle de confiance de la valeur prédite dans le modèle de régression simple

Notions clés & Définitions

Points essentiels

À retenir

12. Variances, écart-types des estimateurs MCO et qualité de la régression

Notions clés & Définitions

Points essentiels

À retenir

Tableaux de Synthèse

Pièges & Confusions Fréquentes

Checklist Examen