Revision Sheet: Introduction aux variables et analyses statistiques urbaines

Plan du Cours

Types de variables et importance urbaine
Présentation des données et tableaux de fréquences
Régression linéaire simple et MCO
Coefficient de détermination et tests de significativité
Régression linéaire multiple et diagnostics
Statistiques spatiales et indices de Moran
Variogramme et portée pour la géostatistique

1. Types de variables et importance urbaine

Notions clés & Définitions

Variable qualitative : Une variable qualitative décrit une caractéristique sous forme de catégories ou de modalités, sans ordre numérique naturel.
Variable quantitative : Une variable quantitative mesure une grandeur et s’exprime par des valeurs numériques exploitables pour des calculs statistiques.
Tableaux de fréquences : Un tableau de fréquences résume, pour chaque modalité ou classe, le nombre d’observations et souvent leur proportion.
Diagrammes en barres : Un diagramme en barres représente visuellement les effectifs ou fréquences de catégories à l’aide de barres de hauteur proportionnelle.

Points essentiels

En aménagement urbain, les variables qualitatives servent à classer des situations (ex. types d’usage), tandis que les variables quantitatives servent à mesurer des niveaux (ex. densité, distances).
Les tableaux de fréquences permettent de passer rapidement de la liste des données à une vue synthétique des modalités et de leurs proportions.
Les diagrammes en barres facilitent la comparaison visuelle des catégories entre elles grâce à des hauteurs directement comparables.
La statistique est essentielle en sciences de la Terre et en aménagement du territoire pour gérer l’incertitude, synthétiser de grandes masses de données et soutenir la décision publique.

Astuce mémo

Qualitatif = Catégories ; Quantitatif = Quantités (nombres).

2. Présentation des données et tableaux de fréquences

Notions clés & Définitions

Tableau de fréquences : Un tableau de fréquences résume la répartition des observations selon des modalités ou des classes en listant effectifs et fréquences.
Fréquence relative : La fréquence relative exprime la part d’une modalité ou d’une classe dans l’ensemble des observations.
Diagramme en barres : Un diagramme en barres visualise des données qualitatives ou quantitatives discrètes avec des rectangles dont la hauteur reflète les effectifs ou fréquences.
Histogramme : Un histogramme représente une variable quantitative continue regroupée en classes, avec des rectangles accolés pour suggérer la continuité.

Points essentiels

Un tableau de fréquences peut contenir des effectifs, des fréquences absolues, des fréquences relatives et des pourcentages cumulés.
Les tableaux de fréquences servent à repérer les catégories dominantes, repérer des déséquilibres et préparer des représentations graphiques ou cartographiques.
Le diagramme en barres utilise des rectangles séparés et convient aux variables qualitatives ou aux variables quantitatives discrètes.
L’histogramme regroupe une variable quantitative continue en classes et utilise des rectangles accolés pour montrer la continuité des valeurs.

Astuce mémo

Barres = séparées (catégories/discret) ; Histogramme = accolées (continu).

3. Régression linéaire simple et MCO

Notions clés & Définitions

Moyenne arithmétique : La moyenne arithmétique est la somme des valeurs divisée par l’effectif, utilisée pour résumer une série quantitative.
Médiane : La médiane est la valeur qui partage une série ordonnée en deux groupes d’effectifs égaux.
Mode : Le mode est la valeur (ou la classe) la plus fréquente dans une série statistique.
Z-score : Le Z-score mesure l’écart d’une valeur à la moyenne en nombre d’écarts-types, via une variable centrée réduite.

Points essentiels

La moyenne arithmétique s’écrit $5x = \frac{1}{n}\sum_{i=1}^{n} x_i$ et, pour des données groupées, $\bar{x}=\frac{\sum_{i=1}^{k} f_i m_i}{\sum_{i=1}^{k} f_i}$ .
La médiane se calcule différemment selon la parité de $n$ : si $n$ impair $M_e=x_{\frac{n+1}{2}}$ , si $n$ pair $M_e=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$ .
Le mode correspond à la valeur la plus fréquente et peut s’appliquer aux variables qualitatives comme quantitatives.
Le Z-score se calcule par $Z=\frac{x_i-\bar{x}}{s}$ et $|Z|>2$ signale une valeur éloignée, tandis que $|Z|>3$ signale une valeur très éloignée (souvent considérée aberrante).
Le Z-score permet d’interpréter le signe : $Z>0$ au-dessus de la moyenne, $Z<0$ en dessous, et $Z=0$ exactement sur la moyenne.

Astuce mémo

Médiane = milieu (50/50), Z-score = distance en écarts-types : $Z=0$ au centre, $|Z|$ grand = valeur atypique.

4. Coefficient de détermination et tests de significativité

Notions clés & Définitions

Coefficient de détermination : Le coefficient de détermination $R^2$ mesure la part de la variance expliquée par un modèle par rapport à la variance totale.
Test de significativité : Un test de significativité évalue si un effet observé est suffisamment grand pour être attribué au hasard ou s’il reflète une relation réelle.
Z-score : Le Z-score standardise une valeur en indiquant combien d’écarts-types elle s’éloigne de la moyenne.
Valeur atypique : Une valeur atypique est une observation très éloignée du reste, souvent révélée par un Z-score très grand en valeur absolue.

Points essentiels

Un Z-score proche de 0 (ici entre −0,5 et 0) indique un temps de déplacement proche de la moyenne.
Un Z-score de +2,46 signifie une observation située à plus de 2,4 écarts-types au-dessus de la moyenne, donc atypique.
Un Z-score très élevé isole une observation éloignée des autres et justifie une analyse spécifique (données, accessibilité, erreur de mesure).
Le Z-score est particulièrement pertinent quand la distribution est normale ou proche de la normale, mais peut perdre en sensibilité si des extrêmes gonflent l’écart-type.
En cas de distribution fortement asymétrique, on peut préférer un Z-score médian basé sur la médiane et l’écart absolu médian (MAD) : $Z_{mad}=(x_i-M_{diane})/MAD$ .
Les Z-scores servent aussi à normaliser des variables de mesures différentes pour construire des indices composites par somme pondérée de Z-scores.

Astuce mémo

Z-score = distance à la moyenne en « nombre d’écarts-types » : près de 0 = normal, grand (ex. +2,46) = atypique.

5. Régression linéaire multiple et diagnostics

Notions clés & Définitions

Régression linéaire multiple : Modèle statistique qui relie une variable dépendante Y à plusieurs variables explicatives X1…Xk via une combinaison linéaire et un terme d’erreur.
Estimateur MCO matriciel : Formule des moindres carrés ordinaires qui calcule les paramètres de la régression multiple à partir de (X^T X)^{-1}X^T Y.
R2 ajusté : Version du coefficient de détermination qui pénalise l’ajout de variables explicatives pour éviter l’augmentation mécanique de R2.
Facteur d’Inflation de la Variance VIF : Indicateur de multicolinéarité qui mesure à quel point la variance d’un coefficient est amplifiée par la corrélation avec les autres variables.

Points essentiels

Modèle multiple : $Y_i=\beta_0+\beta_1X_{i1}+\cdots+\beta_kX_{ik}+\varepsilon_i$ et en matrice $Y=X\beta+\varepsilon$ avec une colonne de 1 pour l’intercept.
Estimateur MCO : $\hat\beta=(X^T X)^{-1}X^T Y$ .
Test global de Fisher : sous $H_0: \beta_1=\cdots=\beta_k=0$ , $F=\dfrac{R^2/k}{(1-R^2)/(n-k-1)}\sim F(k,n-k-1)$ .
Tests individuels : pour chaque $\hat\beta_j$ , $t_j=\hat\beta_j/s\hat\beta_j\sim t_{n-k-1}$ sous $H_0: \beta_j=0$ .
Diagnostics du modèle : linéarité (résidus/ajustés), homoscédasticité (Breusch-Pagan), normalité (Shapiro-Wilk/QQ-plot), indépendance (Durbin-Watson), multicolinéarité (VIF>10).

Astuce mémo

Fisher = test de tout le modèle (R2) ; Student = test d’un coefficient (βj) ; VIF signale la multicolinéarité (seuil 10).

6. Statistiques spatiales et indices de Moran

Notions clés & Définitions

Autocorrélation spatiale : Notion d’analyse spatiale où des valeurs proches géographiquement tendent à se ressembler davantage que des valeurs éloignées.
Hétérogénéité spatiale : Notion d’analyse spatiale où les relations entre variables changent selon la position dans l’espace.
Indice de Moran : Statistique d’autocorrélation spatiale qui mesure si une variable présente un regroupement spatial, une dispersion ou un motif proche du hasard.

Points essentiels

L’autocorrélation spatiale s’appuie sur l’idée que des objets proches se ressemblent davantage (loi de Tobler).
L’hétérogénéité spatiale signifie que les relations ne sont pas constantes partout dans l’espace.
L’indice de Moran $I$ se calcule à partir des écarts à la moyenne $(x_i-\bar x)$ pondérés par une matrice de voisinage $w_{ij}$ .
Interprétation de $I$ : $I>0$ indique une autocorrélation positive (regroupement), $I<0$ une autocorrélation négative (dispersion), et $I\approx 0$ une structure proche du hasard.

Astuce mémo

Moran = signe du motif : + = regroupement, − = dispersion, ≈0 = hasard.

7. Variogramme et portée pour la géostatistique

Notions clés & Définitions

Variogramme expérimental : Le variogramme expérimental décrit comment la semi-variance change quand la distance $h$ entre deux observations augmente.
Semi-variance γ(h) : La semi-variance γ(h) quantifie la moyenne des carrés des écarts entre valeurs séparées par une distance $h$ .
Effet de pépite : L’effet de pépite est la valeur du variogramme à $h=0$ , liée aux erreurs de mesure et aux variations très locales.
Portée : La portée est la distance à partir de laquelle le variogramme se stabilise, indiquant la fin de la corrélation spatiale.

Points essentiels

La semi-variance se calcule par $\gamma(h)=\frac{1}{2N(h)}\sum_{i=1}^{N(h)}[Z(x_i)-Z(x_i+h)]^2$ .
Dans l’exemple PM2.5, $\gamma(0)=2$ correspond à l’effet de pépite.
Dans l’exemple PM2.5, le palier est atteint autour de $18$ , soit la variance maximale observée.
Dans l’exemple PM2.5, la stabilisation commence vers $h=5$ km, ce qui donne une portée d’environ $5$ km.
Interprétation urbaine : jusqu’à ~5 km, les stations restent spatialement corrélées, puis les concentrations deviennent quasi indépendantes.

Astuce mémo

Pépite = $\gamma(0)$ (bruit local), Portée ≈ distance où $\gamma(h)$ “plafonne” (fin de la corrélation).

Tableaux de synthèse

Qualitatif vs quantitatif (et sous-types)

Type	Sous-type	Caractéristiques	Exemples urbains
Qualitative	Nominale	Catégories sans ordre hiérarchique ; opérations arithmétiques impossibles	Type d’occupation du sol ; type d’habitat ; mode de transport
Qualitative	Ordin ale	Catégories ordonnées ; écarts non mesurables	Niveau d’équipement urbain ; état du logement ; niveau de risque d’inondation
Quantitative	Discrète	Valeurs entières dénombrables (comptage) ; décimales sans signification	Nombre d’habitants ; nombre de logements ; nombre d’accidents
Quantitative	Continue	Valeurs mesurables continues (infinité dans un intervalle)	Superficie ; distance ; densité ; température ; temps de déplacement

Représentations graphiques : quand les utiliser

Représentation	Données	Barres/rectangles	But
Tableau de fréquences	Modalités ou classes	—	Résumer effectifs, fréquences absolues/relatives et pourcentages cumulés
Diagramme en barres	Qualitatives ou quantitatives discrètes	Rectangles séparés	Comparer visuellement les catégories (hauteur proportionnelle aux effectifs/fréquences)
Histogramme	Quantitatives continues regroupées	Rectangles accolés	Montrer la continuité et la structure des distributions
Diagramme circulaire	Qualitative	Secteurs proportionnels	Montrer les proportions relatives des catégories

Pièges & confusions fréquents

Confondre variable qualitative nominale et ordinale : l’ordinal implique un ordre logique, mais les écarts entre catégories ne sont pas mesurables.
Utiliser un diagramme en barres pour une variable quantitative continue : l’histogramme (rectangles accolés) est attendu pour la continuité.
Interpréter le Z-score sans tenir compte de la distribution : il est surtout pertinent quand la distribution est normale ou proche de la normale.
Croire que |Z|>2 signifie automatiquement une valeur aberrante : le cours distingue |Z|>2 (éloignée) et |Z|>3 (souvent considérée aberrante).
Mélanger R² et R² ajusté en régression multiple : R² augmente mécaniquement avec le nombre de variables, d’où l’intérêt de R² ajusté.
Inverser les tests : Fisher teste globalement H0: β1=…=βk=0, tandis que Student teste individuellement chaque βj.
Interpréter l’indice de Moran sans signe : I>0 regroupe, I<0 disperse, et I≈0 correspond à une structure proche du hasard.

Checklist Examen

Distinguer variable qualitative (nominale/ordinale) et variable quantitative (discrète/continue) et donner des exemples urbains adaptés.
Choisir la bonne représentation pour des données : tableau de fréquences, diagramme en barres, histogramme, diagramme circulaire, et expliquer le rôle des effectifs/fréquences.
Calculer et interpréter la moyenne arithmétique, la médiane (cas n impair/pair) et le mode (valeur ou classe la plus fréquente).
Calculer l’étendue, la variance et l’écart-type, puis le coefficient de variation CV et interpréter les seuils donnés.
Calculer le Z-score avec la formule Z=(xi- x̄)/s et interpréter le signe et les seuils |Z|>2 et |Z|>3.
Identifier les composantes d’une série chronologique (tendance, saisonnalité, cyclicité, bruit) et distinguer modèle additif vs multiplicatif.
Réaliser un lissage par moyenne mobile d’ordre 3 (ou généraliser) et interpréter ce que cela fait aux fluctuations aléatoires.
Définir population, échantillon et unité statistique, puis décrire le processus d’échantillonnage et comparer aléatoire simple, stratifié, systématique, en grappes.
Calculer/interpréter le coefficient de corrélation de Pearson r et relier son signe et sa force à la relation linéaire.
Écrire le modèle de régression linéaire simple, calculer les estimateurs MCO (β0, β1), puis R² et interpréter la part de variance expliquée.
Effectuer les tests en régression : test de significativité de la pente (Student) et test global Fisher en régression multiple, puis interpréter VIF>10.
En statistiques spatiales, interpréter l’indice de Moran (signe) et, en géostatistique, identifier effet de pépite γ(0), palier et portée à partir du variogramme expérimental.

📋 Plan du Cours

📖 1. Types de variables et importance urbaine

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 2. Présentation des données et tableaux de fréquences

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 3. Régression linéaire simple et MCO

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 4. Coefficient de détermination et tests de significativité

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 5. Régression linéaire multiple et diagnostics

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 6. Statistiques spatiales et indices de Moran

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 7. Variogramme et portée pour la géostatistique

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📊 Tableaux de synthèse

Qualitatif vs quantitatif (et sous-types)

Représentations graphiques : quand les utiliser

⚠️ Pièges & confusions fréquents

✅ Checklist Examen

Test your knowledge

Review with flashcards

Similar courses

Les fractions

Introduction à la biochimie

Le toucher au cœur de l’humanité

Éclairage et confort du logement

Développer et factoriser

Les lipides dans la matière vivante

Create your own revision sheets

Plan du Cours

1. Types de variables et importance urbaine

Notions clés & Définitions

Points essentiels

Astuce mémo

2. Présentation des données et tableaux de fréquences

Notions clés & Définitions

Points essentiels

Astuce mémo

3. Régression linéaire simple et MCO

Notions clés & Définitions

Points essentiels

Astuce mémo

4. Coefficient de détermination et tests de significativité

Notions clés & Définitions

Points essentiels

Astuce mémo

5. Régression linéaire multiple et diagnostics

Notions clés & Définitions

Points essentiels

Astuce mémo

6. Statistiques spatiales et indices de Moran

Notions clés & Définitions

Points essentiels

Astuce mémo

7. Variogramme et portée pour la géostatistique

Notions clés & Définitions

Points essentiels

Astuce mémo

Tableaux de synthèse

Pièges & confusions fréquents

Checklist Examen