Hoja de repaso: Introduction aux variables et analyses statistiques urbaines

📋 Plan du Cours

  1. Types de variables et importance urbaine
  2. Présentation des données et tableaux de fréquences
  3. Régression linéaire simple et MCO
  4. Coefficient de détermination et tests de significativité
  5. Régression linéaire multiple et diagnostics
  6. Statistiques spatiales et indices de Moran
  7. Variogramme et portée pour la géostatistique

📖 1. Types de variables et importance urbaine

🔑 Notions clés & Définitions

  • Variable qualitative : Une variable qualitative décrit une caractéristique sous forme de catégories ou de modalités, sans ordre numérique naturel.
  • Variable quantitative : Une variable quantitative mesure une grandeur et s’exprime par des valeurs numériques exploitables pour des calculs statistiques.
  • Tableaux de fréquences : Un tableau de fréquences résume, pour chaque modalité ou classe, le nombre d’observations et souvent leur proportion.
  • Diagrammes en barres : Un diagramme en barres représente visuellement les effectifs ou fréquences de catégories à l’aide de barres de hauteur proportionnelle.

📝 Points essentiels

  • En aménagement urbain, les variables qualitatives servent à classer des situations (ex. types d’usage), tandis que les variables quantitatives servent à mesurer des niveaux (ex. densité, distances).
  • Les tableaux de fréquences permettent de passer rapidement de la liste des données à une vue synthétique des modalités et de leurs proportions.
  • Les diagrammes en barres facilitent la comparaison visuelle des catégories entre elles grâce à des hauteurs directement comparables.
  • La statistique est essentielle en sciences de la Terre et en aménagement du territoire pour gérer l’incertitude, synthétiser de grandes masses de données et soutenir la décision publique.

💡 Astuce mémo

Qualitatif = Catégories ; Quantitatif = Quantités (nombres).

📖 2. Présentation des données et tableaux de fréquences

🔑 Notions clés & Définitions

  • Tableau de fréquences : Un tableau de fréquences résume la répartition des observations selon des modalités ou des classes en listant effectifs et fréquences.
  • Fréquence relative : La fréquence relative exprime la part d’une modalité ou d’une classe dans l’ensemble des observations.
  • Diagramme en barres : Un diagramme en barres visualise des données qualitatives ou quantitatives discrètes avec des rectangles dont la hauteur reflète les effectifs ou fréquences.
  • Histogramme : Un histogramme représente une variable quantitative continue regroupée en classes, avec des rectangles accolés pour suggérer la continuité.

📝 Points essentiels

  • Un tableau de fréquences peut contenir des effectifs, des fréquences absolues, des fréquences relatives et des pourcentages cumulés.
  • Les tableaux de fréquences servent à repérer les catégories dominantes, repérer des déséquilibres et préparer des représentations graphiques ou cartographiques.
  • Le diagramme en barres utilise des rectangles séparés et convient aux variables qualitatives ou aux variables quantitatives discrètes.
  • L’histogramme regroupe une variable quantitative continue en classes et utilise des rectangles accolés pour montrer la continuité des valeurs.

💡 Astuce mémo

Barres = séparées (catégories/discret) ; Histogramme = accolées (continu).

📖 3. Régression linéaire simple et MCO

🔑 Notions clés & Définitions

  • Moyenne arithmétique : La moyenne arithmétique est la somme des valeurs divisée par l’effectif, utilisée pour résumer une série quantitative.
  • Médiane : La médiane est la valeur qui partage une série ordonnée en deux groupes d’effectifs égaux.
  • Mode : Le mode est la valeur (ou la classe) la plus fréquente dans une série statistique.
  • Z-score : Le Z-score mesure l’écart d’une valeur à la moyenne en nombre d’écarts-types, via une variable centrée réduite.

📝 Points essentiels

  • La moyenne arithmétique s’écrit 5x = \frac{1}{n}\sum_{i=1}^{n} x_i et, pour des données groupées, xˉ=i=1kfimii=1kfi\bar{x}=\frac{\sum_{i=1}^{k} f_i m_i}{\sum_{i=1}^{k} f_i}.
  • La médiane se calcule différemment selon la parité de nn : si nn impair Me=xn+12M_e=x_{\frac{n+1}{2}}, si nn pair Me=xn2+xn2+12M_e=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}.
  • Le mode correspond à la valeur la plus fréquente et peut s’appliquer aux variables qualitatives comme quantitatives.
  • Le Z-score se calcule par Z=xixˉsZ=\frac{x_i-\bar{x}}{s} et Z>2|Z|>2 signale une valeur éloignée, tandis que Z>3|Z|>3 signale une valeur très éloignée (souvent considérée aberrante).
  • Le Z-score permet d’interpréter le signe : Z>0Z>0 au-dessus de la moyenne, Z<0Z<0 en dessous, et Z=0Z=0 exactement sur la moyenne.

💡 Astuce mémo

Médiane = milieu (50/50), Z-score = distance en écarts-types : Z=0Z=0 au centre, Z|Z| grand = valeur atypique.

📖 4. Coefficient de détermination et tests de significativité

🔑 Notions clés & Définitions

  • Coefficient de détermination : Le coefficient de détermination R2R^2 mesure la part de la variance expliquée par un modèle par rapport à la variance totale.
  • Test de significativité : Un test de significativité évalue si un effet observé est suffisamment grand pour être attribué au hasard ou s’il reflète une relation réelle.
  • Z-score : Le Z-score standardise une valeur en indiquant combien d’écarts-types elle s’éloigne de la moyenne.
  • Valeur atypique : Une valeur atypique est une observation très éloignée du reste, souvent révélée par un Z-score très grand en valeur absolue.

📝 Points essentiels

  • Un Z-score proche de 0 (ici entre −0,5 et 0) indique un temps de déplacement proche de la moyenne.
  • Un Z-score de +2,46 signifie une observation située à plus de 2,4 écarts-types au-dessus de la moyenne, donc atypique.
  • Un Z-score très élevé isole une observation éloignée des autres et justifie une analyse spécifique (données, accessibilité, erreur de mesure).
  • Le Z-score est particulièrement pertinent quand la distribution est normale ou proche de la normale, mais peut perdre en sensibilité si des extrêmes gonflent l’écart-type.
  • En cas de distribution fortement asymétrique, on peut préférer un Z-score médian basé sur la médiane et l’écart absolu médian (MAD) : Zmad=(xiMdiane)/MADZ_{mad}=(x_i-M_{diane})/MAD.
  • Les Z-scores servent aussi à normaliser des variables de mesures différentes pour construire des indices composites par somme pondérée de Z-scores.

💡 Astuce mémo

Z-score = distance à la moyenne en « nombre d’écarts-types » : près de 0 = normal, grand (ex. +2,46) = atypique.

📖 5. Régression linéaire multiple et diagnostics

🔑 Notions clés & Définitions

  • Régression linéaire multiple : Modèle statistique qui relie une variable dépendante Y à plusieurs variables explicatives X1…Xk via une combinaison linéaire et un terme d’erreur.
  • Estimateur MCO matriciel : Formule des moindres carrés ordinaires qui calcule les paramètres de la régression multiple à partir de (X^T X)^{-1}X^T Y.
  • R2 ajusté : Version du coefficient de détermination qui pénalise l’ajout de variables explicatives pour éviter l’augmentation mécanique de R2.
  • Facteur d’Inflation de la Variance VIF : Indicateur de multicolinéarité qui mesure à quel point la variance d’un coefficient est amplifiée par la corrélation avec les autres variables.

📝 Points essentiels

  • Modèle multiple : Yi=β0+β1Xi1++βkXik+εiY_i=\beta_0+\beta_1X_{i1}+\cdots+\beta_kX_{ik}+\varepsilon_i et en matrice Y=Xβ+εY=X\beta+\varepsilon avec une colonne de 1 pour l’intercept.
  • Estimateur MCO : β^=(XTX)1XTY\hat\beta=(X^T X)^{-1}X^T Y.
  • Test global de Fisher : sous H0:β1==βk=0H_0: \beta_1=\cdots=\beta_k=0, F=R2/k(1R2)/(nk1)F(k,nk1)F=\dfrac{R^2/k}{(1-R^2)/(n-k-1)}\sim F(k,n-k-1).
  • Tests individuels : pour chaque β^j\hat\beta_j, tj=β^j/sβ^jtnk1t_j=\hat\beta_j/s\hat\beta_j\sim t_{n-k-1} sous H0:βj=0H_0: \beta_j=0.
  • Diagnostics du modèle : linéarité (résidus/ajustés), homoscédasticité (Breusch-Pagan), normalité (Shapiro-Wilk/QQ-plot), indépendance (Durbin-Watson), multicolinéarité (VIF>10).

💡 Astuce mémo

Fisher = test de tout le modèle (R2) ; Student = test d’un coefficient (βj) ; VIF signale la multicolinéarité (seuil 10).

📖 6. Statistiques spatiales et indices de Moran

🔑 Notions clés & Définitions

  • Autocorrélation spatiale : Notion d’analyse spatiale où des valeurs proches géographiquement tendent à se ressembler davantage que des valeurs éloignées.
  • Hétérogénéité spatiale : Notion d’analyse spatiale où les relations entre variables changent selon la position dans l’espace.
  • Indice de Moran : Statistique d’autocorrélation spatiale qui mesure si une variable présente un regroupement spatial, une dispersion ou un motif proche du hasard.

📝 Points essentiels

  • L’autocorrélation spatiale s’appuie sur l’idée que des objets proches se ressemblent davantage (loi de Tobler).
  • L’hétérogénéité spatiale signifie que les relations ne sont pas constantes partout dans l’espace.
  • L’indice de Moran II se calcule à partir des écarts à la moyenne (xixˉ)(x_i-\bar x) pondérés par une matrice de voisinage wijw_{ij}.
  • Interprétation de II : I>0I>0 indique une autocorrélation positive (regroupement), I<0I<0 une autocorrélation négative (dispersion), et I0I\approx 0 une structure proche du hasard.

💡 Astuce mémo

Moran = signe du motif : + = regroupement, − = dispersion, ≈0 = hasard.

📖 7. Variogramme et portée pour la géostatistique

🔑 Notions clés & Définitions

  • Variogramme expérimental : Le variogramme expérimental décrit comment la semi-variance change quand la distance hh entre deux observations augmente.
  • Semi-variance γ(h) : La semi-variance γ(h) quantifie la moyenne des carrés des écarts entre valeurs séparées par une distance hh.
  • Effet de pépite : L’effet de pépite est la valeur du variogramme à h=0h=0, liée aux erreurs de mesure et aux variations très locales.
  • Portée : La portée est la distance à partir de laquelle le variogramme se stabilise, indiquant la fin de la corrélation spatiale.

📝 Points essentiels

  • La semi-variance se calcule par γ(h)=12N(h)i=1N(h)[Z(xi)Z(xi+h)]2\gamma(h)=\frac{1}{2N(h)}\sum_{i=1}^{N(h)}[Z(x_i)-Z(x_i+h)]^2.
  • Dans l’exemple PM2.5, γ(0)=2\gamma(0)=2 correspond à l’effet de pépite.
  • Dans l’exemple PM2.5, le palier est atteint autour de 1818, soit la variance maximale observée.
  • Dans l’exemple PM2.5, la stabilisation commence vers h=5h=5 km, ce qui donne une portée d’environ 55 km.
  • Interprétation urbaine : jusqu’à ~5 km, les stations restent spatialement corrélées, puis les concentrations deviennent quasi indépendantes.

💡 Astuce mémo

Pépite = γ(0)\gamma(0) (bruit local), Portée ≈ distance où γ(h)\gamma(h) “plafonne” (fin de la corrélation).

📊 Tableaux de synthèse

Qualitatif vs quantitatif (et sous-types)

TypeSous-typeCaractéristiquesExemples urbains
QualitativeNominaleCatégories sans ordre hiérarchique ; opérations arithmétiques impossiblesType d’occupation du sol ; type d’habitat ; mode de transport
QualitativeOrdin aleCatégories ordonnées ; écarts non mesurablesNiveau d’équipement urbain ; état du logement ; niveau de risque d’inondation
QuantitativeDiscrèteValeurs entières dénombrables (comptage) ; décimales sans significationNombre d’habitants ; nombre de logements ; nombre d’accidents
QuantitativeContinueValeurs mesurables continues (infinité dans un intervalle)Superficie ; distance ; densité ; température ; temps de déplacement

Représentations graphiques : quand les utiliser

ReprésentationDonnéesBarres/rectanglesBut
Tableau de fréquencesModalités ou classesRésumer effectifs, fréquences absolues/relatives et pourcentages cumulés
Diagramme en barresQualitatives ou quantitatives discrètesRectangles séparésComparer visuellement les catégories (hauteur proportionnelle aux effectifs/fréquences)
HistogrammeQuantitatives continues regroupéesRectangles accolésMontrer la continuité et la structure des distributions
Diagramme circulaireQualitativeSecteurs proportionnelsMontrer les proportions relatives des catégories

⚠️ Pièges & confusions fréquents

  1. Confondre variable qualitative nominale et ordinale : l’ordinal implique un ordre logique, mais les écarts entre catégories ne sont pas mesurables.
  2. Utiliser un diagramme en barres pour une variable quantitative continue : l’histogramme (rectangles accolés) est attendu pour la continuité.
  3. Interpréter le Z-score sans tenir compte de la distribution : il est surtout pertinent quand la distribution est normale ou proche de la normale.
  4. Croire que |Z|>2 signifie automatiquement une valeur aberrante : le cours distingue |Z|>2 (éloignée) et |Z|>3 (souvent considérée aberrante).
  5. Mélanger R² et R² ajusté en régression multiple : R² augmente mécaniquement avec le nombre de variables, d’où l’intérêt de R² ajusté.
  6. Inverser les tests : Fisher teste globalement H0: β1=…=βk=0, tandis que Student teste individuellement chaque βj.
  7. Interpréter l’indice de Moran sans signe : I>0 regroupe, I<0 disperse, et I≈0 correspond à une structure proche du hasard.

✅ Checklist Examen

  1. Distinguer variable qualitative (nominale/ordinale) et variable quantitative (discrète/continue) et donner des exemples urbains adaptés.
  2. Choisir la bonne représentation pour des données : tableau de fréquences, diagramme en barres, histogramme, diagramme circulaire, et expliquer le rôle des effectifs/fréquences.
  3. Calculer et interpréter la moyenne arithmétique, la médiane (cas n impair/pair) et le mode (valeur ou classe la plus fréquente).
  4. Calculer l’étendue, la variance et l’écart-type, puis le coefficient de variation CV et interpréter les seuils donnés.
  5. Calculer le Z-score avec la formule Z=(xi- x̄)/s et interpréter le signe et les seuils |Z|>2 et |Z|>3.
  6. Identifier les composantes d’une série chronologique (tendance, saisonnalité, cyclicité, bruit) et distinguer modèle additif vs multiplicatif.
  7. Réaliser un lissage par moyenne mobile d’ordre 3 (ou généraliser) et interpréter ce que cela fait aux fluctuations aléatoires.
  8. Définir population, échantillon et unité statistique, puis décrire le processus d’échantillonnage et comparer aléatoire simple, stratifié, systématique, en grappes.
  9. Calculer/interpréter le coefficient de corrélation de Pearson r et relier son signe et sa force à la relation linéaire.
  10. Écrire le modèle de régression linéaire simple, calculer les estimateurs MCO (β0, β1), puis R² et interpréter la part de variance expliquée.
  11. Effectuer les tests en régression : test de significativité de la pente (Student) et test global Fisher en régression multiple, puis interpréter VIF>10.
  12. En statistiques spatiales, interpréter l’indice de Moran (signe) et, en géostatistique, identifier effet de pépite γ(0), palier et portée à partir du variogramme expérimental.

Pon a prueba tus conocimientos

Pon a prueba tus conocimientos sobre Introduction aux variables et analyses statistiques urbaines con 11 preguntas de opción múltiple con correcciones detalladas.

1. Quelle distinction décrit correctement une variable qualitative ?

2. Quelle est la définition d'une variable qualitative en statistiques urbaines?

Realiza el cuestionario →

Repasa con tarjetas de memoria

Memoriza los conceptos clave de Introduction aux variables et analyses statistiques urbaines con 9 tarjetas de memoria interactivas.

Variables qualitatives — définition ?

Catégories sans ordre numérique naturel.

Variable qualitative

Caractéristique en catégories, sans ordre numérique.

Tableaux de fréquences — rôle ?

Synthétisent la répartition des modalités.

Ver tarjetas de memoria →

Similar courses

Crea tus propias hojas de repaso

Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.

Generador de hojas