Hoja de repaso: Introduction à la statistique descriptive

📋 Plan du Cours

  1. Variabilité des individus et besoin d’échantillons
  2. Exemples de hasard et différences entre moyennes
  3. Pourquoi utiliser R pour l’analyse statistique
  4. RStudio : interface et exécution des scripts
  5. Vocabulaire statistique : population et échantillon
  6. Analyses univariées et bivariées
  7. Types de variables qualitatives et quantitatives
  8. Effectifs, fréquences et fonction de répartition

📖 1. Variabilité des individus et besoin d’échantillons

🔑 Notions clés & Définitions

  • Statistiques : Ensemble de méthodes qui utilisent des données pour décrire et comprendre des ensembles d’individus malgré la variabilité.
  • Individus : Éléments observés dans une étude, dont les caractéristiques varient et rendent une mesure unique insuffisante.
  • Échantillon : Sous-ensemble d’une population, de taille n < N, utilisé pour tirer des conclusions sur l’ensemble.
  • Population : Ensemble complet d’individus étudiés, souvent de taille N inconnue, caractérisé par des paramètres.

📝 Points essentiels

  • La génétique, l’environnement et les individus rendent les mesures très variables (exemples de poids de taureaux).
  • On ne peut pas se baser sur un seul individu car la variabilité empêche une conclusion fiable.
  • Deux échantillons peuvent être très différents sans provenir de populations différentes.
  • Deux échantillons peuvent être très semblables sans garantir que les populations sont semblables.
  • En biologie, la grande variabilité impose de travailler sur plusieurs individus via des échantillons.
  • L’échantillonnage sert à répondre à une question sur la population à partir d’observations limitées.

💡 Astuce mémo

Variabilité → un seul cas trompeur : on multiplie les individus (échantillon) pour viser la population.

📖 2. Exemples de hasard et différences entre moyennes

🔑 Notions clés & Définitions

  • Hasard : Facteur aléatoire qui peut produire des écarts observés entre moyennes ou pourcentages même si aucun effet réel n’existe.
  • Moyenne : Mesure de tendance centrale calculée à partir des observations d’un échantillon.
  • Pourcentage : Proportion exprimée en % calculée à partir d’effectifs observés dans un échantillon.
  • Taille d’échantillon : Nombre d’observations n, qui influence la probabilité d’observer des écarts dus au hasard.

📝 Points essentiels

  • Des données simulées montrent que des différences peuvent apparaître uniquement à cause du hasard.
  • Le hasard peut provoquer des différences notables entre moyennes ou pourcentages.
  • Les écarts dus au hasard sont particulièrement fréquents quand les échantillons sont de taille modeste.
  • Quand la différence observée va dans le sens attendu, elle reste potentiellement due au hasard.
  • Une différence observée a deux explications possibles : hasard seul, ou hasard plus un effet réel.
  • On ne doit pas se fier uniquement au résultat observé : il faut considérer le rôle du hasard.

💡 Astuce mémo

Échantillon petit → hasard bruyant : l’écart observé peut être “juste du bruit”.

📖 3. Pourquoi utiliser R pour l’analyse statistique

🔑 Notions clés & Définitions

  • R : Logiciel et langage de programmation utilisé pour réaliser des analyses statistiques et transformer des données de façon reproductible.
  • Reproductibilité : Capacité à refaire exactement une analyse à partir du script et des transformations enregistrées.
  • Flexibilité des données : Possibilité de modifier et transformer les jeux de données comme on le souhaite avant l’analyse.
  • Jeux de données : Ensemble d’observations sur lequel on applique des méthodes statistiques.

📝 Points essentiels

  • Les outils “clique-bouton” sont limités pour les grands jeux de données.
  • Ces outils offrent peu de flexibilité : les données ne peuvent pas être transformées comme souhaité.
  • Ils proposent seulement un petit ensemble d’analyses (ex. t-tests, anovas).
  • Ils ne conservent pas une trace complète des étapes, ce qui nuit à la reproductibilité scientifique.
  • R fonctionne pour de grands jeux de données.
  • R conserve une trace parfaite via le script, ce qui rend l’analyse reproductible.

💡 Astuce mémo

R = script + transformations + analyses nombreuses : tout est traçable pour refaire l’étude.

📖 4. RStudio : interface et exécution des scripts

🔑 Notions clés & Définitions

  • Script : Fichier contenant les lignes de commandes écrites pour exécuter une analyse dans RStudio.
  • Console : Zone où les commandes sont exécutées et où les résultats s’affichent.
  • Environnement : Zone affichant les objets/variables créés pendant l’exécution du script.
  • Fenêtre Files Plots Packages Help : Panneaux d’interface qui permettent respectivement de gérer fichiers, visualiser graphiques, installer/voir des packages et consulter l’aide.

📝 Points essentiels

  • L’exécution se fait via le bouton d’exécution dans RStudio.
  • Le script contient les lignes de commandes à écrire avant d’exécuter.
  • Après exécution, l’environnement affiche les variables et objets créés.
  • La console exécute les commandes et affiche les résultats.
  • RStudio affiche aussi : fichiers (Files), graphiques (Plots), packages installés (Packages), aide en ligne (Help).
  • On peut exporter les images produites (graphiques) depuis RStudio.

💡 Astuce mémo

Script → Exécuter → Console (résultats) + Environnement (objets) + Plots (graphiques).

📖 5. Vocabulaire statistique : population et échantillon

🔑 Notions clés & Définitions

  • Population : Ensemble d’individus sur lequel portent les questions et hypothèses, caractérisé par des paramètres souvent inconnus.
  • Échantillon : Sous-ensemble de la population, de taille n < N, utilisé pour estimer les caractéristiques de la population.
  • Induction statistique : Démarche qui généralise à partir des données de l’échantillon vers la population.
  • Statistiques descriptives : Méthodes qui résument l’information contenue dans les données observées sur l’échantillon.

📝 Points essentiels

  • La statistique étudie des ensembles appelés populations, composés d’individus.
  • La taille N de la population est souvent inconnue.
  • Les paramètres de la population sont souvent inconnus et doivent être déterminés.
  • L’échantillon doit être représentatif et aussi homogène que possible.
  • Les statistiques calculées sur l’échantillon servent à répondre aux questions sur la population.
  • Deux objectifs : résumer (descriptives) puis généraliser (induction statistique / inférence via tests d’hypothèse).

💡 Astuce mémo

Descriptif = résumer l’échantillon ; Inférentiel = généraliser vers la population.

📖 6. Analyses univariées et bivariées

🔑 Notions clés & Définitions

  • Analyse univariée : Analyse où chaque individu est décrit par un seul caractère.
  • Analyse bivariée : Analyse où chaque individu est décrit par deux caractères.
  • Caractère : Propriété observée chez chaque individu, qui peut être qualitative ou quantitative.
  • Série statistique : Ensemble des observations organisées selon les caractères étudiés.

📝 Points essentiels

  • En analyse univariée, chaque individu présente un seul caractère (ex. taille).
  • En analyse bivariée, chaque individu présente deux caractères (ex. couple taille et poids).
  • L’analyse univariée correspond à une série statistique à une dimension.
  • L’analyse bivariée correspond à une série statistique à deux dimensions.
  • Les questions portent sur les caractères observés chez les individus.
  • Le choix univarié/bivarié dépend du nombre de caractères décrivant chaque individu.

💡 Astuce mémo

Univarié = 1 variable ; Bivarié = 2 variables par individu.

📖 7. Types de variables qualitatives et quantitatives

🔑 Notions clés & Définitions

  • Variable qualitative : Variable décrivant un caractère non mesurable numériquement, exprimée par des modalités.
  • Variable quantitative : Variable décrivant un caractère mesurable numériquement, prenant des valeurs dans un ensemble.
  • Nominale : Type de variable qualitative sans ordre entre les modalités (ex. sexe, groupe sanguin).
  • Ordinale : Type de variable qualitative dont les modalités possèdent un ordre (ex. stade TNM).

📝 Points essentiels

  • Une variable qualitative correspond à une description textuelle (ex. couleur des yeux).
  • Les variables qualitatives nominales ont des modalités sans ordre.
  • Les variables qualitatives ordinales ont des classes ordonnées.
  • Un individu appartient à une seule classe/modalité pour un caractère qualitatif.
  • Une variable quantitative peut être discrète ou continue selon le type de valeurs possibles.
  • Les variables quantitatives discrètes prennent des valeurs isolées (comptage), tandis que les continues prennent des valeurs dans un intervalle.

💡 Astuce mémo

Qualitatif = catégories ; Quantitatif = nombres : discret = “comptage”, continu = “intervalle”.

📖 8. Effectifs, fréquences et fonction de répartition

🔑 Notions clés & Définitions

  • Effectif : Nombre d’individus associés à une modalité, une valeur ou une classe statistique.
  • Fréquence : Proportion d’individus pour une modalité/valeur/classe, obtenue en divisant l’effectif par l’effectif total.
  • Fréquence cumulée : Somme des fréquences correspondant à une condition du type XxX \le x.
  • Fonction de répartition : Fonction F(x)F(x) qui associe à chaque xx la fréquence cumulée P(Xx)P(X \le x) à partir des données.

📝 Points essentiels

  • Pour une modalité/valeur/classe, la fréquence est fi=ni/nf_i = n_i / n.
  • La somme des fréquences fif_i vaut 1.
  • Pour obtenir une répartition en pourcentages, on multiplie les fréquences par 100.
  • La densité d’une classe ]ai,ai+1]]a_i,a_{i+1}] vaut l’effectif nin_i divisé par l’amplitude (ai+1ai)(a_{i+1}-a_i).
  • Pour un quantitatif ordonné, l’effectif cumulé pour XxX \le x se calcule par addition des effectifs.
  • La fonction de répartition F(x)F(x) est croissante et, en discret, elle est en escalier ; en continu, elle est continue (affine par morceaux).

💡 Astuce mémo

fi=ni/nf_i=n_i/n ; cumul = addition ; F(x)F(x) = “jusqu’à xx”.

📊 Tableaux de synthèse

Échantillons : ressemblants vs différents

ObservationConséquenceExemple d’idée
Échantillons très différentsNe prouvent pas forcément des populations différentesDeux échantillons peuvent diverger sans changer de population
Échantillons très semblablesNe prouvent pas forcément des populations semblablesDeux échantillons peuvent se ressembler sans garantir une population identique

Qualitatives vs quantitatives

TypeModalités/valeursOrdre
QualitativeModalités textuellesNominale : pas d’ordre ; Ordinale : ordre
QuantitativeValeurs numériquesDiscrète : isolées ; Continue : intervalle

⚠️ Pièges & confusions fréquents

  1. Confondre population et échantillon : l’échantillon est un sous-ensemble de taille n < N.
  2. Croire qu’un échantillon “très différent” implique automatiquement deux populations différentes.
  3. Interpréter une différence observée comme un effet réel sans considérer que le hasard peut suffire.
  4. Mélanger analyse univariée et bivariée : le critère est le nombre de caractères par individu.
  5. Confondre fréquence et effectif : la fréquence est normalisée par l’effectif total (fi=ni/nf_i=n_i/n).
  6. Confondre variable qualitative nominale et ordinale : l’ordinal implique un ordre sur les classes.

✅ Checklist Examen

  1. Savoir expliquer pourquoi la variabilité des individus impose d’utiliser des échantillons plutôt qu’un seul individu.
  2. Savoir décrire le rôle du hasard et les deux explications possibles d’une différence observée (hasard seul vs hasard + effet réel).
  3. Connaître les limites des outils clique-bouton et les raisons d’utiliser R (grands jeux de données, flexibilité, nombreuses analyses, traçabilité).
  4. Savoir décrire l’interface RStudio : script, console, environnement, et les panneaux Files/Plots/Packages/Help, plus l’export des images.
  5. Maîtriser le vocabulaire : population vs échantillon, représentativité/homogénéité, et distinction descriptif vs inférentiel.
  6. Savoir définir analyse univariée et bivariée à partir du nombre de caractères par individu.
  7. Savoir classer les variables qualitatives (nominale/ordinale) et qualitatives vs quantitatives, puis distinguer quantitatif discret vs continu.
  8. Savoir calculer et interpréter effectifs, fréquences (fi=ni/nf_i=n_i/n), fréquences cumulées, densité de classe, et décrire la forme de la fonction de répartition (escalier vs continue par morceaux).

Pon a prueba tus conocimientos

Pon a prueba tus conocimientos sobre Introduction à la statistique descriptive con 16 preguntas de opción múltiple con correcciones detalladas.

1. Quel est un avantage essentiel de R pour l’analyse statistique par rapport à des outils clique-bouton ?

2. Comment calcule-t-on la fréquence d’une modalité ou d’une valeur ?

Realiza el cuestionario →

Repasa con tarjetas de memoria

Memoriza los conceptos clave de Introduction à la statistique descriptive con 16 tarjetas de memoria interactivas.

Variabilité — pourquoi échantillons ?

Pour représenter la population malgré la variabilité individuelle.

Hasard — rôle ?

Explique les écarts aléatoires entre moyennes ou pourcentages.

R — pourquoi l’utiliser ?

Pour analyses flexibles, reproductibles et adaptées aux grands jeux de données.

Ver tarjetas de memoria →

Similar courses

Crea tus propias hojas de repaso

Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.

Generador de hojas