Hoja de Repaso: Introduction à la statistique descriptive

Plan du Cours

Variabilité des individus et besoin d’échantillons
Exemples de hasard et différences entre moyennes
Pourquoi utiliser R pour l’analyse statistique
RStudio : interface et exécution des scripts
Vocabulaire statistique : population et échantillon
Analyses univariées et bivariées
Types de variables qualitatives et quantitatives
Effectifs, fréquences et fonction de répartition

1. Variabilité des individus et besoin d’échantillons

Notions clés & Définitions

Statistiques : Ensemble de méthodes qui utilisent des données pour décrire et comprendre des ensembles d’individus malgré la variabilité.
Individus : Éléments observés dans une étude, dont les caractéristiques varient et rendent une mesure unique insuffisante.
Échantillon : Sous-ensemble d’une population, de taille n < N, utilisé pour tirer des conclusions sur l’ensemble.
Population : Ensemble complet d’individus étudiés, souvent de taille N inconnue, caractérisé par des paramètres.

Points essentiels

La génétique, l’environnement et les individus rendent les mesures très variables (exemples de poids de taureaux).
On ne peut pas se baser sur un seul individu car la variabilité empêche une conclusion fiable.
Deux échantillons peuvent être très différents sans provenir de populations différentes.
Deux échantillons peuvent être très semblables sans garantir que les populations sont semblables.
En biologie, la grande variabilité impose de travailler sur plusieurs individus via des échantillons.
L’échantillonnage sert à répondre à une question sur la population à partir d’observations limitées.

Astuce mémo

Variabilité → un seul cas trompeur : on multiplie les individus (échantillon) pour viser la population.

2. Exemples de hasard et différences entre moyennes

Notions clés & Définitions

Hasard : Facteur aléatoire qui peut produire des écarts observés entre moyennes ou pourcentages même si aucun effet réel n’existe.
Moyenne : Mesure de tendance centrale calculée à partir des observations d’un échantillon.
Pourcentage : Proportion exprimée en % calculée à partir d’effectifs observés dans un échantillon.
Taille d’échantillon : Nombre d’observations n, qui influence la probabilité d’observer des écarts dus au hasard.

Points essentiels

Des données simulées montrent que des différences peuvent apparaître uniquement à cause du hasard.
Le hasard peut provoquer des différences notables entre moyennes ou pourcentages.
Les écarts dus au hasard sont particulièrement fréquents quand les échantillons sont de taille modeste.
Quand la différence observée va dans le sens attendu, elle reste potentiellement due au hasard.
Une différence observée a deux explications possibles : hasard seul, ou hasard plus un effet réel.
On ne doit pas se fier uniquement au résultat observé : il faut considérer le rôle du hasard.

Astuce mémo

Échantillon petit → hasard bruyant : l’écart observé peut être “juste du bruit”.

3. Pourquoi utiliser R pour l’analyse statistique

Notions clés & Définitions

R : Logiciel et langage de programmation utilisé pour réaliser des analyses statistiques et transformer des données de façon reproductible.
Reproductibilité : Capacité à refaire exactement une analyse à partir du script et des transformations enregistrées.
Flexibilité des données : Possibilité de modifier et transformer les jeux de données comme on le souhaite avant l’analyse.
Jeux de données : Ensemble d’observations sur lequel on applique des méthodes statistiques.

Points essentiels

Les outils “clique-bouton” sont limités pour les grands jeux de données.
Ces outils offrent peu de flexibilité : les données ne peuvent pas être transformées comme souhaité.
Ils proposent seulement un petit ensemble d’analyses (ex. t-tests, anovas).
Ils ne conservent pas une trace complète des étapes, ce qui nuit à la reproductibilité scientifique.
R fonctionne pour de grands jeux de données.
R conserve une trace parfaite via le script, ce qui rend l’analyse reproductible.

Astuce mémo

R = script + transformations + analyses nombreuses : tout est traçable pour refaire l’étude.

4. RStudio : interface et exécution des scripts

Notions clés & Définitions

Script : Fichier contenant les lignes de commandes écrites pour exécuter une analyse dans RStudio.
Console : Zone où les commandes sont exécutées et où les résultats s’affichent.
Environnement : Zone affichant les objets/variables créés pendant l’exécution du script.
Fenêtre Files Plots Packages Help : Panneaux d’interface qui permettent respectivement de gérer fichiers, visualiser graphiques, installer/voir des packages et consulter l’aide.

Points essentiels

L’exécution se fait via le bouton d’exécution dans RStudio.
Le script contient les lignes de commandes à écrire avant d’exécuter.
Après exécution, l’environnement affiche les variables et objets créés.
La console exécute les commandes et affiche les résultats.
RStudio affiche aussi : fichiers (Files), graphiques (Plots), packages installés (Packages), aide en ligne (Help).
On peut exporter les images produites (graphiques) depuis RStudio.

Astuce mémo

Script → Exécuter → Console (résultats) + Environnement (objets) + Plots (graphiques).

5. Vocabulaire statistique : population et échantillon

Notions clés & Définitions

Population : Ensemble d’individus sur lequel portent les questions et hypothèses, caractérisé par des paramètres souvent inconnus.
Échantillon : Sous-ensemble de la population, de taille n < N, utilisé pour estimer les caractéristiques de la population.
Induction statistique : Démarche qui généralise à partir des données de l’échantillon vers la population.
Statistiques descriptives : Méthodes qui résument l’information contenue dans les données observées sur l’échantillon.

Points essentiels

La statistique étudie des ensembles appelés populations, composés d’individus.
La taille N de la population est souvent inconnue.
Les paramètres de la population sont souvent inconnus et doivent être déterminés.
L’échantillon doit être représentatif et aussi homogène que possible.
Les statistiques calculées sur l’échantillon servent à répondre aux questions sur la population.
Deux objectifs : résumer (descriptives) puis généraliser (induction statistique / inférence via tests d’hypothèse).

Astuce mémo

Descriptif = résumer l’échantillon ; Inférentiel = généraliser vers la population.

6. Analyses univariées et bivariées

Notions clés & Définitions

Analyse univariée : Analyse où chaque individu est décrit par un seul caractère.
Analyse bivariée : Analyse où chaque individu est décrit par deux caractères.
Caractère : Propriété observée chez chaque individu, qui peut être qualitative ou quantitative.
Série statistique : Ensemble des observations organisées selon les caractères étudiés.

Points essentiels

En analyse univariée, chaque individu présente un seul caractère (ex. taille).
En analyse bivariée, chaque individu présente deux caractères (ex. couple taille et poids).
L’analyse univariée correspond à une série statistique à une dimension.
L’analyse bivariée correspond à une série statistique à deux dimensions.
Les questions portent sur les caractères observés chez les individus.
Le choix univarié/bivarié dépend du nombre de caractères décrivant chaque individu.

Astuce mémo

Univarié = 1 variable ; Bivarié = 2 variables par individu.

7. Types de variables qualitatives et quantitatives

Notions clés & Définitions

Variable qualitative : Variable décrivant un caractère non mesurable numériquement, exprimée par des modalités.
Variable quantitative : Variable décrivant un caractère mesurable numériquement, prenant des valeurs dans un ensemble.
Nominale : Type de variable qualitative sans ordre entre les modalités (ex. sexe, groupe sanguin).
Ordinale : Type de variable qualitative dont les modalités possèdent un ordre (ex. stade TNM).

Points essentiels

Une variable qualitative correspond à une description textuelle (ex. couleur des yeux).
Les variables qualitatives nominales ont des modalités sans ordre.
Les variables qualitatives ordinales ont des classes ordonnées.
Un individu appartient à une seule classe/modalité pour un caractère qualitatif.
Une variable quantitative peut être discrète ou continue selon le type de valeurs possibles.
Les variables quantitatives discrètes prennent des valeurs isolées (comptage), tandis que les continues prennent des valeurs dans un intervalle.

Astuce mémo

Qualitatif = catégories ; Quantitatif = nombres : discret = “comptage”, continu = “intervalle”.

8. Effectifs, fréquences et fonction de répartition

Notions clés & Définitions

Effectif : Nombre d’individus associés à une modalité, une valeur ou une classe statistique.
Fréquence : Proportion d’individus pour une modalité/valeur/classe, obtenue en divisant l’effectif par l’effectif total.
Fréquence cumulée : Somme des fréquences correspondant à une condition du type $X \le x$.
Fonction de répartition : Fonction $F(x)$ qui associe à chaque $x$ la fréquence cumulée $P(X \le x)$ à partir des données.

Points essentiels

Pour une modalité/valeur/classe, la fréquence est $f_i = n_i / n$.
La somme des fréquences $f_i$ vaut 1.
Pour obtenir une répartition en pourcentages, on multiplie les fréquences par 100.
La densité d’une classe $]a_i,a_{i+1}]$ vaut l’effectif $n_i$ divisé par l’amplitude $(a_{i+1}-a_i)$.
Pour un quantitatif ordonné, l’effectif cumulé pour $X \le x$ se calcule par addition des effectifs.
La fonction de répartition $F(x)$ est croissante et, en discret, elle est en escalier ; en continu, elle est continue (affine par morceaux).

Astuce mémo

$f_i=n_i/n$ ; cumul = addition ; $F(x)$ = “jusqu’à $x$”.

Tableaux de synthèse

Échantillons : ressemblants vs différents

Observation	Conséquence	Exemple d’idée
Échantillons très différents	Ne prouvent pas forcément des populations différentes	Deux échantillons peuvent diverger sans changer de population
Échantillons très semblables	Ne prouvent pas forcément des populations semblables	Deux échantillons peuvent se ressembler sans garantir une population identique

Qualitatives vs quantitatives

Type	Modalités/valeurs	Ordre
Qualitative	Modalités textuelles	Nominale : pas d’ordre ; Ordinale : ordre
Quantitative	Valeurs numériques	Discrète : isolées ; Continue : intervalle

Pièges & confusions fréquents

Confondre population et échantillon : l’échantillon est un sous-ensemble de taille n < N.
Croire qu’un échantillon “très différent” implique automatiquement deux populations différentes.
Interpréter une différence observée comme un effet réel sans considérer que le hasard peut suffire.
Mélanger analyse univariée et bivariée : le critère est le nombre de caractères par individu.
Confondre fréquence et effectif : la fréquence est normalisée par l’effectif total ($f_i=n_i/n$).
Confondre variable qualitative nominale et ordinale : l’ordinal implique un ordre sur les classes.

Checklist Examen

Savoir expliquer pourquoi la variabilité des individus impose d’utiliser des échantillons plutôt qu’un seul individu.
Savoir décrire le rôle du hasard et les deux explications possibles d’une différence observée (hasard seul vs hasard + effet réel).
Connaître les limites des outils clique-bouton et les raisons d’utiliser R (grands jeux de données, flexibilité, nombreuses analyses, traçabilité).
Savoir décrire l’interface RStudio : script, console, environnement, et les panneaux Files/Plots/Packages/Help, plus l’export des images.
Maîtriser le vocabulaire : population vs échantillon, représentativité/homogénéité, et distinction descriptif vs inférentiel.
Savoir définir analyse univariée et bivariée à partir du nombre de caractères par individu.
Savoir classer les variables qualitatives (nominale/ordinale) et qualitatives vs quantitatives, puis distinguer quantitatif discret vs continu.
Savoir calculer et interpréter effectifs, fréquences ($f_i=n_i/n$), fréquences cumulées, densité de classe, et décrire la forme de la fonction de répartition (escalier vs continue par morceaux).

📋 Plan du Cours

📖 1. Variabilité des individus et besoin d’échantillons

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 2. Exemples de hasard et différences entre moyennes

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 3. Pourquoi utiliser R pour l’analyse statistique

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 4. RStudio : interface et exécution des scripts

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 5. Vocabulaire statistique : population et échantillon

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 6. Analyses univariées et bivariées

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 7. Types de variables qualitatives et quantitatives

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📖 8. Effectifs, fréquences et fonction de répartition

🔑 Notions clés & Définitions

📝 Points essentiels

💡 Astuce mémo

📊 Tableaux de synthèse

Échantillons : ressemblants vs différents

Qualitatives vs quantitatives

⚠️ Pièges & confusions fréquents

✅ Checklist Examen

Pon a prueba tus conocimientos

Repasa con tarjetas de memoria

Similar courses

Quantité de matière et concentrations

Généralités sur les suites

Second degré et discriminant

Nombres rationnels et calcul

Étude des systèmes asservis

Chromosomes et information génétique

Crea tus propias hojas de repaso

Plan du Cours

1. Variabilité des individus et besoin d’échantillons

Notions clés & Définitions

Points essentiels

Astuce mémo

2. Exemples de hasard et différences entre moyennes

Notions clés & Définitions

Points essentiels

Astuce mémo

3. Pourquoi utiliser R pour l’analyse statistique

Notions clés & Définitions

Points essentiels

Astuce mémo

4. RStudio : interface et exécution des scripts

Notions clés & Définitions

Points essentiels

Astuce mémo

5. Vocabulaire statistique : population et échantillon

Notions clés & Définitions

Points essentiels

Astuce mémo

6. Analyses univariées et bivariées

Notions clés & Définitions

Points essentiels

Astuce mémo

7. Types de variables qualitatives et quantitatives

Notions clés & Définitions

Points essentiels

Astuce mémo

8. Effectifs, fréquences et fonction de répartition

Notions clés & Définitions

Points essentiels

Astuce mémo

Tableaux de synthèse

Pièges & confusions fréquents

Checklist Examen