Revision sheet: Introduction aux Statistiques et Données
📋 Plan du Cours
Approche quantitative
Approche qualitative
Données structurées
Données non structurées
Statistiques descriptives
Moyenne
Médiane
Variance et écart type
Corrélation
📖 1. Approche quantitative
🔑 Notions clés & Définitions
Approche quantitative : Méthode d’analyse basée sur la mobilisation de données structurées, généralement numériques, permettant de mesurer, quantifier et établir des relations entre variables sur un grand nombre d’individus (>100). Utile pour obtenir des résultats statistiques précis et représentatifs.
Données structurées : Données formatées selon un schéma précis, stockées dans des bases de données relationnelles. Exemples : numéros de carte, adresses. Faciles à traiter par des algorithmes et professionnels.
Données non structurées : Données dans leur format d’origine, non formatées avant utilisation. Exemples : emails, posts réseaux sociaux. Plus flexibles, mais plus difficiles à analyser.
Statistiques descriptives : Techniques permettant de résumer et d’analyser des données brutes pour en dégager des tendances ou des caractéristiques essentielles (moyenne, médiane, variance, écart-type, corrélation).
Coefficient de corrélation (r) : Mesure de la relation linéaire entre deux variables quantitatives, variant entre -1 (relation négative forte) et +1 (relation positive forte).
📝 Points essentiels
L’approche quantitative se concentre sur la manipulation de données structurées pour produire des résultats mesurables, souvent sous forme de moyennes, pourcentages ou autres indicateurs numériques.
La distinction entre données structurées et non structurées est fondamentale : les premières sont facilement traitables, les secondes offrent plus de flexibilité mais nécessitent des techniques spécifiques.
La moyenne est sensible aux valeurs extrêmes, contrairement à la médiane qui donne une tendance centrale plus robuste.
La variance et l’écart-type permettent d’évaluer la stabilité ou la volatilité d’un phénomène (ex : rendement financier). Un écart-type faible indique une faible volatilité.
La corrélation mesure la force et la direction d’une relation linéaire entre deux variables. Elle ne prouve pas la causalité.
💡 À retenir
L’approche quantitative repose sur l’analyse de données structurées pour quantifier des phénomènes, tandis que la compréhension de leur dispersion et de leurs relations permet d’éclairer la stabilité et les liens entre variables.
📖 2. Approche qualitative
🔑 Notions clés & Définitions
Approche qualitative : Méthode de recherche visant à comprendre en profondeur les mécanismes, processus et relations sociales, en analysant des matériaux non structurés comme des entretiens, observations, ou discours.
Données non structurées : Données brutes, non formatées, stockées dans leur format d’origine (ex. textes, vidéos, posts sur réseaux sociaux). Elles offrent une grande liberté d’utilisation et un taux d’accumulation rapide.
Données structurées : Données formatées selon un schéma précis, stockées dans des bases de données relationnelles (ex. numéros, adresses). Faciles à traiter par des algorithmes et professionnels.
Méthode mixte : Combinaison des approches qualitative et quantitative pour une analyse plus complète, en adaptant la méthode selon l’objectif de recherche.
Relation entre variables : En qualitative, on cherche à comprendre comment des mécanismes ou relations sociales s’établissent, souvent via des analyses thématiques ou narratives.
📝 Points essentiels
L’approche qualitative vise à comprendre la complexité des phénomènes sociaux ou organisationnels, en privilégiant la profondeur plutôt que la généralisation.
La distinction principale réside dans le type de données : non structurées (qualitative) versus structurées (quantitative).
Les données non structurées permettent une grande flexibilité et une collecte rapide, mais nécessitent des méthodes d’analyse spécifiques (ex. analyse thématique, discourse analysis).
La méthode qualitative est particulièrement utile pour explorer des mécanismes relationnels, comprendre des perceptions ou des comportements.
Le choix entre approche qualitative, quantitative ou mixte doit être défini en amont, en fonction des objectifs de l’étude.
La relation entre variables en qualitative s’intéresse aux processus, aux significations, et aux relations sociales plutôt qu’aux mesures numériques.
💡 À retenir
L’approche qualitative permet d’approfondir la compréhension des phénomènes complexes en analysant des matériaux non structurés, tandis que l’approche quantitative se concentre sur la mesure et la quantification à partir de données structurées. Le choix de la méthode dépend de l’objectif de recherche, et leur combinaison peut enrichir l’analyse.
📖 3. Données structurées
🔑 Notions clés & Définitions
Données structurées : Données préformatées selon un schéma précis, stockées dans des bases de données relationnelles. Exemples : numéros de carte, adresses.
Données non structurées : Données brutes, non formatées, stockées dans leur format d’origine. Exemples : emails, posts sur réseaux sociaux, vidéos.
Schéma-on-write : Processus de structuration des données avant leur stockage, lors de l’écriture.
Schéma-on-read : Processus de structuration des données lors de leur lecture, après stockage.
Avantages des données structurées : Traitement facilité par algorithmes, compréhension aisée par professionnels.
Avantages des données non structurées : Flexibilité du format, accumulation rapide, adaptabilité à divers usages.
📝 Points essentiels
La distinction principale réside dans la préformatation : structurées sont formatées à l’avance, non structurées sont stockées telles quelles.
Les données structurées sont idéales pour l’analyse quantitative, la modélisation et le machine learning.
Les données non structurées représentent une majorité de données actuelles (emails, vidéos, réseaux sociaux) et nécessitent des techniques spécifiques pour leur traitement.
La gestion efficace des deux types de données est essentielle pour l’analyse de Big Data.
La méthode schema-on-write favorise la cohérence et la rapidité d’accès, tandis que schema-on-read offre une plus grande flexibilité.
💡 À retenir
Les données structurées, formatées à l’avance, facilitent leur traitement et leur analyse, tandis que les données non structurées offrent une richesse d’informations mais demandent des techniques spécifiques pour leur exploitation. Leur gestion combinée est clé pour l’analyse moderne.
📖 4. Données non structurées
🔑 Notions clés & Définitions
Données structurées : Données préformatées selon un schéma précis, stockées dans des bases de données relationnelles (ex : numéros de carte, adresses). Format « schema-on-write ». Faciles à traiter par des algorithmes et utilisateurs professionnels.
Données non structurées : Données stockées dans leur format d’origine, sans schéma prédéfini, comme des e-mails, posts, vidéos, images. Format « schema-on-read ». Plus flexibles, mais plus complexes à analyser.
Approche quantitative : Analyse basée sur des données structurées, permettant de mesurer et quantifier des phénomènes via des statistiques (moyennes, pourcentages).
Approche qualitative : Analyse de données non structurées pour comprendre des mécanismes, relations, ou comportements en profondeur (entretiens, observations).
Schema-on-write : Processus de structuration préalable des données avant stockage.
Schema-on-read : Processus d’analyse des données dans leur format d’origine, sans structuration préalable.
📝 Points essentiels
Les données structurées sont facilement exploitables par des outils analytiques et machine learning, car leur format est prédéfini.
Les données non structurées représentent une majorité des données actuelles (emails, réseaux sociaux, vidéos), offrant une richesse d’informations mais nécessitant des techniques avancées d’analyse (ex : NLP, vision par ordinateur).
La distinction entre données structurées et non structurées influence la méthode d’analyse : quantitative pour structurées, qualitative pour non structurées.
La croissance rapide des données non structurées permet une collecte rapide et une diversité d’usages, mais pose des défis en termes de traitement et d’interprétation.
La gestion efficace de ces deux types de données est essentielle pour l’intelligence artificielle, la business intelligence et la prise de décision.
💡 À retenir
Les données structurées facilitent l’analyse quantitative et l’automatisation, tandis que les données non structurées offrent une richesse contextuelle essentielle, mais requièrent des techniques avancées pour leur exploitation. Leur gestion combinée optimise la compréhension et la prise de décision dans l’entreprise.
📖 5. Statistiques descriptives
🔑 Notions clés & Définitions
Statistiques descriptives : Ensemble de méthodes permettant de résumer, organiser et présenter des données brutes pour en dégager des tendances ou caractéristiques essentielles.
Moyenne (arithmétique) : Somme de toutes les valeurs divisée par le nombre d’observations, indicateur de tendance centrale, sensible aux valeurs extrêmes.
Médiane : Valeur centrale d’un ensemble de données triées, partageant la population en deux parts égales, moins sensible aux valeurs extrêmes.
Variance : Mesure de la dispersion des données, calculée comme la moyenne des carrés des écarts à la moyenne.
Écart-type (σ) : Racine carrée de la variance, indique la dispersion ou la stabilité des données ; plus il est faible, plus les données sont regroupées.
Coefficient de corrélation (r) : Mesure la force et la direction de la relation linéaire entre deux variables quantitatives, allant de -1 à +1.
📝 Points essentiels
La moyenne est utile pour connaître la tendance centrale mais peut être faussée par des valeurs extrêmes (ex : revenus très élevés).
La médiane offre une meilleure représentation en présence de valeurs extrêmes, en étant moins influencée.
La variance et l’écart-type permettent d’évaluer la volatilité ou le risque associé à une série de données, notamment en finance.
La corrélation indique si deux variables évoluent de façon synchronisée (positive), inverse (négative) ou sans lien linéaire (zéro).
La distinction entre données structurées (format prédéfini, facile à traiter) et non structurées (format libre, plus difficile à analyser) est fondamentale pour le traitement de l’information.
💡 À retenir
Les statistiques descriptives synthétisent les données en indicateurs clés (moyenne, médiane, dispersion, corrélation), permettant une compréhension rapide et une prise de décision éclairée tout en étant sensibles aux caractéristiques spécifiques des données (valeurs extrêmes, dispersion).
📖 6. Moyenne
🔑 Notions clés & Définitions
Moyenne arithmétique : Somme de toutes les valeurs divisée par le nombre total d’observations. Elle donne une tendance centrale mais est sensible aux valeurs extrêmes.
Médiane : Valeur centrale d’un ensemble de données triées, divisant la population en deux parts égales. Moins affectée par les valeurs extrêmes.
Variance : Mesure de la dispersion des données, indiquant à quel point les valeurs s’éloignent de la moyenne.
Écart-type (σ) : Racine carrée de la variance, exprimant la volatilité ou le risque associé à un ensemble de données.
Relation entre moyenne et médiane : La moyenne est influencée par les valeurs extrêmes, contrairement à la médiane qui reste plus robuste dans ces cas.
Coefficient de corrélation (r) : Mesure la force et la direction d’une relation linéaire entre deux variables quantitatives, allant de -1 à +1.
📝 Points essentiels
La moyenne est souvent utilisée pour résumer une série de données, mais peut être trompeuse en présence de valeurs extrêmes (outliers). La médiane est une alternative plus robuste dans ces cas.
La variance et l’écart-type permettent d’évaluer la stabilité ou le risque associé à des données financières ou autres. Un écart-type faible indique une faible volatilité.
La relation entre deux variables peut être quantifiée par la corrélation : +1 (relation positive forte), -1 (relation négative forte), 0 (pas de relation linéaire).
La formule de la moyenne : Moyenne=n∑i=1nxi
où xi sont les valeurs observées et n le nombre d’observations.
La calcul de l’écart-type implique :
Calculer la moyenne.
Calculer la différence entre chaque valeur et la moyenne.
Élever chaque différence au carré.
Faire la moyenne de ces carrés (variance).
Prendre la racine carrée de la variance (écart-type).
💡 À retenir
La moyenne offre une synthèse centrale des données, mais doit être complétée par la médiane et l’écart-type pour une analyse complète, notamment en présence de valeurs extrêmes ou pour évaluer la volatilité.
📖 7. Médiane
🔑 Notions clés & Définitions
Médiane : valeur centrale d’un ensemble de données triées, divisant la population en deux parts égales. Elle est moins sensible aux valeurs extrêmes que la moyenne.
Données triées : données rangées dans l’ordre croissant ou décroissant, nécessaire pour déterminer la médiane.
Valeur centrale : la valeur qui se trouve au milieu d’un ensemble de données ordonnées, ou la moyenne des deux valeurs centrales si le nombre d’observations est pair.
Sensibilité aux valeurs extrêmes : la médiane n’est pas influencée par des valeurs très élevées ou très basses, contrairement à la moyenne.
Points clés : la médiane est une mesure de tendance centrale robuste, particulièrement utile en présence de distributions asymétriques ou de valeurs aberrantes.
📝 Points essentiels
La médiane est calculée en triant les données puis en identifiant la valeur centrale.
Si le nombre d’observations est impair, la médiane est la valeur au milieu.
Si le nombre d’observations est pair, la médiane est la moyenne des deux valeurs centrales.
La médiane est préférée à la moyenne lorsque la distribution est asymétrique ou contient des valeurs extrêmes, car elle donne une meilleure représentation du « centre ».
La formule pour la médiane dépend du nombre d’observations :
Impair : valeur à la position (n+1)/2.
Pair : moyenne des valeurs aux positions n/2 et (n/2)+1.
💡 À retenir
La médiane est une mesure de tendance centrale robuste qui divise un ensemble de données ordonnées en deux parts égales, offrant une meilleure représentation du centre lorsque la distribution est asymétrique ou comporte des valeurs extrêmes.
📖 8. Variance et écart type
🔑 Notions clés & Définitions
Variance : Mesure de la dispersion des données autour de la moyenne. Elle correspond à la moyenne des carrés des écarts par rapport à la moyenne. Plus la variance est grande, plus les données sont dispersées.
Écart type (σ) : Racine carrée de la variance. Il indique la dispersion des données dans la même unité que les données originales. C’est une mesure du risque ou de la volatilité.
Moyenne (arithmétique) : Somme de toutes les valeurs divisée par le nombre d’observations. Elle donne une tendance centrale, mais sensible aux valeurs extrêmes.
Médiane : Valeur centrale d’un ensemble trié. Elle divise la population en deux parts égales et est moins sensible aux valeurs extrêmes que la moyenne.
Coefficient de corrélation (r) : Mesure la force et le sens de la relation linéaire entre deux variables quantitatives, variant entre -1 et +1.
📝 Points essentiels
La variance et l’écart type permettent d’évaluer la stabilité ou le risque associé à une série de données, notamment en finance.
La formule de l’écart type : σ=n1∑i=1n(xi−xˉ)2
où xi sont les valeurs, xˉ la moyenne, et n le nombre d’observations.
La variance est la moyenne des carrés des écarts à la moyenne, tandis que l’écart type est la racine carrée de cette variance.
La méthode de calcul :
Calculer la moyenne xˉ.
Calculer chaque écart à la moyenne (xi−xˉ).
Élever chaque écart au carré.
Calculer la moyenne de ces carrés (variance).
Extraire la racine carrée pour obtenir l’écart type.
Interprétation de l’écart type :
< 2 : risque très faible / stabilité élevée
2 à 5 : risque modéré / volatilité normale
5 à 10 : risque élevé / forte volatilité
≥ 10 : risque très élevé / instabilité
La corrélation permet d’évaluer la relation entre deux variables :
r ≈ +1 : relation positive forte
r ≈ -1 : relation négative forte
r ≈ 0 : absence de relation linéaire
💡 À retenir
L’écart type est une mesure essentielle pour quantifier la dispersion des données et évaluer le risque ou la stabilité d’un phénomène, en complément de la moyenne. La corrélation indique la force et la direction d’une relation linéaire entre deux variables quantitatives.
📖 9. Corrélation
🔑 Notions clés & Définitions
Corrélation : Mesure statistique de la force et du sens de la relation entre deux variables quantitatives. Elle indique si les variables évoluent de manière synchronisée ou opposée.
Coefficient de corrélation de Pearson (r) : Indicateur numérique de la corrélation, compris entre -1 et +1.
r ≈ +1 : relation positive forte
r ≈ -1 : relation négative forte
r ≈ 0 : absence de relation linéaire
Relation positive : Lorsque l’augmentation d’une variable s’accompagne de l’augmentation de l’autre.
Relation négative : Lorsque l’augmentation d’une variable s’accompagne de la diminution de l’autre.
Pas de relation linéaire : Lorsque le coefficient est proche de zéro, indiquant aucune corrélation linéaire significative.
📝 Points essentiels
La corrélation ne signifie pas causalité : deux variables peuvent être corrélées sans qu’une en soit la cause de l’autre.
La valeur de r indique la force de la relation, mais pas sa nature causale ou sa signification pratique.
La corrélation est utilisée pour analyser la relation entre deux variables quantitatives, par exemple, heures de révision et note à un examen.
La corrélation positive forte (r proche de +1) indique que lorsque l’une augmente, l’autre tend également à augmenter.
La corrélation négative forte (r proche de -1) indique que lorsque l’une augmente, l’autre tend à diminuer.
La corrélation n’est pas adaptée pour analyser des relations non linéaires ou causales.
💡 À retenir
La corrélation mesure la force et le sens d’une relation linéaire entre deux variables, mais ne prouve pas une relation de cause à effet.