Hoja de repaso: Introduction à Pandas et manipulation de données

📋 Plan du Cours

  1. Découverte de Pandas
  2. Chargement d’un fichier CSV
  3. Index et sélection avec loc
  4. Sélections conditionnelles
  5. Calculs et tri des données
  6. Jointure de tables avec merge

📖 1. Découverte de Pandas

🔑 Notions clés & Définitions

  • Pandas : Bibliothèque Python utilisée pour traiter des données sous forme de tableaux structurés.
  • Bibliothèque Python : Outil qui ajoute des fonctionnalités au langage de base sans tout réécrire en Python.

📝 Points essentiels

  • Pandas sert aux traitements de données, notamment sur des fichiers CSV convertis en tableau.
  • Le cours utilise des fichiers CSV simples pour les premiers exercices avec Pandas.

📖 2. Chargement d’un fichier CSV

🔑 Notions clés & Définitions

  • read_csv : Fonction Pandas qui lit un fichier CSV et renvoie un tableau contenant ses données.
  • Variable denie : Nom de variable Python qui stocke le tableau renvoyé par read_csv.
  • ident_virgule.csv : Fichier CSV d’exemple utilisé pour illustrer Pandas avec des données personnelles.

📝 Points essentiels

  • Le code d’importation commence par import pandas puis la lecture avec pandas.read_csv("ident_virgule.csv").
  • La variable iden reçoit les données du fichier ident_virgule.csv pour pouvoir être interrogée.
  • Les fichiers doivent être placés dans le même dossier que le script pour que le chemin fonctionne.

📖 3. Index et sélection avec loc

🔑 Notions clés & Définitions

  • loc : Méthode Pandas utilisée pour sélectionner des lignes et colonnes à partir de leurs index.
  • Index de ligne : Numérotation des lignes du tableau, commençant à 0 dans le cours.
  • Index de colonne : Étiquette des colonnes, par exemple nom, prenom et date_naissance dans l’exemple.

📝 Points essentiels

  • Avec loc, la syntaxe suit le modèle loc[index_ligne,index_colonne].
  • L’exemple loc[1,'prenom'] récupère le prénom de la ligne d’index 1 et donne christophe.
  • En loc, remplacer index_ligne par : sélectionne toutes les lignes, par exemple loc[:,'nom'].
  • Remplacer index_colonne par : sélectionne toutes les colonnes d’une ligne, par exemple loc[2,:].

📖 4. Sélections conditionnelles

🔑 Notions clés & Définitions

  • Sélection conditionnelle : Sélection d’entrées du tableau uniquement quand une condition sur des valeurs de colonnes est vraie.
  • & (et) : Opérateur logique qui combine deux conditions en n’acceptant que les lignes où les deux sont vraies.
  • | (ou) : Opérateur logique qui combine deux conditions en n’acceptant que les lignes où au moins une est vraie.

📝 Points essentiels

  • Dans loc, l’expression info_villes["alt_min"]>1500 choisit les lignes dont alt_min est supérieur à 1500.
  • Une sélection combinée se fait avec & dans loc[(alt_min>1500) & (dens>50),[...]].
  • Le cours utilise nan pour signaler l’absence de données dans certaines lignes du tableau affiché.

📖 5. Calculs et tri des données

🔑 Notions clés & Définitions

  • mean : Fonction de calcul qui renvoie la moyenne des valeurs d’une série de données.
  • sort_values : Fonction Pandas qui réordonne un tableau en fonction des valeurs d’une ou plusieurs colonnes.
  • Ordre croissant : Tri dans lequel les valeurs vont du plus petit au plus grand.
  • Ordre décroissant : Tri dans lequel les valeurs vont du plus grand au plus petit.

📝 Points essentiels

  • La moyenne s’obtient via loc[:,'alt_min'].mean() et donne 193 m pour l’altitude minimum en France.
  • Pour une moyenne conditionnelle, le cours calcule loc[alt_min>1500,'nb_hab_2012'].mean() et obtient 350 habitants en 2012.
  • Le tri croissant utilise sort_values(by=["alt_min"]) et le tri décroissant ajoute ascending=False.
  • La question de densité la plus forte vise le repérage de la valeur maximale dans la colonne dens.

📖 6. Jointure de tables avec merge

🔑 Notions clés & Définitions

  • merge : Fonction Pandas qui fusionne deux tableaux en rapprochant des lignes selon une colonne commune.
  • Jointure : Opération de fusion de tables où les lignes sont combinées seulement si la clé de rapprochement existe des deux côtés.
  • clé commune : Colonne partagée par les deux tableaux qui sert à faire correspondre les lignes.

📝 Points essentiels

  • La jointure d’exemple se fait avec cl_com=pandas.merge(client,commande) pour obtenir une ligne par commande avec les infos du client.
  • L’ordre des arguments dans merge change la forme du résultat, par exemple com_cl=pandas.merge(commande,client) modifie l’ordre des colonnes.
  • Une cliente présente dans client mais absente de commande (numéro de client manquant) n’apparaît pas dans le résultat de jointure.
  • Une commande dont le numéro de client n’existe pas dans client n’apparaît pas dans la jointure.
  • Mme Gaulin (n° 895) est absente du résultat car elle n’apparaît pas côté commandes, et la commande n°1324 du 01/02/2017 ne peut pas être retrouvée sans client correspondant.

⚠️ Pièges & confusions fréquents

  1. Confondre index de lignes et index de colonnes : les lignes commencent à 0, tandis que les colonnes sont étiquetées par des noms comme nom et prenom.
  2. Oublier les guillemets autour d’un nom de colonne dans loc, par exemple 'prenom' et pas prenom.
  3. Réussir une condition mais la mettre au mauvais endroit dans loc : l’expression avant la virgule filtre les lignes.
  4. Utiliser le mauvais opérateur logique : & impose deux conditions vraies, | en accepte une seule.
  5. Penser que merge affiche aussi les lignes sans correspondance : en jointure, il faut une clé présente dans les deux tableaux pour apparaître.
  6. Inverser l’ordre des arguments de merge : cela peut changer l’ordre des colonnes dans le résultat.

✅ Checklist Examen

  1. Savoir expliquer à quoi sert Pandas pour traiter des données.
  2. Être capable d’écrire read_csv("ident_virgule.csv") et de stocker le résultat dans une variable.
  3. Comprendre que les lignes sont indexées à partir de 0 dans le tableau.
  4. Choisir la syntaxe loc[index_ligne,index_colonne] pour récupérer une valeur précise.
  5. Utiliser loc[1,'prenom'] pour obtenir la valeur attendue de la ligne demandée.
  6. Savoir utiliser loc[:,'nom'] pour récupérer toute une colonne.
  7. Savoir utiliser loc[2,:] pour récupérer toutes les colonnes d’une ligne.
  8. Savoir sélectionner plusieurs lignes et colonnes via loc[[...],[...]] en donnant des listes d’index et de noms de colonnes.
  9. Construire une sélection conditionnelle avec loc à partir d’une comparaison de colonne, comme alt_min>1500.
  10. Combiner deux conditions avec & et comprendre le résultat attendu sur les lignes filtrées.
  11. Calculer une moyenne globale avec loc[:,'alt_min'].mean() et une moyenne conditionnelle avec loc[condition,'col'].mean().
  12. Trier un tableau avec sort_values(by=["alt_min"]) et choisir le sens via ascending=False.
  13. Réaliser une jointure avec merge entre client et commande à partir d’une clé commune.
  14. Expliquer l’absence de certaines personnes ou de certaines commandes dans le résultat de jointure quand la clé manque dans un des deux tableaux.

Pon a prueba tus conocimientos

Pon a prueba tus conocimientos sobre Introduction à Pandas et manipulation de données con 12 preguntas de opción múltiple con correcciones detalladas.

1. À quoi sert principalement Pandas en Python ?

2. Quel énoncé décrit le mieux une bibliothèque Python ?

Realiza el cuestionario →

Repasa con tarjetas de memoria

Memoriza los conceptos clave de Introduction à Pandas et manipulation de données con 12 tarjetas de memoria interactivas.

Pandas — définition ?

Bibliothèque Python pour traiter des tableaux de données.

read_csv — rôle ?

Lire un fichier CSV en tableau Pandas.

Index avec loc — fonction ?

Sélectionner lignes/colonnes par étiquette.

Ver tarjetas de memoria →

Similar courses

Crea tus propias hojas de repaso

Importa tu curso y la IA genera hojas, cuestionarios y tarjetas de memoria en 30 segundos.

Generador de hojas