Hoja de Repaso: Introduction à Pandas et manipulation de données

Plan du Cours

Découverte de Pandas
Chargement d’un fichier CSV
Index et sélection avec loc
Sélections conditionnelles
Calculs et tri des données
Jointure de tables avec merge

1. Découverte de Pandas

Notions clés & Définitions

Pandas : Bibliothèque Python utilisée pour traiter des données sous forme de tableaux structurés.
Bibliothèque Python : Outil qui ajoute des fonctionnalités au langage de base sans tout réécrire en Python.

Points essentiels

Pandas sert aux traitements de données, notamment sur des fichiers CSV convertis en tableau.
Le cours utilise des fichiers CSV simples pour les premiers exercices avec Pandas.

2. Chargement d’un fichier CSV

Notions clés & Définitions

read_csv : Fonction Pandas qui lit un fichier CSV et renvoie un tableau contenant ses données.
Variable denie : Nom de variable Python qui stocke le tableau renvoyé par read_csv.
ident_virgule.csv : Fichier CSV d’exemple utilisé pour illustrer Pandas avec des données personnelles.

Points essentiels

Le code d’importation commence par import pandas puis la lecture avec pandas.read_csv("ident_virgule.csv").
La variable iden reçoit les données du fichier ident_virgule.csv pour pouvoir être interrogée.
Les fichiers doivent être placés dans le même dossier que le script pour que le chemin fonctionne.

3. Index et sélection avec loc

Notions clés & Définitions

loc : Méthode Pandas utilisée pour sélectionner des lignes et colonnes à partir de leurs index.
Index de ligne : Numérotation des lignes du tableau, commençant à 0 dans le cours.
Index de colonne : Étiquette des colonnes, par exemple nom, prenom et date_naissance dans l’exemple.

Points essentiels

Avec loc, la syntaxe suit le modèle loc[index_ligne,index_colonne].
L’exemple loc[1,'prenom'] récupère le prénom de la ligne d’index 1 et donne christophe.
En loc, remplacer index_ligne par : sélectionne toutes les lignes, par exemple loc[:,'nom'].
Remplacer index_colonne par : sélectionne toutes les colonnes d’une ligne, par exemple loc[2,:].

4. Sélections conditionnelles

Notions clés & Définitions

Sélection conditionnelle : Sélection d’entrées du tableau uniquement quand une condition sur des valeurs de colonnes est vraie.
& (et) : Opérateur logique qui combine deux conditions en n’acceptant que les lignes où les deux sont vraies.
| (ou) : Opérateur logique qui combine deux conditions en n’acceptant que les lignes où au moins une est vraie.

Points essentiels

Dans loc, l’expression info_villes["alt_min"]>1500 choisit les lignes dont alt_min est supérieur à 1500.
Une sélection combinée se fait avec & dans loc[(alt_min>1500) & (dens>50),[...]].
Le cours utilise nan pour signaler l’absence de données dans certaines lignes du tableau affiché.

5. Calculs et tri des données

Notions clés & Définitions

mean : Fonction de calcul qui renvoie la moyenne des valeurs d’une série de données.
sort_values : Fonction Pandas qui réordonne un tableau en fonction des valeurs d’une ou plusieurs colonnes.
Ordre croissant : Tri dans lequel les valeurs vont du plus petit au plus grand.
Ordre décroissant : Tri dans lequel les valeurs vont du plus grand au plus petit.

Points essentiels

La moyenne s’obtient via loc[:,'alt_min'].mean() et donne 193 m pour l’altitude minimum en France.
Pour une moyenne conditionnelle, le cours calcule loc[alt_min>1500,'nb_hab_2012'].mean() et obtient 350 habitants en 2012.
Le tri croissant utilise sort_values(by=["alt_min"]) et le tri décroissant ajoute ascending=False.
La question de densité la plus forte vise le repérage de la valeur maximale dans la colonne dens.

6. Jointure de tables avec merge

Notions clés & Définitions

merge : Fonction Pandas qui fusionne deux tableaux en rapprochant des lignes selon une colonne commune.
Jointure : Opération de fusion de tables où les lignes sont combinées seulement si la clé de rapprochement existe des deux côtés.
clé commune : Colonne partagée par les deux tableaux qui sert à faire correspondre les lignes.

Points essentiels

La jointure d’exemple se fait avec cl_com=pandas.merge(client,commande) pour obtenir une ligne par commande avec les infos du client.
L’ordre des arguments dans merge change la forme du résultat, par exemple com_cl=pandas.merge(commande,client) modifie l’ordre des colonnes.
Une cliente présente dans client mais absente de commande (numéro de client manquant) n’apparaît pas dans le résultat de jointure.
Une commande dont le numéro de client n’existe pas dans client n’apparaît pas dans la jointure.
Mme Gaulin (n° 895) est absente du résultat car elle n’apparaît pas côté commandes, et la commande n°1324 du 01/02/2017 ne peut pas être retrouvée sans client correspondant.

Pièges & confusions fréquents

Confondre index de lignes et index de colonnes : les lignes commencent à 0, tandis que les colonnes sont étiquetées par des noms comme nom et prenom.
Oublier les guillemets autour d’un nom de colonne dans loc, par exemple 'prenom' et pas prenom.
Réussir une condition mais la mettre au mauvais endroit dans loc : l’expression avant la virgule filtre les lignes.
Utiliser le mauvais opérateur logique : & impose deux conditions vraies, | en accepte une seule.
Penser que merge affiche aussi les lignes sans correspondance : en jointure, il faut une clé présente dans les deux tableaux pour apparaître.
Inverser l’ordre des arguments de merge : cela peut changer l’ordre des colonnes dans le résultat.

Checklist Examen

Savoir expliquer à quoi sert Pandas pour traiter des données.
Être capable d’écrire read_csv("ident_virgule.csv") et de stocker le résultat dans une variable.
Comprendre que les lignes sont indexées à partir de 0 dans le tableau.
Choisir la syntaxe loc[index_ligne,index_colonne] pour récupérer une valeur précise.
Utiliser loc[1,'prenom'] pour obtenir la valeur attendue de la ligne demandée.
Savoir utiliser loc[:,'nom'] pour récupérer toute une colonne.
Savoir utiliser loc[2,:] pour récupérer toutes les colonnes d’une ligne.
Savoir sélectionner plusieurs lignes et colonnes via loc[[...],[...]] en donnant des listes d’index et de noms de colonnes.
Construire une sélection conditionnelle avec loc à partir d’une comparaison de colonne, comme alt_min>1500.
Combiner deux conditions avec & et comprendre le résultat attendu sur les lignes filtrées.
Calculer une moyenne globale avec loc[:,'alt_min'].mean() et une moyenne conditionnelle avec loc[condition,'col'].mean().
Trier un tableau avec sort_values(by=["alt_min"]) et choisir le sens via ascending=False.
Réaliser une jointure avec merge entre client et commande à partir d’une clé commune.
Expliquer l’absence de certaines personnes ou de certaines commandes dans le résultat de jointure quand la clé manque dans un des deux tableaux.

Plan du Cours

1. Découverte de Pandas

Notions clés & Définitions

Points essentiels

2. Chargement d’un fichier CSV

Notions clés & Définitions

Points essentiels

3. Index et sélection avec loc

Notions clés & Définitions

Points essentiels

4. Sélections conditionnelles

Notions clés & Définitions

Points essentiels

5. Calculs et tri des données

Notions clés & Définitions

Points essentiels

6. Jointure de tables avec merge

Notions clés & Définitions

Points essentiels

Pièges & confusions fréquents

Checklist Examen

Pon a prueba tus conocimientos

Repasa con tarjetas de memoria

Similar courses

Parcours d’études numériques et commerce

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Crea tus propias hojas de repaso

Hoja de repaso: Introduction à Pandas et manipulation de données

📋 Plan du Cours

📖 1. Découverte de Pandas

🔑 Notions clés & Définitions

📝 Points essentiels

📖 2. Chargement d’un fichier CSV

🔑 Notions clés & Définitions

📝 Points essentiels

📖 3. Index et sélection avec loc

🔑 Notions clés & Définitions

📝 Points essentiels

📖 4. Sélections conditionnelles

🔑 Notions clés & Définitions

📝 Points essentiels

📖 5. Calculs et tri des données

🔑 Notions clés & Définitions

📝 Points essentiels

📖 6. Jointure de tables avec merge

🔑 Notions clés & Définitions

📝 Points essentiels

⚠️ Pièges & confusions fréquents

✅ Checklist Examen

Pon a prueba tus conocimientos

Repasa con tarjetas de memoria

Similar courses

Parcours d’études numériques et commerce

Écosystème de l’esport et médiation numérique

Listes, piles, files et arbres

Algorithmique et structures de données

Gestion des fichiers en PHP

Identification utilisateur en PHP

Crea tus propias hojas de repaso

Plan du Cours

1. Découverte de Pandas

Notions clés & Définitions

Points essentiels

2. Chargement d’un fichier CSV

Notions clés & Définitions

Points essentiels

3. Index et sélection avec loc

Notions clés & Définitions

Points essentiels

4. Sélections conditionnelles

Notions clés & Définitions

Points essentiels

5. Calculs et tri des données

Notions clés & Définitions

Points essentiels

6. Jointure de tables avec merge

Notions clés & Définitions

Points essentiels

Pièges & confusions fréquents

Checklist Examen