Introduction à pandas
pandas est une bibliothèque Python spécialisée dans la manipulation et l’analyse de données tabulaires. Elle est indispensable pour tout projet de data science ou de machine learning.
Pourquoi utiliser pandas ?
- Chargement facile de fichiers CSV, Excel, JSON...
- Manipulation efficace de tableaux de données (filtres, tris, groupements)
- Nettoyage et transformation de données simples
- Fonctionnalités proches d’Excel, mais en Python
Installation
Si vous utilisez Anaconda, pandas est déjà installé. Sinon, vous pouvez l’installer avec :
pip install pandas
Structures principales de pandas
1. Series : vecteur 1D (comme une colonne Excel)
import pandas as pd
s = pd.Series([10, 20, 30])
print(s)
Sortie :
0 10
1 20
2 30
dtype: int64
2. DataFrame : tableau 2D (comme une feuille de calcul)
data = {
'Nom': ['Alice', 'Bob', 'Charlie'],
'Âge': [25, 30, 35],
'Ville': ['Paris', 'Lyon', 'Marseille']
}
df = pd.DataFrame(data)
print(df)
Sortie :
Nom Âge Ville
0 Alice 25 Paris
1 Bob 30 Lyon
2 Charlie 35 Marseille
Lire un fichier CSV
df = pd.read_csv("fichier.csv")
Pandas détecte automatiquement les colonnes, les types de données, les noms, etc.
Accéder aux données
Aperçu rapide
df.head() # Les 5 premières lignes
df.tail(3) # Les 3 dernières lignes
df.shape # Nombre de lignes et colonnes
df.columns # Liste des colonnes
Accès aux colonnes
df["Nom"] # Colonne 'Nom'
df[["Nom", "Ville"]] # Plusieurs colonnes
Accès aux lignes
df.iloc[0] # Première ligne par position
df.loc[1] # Ligne avec l’index = 1
Filtres et conditions
# Âge supérieur à 25
df[df["Âge"] > 25]
# Villes différentes de "Paris"
df[df["Ville"] != "Paris"]
Ajouter ou modifier une colonne
df["Année de naissance"] = 2025 - df["Âge"]
Statistiques rapides
df.describe() # Statistiques sur les colonnes numériques
df["Âge"].mean() # Moyenne
df["Âge"].max() # Maximum
Trier les données
df.sort_values("Âge") # Par défaut croissant
df.sort_values("Âge", ascending=False) # Décroissant
Grouper les données
df.groupby("Ville")["Âge"].mean()
Exporter les données
df.to_csv("sortie.csv", index=False)
À retenir
| Concept | Explication |
|---|---|
| Series | Colonne unique avec index |
| DataFrame | Tableau 2D avec lignes et colonnes |
| read_csv | Lire un fichier CSV |
| iloc / loc | Accès aux lignes (par position ou par index) |
| groupby | Calculs par groupe (ex : moyenne par ville) |
Prochaines étapes
- Apprendre à nettoyer des données (valeurs manquantes, doublons…)
- Fusionner plusieurs DataFrames (
merge,concat) - Utiliser pandas avec NumPy pour des calculs complexes