Analyse statistique en Python avec la bibliothèque numpy

1. Les outils statistiques en python

Lorsque vous souhaitez effectuer une analyse statistique, le langage Python vous offre une multitude d'outils et bibliothèques pour vous aider à effectuer des calculs statistiques, des visualisations et des tests. Voici quelques-uns des outils et bibliothèques les plus couramment utilisés en analyse statistique avec Python :

  1. NumPy : NumPy est une bibliothèque fondamentale pour la manipulation de tableaux multidimensionnels en Python. Il offre des fonctions pour effectuer des calculs numériques et statistiques, y compris des moyennes, des médianes, des écarts types, des corrélations, etc.
  2. pandas : pandas est une bibliothèque permettant de manipuler et d'analyser des données tabulaires. Elle offre des structures de données telles que les DataFrames et les Series, ainsi que des fonctionnalités pour effectuer des opérations de groupage, de filtrage, de fusion, et bien d'autres encore.
  3. Matplotlib : Matplotlib est une bibliothèque de visualisation de données qui permet de créer une grande variété de graphiques, notamment des histogrammes, des diagrammes à barres, des diagrammes de dispersion, des graphiques en boîte, etc.
  4. Seaborn : Seaborn est une bibliothèque de visualisation de données basée sur Matplotlib, qui simplifie la création de graphiques statistiques informatifs et esthétiques. Elle est particulièrement utile pour les tracés de données complexes et les visualisations en lien avec les statistiques.
  5. SciPy : SciPy est une bibliothèque qui étend les fonctionnalités de NumPy en proposant des outils spécifiques pour l'analyse statistique et scientifique, tels que des tests statistiques, des optimisations, des interpolations, etc.
  6. statsmodels : statsmodels est une bibliothèque qui offre des fonctionnalités pour l'estimation de modèles statistiques, notamment la régression linéaire, la régression logistique, l'ANOVA, etc.
  7. scikit-learn : scikit-learn est une bibliothèque d'apprentissage automatique (machine learning) qui propose des outils pour la classification, la régression, le regroupement, la réduction de dimension, etc. Elle inclut également des modules pour évaluer les performances des modèles.
  8. patsy : patsy est une bibliothèque permettant de spécifier des modèles statistiques en utilisant une syntaxe simple, ce qui facilite la création de modèles pour statsmodels et d'autres bibliothèques statistiques.
  9. Jupyter Notebook : Jupyter Notebook est un environnement interactif qui permet de créer et d'exécuter du code Python de manière itérative. Il est très utile pour explorer et documenter vos analyses statistiques étape par étape.

2. A propos de la bibliothèque numpy

2.1 la bibliothèque numpy

NumPy (Numérique Python) est l'une des bibliothèques les plus fondamentales et essentielles pour le calcul scientifique et numérique en Python. Elle fournit des structures de données et des fonctions pour travailler avec des tableaux multidimensionnels (appelés "ndarrays") et effectuer des opérations mathématiques sur ces tableaux. Voici quelques aspects importants de la bibliothèque NumPy :

  1. ndarray : L'élément central de NumPy est l'objet "ndarray". Il s'agit d'un tableau multidimensionnel qui peut contenir des données de type homogène (par exemple, des nombres entiers, des nombres flottants, etc.). Les tableaux NumPy sont plus efficaces que les listes Python standard pour le stockage et la manipulation de données numériques.
  2. Opérations vectorielles et mathématiques : NumPy offre un large éventail d'opérations mathématiques et statistiques qui peuvent être appliquées directement aux tableaux. Cela permet d'effectuer des calculs vectoriels et matriciels de manière efficace et concise. Par exemple, vous pouvez effectuer des opérations
  3. Indexation et découpage : Vous pouvez accéder aux éléments d'un tableau NumPy en utilisant une syntaxe similaire à celle des listes Python, mais avec des fonctionnalités de découpage (slicing) plus pu
  4. Fonctions pour la génération de données : NumPy propose diverses fonctions pour générer des données aléatoires, telles que des nombres aléatoires, des échantillons aléatoires à partir de distributions statistiques, etc. Cela est utile pour la simulation et la génération de données de test.
  5. Intégration avec d'autres bibliothèques : NumPy est souvent utilisé en combinaison avec d'autres bibliothèques scientifiques telles que SciPy (pour les calculs scientifiques avancés), Matplotlib (pour la visualisation de données) et pandas (pour la manipulation de données tabulaires). Il joue un rôle central dans l'écosystème des bibliothèques scientifiques Python.
  6. Performance : Les opérations sur les tableaux NumPy sont généralement très rapides, car elles sont implémentées en C sous-jacent. Cela rend NumPy adapté aux calculs numériques intensifs et au traitement de grands ensembles de données.
  7. Communauté active : NumPy est maintenu par une communauté active de développeurs et est largement utilisé dans la recherche scientifique, l'analyse de données, l'apprentissage automatique et d'autres domaines.

2.2 Installation et usage de la bibliothèque numpy

Installation

Rien de plus simple, il suffit de lancer l'invite de commande et saisir le code :

Usage de numpy

Pour utiliser NumPy, vous devez l'importer dans votre script Python en utilisant la commande:

puis vous pouvez accéder à ses fonctions et objets en utilisant le préfixe np.

Exemple




3. Les méthodes de numpy destinées à l'analyse statistique

NumPy met à disposition un ensemble complet de méthodes couramment employées en analyse statistique, permettant ainsi le calcul de statistiques descriptives, la réalisation d'opérations élémentaires sur des ensembles de données, ainsi que le calcul des différents paramètres statistiques. Voici quelques-unes des méthodes essentielles à utiliser lors d'analyses statistiques avec NumPy :

3.1 Moyenne et Médiane

  1. np.mean(arr): Calcule la moyenne des éléments du tableau.
  2. np.median(arr): Calcule la médiane des éléments du tableau.

3.2 Écart type, Variance et Quantiles

  1. np.std(arr): Calcule l'écart type des éléments du tableau.
  2. np.var(arr): Calcule la variance des éléments du tableau.
  3. np.percentile(arr, q): Calcule le quantile q (en pourcentage) des éléments du tableau.

3.3 Minimum et Maximum

  1. np.min(arr): Retourne la valeur minimale du tableau.
  2. np.max(arr): Retourne la valeur maximale du tableau.

3.4 Somme et Produit

  1. np.sum(arr): Calcule la somme des éléments du tableau.
  2. np.prod(arr): Calcule le produit des éléments du tableau.

3.5 Corrélation et Histogramme

  1. np.corrcoef(arr1, arr2): Calcule le coefficient de corrélation entre deux tableaux.
  2. np.histogram(arr, bins): Calcule un histogramme à partir du tableau avec les bins spécifiés.

3.6 Résumé statistique

  1. np.describe(arr): Fournit un résumé statistique des éléments du tableau, incluant la moyenne, l'écart type, le minimum, le maximum, etc.

3.7 Opérations logiques

  1. np.logical_and(arr1, arr2): Effectue un ET logique élément par élément entre deux tableaux booléens.
  2. np.logical_or(arr1, arr2): Effectue un OU logique élément par élément entre deux tableaux booléens.

3.8 Tests statistiques

NumPy ne propose pas directement de fonctions pour effectuer des tests statistiques, mais vous pouvez utiliser SciPy, qui s'appuie sur NumPy, pour effectuer une gamme complète de tests statistiques comme le test t, le test de chi-carré, l'ANOVA, etc.

3.9 Réarrangement des données

  1. np.sort(arr): Trie les éléments du tableau par ordre croissant.
  2. np.argsort(arr): Retourne les indices qui trieraient le tableau.
  3. np.unique(arr): Retourne les valeurs uniques du tableau.




4. Exemples d'usages sur un échantillon de données

Nous allons voir dans ce paragraphe un exemple simple d'utilisation de NumPy pour analyser un échantillon de données sur les âges d'élèves d'une classe de terminale. Dans cet exemple, nous allons calculer la moyenne, la médiane, l'écart type et créer un histogramme, courbe pour visualiser la distribution des âges.

4.1 Histogramme des effectifs

  1. Nous créons un tableau NumPy appelé ages : pour stocker l'échantillon d'âges des élèves de terminale.
  2. Nous utilisons les fonctions np.mean() et np.median() : pour calculer respectivement la moyenne et la médiane des âges.
  3. Nous utilisons np.std() : pour calculer l'écart type des âges.
  4. Enfin, nous créons un histogramme à l'aide de Matplotlib : pour visualiser la distribution des âges.

diagramme histogramme numpy effectifs

4.2 Courbe des effectifs

Pour tracer la courbe des effectifs des âges, vous pouvez utiliser un diagramme linéaire plutôt qu'un histogramme. Voici comment vous pouvez le faire en utilisant Matplotlib :

Explication du code :

  1. np.unique(ages, return_counts=True) : pour obtenir les âges uniques et leurs effectifs correspondants.
  2. plt.plot() : pour créer un diagramme linéaire des effectifs. Nous utilisons marker='o' pour afficher des points sur la ligne pour chaque âge et linestyle='-' pour utiliser une ligne solide pour relier les points.
  3. (xlabel et ylabel) et (title) : sont définis pour améliorer la lisibilité du graphique.
  4. plt.grid(True) : ajoute une grille au graphique.
  5. plt.show() : affiche la courbe des effectifs.

Ce code générera un graphique montrant la courbe des effectifs des âges, où l'axe des x représente les âges uniques et l'axe des y représente le nombre d'élèves ayant chaque âge:

Diagramme courbe numpy effectif

 

Younes Derfoufi
CRMEF OUJDA

Leave a Reply