Vous êtes sur la page 1sur 2

Dans cette vidéo, nous allons parler des statistiques descriptives.

Lorsque vous
commencez à analyser des données, il est important d'explorer d'abord vos données
avant de passer du temps à créer des modèles complexes. Une façon facile de le
faire est de calculer des statistiques descriptives pour vos données. L' analyse
statistique descriptive permet de décrire les caractéristiques de base d'un
ensemble de données et d'obtenir un bref résumé sur l'échantillon et les mesures
des données. Nous allons vous montrer quelques méthodes utiles différentes. Une
façon de le faire est d'utiliser la fonction de description dans les pandas. En
utilisant la fonction de description et en l'appliquant sur votre bloc de données,
la fonction de description calcule automatiquement les statistiques de base pour
toutes les variables numériques. Elle montre la moyenne, le nombre total de points
de données, l'écart-type, les quartiles et les valeurs extrêmes. Toutes les valeurs
NAN sont automatiquement ignorées dans ces statistiques. Cette fonction vous
donnera une idée claire de la distribution de vos différentes variables. Vous
pouvez également avoir des variables de catégorie dans votre ensemble de données.
Ce sont des variables qui peuvent être divisées en différentes catégories ou
groupes, et ont des valeurs distinctes. Par exemple, dans notre ensemble de
données, nous avons le système d'entraînement comme une variable de catégorie, qui
se compose des catégories, traction avant, traction arrière et quatre roues
motrices. Une façon de résumer les données catégoriques est d'utiliser la fonction
value_counts. Nous pouvons changer le nom de la colonne pour la rendre plus facile
à lire. Nous voyons que nous avons 118 voitures dans la catégorie des roues
motrices avant. 75 voitures dans la catégorie des roues motrices arrière et 8
voitures dans la catégorie des quatre roues motrices. Les tracés en carton sont un
excellent moyen de visualiser les données numériques, car vous pouvez visualiser
les différentes distributions des données. Les principales caractéristiques que le
tracé de boîte montre, sont la médiane des données, qui représente l'endroit où se
trouve le point de données du milieu. Le quartile supérieur montre où se trouve le
75e centile. Le quartile inférieur indique où se trouve le 25e centile. Les données
entre le quartile supérieur et le quartile inférieur représentent la plage
interquartile. Ensuite, vous avez les extrêmes inférieurs et supérieurs. Ces
valeurs sont calculées comme 1,5 fois la plage interquartile, au-dessus du 75e
percentile, et comme 1,5 fois l'IQR au-dessous du 25e percentile. Enfin, les boîtes
à lettres affichent également les valeurs aberrantes sous forme de points
individuels qui se produisent à l'extérieur des extrêmes supérieurs et inférieurs.
Avec les boîtes à lettres, vous pouvez facilement repérer les valeurs aberrantes,
ainsi que voir la distribution et l'asymétrie des données. Les tracés en carton
facilitent la comparaison entre les groupes. Dans cet exemple, en utilisant le
tracé de la boîte, nous pouvons voir la distribution des différentes catégories de
la fonctionnalité de roues motrices sur la fonction de prix. Nous pouvons voir que
la répartition des prix entre la traction arrière, et les autres catégories sont
distinctes. Mais le prix de la traction avant et quatre roues motrices sont presque
indiscernables. Souvent, nous avons tendance à voir des variables continues dans
nos données. Ces points de données sont des nombres contenus dans une certaine
plage. Par exemple, dans notre ensemble de données, le prix et la taille du moteur
sont des variables continues. Et si nous voulons comprendre la relation entre la
taille du moteur et le prix. La taille du moteur pourrait-elle prédire le prix
d'une voiture ? Une bonne façon de visualiser cela est d'utiliser un nuage de
points. Chaque observation dans le nuage de points est représentée comme un point.
Ce graphique montre la relation entre deux variables. La variable de prédiction est
la variable que vous utilisez pour prédire un résultat. Dans ce cas, notre variable
de prédiction est la taille du moteur. La variable cible est la variable que vous
essayez de prédire. Dans ce cas, notre variable cible est le prix. Puisque ce
serait le résultat. Dans un nuage de points, nous définissons généralement la
variable de prédiction sur l'axe des x ou l' axe horizontal, et nous définissons la
variable cible sur l'axe des y ou l'axe vertical. Dans ce cas, nous traiterons
ainsi la taille du moteur sur l'axe des x et le prix sur l'axe des y. Nous
utilisons, les fonctions matplotlib se dispersent ici, en prenant la variable x et
y. Quelque chose à noter est qu'il est toujours important d'étiqueter vos axes et
d'écrire un titre général de l'intrigue, afin que vous sachiez ce que vous
regardez. Maintenant, comment la taille du moteur variable est-elle liée au prix ?
À partir du nuage de points, nous voyons que lorsque la taille du moteur augmente,
le prix de la voiture augmente également. Cela nous donne une première indication
qu'il existe une relation linéaire positive entre ces deux variables. [ MUSIQUE]

Vous aimerez peut-être aussi