Vous êtes sur la page 1sur 44

TD 1 -Statistiques

univariées

Eleonora Gentilucci - Fida Lecrest - Humberto Lopez Rizzo


3 / 44
Pour "mettre les mains dans la boue" ;
Avec un coût d'entrée faible ;

Et de nombreuses possibilités ;
L'outil le plus utilisé au monde, économie, sociologie, management, ressources humaines, ventes,
marketing, etc... .

4 / 44
Difficile de retracer les opérations : non-reproductible ;
La manipulation à la main génère des erreurs. Un exemple :
https://slate.com/business/2013/04/reinhart-rogoff-coding-error-austerity-policies-founded-on-bad-
coding.html
Pour des "petites" données ;
Et des opérations simples.

==> Dans ces limites, ce sont des très bons outils.

5 / 44
Excel ou ExcelOnline;
LibreOffice Calc ;
Numbers ;

Celui que vous voulez.

==> L'important est d'en avoir un. La plupart des fonctions sont similaires même si des différences
subsistent.

6 / 44
Des données manipulables ;
Des formules ;

Des outils.

7 / 44
8 / 44
Des formats pour stocker les fichiers :

Format tabulaire (.csv) ;


Excel (.xls / .xlsx) ;
LibreOffice (.ods).

9 / 44
10 / 44
11 / 44
Graphiques ;
Tableaux croisés dynamiques / tables de pilotes ;
Tris / filtrage des doublons ;
Coloration des cellules ;
Langage macro.

12 / 44
La plupart du temps, le format est détecté automatiquement. On ouvre à partir du tableur ou du fichier.

Dans certains cas (notamment .csv), il faut indiquer comment lire les données. Pour cela on indique
quels sont les séparateurs (virgules, points-virgules, tabulations, etc...).
A partir de la boîte de dialogue d'import.

On utilise un logiciel dédié (R) quand le fichier est trop complexe, dans un format inhabituel (.json / .xml)
et/ou demande des retraitements poussés.
14 / 44
Comme aux échecs, chaque cellule a un nom, en fonction de sa position en ligne et en colonne.

En cliquant sur la cellule le nom s'affiche.


En sélectionnant une plage de données, le nom s'affiche sous la forme :
nom de la cellule en haut à gauche : nom de la cellule en bas à droite

15 / 44
On peut changer la valeur des cellules en écrivant autre chose dedans.
On peut aussi s'y référer et faire dans une autre cellule :
= nom cellule + 2 (si on veut ajouter 2).
Pour modifier plusieurs cellules on clique sur le carré noir en bas à droite pour tirer la modification.

16 / 44
Pour faire comprendre au tableur de quoi il s'agit (date/nombre/texte), il faut lui indiquer.
Car sinon il comprend ce qu'il veut. Exemple : https://www.sciencemag.org/news/2016/08/one-five-
genetics-papers-contains-errors-thanks-microsoft-excel
Cela sert aussi à indiquer le nombre de décimales, etc...

Pour l'analyse, on peut mettre de la couleur, à la main ou automatiquement (mise en forme


conditionnelle).
Une couleur n'est pas une donnée. Elle n'est pas lue par l'ordinateur. C'est une aide visuelle.

17 / 44
Votre analyse est destinée à être vue, soignez la forme :

Police ;
Centrer verticalement ;
Gras sur les noms de colonnes ;
Bordures.

18 / 44
Mise en forme -niveau 2
Trier les données
On peut trier les données, par ordre croissant ou décroissant, ou par ordre alphabétique.

On utilise les fonctions de tri :

Filtrer les données


On peut aussi filtrer les données, pour n'en conserver que certaines.

On utilise la fonction de filtre :

19 / 44
On peut modifier une cellule en fonction d'une régle avec SI.
Par exemple, j'ai une cellule avec des âges et je souhaite savoir si les individus sont majeurs.
Dans une cellule voisine, je fais :

=SI(cellule_age >= 18 ; "MAJEUR" ; "MINEUR")

20 / 44
Il existe de nombreuses autres fonctions utiles que vous découvrirez :

les raccourcis ;
RECHERCHEH / RECHERCHEV pour les jointures ;
CONCATENER / STXT pour la manipulation de texte ;
les tableaux croisés dynamiques ;
les graphiques ;
etc...

Nous en verrons certains au cours des TD.

21 / 44
Les fonctions vous aident en indiquant ce qu'elles attendent !

Sinon, Google est votre ami !

22 / 44
23 / 44
Données de l'ISF (impôt sur la fortune) en 2016 pour les villes de plus de 20 000 habitants.
Elles sont disponibles ici : https://www.data.gouv.fr/fr/datasets/impot-de-solidarite-sur-la-fortune/.
Le producteur des données est la Direction générale des finances publiques.

Les variables sont les suivantes :

Region ;
Commune ;
Nombre d'assujetis à l'ISF ;
Moyenne du patrimoine (en euros) ;
Moyenne de l'ISF (en euros).

26 / 44
C'est l'ensemble des valeurs que prend la variable, associée à la fréquence de ces valeurs.
On la représente souvent par un graphique.

27 / 44
Beaucoup de distributions se rapprochent de la distribution "normale", dite aussi "gaussienne" :

la plupart des points sont concentrés autour des valeurs centrales ;


la distribution est symétrique.

28 / 44
Pour une variable quantitative/continue, il est possible de calculer des indicateurs de tendance centrale.
Ils permettent de mieux appréhender les points autour desquels sont présents le plus de valeurs.

Il s'agit :

du mode
de la moyenne
de la médiane

30 / 44
Le mode est la valeur la plus fréquente de la variable. Pour l'ISF moyen, le mode est 8757, présente 3
fois.

c'est une mesure simple ;


le mode peut ne pas être unique ;
dans le cas où la distribution s'écarte beaucoup de la distribution normale, le mode est inutile ;
formule : MODE(PLAGE_DE_DONNEES).

31 / 44
La moyenne indique le point "moyen" de la série. Sa formule est la suivante, pour une variable X :
n
1
¯
X = ∑ Xi
n i=1

Il s'agit de la somme des valeurs, divisées par le nombre de valeurs.

la moyenne est un indicateur très utilisé car elle "résume bien" la série ;
elle est sensible aux valeurs extrêmes de la série ;

formule : MOYENNE(PLAGE_DE_DONNEES).

32 / 44
33 / 44
La médiane est la valeur qui coupe la série en deux, la moitié des points se situant avant sur l'échelle
des valeurs et l'autre moitié après.

la médiane n'est pas sensible aux valeurs extrêmes ;


mais elle l'est au nombre de valeurs de la variable ;
elle est plus difficile à calculer ;

formule : MEDIANE(PLAGE_DE_DONNEES). 34 / 44
Dans ce cas : mode (vert) < médiane (bleu) < moyenne (rouge).

Dans le cas où la distribution de la variable est parfaitement normale, le mode, la moyenne et la


médiane sont égaux. 35 / 44
La variance est la somme des écarts au carré de chaque observation à la moyenne.
n
1
V = ∑ (Yi − Y¯)^2
n i=1

la variance n'a pas d'unité et est donc difficile à appréhender dans l'absolue ;
elle est sensible aux valeurs extrêmes ;

formule : VAR(PLAGE_DE_DONNEES).

37 / 44
C'est la racine de la variance.

σ = √V

l'écart-type, de même que la moyenne, "résume bien" la dispersion des valeurs ;


elle s'appréhende dans la même unité que la variable ;

il est sensible aux valeurs extrêmes ;


formule : ECARTYPE(PLAGE_DE_DONNEES) ou SQRT(VAR(PLAGE_DE_DONNEES)) ;
on peut le lire comme l'écart moyen à la moyenne :
si l'écart-type est faible, la série est peu dispersée ;
si l'écart-type est fort, la série est très dispersée.

38 / 44
Conceptuellement les quantiles se construisent de la même façon que la médiane (qui est d'ailleurs le
quantile d'ordre 2) : on divise les valeurs de la variable en X parties de sorte que chaque partie
contienne le même nombre de valeurs :

pour 4 valeurs on parle de quartiles : QUARTILE(PLAGE DE DONNEES,


NUMERO_DU_QUARTILE) ;
pour 5 valeurs on parle de quintiles : passer par la fonctione CENTILE() ;
pour 10 valeurs on parle de déciles : passer par la fonctione CENTILE().

39 / 44
Il est possible de construire des différences et des ratios entre les premiers et derniers quantiles.
Il permettent d'appréhender la dispersion de la série. Ils sont notamment utilisés dans l'analyse des
revenus et du patrimoine.
Ainsi, l'écart inter-quartile vaut :

E q = Q3 − Q1

Et le ratio inter-décile vaut :

D9
Rd =
D1
ces indicateurs ne sont pas sensibles aux valeurs extrêmes ;
pour les calculer, on utilise QUARTILE().

40 / 44
Une boîte à moustache ou boxplot résume l'information sur les quantiles. Ses débuts et fin
correspondent au minimum et au maximum de la série (modulo les valeurs extrêmes), le début et la fin
de la boîte aux premiers et troisième quartile et la barre à la médiane.

La réalisation est complexe avec un tableur mais possible : https://support.office.com/en-


us/article/create-a-box-plot-10204530-8cdf-40fe-a711-2eb9785e510f

41 / 44
Pour la moyenne de l'ISF, les différents indicateurs de dispersion valent :
2879.638 8292313 2303 1.276836

Ecart-type Variance Ecart inter-quartile Ratio inter-quartile

42 / 44
43 / 44

Vous aimerez peut-être aussi