Académique Documents
Professionnel Documents
Culture Documents
univariées
Et de nombreuses possibilités ;
L'outil le plus utilisé au monde, économie, sociologie, management, ressources humaines, ventes,
marketing, etc... .
4 / 44
Difficile de retracer les opérations : non-reproductible ;
La manipulation à la main génère des erreurs. Un exemple :
https://slate.com/business/2013/04/reinhart-rogoff-coding-error-austerity-policies-founded-on-bad-
coding.html
Pour des "petites" données ;
Et des opérations simples.
5 / 44
Excel ou ExcelOnline;
LibreOffice Calc ;
Numbers ;
==> L'important est d'en avoir un. La plupart des fonctions sont similaires même si des différences
subsistent.
6 / 44
Des données manipulables ;
Des formules ;
Des outils.
7 / 44
8 / 44
Des formats pour stocker les fichiers :
9 / 44
10 / 44
11 / 44
Graphiques ;
Tableaux croisés dynamiques / tables de pilotes ;
Tris / filtrage des doublons ;
Coloration des cellules ;
Langage macro.
12 / 44
La plupart du temps, le format est détecté automatiquement. On ouvre à partir du tableur ou du fichier.
Dans certains cas (notamment .csv), il faut indiquer comment lire les données. Pour cela on indique
quels sont les séparateurs (virgules, points-virgules, tabulations, etc...).
A partir de la boîte de dialogue d'import.
On utilise un logiciel dédié (R) quand le fichier est trop complexe, dans un format inhabituel (.json / .xml)
et/ou demande des retraitements poussés.
14 / 44
Comme aux échecs, chaque cellule a un nom, en fonction de sa position en ligne et en colonne.
15 / 44
On peut changer la valeur des cellules en écrivant autre chose dedans.
On peut aussi s'y référer et faire dans une autre cellule :
= nom cellule + 2 (si on veut ajouter 2).
Pour modifier plusieurs cellules on clique sur le carré noir en bas à droite pour tirer la modification.
16 / 44
Pour faire comprendre au tableur de quoi il s'agit (date/nombre/texte), il faut lui indiquer.
Car sinon il comprend ce qu'il veut. Exemple : https://www.sciencemag.org/news/2016/08/one-five-
genetics-papers-contains-errors-thanks-microsoft-excel
Cela sert aussi à indiquer le nombre de décimales, etc...
17 / 44
Votre analyse est destinée à être vue, soignez la forme :
Police ;
Centrer verticalement ;
Gras sur les noms de colonnes ;
Bordures.
18 / 44
Mise en forme -niveau 2
Trier les données
On peut trier les données, par ordre croissant ou décroissant, ou par ordre alphabétique.
19 / 44
On peut modifier une cellule en fonction d'une régle avec SI.
Par exemple, j'ai une cellule avec des âges et je souhaite savoir si les individus sont majeurs.
Dans une cellule voisine, je fais :
20 / 44
Il existe de nombreuses autres fonctions utiles que vous découvrirez :
les raccourcis ;
RECHERCHEH / RECHERCHEV pour les jointures ;
CONCATENER / STXT pour la manipulation de texte ;
les tableaux croisés dynamiques ;
les graphiques ;
etc...
21 / 44
Les fonctions vous aident en indiquant ce qu'elles attendent !
22 / 44
23 / 44
Données de l'ISF (impôt sur la fortune) en 2016 pour les villes de plus de 20 000 habitants.
Elles sont disponibles ici : https://www.data.gouv.fr/fr/datasets/impot-de-solidarite-sur-la-fortune/.
Le producteur des données est la Direction générale des finances publiques.
Region ;
Commune ;
Nombre d'assujetis à l'ISF ;
Moyenne du patrimoine (en euros) ;
Moyenne de l'ISF (en euros).
26 / 44
C'est l'ensemble des valeurs que prend la variable, associée à la fréquence de ces valeurs.
On la représente souvent par un graphique.
27 / 44
Beaucoup de distributions se rapprochent de la distribution "normale", dite aussi "gaussienne" :
28 / 44
Pour une variable quantitative/continue, il est possible de calculer des indicateurs de tendance centrale.
Ils permettent de mieux appréhender les points autour desquels sont présents le plus de valeurs.
Il s'agit :
du mode
de la moyenne
de la médiane
30 / 44
Le mode est la valeur la plus fréquente de la variable. Pour l'ISF moyen, le mode est 8757, présente 3
fois.
31 / 44
La moyenne indique le point "moyen" de la série. Sa formule est la suivante, pour une variable X :
n
1
¯
X = ∑ Xi
n i=1
la moyenne est un indicateur très utilisé car elle "résume bien" la série ;
elle est sensible aux valeurs extrêmes de la série ;
formule : MOYENNE(PLAGE_DE_DONNEES).
32 / 44
33 / 44
La médiane est la valeur qui coupe la série en deux, la moitié des points se situant avant sur l'échelle
des valeurs et l'autre moitié après.
formule : MEDIANE(PLAGE_DE_DONNEES). 34 / 44
Dans ce cas : mode (vert) < médiane (bleu) < moyenne (rouge).
la variance n'a pas d'unité et est donc difficile à appréhender dans l'absolue ;
elle est sensible aux valeurs extrêmes ;
formule : VAR(PLAGE_DE_DONNEES).
37 / 44
C'est la racine de la variance.
σ = √V
38 / 44
Conceptuellement les quantiles se construisent de la même façon que la médiane (qui est d'ailleurs le
quantile d'ordre 2) : on divise les valeurs de la variable en X parties de sorte que chaque partie
contienne le même nombre de valeurs :
39 / 44
Il est possible de construire des différences et des ratios entre les premiers et derniers quantiles.
Il permettent d'appréhender la dispersion de la série. Ils sont notamment utilisés dans l'analyse des
revenus et du patrimoine.
Ainsi, l'écart inter-quartile vaut :
E q = Q3 − Q1
D9
Rd =
D1
ces indicateurs ne sont pas sensibles aux valeurs extrêmes ;
pour les calculer, on utilise QUARTILE().
40 / 44
Une boîte à moustache ou boxplot résume l'information sur les quantiles. Ses débuts et fin
correspondent au minimum et au maximum de la série (modulo les valeurs extrêmes), le début et la fin
de la boîte aux premiers et troisième quartile et la barre à la médiane.
41 / 44
Pour la moyenne de l'ISF, les différents indicateurs de dispersion valent :
2879.638 8292313 2303 1.276836
42 / 44
43 / 44