Vous êtes sur la page 1sur 11

Traitement de l’information, GACO S2

Chapitre 1 : Présentation du vocabulaire et des outils ........................................................................... 2


I – Le vocabulaire des statistiques ....................................................................................................... 2
II – La récolte de données ................................................................................................................... 3
1) Mesure .................................................................................................................................... 3
2) Le recueil de données ............................................................................................................. 3
a) Recueil de données brut...................................................................................................... 3
b) Recueil de données simplifié ............................................................................................... 3
c) Tableau d’une série statistique ........................................................................................... 3
3) Critère de validité d’une variable ........................................................................................... 4
III – Effectifs et fréquences .................................................................................................................. 5
IV – Représentation dans une série statistique................................................................................... 6
1) Tableau statistique ................................................................................................................. 6
a) Classes à petite amplitude ...................................................................................................... 6
b) Classes à grande amplitude..................................................................................................... 6
c) Amplitudes de classe plus petites pour se focaliser sur le phénomène étudié .................. 6
2) Graphiques .............................................................................................................................. 7
a) Variable qualitative ............................................................................................................. 7
b) Variable quantitative continue ............................................................................................ 8
c) Variable quantitative discrète ............................................................................................. 9
Chapitre 2 : Analyse univariée (1 variable) – Représentation de la série par des chiffres clés............. 10
Introduction : Les couples d’analyse chiffrée.................................................................................... 10
I – Couple mode / étendue................................................................................................................ 10
1) Le mode ................................................................................................................................. 10
2) L’étendue .............................................................................................................................. 11

1
Traitement de l’information, GACO S2

Chapitre 1 : Présentation du vocabulaire et des outils

I – Le vocabulaire des statistiques

1) Population :
Sens statistique : ensemble des éléments sur lesquels on procédera à des mesures pour
réaliser l’étude de certaines statistiques
2) Individu : Série statistique =
Élément de la population étudiée ensemble des données
3) Échantillon : recueillies
Sous-ensemble de la population
4) Caractère (ou variable) :
Propriété que l’on étudie sur la population pour chaque individu
5) Les modalités :
Ensemble des valeurs que peut prendre une variable (effectif = nombre de fois où la valeur
apparait)
➔ Les modalités finies
➔ Les modalités infinies

5.a) Variable qualitative :

Variable où les modalités s’expriment de façon littérale, c’est-à-dire qu’il n’y a pas de sens
numérique.

➔ Mots
➔ Signes, couleurs ou symboles
➔ Bruits
➔ Nombres (s’ils n’ont pas de sens lors d’une opération. Ex : loto, code barre…)

5.a.1) Variables qualitatives ordinales

Classement possible

5.a.2) Variables qualitatives nominales

Classement impossible

5.b) Variable quantitative :

Variable exprimée par des nombres indiquant une quantité sur laquelle des opérations sont
possibles.

5.a.1) Variable quantitative discrète

Les modalités de la variable sont des valeurs isolées (= chiffre limité, pas de virgule)
ex : le nombre d’enfants dans une famille

5.b.2) Variable quantitative continue

Les modalités de la variable peuvent être des valeurs infinies dans un intervalle donné
(ex : taille, poids, temps…)

2
Traitement de l’information, GACO S2

II – La récolte de données

1) Mesure
Individu → Pour chaque individu, on mesure le caractère étudié
➔ Il faut un appareil de mesure calibré (étalonné)
➔ Processus de mesure (ex : opération, manière de formuler un questionnaire)
➔ Report des informations (saisie)

IL Y A DES RISQUES DE BIAIS (= erreur) À CHAQUE ÉTAPE DE LA MESURE !

2) Le recueil de données

a) Recueil de données brut

Bleuenn 1,70
Vivien 1,75
Flavie 1,54
Jeanne 1,58
Cloé 1,63
Eloïse 1,70
Théo 1,75
Nolwenn 1,63

b) Recueil de données simplifié

Variable Effectif
Xi (écrire « Xi » permet Yi (écrire « Yi »
de préciser que l’on permet de préciser
désigne tous les X de la que l’on désigne tous
colonne (X1, X2, …)) les X de la colonne
(N1, N2, …))
1,54 (X1) 1 (n1)
1,58 (X2) 1 (n2)
1,63 (X3) 2 (n3)
1,70 (X4) 2 (n4)
1,75 (X5) 2 (n5)

c) Tableau d’une série statistique

On place ici des intervalles pour encore plus simplifier les données

Xi Ni
]1,50 ; 1,55] 1
]1,55 ; 1,60] 1
]1,60 ; 1,65] 2
]1,65 ; 1,70] 2
]1,70 ; 1,75] 2

3
Traitement de l’information, GACO S2

3) Critère de validité d’une variable

3 critères sont indispensables à la validité d’une variable :

L’INCOMPATIBILITÉ

→ Un individu ne peut avoir qu’UNE modalité UNIQUE de la variable.


Autrement dit, la question ne doit permettre qu’une seule réponse. Par exemple : « où habitez-
vous ? » n’est pas une question valide : pour des étudiants, il peut y avoir deux réponses (logement
étudiant et résidence principale). La question est donc mal posée.

L’EXHAUSTIVITÉ

→ On doit permettre de récolter toutes les valeurs possibles.


Par exemple, une enquête commerciale demandant le code postal de tous les clients dans un magasin
ne permettait pas de mettre des codes postaux étrangers (au Canada par exemple, le code postal ne
fait pas 5 chiffres mais 4 chiffres. Or, l’enquête obligeait à remplir 5 chiffres, donc le code postal
canadien ne pouvait être renseigné). Cependant, il arrive d’avoir des clients étrangers, lors de leurs
vacances par exemple. La question était alors mal posée.

SANS AMBIGUITÉ

→ On ne peut pas faire d’erreur de classement.


Par exemple, la question : « Habitez-vous loin du magasin ? » est trop ambiguë : le classement sera
différent selon chacun.

4
Traitement de l’information, GACO S2

III – Effectifs et fréquences

On appelle effectif une valeur donnée Xi le nombre de fois où cette valeur apparait dans la population
étudiée.

Ce nombre est noté Ni

Individu Poids
A 57
B 63
C 57
D 62
E 65
F 68
G 65
H 63
I 57
J 62

Variable Effectif Fréquence Effectif cumulé Effectif cumulé


croissant décroissant
Xi Ni Fi Ni croiss. Ni décroiss.
57 3 0,3 (30%) 3 (“celui qui 10 (“celui qui fait 57kgs
fait 57kgs et -, et +, il y en a 10”)
il y en a 3”)
62 2 0,2 (20%) 5 7
63 2 0,2 (20%) 7 5 (“celui qui fait 63kgs
et +, il y en a 5”)
65 2 0,2 (20%) 9 3 (“celui qui fait 65kgs
et +, il y en a 3”)
68 1 0,1 (10%) 10 (“celui qui 1 (“celui qui fait 65kgs
fait 68kgs et -, et +, il y en a 1”)
il y en a 10”)
= 10 = 1 (100%)

• Effectif total = N = n1, n2, n3, …, np


𝑝
= ∑𝑖=1 𝑁𝑖 (i = 1, jusqu’à p, et on additionne tous les Ni)
“np” désigne la dernière ligne de l’ensemble de Ni.

• Fréquences : les effectifs exprimés au % par rapport à la population. Notée Fi


𝑛𝑖
𝑓𝑖 =
𝑁

• Effectif (et fréquence) cumulés croissant et décroissant

5
Traitement de l’information, GACO S2

IV – Représentation dans une série statistique

Lorsque l’on a beaucoup de données, on va les regrouper pour les représenter. Dans le recueil des
données, il y a une nécessité d’identifier les individus pour éviter les doublons.

Dès qu’on parle de simplification de données faisant partie d’un recueil très dense, on parle de
statistiques.

On a des représentations sous la forme de tableaux, de graphiques et de chiffres clés.

Dès qu’on représente des informations sur un tableau, un graphique ou des chiffres clés comme
une moyenne, une médiane, des indices etc., ON FAIT DES STATISTIQUES.

1) Tableau statistique

Le tableau doit permettre une visibilité du phénomène.


→ S’il est trop simplifié (2 lignes), on a une grosse perte d’information.
→ S’il est trop complexe (+ de 15-20 lignes), il n’apporte pas d’information.

Exemple : variable quantitatives continues

Individu Salaire On voit bien que personne n’a pas le même salaire. Or, il faut
A 1200 qu’on arrive à simplifier ces données. On va alors créer des
B 1350 « classes » (intervalles de valeurs de la variable). On va devoir en
C 1820 effet faire des choix. La taille de la classe s’appelle « amplitude »
D 2500 notée Ai. On pourra faire différentes classes :
E 2130 a) Classes à petite amplitude
F 2050
]1000 ; 1050]
G 1780 Avantages : Moins de perte d’information
]1050 ; 1100] Inconvénients : Très faible lisibilité
H 1600
]1100 ; …
I 1250
J 1920 b) Classes à grande amplitude
K 2000 ]1000 ; 1500]
Avantages : Meilleure lisibilité
L 1100 ]1500 ; 2000] Inconvénients : Très grande perte d’informations
]2000 ; 2500]
c) Amplitudes de classe plus petites pour se focaliser sur le phénomène étudié
On met des grandes classes là où il n’y a pas beaucoup de monde, et des classes plus affinées
là où il y a beaucoup de monde.
]1100 ; 1500] 4
]1500 ; 1780] 2
]1780 ; 2000] 3

NB : les variables quantitatives continues seront représentées (pratiquement tout le temps) en tableau
avec des classes. Pour les autres types de variables, c’est surtout lorsque les modalités sont trop
nombreuses, que l’on procédera à la même chose.

6
Traitement de l’information, GACO S2

2) Graphiques

Règles de base :

• Mettre un titre : quelle est la population ? Quelle est la variable ?


• Le graphique est adapté à la nature de la variable
• Ajouter une légende des courbes / axes / …

a) Variable qualitative

a.1 Le diagramme à secteur (camembert)

RÉPARTITION DES ALCOOLS ATTENTION : les limites d’un


SELON LA CONSOMMATION diagramme en secteur sont qu’on perd
ÉTUDIANTE de l’information s’il y a trop de secteurs
ou que la plupart des secteurs sont de
Soft Bière Alcool doux Alcool fort
taille assez similaire. Il est plus difficile
de les comparer dans ces cas-là.
20% Cependant, il est possible de séparer
36%
chaque secteur pour faire comme un
30%
14% « zoom » pour pouvoir mieux les
comparer.

a.2 Le diagramme à bandes (ou en tuyau d’orgue)

Titre du graphique

Catégorie 4

Catégorie 3

Catégorie 2

Catégorie 1

0 1 2 3 4 5 6

Série 3 Série 2 Série 1

a.3 Le radar (ou toile d’araignée)

7
Traitement de l’information, GACO S2

b) Variable quantitative continue

b.1 Histogramme

Répartition des salaires des ATTENTION : s’il s’agit d’une comparaison


de données triées par classes, il faut être
salariés de l'entreprise vigilant aux amplitudes des classes !!! Si
PADSOU en mai 2020 les amplitudes ne sont pas les mêmes, il
faut ramener chaque amplitude SOIT à la
15 plus nombreuse, SOIT à la plus petite pour
10 pouvoir comparer chaque classe de
manière proportionnelle sur le graphique.
5 Cette classe sera considérée comme une
0 « classe de référence ». SINON, on peut
Nombre de salariés aussi définir la densité.

MAIS ! En cas d’amplitudes différentes, ça donne :

ai 0-20 8
xi ni (amplitude) 20-40 8
0-80 32 80 40-60 8
80-120 24 40 60-80 8
120-140 18 20 80-100 12
140-160 11 20 100-120 12
160-200 16 40 120-140 18
140-160 11
160-180 8
180-120 8

Titre du graphique Titre du graphique


Respecter cette largeur (pour
montrer la surface occupée par
ces amplitudes) et cette hauteur
représentant l’effectif corrigé
18
1 12 12 11
8 8 8 8 8 8
0 40 80 120 160 200
1
« 24 » « 16 »
0 10 20 30 40
0-20 20-40 40-60 60-80 80-100
160-200 140-160 120-140 80-120 0-80 100-120 120-140 140-160 160-180 180-120

COEFFICIENT (pour obtenir les effectifs pour faire le graphique) = classe de référence / ai

Ex : 20/80 = 0,25 : 32x0,25 = 8. Donc l’effectif des 20 premiers est de 8.

SINON, on calcule la densité. Il s’agit de ramener la quantité par unité de variable (ex : nombre
d’étudiants par m2). C’est comme si on choisissait comme classe de référence une unité de variable.

LA DENSITÉ, c’est donc les di = Effectifs / ai

Ex : 32 / 80 = 0,4 : On a 0,4 étudiant qui boit par bière entre 0 et 80 bières.

8
Traitement de l’information, GACO S2

b.2 Le polygone

Si on peut relier les points entre


Polygone eux, c’est car chaque variable est
30 quantitative continue : on joint les
points pour indiquer la continuité
25
du fait du type de variable. S’il ne
20 s’agissait pas d’une variable
quantitative continue, on pourrait
15
mettre un diagramme seulement
10 avec des points, sans liaison entre
les points. Cependant, le
5
diagramme « nuage de point » ne
0 correspond qu’à une analyse non
0 80 120 140 160 précise, qui ne correspond qu’à
Série 1
des observations. C’est pour cela
qu’on ne peut l’utiliser, à moins de
décrire une observation imprécise. Ainsi, on fera un diagramme avec des points, mais en joignant
l’axe des x à chaque point : on crée alors un diagramme à bâtons. Il s’agit d’un bon graphique pour
les variables quantitatives discrètes. Nous allons le voir dans le point « c » :

c) Variable quantitative discrète

c.1 Diagramme en bâtons

Ici, on ne peut pas tirer de


Diagramme en bâtons représentant le traits entre les points, car cela
nombre d'animaux familiers par famille à signifierait que toutes les
Morlaix en 2022 (cf. exo excel) valeurs sont possibles entre
40
deux intervalles. On ne peut
pas non plus laisser un point
30 seul, chaque individu étant
20 représenté par un point dans
10
un diagramme en nuage.
Alors, on tire chaque point à
0
l’axe des x en faisant un trait
0 1 2 3 4 5 6 7 8 9 10
pour spécifier que tels
Série 1 individus on telle valeur.

ATTENTION : on ne met JAMAIS de barre épaisse car cela voudrait dire qu’il y a un volume au sein de
l’amplitude de la classe. Pour spécifier qu’il ne s’agit que d’une seule valeur précise, on met un trait.
De la même manière que pour les histogrammes et les polygones, s’il y a des amplitudes de classe
différentes, on ramène chaque classe à une amplitude de référence. Cependant, au lieu de regrouper
ensuite ces amplitudes dans une barre avec du volume (largeur), on représente chaque amplitude
selon le nouvel effectif calculé grâce au coefficient.

NB : quand un graphique est trop long (ex : une variable qui va jusqu’à 300 alors qu’elle est quasi
nulle), on peut mettre le signe « // » pour indiquer que le graphique a été comme « coupé » et ne
pas avoir à faire un axe très long

9
Traitement de l’information, GACO S2

Chapitre 2 : Analyse univariée (1 variable) – Représentation


de la série par des chiffres clés

Introduction : Les couples d’analyse chiffrée

Dans ce type d’analyse, on n’a pas de graphique, mais on doit représenter tout de même la position
centrale et la dispersion de la variable.

On a plusieurs couples permettant de représenter ces données :

Position centrale Dispersion


Moyenne (concentration sur l’individu) Écart-type
Médiane (concentration sur la valeur) Écart inter quartile
Mode (concentration sur la variable majoritaire) Étendue

I – Couple mode / étendue

1) Le mode
Le mode, c’est la valeur de la variable portée par le plus grand nombre d’individus.

Exemple :

Xi Ni
Bleu 15 Classe modale : entre
Rouge 25 Xi Ni
20 et 30
Vert 22 0-10 15
Jaune 13 10-20 13 → Mode = 25
20-30 18
Mode = Rouge 30-40 12
40-50 5

Xi Ni
0 15 Xi Ni On corrige les
1 13 0-30 12 effectifs :
2 18 30-40 27
0-10 : 4
3 12 40-70 19
10-20 : 4
4 5 70-80 21
20-30 : 4
5 6 80-100 9
30-40 : 27 / Mode = 35
Mode = 2
40-50 : 6,33
Remarque : 50-60 : 6,33
60-70 : 6,33
• Le mode est faible à déterminer
70-80 : 21
• Le mode n’est pas adapté :
80-90 : 4,5
- Aux séries plates
90-100 : 4,5
- Aux séries avec plusieurs sommets

10
Traitement de l’information, GACO S2

2) L’étendue

L’étendue, c’est l’amplitude entre les valeurs extrêmes de la variable (ou entre la plus petite classe et
la plus grande)

ATTENTION : on prend la fin de la première classe et le début de la dernière !

Exemple :

Xi Ni
Bleu 15
Rouge 25 Xi Ni
Vert 22 0-10 15
Jaune 13 10-20 13
20-30 18
Étendue = non calculable, il s’agit
30-40 12
d’une variable qualitative nominale !
40-50 5
Étendue = 40 – 10 = 30
Xi Ni
0 15 Xi Ni
1 13 0-30 12
2 18 30-40 27
3 12 40-70 19
4 5 70-80 21
5 6 80-100 9
Inutile de corriger les
Étendue = 5 – 0 = 5 effectifs ici : l’étendue
est de 80 – 30 = 50

11

Vous aimerez peut-être aussi