Vous êtes sur la page 1sur 10

Cours : Tests statistiques Niveau: Mastère

Chap1 : Présentation des données statistiques

Et leurs caractéristiques
I. Introduction :

Définition :Dans le langage courant le mot « statistiques », au pluriel, désigne des


collections de chiffres, présentées souvent sous forme de tableaux, parfois sous forme
de graphiques, et qui regroupent toutes les observations effectuées sur des faits
nombreux, relatifs à un même phénomène.
La statistique, au singulier, est l'étude d'un phénomène par la collecte de données, leur
analyse, leur traitement, l'interprétation des résultats et leur présentation afin de rendre
les données compréhensibles par tous. C'est à la fois une science, une méthode et un
ensemble de techniques.
Objectifs : La statistique aura pour but d’étudier des faits pour permettre ensuite de
prendre des décisions. On conçoit alors qu’elle puisse être dangereuse si l’étude a été
viciée par des erreurs d’observation, ou des erreurs d’interprétation.
Applications :
Dans la pratique, les méthodes et outils statistiques sont utilisés dans plusieurs
domaines tels que :
 démographie : le recensement permet de faire une photographie à un instant
donné d'une population et permettra par la suite des sondages dans des
échantillons représentatifs
 physique : l'étude de la mécanique statistique et de la thermodynamique
statistique (cf Physique statistique) permet de déduire du comportement de
particules individuelles un comportement global (passage du microscopique au
macroscopique) ;
 production industrielle, avec des outils comme la Maîtrise Statistique des
Procédés ;
 géophysique, pour les prévisions météorologiques, la climatologie, la pollution,
les études des rivières et des océans
 Autres domaines comme : sociologie, marketing, économique, métrologie, la
recherche : médecine et autres

II. Vocabulaire :
1. On appelle population un ensemble d’éléments homogènes auxquels on s’intéresse.
Par exemple, les étudiants d’une classe, les contribuables français, les ménages lillois.
2. Les éléments de la population sont appelés les individus ou unités statistiques.
3 .On appelleéchantillon la partie de la population qui est choisie pour réaliser le test
statistique.
4. Des observations concernantun thème particulier ont été effectuées sur ces
individus. La série de ces observations forme ce que l’on appelle une variable
statistique. Par exemple, les Notes des Etudiants à l’Examen de Statistique, les
Mentions qu’ils ont obtenues à leur Bac, leur Sexe, les Couleurs de leurs Yeux, le
Chiffre d’Affaire par PME, le Nombre d’Enfants par Ménage, . . .

Par Mlle Louisa Issaoui [1]


Cours : Tests statistiques Niveau: Mastère

5. Une variable statistique est dite :

(i) quantitative : lorsqu’elle est mesurée par un nombre (les Notes des Etudiants à l’examen de
statistique, le Chiffre d’Affaire par PME, le Nombre d’Enfants par Ménage,...).On
distingue2typesdevariablesquantitatives:

Lesvariables quantitatives discrètes.

Et les variables quantitatives continues.

Les variables discrètes (ou dis-continues)ne prennentquedesvaleurs isolées.Par exemplele


nombre d’enfants par ménagenepeutêtreque0,ou1,ou2,ou3,...;ilnepeutjamais prendreunevaleur
strictement compriseentre0et1,ou1 et2,ou2et3, .... C’est aussi lecasdela note à l’examen de
statistique (on suppose que les notations sont entières sans
possibilitésdevaleursdécimalesintermédiaires).Lesvariablesquantitativescontinuespeuvent
prendre toutevaleur dansunintervalle.Par exemple,lechiffre d’affaireparPMEpeut être
29000,1euros, 29000,12 euros…mêmesi dansla pratiqueil faut l’arrondir.

(ii) qualitative : lorsque les modalités (ou les valeurs) qu’elle prend sont désignées par des
noms.Par exemples,lesmodalitésdelavariableSexesont: Masculinet Féminin; les modalités de
la variable Couleur des Yeux sont : Bleu, Marron, Noir et Vert; les
modalitésdelavariableMentionauBac sont:TB,B,ABetP.On distingue deux types de variables
qualitatives : les variables qualitatives ordinales et les variables qualitatives nominales. Plus
précisément une variable qualitative est dite ordinale, lorsque ses modalités peuvent être
classées dans un certain ordre naturel (c’est par exemple le cas de la variable Mention au
Bac); une variable qualitative est dite nominale, lorsque ses modalités nepeuvent être classées
de façon naturelle (c’est par Exemplele casdelavariable Couleur ou encore delavariable
Sexe).

III. Tableaux statistiques :

Une étude statistique consiste en un recueil de données (obtenue par une enquête).
Ces données sont ensuite organisées et présentées sous forme de tableaux (afin de faciliter à
l’interprétation de ces données), on dit « pour donner une vision globale d’une situation
décrite»
a) Tableau à simple entrée :
Exemple : Statistique du personnel d’une entreprise en fonction des salaires.
Tranche de salaire (€): x i Effectif : ni
] 900 ; 1050 ] 25
] 1050 ; 1200] 35
] 120 0 ; 1350] 9
] 1350 ; 1500] 4
] + de 1500 2
Tableau1

b) Tableau à double entrée :


Exemple:statistique du personnel d’une entreprise en fonction des salaires et de l’âge.

Par Mlle Louisa Issaoui [2]


Cours : Tests statistiques Niveau: Mastère

Tranche Total
[20 - [30 - [40 - [50 - [60 -
d’âge « y1 » 70 x i
30[ 40[ 50[ 60[ 70[
900 ; 1050 ] 14 5 3 2 1 0 25
Distribution
] 1050 ; 1200] 10 15 6 3 1 0 35
marginale de
] 120 0 ; 1350] 0 0 7 (1) 2 0 0 9 xi
] 1350 ; 1500] 0 1 3 0 0 0 4
] + de 1500 0 1 0 0 1 0 2
Total : des « y1 » 24 22 19 7 3 0 75
Distribution marginale des y1
Tableau2

Remarque :
- La lecture du tableau (1) indique que 7 salariés, dont l’âge est compris entre 40 et
50 ans touche un salaire compris entre 1200 et 1350 €.
-La série « Total xi » est appelée « distribution marginale de xi » et la série « Total
yi » est appelée « distribution marginale de yi ».
- Pour finir, il est aisé de vérifier que les sommes des deux distributions marginales
sont égales.
c) Présentation d’un tableau :
D’une façon générale, un tableau se compose :
- d’une colonne indiquant les diverses modalités de la variable ; (notée : xi)

- d’une ou plusieurs autres colonnes indiquant l’effectif (noté : ni) correspondant à ces
diverses modalités.
 Tableau concernant une variable continue : tableau1
 Tableau concernant une variable discrète :tableau3

Exemple : On veut répartir le personnel d’une entreprise en fonction du nombre


d’enfants au foyer, en l’année « T0 »

Par Mlle Louisa Issaoui [3]


Cours : Tests statistiques Niveau: Mastère

Nombre d’enfants Effectif


xi ni
0 8
1 35
2 39
3 15
4 4
5 et + 1
Tableau3

d) Calcul des fréquences et des effectifs cumulés

La fréquence :La fréquence d’une modalité de la variable est le rapport de l’effectif


correspondant à l’effectif total de la population. Ce rapport est noté « fi ».
n
fi = n i
 n
i=1 i
i 1

L’effectif cumulé : le cumulé croissant se calcule par ni   nj


j 1
On ajoute aux colonnes des tableaux statistiques des colonnes de fréquences et
d’effectifs cumulés. On peutinsérer les fréquences cumulés en pourcentage fi*100
Exemple de Tableau1 :
Tranche de Effectif : ni Effectifs Effectifs fréquences Fréquences
salaire (€): xi cumulés cumulés cumulés
croissants décroissants
] 900 ; 1050 ] 25 25 75 25/ 0.33
(25+35+9+4+2)=0.33
] 1050 ; 1200] 35 60 50 0.46 0.8
] 120 0 ; 1350] 9 69 15 0.12 0.92
] 1350 ; 1500] 4 73 6 0.053 0.973
] + de 1500 2 75 2 0.026 1
Tableau4

 L’effectif simple et les fréquences simples indiquent comment se distribue la


variable par rapport aux différentes modalités.

 l’effectif cumulé et les fréquences cumulées indiquent comment se répartit la


variable par rapport aux différentes modalités.

il existe par ailleurs deux catégories de fréquences cumulées :


- les fréquences cumulées croissantes qui indiquent combien d'unités de la population sont
caractérisées par une valeur inférieure à ……;
- les fréquences cumulées décroissantes qui indiquent combien d'unités de la population sont
caractérisées par une valeur supérieure à ……

IV. Caractéristiques de valeur centrale et les caractéristiques de dispersion des séries


statistiques

Par Mlle Louisa Issaoui [4]


Cours : Tests statistiques Niveau: Mastère

1. Moyenne classique et moyenne pondérée


 Moyenne classique
Pour calculer une moyenne classique d’une série(xi,ni), on effectue le calcul suivant :

x 1 + x 2 + ...x i ....x n
N
 Moyenne pondérée (arithmétique)
 Cas des variables discrètes
Une moyenne pondérée est une moyenne dont certaines des valeurs sont affectées d’un
poids. Elle notée m ou x elle est utilisée pour calculer dans une étape avancée la
variance et l’écart type.
Pour calculer une moyenne pondérée, on effectue le calcul suivant :
n

x n i i
n1x1 + n 2 x 2 + ...n i x i ....n n x n
m=x= i
n
=
N
n i
i

Exemple :
Voici les notes d’une classe de troisièmes à un contrôle de maths :

Note des élèves 3 7 9 10 11 12 15 18 20


Nombre d’élèves 1 2 4 5 6 7 6 2 1
Tableau5
N = 34 élèves.
La moyenne à ce contrôle de maths est donc d’environ 11,7 sur 20.
1* 3 + 2 * 7 + 4 * 9 + 5 *10 + 6 *11 + 7 *12 + 6 *15 + 2 *18 + 1* 20 399
m= = » 11.7
34 34
 Cas des variables continues
Dans le cas des variables continus xide la formule de calcul de la moyenne est le
centre de la classe modale (l’intervalle représentant la variable ou la modalité).on
calcule xi pour tous les modalités puis on calcule la moyenne arithmétique
Exemple tableau4 :] 1050 ; 1200] centre de la classe modale xi
ieme ier
1200 -1050 ier 2 borne -1 borne
x i = 1050 + = 1 borne +
2 2
2. La Médiane
 Cas des variables discrètes
La médiane d’une série statistique est le nombre qui partage cette série en deux parties
de même effectif. Attention !!! Lesvaleurs du caractère doivent êtrerangées par ordre
croissant !!!
 Si l’effectif total est un nombre impair :
Voici les notes d’une classe de troisièmesà un contrôle de maths :

Note des élèves 2 6 8 9 10 11 12 14 16


Nombre d’élèves 1 3 3 7 6 5 3 2 3
Tableau6

Par Mlle Louisa Issaoui [5]


Cours : Tests statistiques Niveau: Mastère

Tout d’abord on range les différentes valeurs par ordre croissant. Si trois élèves ont eu
6/20, on marquera le 6 trois fois, si 7 élèves ont eu 9/20, on marquera le 9 sept fois,
etc.
Voici ce que ca donne :
2, 6, 6, 6, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 11, 11, 11, 11, 11, 12, 12, 12,
14, 14, 16,16,16
En tout, il y a 33 notes (N = 33). La médiane sera égale à la valeur correspondant à la
N -1 N + 1 ième
note n° +1 c’est ( ) variable
2 2

La médiane est égale à la valeur correspondant a la note n = (33- 1)/2 + 1 = 17.


La 17ième note est 10, donc la médiane est égale à 10.
 Si l’effectif total est un nombre pair :
Voici les notes d’une classe de troisièmes à un contrôle de maths Tableau5
Tout d’abord on range les différentes valeurs par ordre croissant. Si deux élèves ont eu
7/20, on marquera le 7 deux fois, si 4 élèves ont eu 9/20, on marquera le 9 quatre fois,
etc.
Voici ce que ca donne :
3, 7, 7, 9, 9, 9, 9, 10, 10, 10, 10, 10, 11, 11, 11, 11, 11, 11, 12, 12, 12, 12, 12, 12, 12,
15, 15, 15, 15, 15, 15, 18, 18, 20.
En tout, il y a 34 notes. 34/2 = 17. En partant de la gauche, on compte 17 notes et la
médiane sera la moyenne de la 17enote et de la 18e : (11+11)/2=11
N ième N ième
( ) variable + ( +1) variable
2 2
2
 Cas des variables continues
Si la variable est continue (regroupement par intervalle des résultats) le
calcul de la médiane se fait autrement :

Notes effectifs Effectifs cumulés La densité de


l’effectif
[0 ; 5[ 10 10 2
[5 ; 8[ 8 18 2.6
[8 ; 12[ 12 30 3
[12 ; 15[ 11 41 3.66
[15 ; 20[ 9 50 1.8
total 50
Tableau7

Utilisons la colonne des effectifs cumulés pour déterminer la médiane : il y a 50 notes,


50 % de l'effectif total c'est 25, la médiane est ici la note correspondant à l'effectif
cumulé 25.

D'après la colonne "effectif cumulé" :


o 18 personnes ont moins de 8

Par Mlle Louisa Issaoui [6]


Cours : Tests statistiques Niveau: Mastère

o 30 personnes ont moins de 12

La médiane se trouve donc dans l'intervalle [8;12[ ( appelée classe médiane ) on va la


déterminer par interpolation linéaire.

Figure1 : interpolation linéaire de la valeur médiane

Les points A, M, B sont alignés ce qui se traduit par les droites (AM) et (AB) ont même
coefficient directeur (ou on utilise le théorème de Thalès dans le triangle bleu) :

Me - 8 12 - 8
=
25 -18 30 - 18

Me - 8 4
=
7 12
4
Me = * 7 + 8 » 10.33
12

La médiane est environ 10,33

3. L’étendue

L’étendue d’une série statistique est la différence entre sa valeur la plus élevée et sa valeur la
plus basse.

Exemples :

Tableau5 : La note la plus élevée est 20 et la note la plus basse est 3. L’étendue e = 20 – 3 =
17.

Tableau6 :La note la plus élevée est 16 et la note la plus basse est 2. L’étendue e = 16 – 2 =
14.

4. Le mode

Par Mlle Louisa Issaoui [7]


Cours : Tests statistiques Niveau: Mastère

 Dans le cas d'une série statistique continue, la classe modale est la classe la
plus dense c'est à dire la classe qui contient le plus d'effectifs par amplitude.
La densité d'effectif de la classe se calcule en divisant chaque effectif par
l'amplitude correspondante de la classe.
Exemple : tableau7 pour la première classe l'amplitude est de 5 - 0 = 5,
l'effectif de 10 donc la densité sera de 10/5 soit 2.
Le mode de la série continue de tableau7 est 3.666 = (11/(15-12))
 Dans le cas d’une série statistique discrète, le mode est la valeur de plus grand
effectif.
Exemple : tableau5 :note 12, tableau6 : note 9
Dans certains cas on peut trouver plus qu’une seule valeur de mode.
5. La variance et l’écart type
-La variance : Pour calculer la variance d'une série statistique, on utilise la formule :

n 2
 (x i - x) * n i n
2
V= i n =  (x i - x) * fi
 ni i
i

Remarque : Dans le cas des variables continus xi de la formule est le centre de la classe
modale comme est mentionné précédemment

-l’écart type est le nombre noté

σ tel que σ= V .

5. L’écart moyen :

 x  x *n
i i
e i
n

n i
i

6. Les quartiles et l’intervalle interquartile :

Variable discréte :
Le premier quartile et le troisième quartile d'une série statistique rangée dans l'ordre croissant
(x1 , x2 ,x3 , x4 , ....., xn) sont les nombres Q1 et Q3 définis de la façon suivante :
- si n/4 est un entier , le premier quartile Q1 est le terme de rang n/4 et le troisième

Par Mlle Louisa Issaoui [8]


Cours : Tests statistiques Niveau: Mastère

quartile Q3 est le terme de rang 3n/4.


- si n/4 n'est pas un entier, Q1 et Q3 sont respectivement les termes de rang immédiatement
supérieur à n/4 et 3n/4.
Remarque :
Le paramètre Q1 permet de dire que 25 % environ de la population étudiée a une modalité
inférieure à la Q1 et 75 % une modalité supérieure à la Q1.
Le paramètre Q3 permet de dire que 75 % environ de la population étudiée a une modalité
inférieure à la Q3 et 25 % une modalité supérieure à la Q3.

Le second quartile Q2 (médiane) permet de dire que 50 % environ de la population étudiée a


une modalité inférieure à la Q2 et 50 % une modalité supérieure à la Q2.
On peut définir aussi les quartiles Q1, Q2, Q3 comme des valeurs permettant de couper une
population ordonnée en quatre groupe contenant chacun le même nombre d'élément.

Exemple : Tableau6

Note des élèves 2 6 8 9 10 11 12 14 16


Nombre d’élèves 1 3 3 7 6 5 3 2 3

Les notes sont écrites dans un ordre croissant sinon il faut trier les modalités en ordre croissant
N=33
N/4=8.25 le premier quartile est la note qui correspond au 9ième élève c’est 9 ; Q1=9
3*N/4=24.75 le troisième quartile est la note qui correspond au 25ième élève c’est 11 ; Q3=11
2*N/4=N/2=16.5 le deuxième quartile (médiane) Q2= 10.

Variable continue
Si la variable est continue (regroupement par intervalle des résultats) le calcul des quartiles se fait
autrement : Les quartiles se calculent alors par interpolation linéaire. :

Exemple : Tableau7

25%N=12.5 Q1=5.94
75%N=37.5 Q3=14.05

Par interpolation linéaire on :

L’intervalle interquartile est la différence entre le troisième et le premier quartile Q3-Q1

Exemple précédent tableau7 : 14.05-5.94=8.11

7. Les déciles et l’intervalle inter décile :

Par Mlle Louisa Issaoui [9]


Cours : Tests statistiques Niveau: Mastère

Les quartiles sont les valeurs des variables telles que 25% et respectivement 75% des valeurs
leur soient inférieurs. Tandis que le premier, le second et le troisième décile sont
respectivement les valeurs de modalité telle que 10% respectivement 20% et 90% des
effectifs observés correspondent à des valeurs qui lui sont inférieurs.

L’intervalle inter décile c’est D3-D1

Exemples :

1) Tableau 6 ; variables discrètes

10%N=3.3 D1=6

20%N=6.6 D2=8

90%N=29.7 D9=14

2) Tableau8 : variables continues : distribution des salaires des 250 salariés d’une entreprise.

Salaire horaire Effectifs Effectifs cumulés


[8, 8.4 [ 10 10
[8.4, 8.8 [ 30 40
[8.8, 9[ 60 100
[9, 9.2 [ 72 172
[9.2, 9.6 [ 40 212
[9.6, 10.2 [ 24 236
[10.2, 10.9 [ 14 250
Total 250
Tableau8

D1 est le salaire de 25ième salarié (25=N*10/100) , N=250

25  10
D1  8.4  (8.8  8.4) *  8.6euros
40  10
25ième salarié appartient à l’effectif dont la classe modale est [8.4, 8.8 [
D9 est le salaire du 225ième salarié (225 =N*90/100)
225ièmesalarié appartient à l’effectif dont la classe modale est [9.6, 10.2 [

225  212
D9  9.6  (10.2  9.6)*  9.925euros
236  212
L’intervalle inter décile D9-D1= 9.925-8.6=1.325

Par Mlle Louisa Issaoui [10]

Vous aimerez peut-être aussi