Vous êtes sur la page 1sur 51

SUI

Semestre : 1 (année 2022/2023)


Cycle : Master 1 industrie
Module : Statistique appliquée à la gestion
Elément : Statistiques descriptive
Enseignant : M. NANDA Georges
Tél : +237 679652257/699928001
Email : georgesnanda@gmail.com

Eléments du cours
• Rappel historique et éléments du vocabulaire
• Tableaux statistiques
✓ Cas d’une seule variable
✓ Cas de deux variables
✓ Notions de fréquences
✓ Typologie des tableaux
• Représentations graphiques
✓ Variables qualitatives
✓ Variables quantitatives
• Caractéristiques de tendance centrale et de position
✓ Mode
✓ Médiane
✓ Moyennes
✓ Quantiles
• Caractéristiques de dispersion
✓ Etendu
✓ Intervalles
✓ Variance & Ecart type
✓ Coefficient de variation
✓ Concentration
• Liaison entre deux variables quantitatives
✓ Nuages de points
✓ Droites de régression
✓ Coefficients de corrélation
• Liaison entre deux variables qualitatives
✓ Tableau de contingence
✓ Test d’une éventuelle liaison

Page | 1
CHAPITRE 1 : RAPPEL HISTORIQUE ET ELEMENTS DU VOCABULAIRE

1.1. RAPPEL HISTORIQUE

La science statistique semble exister dès la naissance des premières structures


sociales. D'ailleurs, les premiers textes écrits retrouvés étaient
des recensements du bétail, des informations sur son cours et des contrats
divers. On a ainsi trace de recensements en Chine au xxiiie siècle av. J.-C. ou en
Égypte au xviiie siècle av. J.-C. Ce système de recueil de données se poursuit
jusqu'au xviie siècle. En Europe, le rôle de collecteur est souvent tenu par
des guildes marchandes, puis par les intendants de l'État.

La civilisation Inca (1400-1530) a développé un système de numération


positionnel en base 10 (donc similaire à celui utilisé aujourd'hui). Ne
connaissant pas l'écriture, ils utilisaient des quipus pour « écrire » les
statistiques de l'État. Un quipu est un encordage dont les cordes présentent
trois types de nœuds symbolisant respectivement l'unité, la dizaine et la
centaine. Un agencement des nœuds sur une corde donne un nombre entre 1
et 999 ; les ajouts de cordes permettant de passer au millier, au million, etc.

Ce n'est qu'au xviiie siècle que l'on voit apparaître le rôle prévisionnel des
statistiques avec la construction des premières tables de mortalité. Antoine
Deparcieux écrit en 1746 l'Essai sur les probabilités de la durée de vie
humaine. Elle va d'abord servir aux compagnies d'assurances sur la vie qui se
créent alors.

Florence Nightingale est une pionnière de la présentation visuelle de


l'information. Elle utilise entre autres les diagrammes circulaires, les "Pie
Chart", développés par William Playfair en 1801. Après la guerre de Crimée,
elle se met à utiliser une version améliorée de ces diagrammes (équivalant
aux histogrammes circulaires d'aujourd'hui), afin d'illustrer les causes
saisonnières de mortalité des patients de l'hôpital militaire qu'elle gère. Par la
suite, Nightingale réalise une étude statistique complète du système sanitaire

Page | 2
dans les campagnes indiennes. Elle devient la figure majeure de l'amélioration
des soins médicaux et des services publics de santé, en Inde et en Angleterre.

Les statistiques mathématiques s'appuyaient sur les premiers travaux


concernant les probabilités développés par Fermat et Pascal. C'est
probablement chez Thomas Bayes que l'on vit apparaître un embryon de
statistique inférentielle. Condorcet et Laplace parlaient encore de probabilité là
où l'on parlerait aujourd'hui de fréquence. Mais c'est à Adolphe Quetelet que
l'on doit l'idée que la statistique est une science s'appuyant sur les probabilités.

Pierre-Simon de Laplace fait entrer l'analyse dans la théorie des probabilités


dans sa théorie analytique des probabilités de 1812 qui restera longtemps un
monument. Son livre donne une première version du théorème central
limite qui ne s'applique alors que pour une variable à deux états, par exemple
pile ou face mais pas un dé à 6 faces. Il faudra attendre 1901 pour en voir
apparaître la première version générale par Liapounov. C'est aussi dans ce
traité qu'apparaît la méthode de Laplace pour l'évaluation asymptotique de
certaines intégrales.

La théorie moderne des probabilités ne prend réellement son essor qu'avec la


notion de mesure et d'ensembles mesurables qu'Émile Borel introduit en 1897.

Le xixe siècle voit cette activité prendre son plein essor. Des règles précises sur
la collecte et l'interprétation des données furent édictées. La première
application industrielle des statistiques eut lieu lors du recensement américain
de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman
Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.

Au xxe siècle, les applications industrielles de la statistique se développèrent


d'abord aux États-Unis, qui étaient en avance sur les sciences de gestion, puis
seulement après la Première Guerre mondiale en Europe. Le
régime nazi employa des méthodes statistiques à partir de 1934 pour
le réarmement. En France, on était moins au fait de ces applications.

Page | 3
L'application industrielle des statistiques en France se développe avec la
création de l'Insee, qui remplaça le Service National des Statistiques créé
par René Carmille.

L'avènement de l'informatique dans les années 1940 (aux États-Unis), puis en


Europe (dans les années 1960) permit de traiter un plus grand nombre
de données, mais surtout de croiser entre elles des séries de données de types
différents. C'est le développement de ce qu'on appelle l'analyse
multidimensionnelle.

Page | 4
1.2. DEFINITIONS ET OBJETS :

a) Statistique :

La statistique est une méthode scientifique dont l’objet est de recueillir,


d’organiser, de résumer et d’analyser les données d’une enquête, d’une étude,
d’un phénomène aléatoire ou d’une expérience, aussi bien que de tirer les
conclusions logiques et de prendre les décisions qui s’imposent à partir des
analyses effectuées.

Un phénomène aléatoire est un phénomène comportant des variables


aléatoires, c’est à dire des variables liées au hasard et dont les valeurs ne
peuvent en conséquence être connues d’avance. (Exemple : le nombre de
points marqué par un dé)

On distingue :

• La statistique descriptive ou statistique de constatation, qui concerne les


tableaux, les graphiques relatives à des inventaires, des enregistrements,
des recensements, etc.

• La méthode statistique qui concerne l’ensemble des procédés et


méthodes pour l’analyse et l’interprétation.

b) Domaines d’application :

Le domaine d’utilisation de la statistique est tellement étendu qu’il serait


impossible de citer toutes les applications, on va citer quelques exemples :
- La recherche biologique et médicale ;
- La recherche spatiale ;
- Le contrôle des fabrications dans l’industrie ;
- Le sondage d’opinion ; les enquêtes de marché ;
- Les assurances ;
- Les recherches opérationnelles ;

Page | 5
- L’étude de la conjoncture ;
- La détermination des indices économiques.

Les sondages d’opinion, en particulier, ont connu une extension considérable


au cours de ces dernières années.

Les perfectionnements considérables intervenus dans le domaine des


machines à calculer ont contribué à étendre les possibilités de la statistique.

c) Ensemble, sous-ensembles, unités, taille :

Un ensemble ou référentiel statistique composé d’éléments ou d’unités


statistiques est dit population ou univers.

Un sous-ensemble de l’ensemble est un échantillon.

Une unité statistique doit être définie comme un individu. Elle peut
comporter de nombreux caractères, ceux-ci pourront eux même comporter
plusieurs modalités.

La taille est définie comme le nombre d’individus dans un échantillon (n) ou


d’une population (N).

Exemple :

* Ensemble de production : 135 ouvriers de l’usine X ;

* Echantillon : 5 ouvriers ;

* Unité : 1 ouvrier de l’usine X ;

* Caractères : a- le salaire, âge, etc. (modalités)

b- ancienneté, sexe, etc. (modalités)

d) Caractères qualitatifs et quantitatifs continus ou directs :

Les caractères quantitatifs sont ceux auxquels on peut attribuer une valeur
numérique. (Exemple : une taille)

Page | 6
Les caractères qualitatifs sont ceux auxquels on peut seulement associer une
valeur numérique arbitraire. (Exemple : une couleur)

Un ensemble coordonné des valeurs d’un caractère quantitatif constitue une


suite ou série statistique.

Un caractère continu est un caractère qui peut prendre n’importe quelle


valeur numérique. (Exemple : une surface, un prix, l’âge, etc.)

Un caractère discret ou discontinu est un caractère qui ne peut prendre que


des valeurs isolées en général des nombres entiers. (Exemple : nombre de
personnes dans une famille, nombre de femmes, etc.). Dans le cas d’un
caractère discontinu, l’interprétation est dénuée de sens.

Page | 7
CHAPITRE 2 : TABLEAUX STATISTIQUES

Un tableau permet une présentation synthétique des informations recueillies,


il doit se suffire à lui-même, c’est pourquoi il est nécessaire qu’il comporte les
indications suivantes :
• Le titre indiquant l’objet du travail statistique ;
• L’unité de mesure qui a été utilisée ;
• La référence de la source de la documentation.

2.1. PRESENTATION D’UN TABLEAU

D’une façon générale, un tableau se compose d’une :


• colonne indiquant les différentes modalités de la variable xi ;
• ou plusieurs autres colonnes indiquant l’effectif correspondant à ces
diverses modalités.

2.1.1. CAS D’UNE SEULE VARIABLE

Le tableau brut se présente sous la forme suivante :

Le nombre d'individus observé étant en général important, le tableau


précédant ne permet pas d'analyser l'information obtenue. Il est donc
nécessaire de créer un tableau plus synthétique où les observations identiques
(possédant la même modalité) ont été regroupées.

Page | 8
Pour une variable qualitative, les modalités ne sont pas mesurables.

Pour une variable quantitative, les modalités sont mesurables. Ce sont des :
• valeurs numériques ponctuelles lorsque la variable est discrète
• intervalles lorsque la variable est continue ou lorsque la variable est
discrète et qu'elle comporte beaucoup de modalités.

Exemple 1 : Tableau concernant une variable qualitative

Distribution des salles de classe d’une école en fonction de la taille.


Taille des salles de classe Effectifs

Petite 15

Moyenne 25

Grande 10

Total 50

Lecture du tableau :
• L’école dispose un total de 50 salles de classe
• 15 salles de classe de l’école sont de petite taille
• 25 salles de classe de l’école sont de moyenne taille
• 10 salles de classe de l’école sont de grande taille

Page | 9
Exemple 2 : Tableau concernant une variable quantitative discrète

Distribution du personnel d’une entreprise en fonction du nombre d’enfants.

Nombre d'enfants Effectifs


xi ni
0 12
1 31
2 29
3 11
4 4
5 2
6 et + 1
Total : 90
Lecture du tableau :
• 12 membres du personnel portent zéro enfant.
• 31 membres du personnel portent un enfant.

Exemple 3 : Tableau concernant une variable quantitative continue

Distribution des réceptions de marchandises en fonction du nombre de colis.

Nombre de colis Effectifs


xi ni
1à5 20
6 à 10 30
11 à 15 60
16 à 20 50
21 à 30 30
31 et + 10
Total: 200

Page | 10
Lecture du tableau :
• Nous avons reçu 20 fois des livraisons contenant des colis entre 1 et 5.
• Les amplitudes peuvent être inégales.
• La colonne des xi peut être présentée de la façon suivante :
1–5
5 – 10
10 – 15

etc.

Dans ce cas, il faut indiquer clairement la convention de bornage choisi.

Application :

Nous étudions une population de 1000 entreprises selon le caractère modalité


« forme juridique ».

Les modalités retenues : S.A (Société Anonyme), SARL (Société A


Responsabilité Limitée), EI (Entreprise Individuelle), SNC (Société en Nom
Collectif).

Leurs effectifs respectifs : 200, 400, 340, 60.

TAF :

1. Précisez le type de caractère étudié dans la série

2. Présentez cette série dans un tableau.

Page | 11
2.1.2. CAS DE DEUX VARIABLES

Le tableau brut se présente sous la forme suivante :

On désire créer un tableau appelé tableau de contingence donnant le nombre


d'individus possédant simultanément la modalité i de variable1 et la modalité j
de variable2 qui se présentera sous la forme suivante :

Page | 12
Application :

Dans une entreprise, une enquête statistique a été faite sur 500 employés, et
portant sur deux caractères, l’âge et la rémunération. Les résultats de l’enquête
sont présentés dans les deux tableaux suivants :

Age n
20 à 25 150
25 à 30 100
30 à 35 200
35 à 40 50

Rémunération en Euros n
Moins de 1500 200
1500 à 2000 150
2000 à 2500 100
Plus de 2500 50

TAF : Présentez dans un même tableau la distribution de ces deux caractères.

Page | 13
NOTIONS DE FREQUENCE

La deuxième colonne d’un tableau (2e et 3e colonnes, cas d’un tableau bivariée)
de statistique enregistre le nombre de fois que la valeur de la variable
mentionnée dans la première colonne a été rencontrée.

Il s’agit d’une fréquence, notée fi, et celle-ci peut apparaître sous divers aspects
selon les critères retenus.

2.1.3. FREQUENCE ABSOLUE, FREQUENCE RELATIVE :


• La fréquence absolue, comme son nom l’indique, donne le nombre
d’unités en valeurs absolues.
• La fréquence relative est calculée en divisant chaque fréquence absolue
par l’effectif total de la population.

En d’autres termes, la fréquence est exprimée en valeurs relatives multipliée


par 100 donne un pourcentage.

Valeur de colis fréquences f


xi absolues relatives
1à5 20 0,1 10 %
6 à 10 30 0,15 15 %
11 à 15 60 0,3 30 %
16 à 20 50 0,25 25 %
21 à 30 30 0,15 15 %
31 et + 10 0,05 5%
total: 200 total: 1 total: 100 %

Remarques :
• Pour les fréquences relatives, le tableau se lit comme suit : 10 % des
livraisons reçues contenaient entre 1 et 5 colis.
• La somme des fréquences relatives est toujours égale à 1.

Page | 14
2.1.4. FREQUENCES SIMPLES, FREQUENCES CUMULEES :

• Les fréquences simples, qu’elles soient absolues ou relatives, indiquent


comment se distribue la variable par rapport aux différentes modalités.
• Les fréquences cumulées, qu’elles soient absolues ou relatives, indiquent
comment se répartis la variable par rapport aux différentes modalités. Il
existe deux catégories de fréquences cumulées :
✓ Les fréquences cumulées croissantes qui indiquent combien d’unités
de la population sont caractérisées par une valeur inférieure ;
✓ Les fréquences cumulées décroissantes qui indiquent combien
d’unités de la population sont caractérisées par une valeur
supérieure.

Nombre de
colis. Fréquences absolues Fréquences relatives
xi Simples Cumulées Simples Cumulées
Croissantes Décroissantes Croissantes Décroissantes
1à5 20 20 200 0,1 0,1 1
6 à 10 30 50 180 0,15 0,25 0,9
11 à 15 60 110 150 0,3 0,55 0,75
16 à 20 50 160 90 0,25 0,8 0,45
21 à 30 30 190 40 0,15 0,95 0,2
31 et + 10 200 10 0,05 1 0,05
200 1

• 80 % des livraisons comportent moins de 20 colis.


• 45 % des livraisons comportent plus de 16 colis.

2.2. TYPOLOGIE DES TABLEAUX :

Selon le nombre de variables observées sur une même unité, plusieurs


tableaux sont possibles :
• Tableau à simple entrée c’est à dire qui étudie une seule variable ;
• Tableau à double entrée c’est à dire qui étudie deux variables.
Exemple : Statistique du personnel d’une entreprise en fonction des salaires
(xi) et de l’âge (yi).

Page | 15
CHAPITRE 3 : REPRESENTATION GRAPHIQUES

Lorsqu'on observe un caractère sur des individus, on aboutit à un tableau de


chiffres peu parlant. L'objectif est de donner une représentation graphique de
ce tableau qui permette d'un seul coup d'avoir une idée de la manière dont se
répartissent les individus.

3.1. VARIABLES QUALITATIVES

A chaque modalité i est associé un effectif ni.

La seule représentation qui nous intéresse est celle des effectifs ni (ou des
fréquences ni/n).

Suivant la variable observée, de nombreuses représentations plus ou moins


informatives peuvent être utilisées. Cependant les 2 plus classiques sont :

Les tuyaux d'orgue (ou diagramme en barre ou diagramme à bandes)


o les modalités de la variable sont placées sur une droite horizontale
(attention: ne pas orienter cette droite car les modalités ne sont pas
mesurables et il n'y a donc pas de relation d'ordre entre elles).
o les effectifs (ou les fréquences) sont placés sur un axe vertical. La hauteur
du tuyau est proportionnelle à l'effectif.

Les diagrammes à secteurs (ou camemberts)


o L'effectif total est représenté par un disque.
o Chaque modalité est représentée par un secteur circulaire dont la surface
(pratiquement : l’angle au centre) est proportionnelle à l’effectif
correspondant.

Page | 16
Application :

La répartition des candidats convoqués pour participer au Test d’Admissibilité


à une Formation en Logistique dans une grande école, selon la série du
baccalauréat se présente comme suit :

Série du Bac xi Nombre de candidats ni


Sciences économiques 250
Sciences mathématiques 200
Sciences expérimentales 400
T.G.A 50
T.G.C 100

Total 1000

TAF : Représentez cette distribution en Tuyaux d’orgues et Diagramme


circulaire

3.2. VARIABLES QUANTITATIVES

3.2.1. CAS D’UNE VARIABLE DISCRETE OU DISCONTINUE :

La représentation graphique des fréquences simples d’une variable discrète


peut s’effectuer sous la forme de graphique en bâton.

La valeur observée de la variable est portée sur l’axe des abscisses de la


variable, et la fréquence simple correspondante est portée sur l’axe des
ordonnés, cette dernière peut être exprimée en valeur relative ou en valeur
absolue, le bâton est un segment de droite perpendiculaire à l’axe des abscisses
(ox), de langueur ou de hauteur proportionnelle à l’effectif correspondant.

Page | 17
Exemple :

Distribution du personnel d’une entreprise en fonction du nombre d’enfants.

Nombre d'enfants par personne (xi) Le nombre de personnes concernées (ni)


0 12
1 31
2 29
3 11
4 6
5 3
Total : 92
ni
Distribution du personnel d’une entreprise en fonction
du nombre d’enfants.
40
¯
35 31 29
¯
30
¯
25
¯
20
¯
15 12
¯
10 11
¯ 6
5 3
¯
‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ xi
0 1 2 3 4 5 6 7 8 9

Remarque :

Dans le cas d’une variable discrète, il ne faut pas joindre les sommets des bâtons car
par définition, il n’existe pas de valeurs intermédiaires entre deux positions de la
variable.

Page | 18
3.2.2. CAS D’UNE VARIABLE STATISTIQUE CONTINUE :

La représentation graphique des fréquences simples d’une variable continue peut


s’effectuer sous la forme d’un histogramme.

En portant dans l’axe des abscisses les valeurs des classes du caractère, et en leur
donnant les fréquences correspondantes, ou représente la structure de la population
étudiée.

a- Principes de construction de l’histogramme :


Pour chaque classe, on élève un rectangle ayant une base proportionnelle à
l’intervalle de classes, et hauteur proportionnelle à la fréquence simple. Dans ce
cas, ce sont les surfaces et non les hauteurs qui sont proportionnelles à l’effectif.
Dans la pratique deux cas peuvent se présenter :
✓ Cas d’amplitude égale :
. Exemple :
Distribution du courrier du mois de février d’une entreprise en fonction du nombre
des lettres reçues.
Nombre des lettres reçues (xi) Fréquences absolues (ni) Amplitudes
10 à 15 5 5
15 à 20 7 5
20 à 25 6 5
25 à 30 4 5
30 à 35 2 5
35 à 40 1 5
Total : 25

Page | 19
Histogramme du courrier du mois de février de
l'entreprise X

8 7
7 6 10 à 15
6 5 15 à 20
5 4 20 à 25
4
n

25 à 30
3 2
2 30 à 35
1
1 35 à 40
0
Fréquences absolues (n)
x

L’histogramme est constitué par l’ensemble des rectangles adjacent. Nous vérifions
par exemple le rectangle représentatif de la classe 30 à 35 (effectif 2) a une surface
double de celle du rectangle représentatif de la classe 35 à 40 (effectif 1).

✓ Cas d’amplitude inégale :


Dans ce cas, on respecte la proportionnalité des surfaces, il faut rectifier en
conséquence les hauteurs.
Supposant que la distribution précédente, sur une période de deux mois, se présente
de la façon suivante :
Nombre des lettres reçues (xi) Fréquences absolues (ni) Amplitude
10 à 15 3 5
15 à 20 9 5
20 à 25 12 5
25 à 35 18 10
35 à 40 6 5
40 à 45 3 5
Total : 51

En effet, l’intervalle de la classe 25 à 35 est double des autres, ce qui se traduit si on


ne modifie pas les fréquences par une marque de proportionnalité entre les surfaces.

Il convient donc de rendre les classes égales. L’amplitude de la classe 25 à 35 étant le


double des amplitudes des autres classes, il faut avant toute représentation
graphique de diviser par 2 la fréquence correspondante de la classe.

Page | 20
ni
Histogramme du courrier de deux mois de l’entreprise X
16
¯
14
¯ 12
12
¯
10 9 9
¯
8
¯ 6
6
¯ 3 3
4
¯
2
¯
‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ xi
5 10 15 20 25 30 35 40 45 50

Le segment pointillé indique la transformation effectuée et met en garde le lecteur


sur le caractère relatif des effectifs répartis entre les classes 25 à 30 et 30 à 35.

b- Le polygone des fréquences :


Le polygone des fréquences obtenues en joignant par des segments de droites au
milieu des bases supérieurs des rectangles permet de rendre compte de la continuité
de la variable.
En titre d’exemple, on peut prendre la figure précédente :

Histogramme du courrier de deux mois de l’entreprise X

14
¯ 12
12
¯
10 9 9
¯
8
¯ 6
6
¯ 3 3
4
¯
2
¯
‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ xi
5 10 15 20 25 30 35 40 45 50

Page | 21
Graphique de fréquences cumulées : Cas d’une variable statistique directe
La représentation graphique des fréquences cumulées d’une variable directe
s’effectue sous la forme de graphique en escalier.
« Les sauts » correspondent aux valeurs possibles de la variable et ils sont égaux aux
fréquences cumulées croissantes ou décroissantes.

Exemple :
Répartition du personnel d’une entreprise en fonction du nombre d’enfants.
Fréquences Fréquences
xi absolues relatives
Simples Cumulées Simples Cumulées
Croissantes Décroissantes Croissantes Décroissantes
0 12 12 89 0,135 0,135 1
1 31 43 77 0,348 0,483 0,865
2 29 72 46 0,326 0,804 0,517
3 11 83 17 0,124 0,936 0,191
4 4 87 6 0,045 0,977 0,067
5 2 89 2 0,022 1 0,022
89 1

Répartition croissante :

ni fi
90
90 87
¯ 83
80
¯ 72
70
¯
60
¯
50
¯ 43
40
¯
30
¯
20 12
¯
10
¯
‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ xi
0 1 2 3 4 5 6 7 8 9

La lecture de ce graphique permet d’identifier la répartition (absolue ou relative) du


personnel ayant x enfants ou moins.
-Exemple : 43 salariés 48% des salariés ont un enfant ou moins.

Page | 22
Répartition décroissante :
ni fi
89
90
¯ 77
80
¯
70
¯
60
¯ 46
50
¯
40
¯
30
¯
20 17
¯ 6
10 2
¯
‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ xi
0 1 2 3 4 5 6 7 8 9

Ici les résultats donnés sont inversés, à savoir x enfants ou plus.


-Exemple : 77 salariés ou 86% des salariés ont un enfant ou plus.

Cas d’une variable statistique continue :


La courbe des fréquences cumulées croissantes se construit en portant les points
correspondants à chaque classe à la limite supérieure de l’intervalle de classes.
La présence de classes d’amplitude inégale n’entraîne aucune modification en ce qui
concerne la construction de cette courbe.
La courbe des fréquences cumulées décroissantes se construit en portant les points
correspondants à chaque classe à la limite inférieure de l’intervalle de classes.
Exemple :
Soit le tableau suivant :
Fréquences Fréquences
xi absolues relatives
Simples Cumulées Simples Cumulées
Croissantes Décroissantes Croissantes Décroissantes
10 à 15 3 3 52 0,057 0,057 1
15 à 20 9 12 49 0,173 0,230 0,943
20 à 25 12 24 40 0,230 0,460 0,770
25 à 35 18 42 28 0,346 0,806 0,540
35 à 40 6 48 10 0,115 0,921 0,194
40 à 45 3 51 4 0,057 0,978 0,074
45 à 50 1 52 1 0,019 1 0,022
52 1

Page | 23
ni
90
¯
80
¯
70
¯ 52
60
¯ 52 48 51
50 49
¯ 42
40 40
¯ 28
30
¯ 24
20 12 10
¯ 3
10 4
¯ 1
0
‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ ‫ا‬ xi
10 15 20 25 30 35 40 45 50

On contrôle l’exactitude du graphique en vérifiant que l’intersection des deux


courbes a pour abscisse la moitié de l’effectif.

Devoir 2 :
Dans une entreprise, les données sur les erreurs de saisies par la secrétaire ont été
notées sur une période de 25 jours et à des heures aléatoirement choisies. Ces
données sont présentées dans le tableau ci-après.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Xi 1 1 0 2 5 0 1 2 1 4 1 3 3 2

i 15 16 17 18 19 20 21 22 23 24 25
Xi 0 1 0 3 1 2 2 1 4 2 0
TAF :
1) Présentez le tableau de répartition de la variable étudiée
2) Calculez les fréquences simple et cumulée
3) Faites une représentation graphique dans Excel, des fréquences simple et cumulée

Page | 24
CHAPITRE 4 : PARAMETRES DE TENDANCE CENTRALE ET DE POSITION

Trois paramètres de tendance centrale de la distribution sont classiquement utilisés :


la moyenne, la médiane et le mode.

4.1. LE MODE :

4.1.1. DEFINITION :

Il est le plus simple à obtenir. Le mode noté Mo est la valeur de caractère (pour les
variables discrètes) ou la classe (pour les variables continues).

Le mode est la valeur de la variable qui correspond à la fréquence maximale.

Variable discrète : classer les données par ordre croissant. Celle d'effectif maximum
donne le mode.

Application : Reprendre le devoir de la page 24 et déterminez le mode.

Variable continue : la classe modale correspond à la classe ayant l'effectif maximum.

Dans le cas d’une variable continue, le mode s’applique à la classe qui correspond à
la fréquence maximale. Celle-ci s’appelle « classe modale ».

La valeur du mode dans ces conditions dépend de l’amplitude des classes et qu’il
faut vérifier l’égalité des intervalles de classes.
Exemple :
xi ni Amplitude Effectifs corrigés
100 à 110 8 10 8
110 à 120 22 10 22
120 à 125 18 5 36
125 à 130 20 5 40
130 à 140 12 10 12
140 à 160 6 20 3
Dans ce cas, la classe modale est « 125 à 130 ».

Page | 25
LA MEDIANE :

4.1.2. DEFINITION :

La médiane notée Me est la valeur de la variable qui partage l’effectif en deux parties
égales, les éléments de la population étant rangés par ordre croissant ou décroissant.

En d’autres termes, la médiane est la valeur statistique qui correspond sur la courbe
cumulative à une ordonnée représentant une fréquence relative 0,5 ou 50%, ce qui
entraîne que 50% des observations seront inférieures à la médiane et 50% seront
supérieures à la médiane.

a- Cas d’une variable discrète ou discontinue :

Il n’existe pas, en général, de valeur médiane, sauf dans l’hypothèse où la série


possède un nombre de terme impair est connu individuellement.

Exemple :
30 4 8 10 6 12 13 15 16
4 6 8 10 12 13 15 16 30
4 termes
⇓ 4 termes

Médiane

b- Cas d’une variable continue :

La valeur de la médiane peut se déterminer soit par calcul numérique, soit


graphiquement.

Par le calcul numérique :

L’équation F (M) = 0,5 admet une solution dépendante de l’effectif étudié :


* Partager le total des effectifs en deux.
- Si le total des fréquences simples où effectif est impaire, c’est à dire (2n+1),
le rang de la médiane va être égale à [(2n+1) +1] / 2.
- Si le total des fréquences simples où effectif est paire, c’est à dire 2n/2 et
(2n+1) / 2.
* Rechercher la classe correspondante aux rangs déterminés ;

Page | 26
* Déterminer au postulant une répartition homogène des valeurs dans la classe la
valeur de la médiane par interpolation linéaire.

Exemple :

Fréquences
Xi Simples Cumulés
Croissantes Décroissantes
1000 à 1500 6 6 65
1500 à 2000 12 18 59
2000 à 2500 25 43 47
2500 à 3000 17 60 22
3000 à 3500 5 65 5
65

* Le rang est le suivant :


(2n+1) + 1 / 2 = 33ème
rang.

* Recherche de la classe correspondante au 33ème rang :

Nous savons d’après le tableau que la valeur de 2000 correspond au 18ème rang,
et que la valeur de 2500 correspond au 43ème rang. La valeur du 33ème rang se
trouve comprise entre 2000 et 2500, la classe médiane est donc 2000 à 2500.

La valeur exacte de la médiane est alors déterminée par l’application d’une règle
de trois : Médiane = 2000 + x.
Calculant cette valeur de x :
Sur l’intervalle de cet effectif occupe donc un sous intervalle de
500/25 = 20. Pour arriver au 33ème rang, il faut donc ajouter 33-18 =
15 sous intervalles. Donc x= 20 x 15 = 300.
Et puis la médiane = 2000+300 = 2300.

Page | 27
Autre solution plus simple :
M = 2000 + 500x(33-18) / (43-18) .
M = 2300.

Exercice :
On donne la répartition de 100 ouvriers d’une entreprise selon leur salaire
journalier.
Salaires Fréquences cumulées Fréquences cumulées
journaliers ni croissantes décroissantes
80 - 120 10 10 100
120 - 160 30 40 90
160 - 200 40 80 60
200 - 240 20 100 20
100
Médiane = 160 + 40x(50-40) (80-40) = 170.
Donc50% des ouvriers touches un salaire journalier plus que 170 DHS. Et
50% des salariés touchent moins de 170 DHS.

4.2. LES MOYENNES

Une moyenne paramètre de tendance centrale, est un nombre dont la détermination


utilise l’ensemble des valeurs de la variable.
En règle générale, une moyenne est définie de la façon suivante :
X = 1/n [f(x1) + f(x2) + f(x3) + … + f (xn)]
La fonction f(x) étant une fonction continue monotone, croissante ou décroissante.
Selon l’expression de f(x), on peut distinguer la moyenne arithmétique, la moyenne
géométrique, harmonique et quadratique.

Page | 28
4.2.1. LA MOYENNE ARITHMETIQUE
Cette moyenne s’écrit en abrégé : X

1- Définition :

a- Moyenne arithmétique simple :


Si la variable statistique est donnée sous forme de série (x1, x2, x3 … xn), la
moyenne arithmétique est le rapport :
x1 + x2 + x3 + … + xn
X= = (1/n). ∑ xi
n

Exemple :
Les notes obtenues par un candidat à un examen sont les suivantes : 8 – 9 – 12 – 14 –
17.
8 + 9 + 12 + 14 + 17
X= = 12.
5

b- Moyenne arithmétique pondérée :


Lorsque la variable statistique est donnée sous forme de tableau de distribution,
c'est-à- dire quand les valeurs de la variable sont affectées de fréquence, la
moyenne arithmétique s’écrit de la façon suivante :

∑ ni xi
X= = 550/50 = 11.
∑ ni

Page | 29
Exemple :
Notes (xi) Effectifs (ni) ni xi fi fi x i
4 1 4 0,02 0,08
6 2 12 0,04 0,24
8 4 32 0,08 0,64
9 7 63 0,14 1,26
10 10 100 0,2 2
12 13 156 0,26 3,12
13 5 65 0,1 1,3
14 6 84 0,12 1,68
17 2 34 0,04 0,68
50 550 1 11

∑ fi x i
X= = 11/1 = 11.
∑ fi

4.2.2. MOYENNE GEOMETRIQUE :

Lorsque les valeurs d’une série statistique varient en gros selon une progression
géométrique, il est préférable de substituer à la moyenne arithmétique la moyenne
géométrique (xG).
Si xi sont les observations d'une variable quantitative, la moyenne géométrique est
égale à

Ce type de moyenne est surtout utilisé pour calculer des pourcentages moyens.
r étant un taux d'accroissement, 1+r est appelé coefficient multiplicateur; et le
coefficient multiplicateur moyen est alors égal à la moyenne géométrique des
coefficients multiplicateurs.

Exemple :
Le chiffre d’affaires mensuel d’un nouveau produit a été au cours des six
derniers mois :
256 – 332 – 432 – 562 – 731 – 950 .

xG = 6 256 * 332 * 432 * 562 * 731* 950 = 492.

Page | 30
Généralisation:
Lorsque les valeurs de la variable sont affectées d’une fréquence, la
moyenne géométrique est donnée par la formule suivante :

Log xG = 1/n (Σ ni . log xi).

Exemple :

xi ni log xi ni . log xi
2 4 0,301 1,204
4 5 0,602 3,01
8 8 0,403 7,224
16 2 1,204 2,408
12 1 1,505 1,505
20 15,351

En appliquant la dernière
formule : Log xG =
0,76755
⇒ xG = 5,8.

4.2.3. MOYENNE HARMONIQUE :

Si xi sont les observations d'une variable quantitative, la moyenne


harmonique est égale à

Il n'est pas évident d'utiliser ce type de moyenne.


Elle intervient lorsqu'on demande une moyenne de valeurs se présentant
sous forme de quotient de deux variables x/y (km/h, km/litre,...). Attention,
il faut cependant bien décortiquer le problème car il peut aussi s'agir d'une
moyenne arithmétique.

Page | 31
Application :
Un cycliste effectue une traversé de 50 kms. Pendant les 20 premiers kms il
roulait avec une vitesse constance de km/h, les 15 kms suivants à une vitesse
constante de 30 km/h. Du point kilométrique 35 au 55 la vitesse de notre
cycliste n¶est que de 10 km/h et au-delà du point kilométrique sa vitesse
n¶est que de 5 km/h.
TAF :
Quelle est la vitesse de ce cycliste sur l’ensemble du
parcours ?
Eléments de réponse :
H = 16.67

MOYENNE QUADRATIQUE :
Si xi sont les observations d'une variable quantitative, la moyenne harmonique est
égale à

2- Observation :

Il faut savoir que :


xQ ≥ x ≥ xG ≥ xH.

Page | 32
4.3. QUANTILES :

Ce sont des caractéristiques de position.


Il y a 1 médiane Me qui sépare les observations en 2 groupes d'effectifs
égaux
3 quartiles Q1, Q2, Q3 qui séparent les observations en 4 groupes d'effectifs
égaux
9 déciles D1, D2, ..., D9 qui séparent les observations en 10 groupes
d'effectifs égaux
99 centiles C1, C2, ..., C99 qui séparent les observations en 100 groupes
d'effectifs égaux
La détermination de ces caractéristiques est identique à celle de la médiane.
Les quartiles sont obtenus lorsqu'on a cumulé 25, 50, 75% de la population
Les déciles sont obtenus lorsqu'on a cumulé 10, 20,...., 90% de la population
Les centiles sont obtenus lorsqu'on a cumulé 1, 2,...., 99% de la population
Remarque : la notion de déciles et de centiles n'a de sens que s'il y a
beaucoup d'observations et donc essentiellement pour une variable classée.

Page | 33
Application :
Soit la population de 80 salariés classés d’après le niveau de leur salaire
journalier.
Classes en dhs ni ni cumulés
1 90 à 100 5 5
2 100 à 110 9 14
3 110 à 120 16 30
4 120 à 130 25 55
5 130 à 140 13 68
6 140 à 150 7 75
7 150 à 160 3 78
8 160 à 170 2 80
Total 80

TAF : calculez la médiane et les deux quartiles


Eléments de
réponse :
Me = 124
Q1= 110+ (10x6)/16 = 113.7
Q3= 130+(10x5)/13 = 133.8

Page | 34
CHAPITRE 5 : PARAMETRES DE DISPERSION
Comme leur nom l'indique, ces caractéristiques essayent de synthétiser par
une seule valeur numérique la dispersion de toutes les valeurs observées.

5.1. L’ETENDU :

Ce paramètre également appelé « intervalle de variation ».

1- Définition :

L’étendu d’une série statistique est la différence entre la plus grande valeur
et la plus petite valeur du caractère.

e = xM – xm.

2- Application :

Soit la série statistique suivante :


xi ni
100 2
105 15
110 28
115 16
120 3
e = 120 – 100 = 20.

3- Commentaire :

La simplicité de ce calcule ne doit pas le faire oublier que l’étude est très
sensible aux fluctuations des valeurs (valeurs extrêmes) qui sont souvent peu
représentatives. Cette valeur caractéristique qui correspond à un concept,
forme utilisée dans la pratique. (L’écart entre le premier et le dernier
coureur, l’écart entre la meilleure et plus faible note).

Page | 35
5.2. LES INTERVALLES :

Ces caractéristiques permettent une mesure de dispersion qui élimine


l’influence des valeurs extrêmes.

1- Les intervalles interquartiles :

a- Définition :

L’intervalle interquartile d’une série statistique est égal à la différence : Q3 –


Q1.
xi ni ni
1000 - 1500 6 6
1500 - 2000 8 14
2000 - 2500 3 17
2500 - 3000 1 18
18

* Calculer Q1 :
Rang = 18/4 = 4,5.
Q1 = 1000 + 500 [(4,5 – 0) /
(6 – 0)]. Q1 = 1375.

* Calculer Q3 :
Rang = (18/4).3 = 13,5.
Q3 = 1500 + 500 [(13,5 – 6) /
(14 – 6)]. Q3 = 1968,75.

Q3 – Q1 = 1968,756 – 1375 =
593,75.
On trouve dans cet intervalle 50% des observations concentrées autour de la
médiane. Plus l’intervalle est réduit, plus la concentration autour des valeurs
centrales est forte.

Page | 36
5.3. LA VARIANCE, L’ECART TYPE :

1- Définitions :

* La variance d’une série statistique est la moyenne arithmétique des carrés


des écarts
∑ [ni (xi – x)2]
V =

n
i

* L’écart type est la racine carrée de la variance :


= V

2- Application:

a- détermination directe de la variance :

xi ni ni xi xi - x (xi – x)2 ni (xi – x)2 ni xi2

17 1 17 -7 49 49 289
19 1 19 -5 25 25 361
21 2 42 -3 9 18 882
23 6 138 -1 1 6 3174
25 5 125 1 1 5 3125
27 3 81 3 9 27 2187
29 2 58 5 25 50 1682
31 0 0 7 49 0 0
20 480 180 11700

Page | 37
∑ fi x i
X= = 24.
∑ fi

= V = 3.
Lorsqu’une moyenne arithmétique est une valeur entière, les calcules sont
assez simples, mais la plupart du temps la moyenne est un nombre décimal,
ce qui rend l’élévation au carrée des écarts plus difficile. L’hypothèse de non
utilisation de machines, nous proposons les améliorations du calcul
suivantes :

b- Autres modes de détermination


Si xi sont les observations d'une variable discrète ou les centres de classe
d'une variable classée, la variance

On utilise plus couramment l'écart type qui est la racine carrée de la variance
et qui a l'avantage d'être un nombre de même dimension que les données
(contrairement à la variance qui en est le carré)

La variance est un paramètre de dispersion plus utilisé que les autres de par
ses propriétés algébriques

Page | 38
5.4. COEFFICIENT DE VARIATION :

C'est un coefficient qui permet de relativiser l'écart type en fonction de la


taille des valeurs. Il permet ainsi de comparer la dispersion de séries de
mesures exprimées dans des unités différentes
Applications :
App.1- Les séries suivantes représentent la mesure d’un caractère auprès
des individus d’une population :
a. 6 1 8 10 5 4 11 3 2 9 7 12 13
b. 19 17 7 1 4 24 15 22 10 13
c. 15 12 17 15 20 15 20 15 15
d. 25 934 7 10 20 27 14 20 34
21
Dans chacun de ces cas calculez : la moyenne, la médiane, le mode, la variance,
l’écart type et le coefficient de variation.
Eléments de réponse :
a. x=7, Me=7, pas de mode, ı²=14, ı=3.74, V=53.4%
b. x=13.2, Me=14, pas de mode, ı²=52.76, ı=7.26, V=55%
c. x=14.5, Me=15, M o=15, ı²=14.61, ı=3.82, V=26.3%
d. x=22.8, Me=21, deux modes :20 et 34, ı²=59.28, ı=7.70, V=33.8%

App.2- La distribution suivante représente la répartition de la longueur de pinces


d’écrevisse provenant d’une rivière :
Limites ni
1.02---1.23 5
1.24---1.45 7
1.46---1.67 4
1.68---1.89 1
1.90---2.11 4
2.12---2.33 6
2.34---2.55 3
2.56---2.77 1 la variance, l’écart type et le coefficient de
TAF : calculez : la moyenne, la médiane, le mode,
variation.

Eléments de réponse :
x=1.757, Mo=1.345 (le centre de la classe modale), Me=1.648, ı²=0.238, ı=0.488, V=27.8%

Page | 39
CHAPITRE 6 : LIASON ENTRE DEUX VARIABLES QUANTITATIVES

La liaison entre deux variables X et Y exprime l’information que donne la


connaissance de l’une pour la connaissance de l’autre.

On distingue 3 types de liaisons :

• Indépendance (information nulle) : la connaissance de la valeur xi mesurée


sur l’individu numéro i ne donne aucune information sur la valeur yi.

Par exemple l’évolution du prix de l’essence et celle des cotisations de la


sécurité sociale.

• Liaison fonctionnelle (information totale) : la connaissance de xi permet de


déterminer sans ambigüité la valeur yi (grâce à une fonction). Cette liaison
est notée y = f(x).

Par exemple la circonférence d’un cercle « y » est fonctionnelle de la


grandeur de son rayon « x ».

• Liaison partielle (information partielle) : la connaissance de xi donne une


information incomplète sur yi.

La méthode de la corrélation se ramène au calcul de liaison fonctionnelle à


une approximation près.

C’est là la démarche de notre développement :

* Les nuages de points ;

* Les droites de régression ;

* Le coefficient de corrélation.

Lorsqu'on observe deux variables quantitatives sur les mêmes individus, on


peut s'intéresser à une liaison éventuelle entre ces deux variables.

Page | 40
La régression fournit une expression de cette liaison sous la forme d'une
fonction mathématique.

La corrélation renseigne sur l'intensité de cette liaison.

6.1. LES NUAGES DE POINTS :

Il s’agit des représentations graphiques des différentes courbes de deux


caractères. Il permet de visualiser globalement les liens de dépendance
statistique. Ce dernier, quand il existe peut-être linéaire ou pas.

Lorsque le nuage de points (xi , yi) est à peu près rectiligne, on peut
envisager d'exprimer la liaison entre x et y sous forme de fonction affine y =
ax + b

Page | 41
MESURE DE L’INTENSITE DE LA RELATION LINEAIRE ENTRE DEUX
VARIABLES :

1) Covariance

x et y varient dans le même sens


x et y varient en sens contraire

Page | 42
2) Coefficient de corrélation linéaire

relation fonctionnelle linéaire


indépendance linéaire

dépendance linéaire d'autant plus forte que est grand

Attention:
Une forte causalité entre x et y implique une forte relation entre x et y
qui n'est pas forcément linéaire ; on n'a donc pas obligatoirement une
forte corrélation linéaire.
Une forte corrélation linéaire n'implique pas forcément une forte causalité.

6.2. DROITES DE REGRESSION

Dy/x : y = ax + b avec

Dx/y : x = a'y + b' avec

La position des deux droites de régression l'une par rapport à


l'autre donne un renseignement sur l'intensité de la relation
linéaire:

Page | 43
* droites de régression confondues relation fonctionnelle linéaire
* droites de régression perpendiculaires dont une de pente nulle
indépendance linéaire
* Plus les droites sont proches, plus la relation linéaire est importante

Relations intéressantes :
r² = aa'

Page | 44
Application :
Les séries statistiques simples de deux variables continues X et Y se présentent comme suit :
Individu 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
s
X 2 12 13 7 6 3 12 10 9 7 4 2 10 6 3
Y 22 2 4 14 15 19 7 8 10 11 16 18 11 12 21

TAF : après avoir élaboré un tableau de contingence, en adoptant des classes d’amplitudes
égales à 4 unités pour la variable X et des amplitudes à 5 unités pour la variable Y, il vous
est demandé d’apprécier la liaison qui existe entre ces deux variables.

Eléments de réponse :
Y 2±7 7 ± 12 12 ± 17 17 ± 22 n .j
X
2±6 0 0 2 3 5
6 ± 10 0 3 2 0 5
10 ± 14 3 2 0 0 5
ni. 3 5 4 3 15
Les équations des droites d’ajustement linéaire :
-l ’ajustement linéaire de Y à X : Y= a.X + b = -1.37 X+ 22.79
-l ’ajustement linéaire de X à Y : X = a.Y + b = -0.56 Y+14.62
- coefficient de corrélation r : r = -0.87 Æ Forte liaison linéaire négative entre les deux
variables.

Application No 2 :

Une entreprise souhaite expliquer et prévoir ses ventes « y » par rapport à des
dépenses de publicité engagées « x », ou au contraire déterminer les dépenses de
publicité « y » en fonction de ces ventes « x ».
Pour concrétiser ces notions, nous allons utiliser l’exemple suivant :

Dépenses
de Vente "Y" Xi = xi -x Yi =yi -y xi yi (xi – x)2 (yi – y)2
publicité
"X"
800 1500 -110 -700 77000 12100 490000
870 1900 -40 -300 12000 1600 90000
900 2000 -10 -200 2000 100 40000
920 2300 10 100 1000 100 90000
970 2500 60 300 18000 3600 90000
1000 3000 90 800 72000 8100 640000
5460 13200 182000 25600 1360000

Page | 45
1. Droite de régression de « y » en « x » :

* Choix des variables :


Nous sommes dans la situation suivante : l’entrepreneur désire prévoir ses ventes (Y
: variable expliquée) par rapport à des dépenses de publicité engagées (X : variable
explicative).

* Caractéristique de la droite y = ax + b :
L’équation de cette droite se détermine en appliquant la méthode des moindres
carrée.
Cette droite passe par le point moyen (x , y) du nuage des points et que la valeur de
sa pente (a) se détermine par la formule suivante :

∑ (Xi Yi)
a=
∑ Xi2

x = 5460/6 = 910. y = 13200 / 6 = 2200.

Xi = xi – x Yi = yi – y.
Donc : b = 2200- (7,10 * 910) = - 4270.
a = 7,1.
Enfin : y = 7,1 x – 4270.

Page | 46
2. Droite de régression de « x » en « y » :

* Choix des variables :


Nous sommes dans la situation suivante : l’entrepreneur veut déterminer ses dépenses de
publicité (qui devient variable expliquée « y ») en fonction de ses ventes qui devient
variable explicative « X ».
* Caractéristique de la droite :
L’équation de cette droite se détermine de la façon suivante : elle passe par le point
moyen(x , y) et a pour pente la formule suivante :

∑ (Xi Yi)
a’ = = 182000/1360000 = 0,13.
2
∑ Yi

b’ = x - a’y’ = 617,40.

Donc: x = 0,13 + 617,40.

Commentaires :
Il existe donc une liaison certaine entre les deux phénomènes. Certes les dépenses de
publicité expliquent correctement les ventes, mais cette dernière influence certainement les
dépenses de publicités futures qui à leur tour conditionnent les ventes.

Page | 47
CHAPITRE 7 : LIASON ENTRE DEUX VARIABLES QUALITATIVES

Exemple :

On utilise les données relevées sur un échantillon de 50 enfants de 2 à 16 ans


souffrant d'un TSPT (trouble de stress post-traumatique) à la suite d'un accident
domestique ou de circulation.

P : enfants de 2 à 16 ans souffrant d'un TSPT à la suite d'un accident domestique ou


de circulation. Variable X : sexe, qualitative à L = 2 modalités (Ai)

Variable Y : type d'accident, qualitative à C = 2 modalités (Bj)

On veut étudier la relation entre le sexe et le type d'accident survenu.

Pour les 50 enfants de l'échantillon, on a relevé le sexe et le type d'accident survenu.

1 ) Etude descriptive des données

La relation est étudiée à partir du tableau de contingence construit à partir des


données. Elle est mesurée par différents coefficients d'association.

a) Tableau de contingence

On croise les deux variables et pour chaque couple de modalités (Ai, Bj), on relève
l'effectif observé nij : nombre d'individus prenant simultanément les deux valeurs.

Les LC effectifs observés sont données dans un tableau de contingence.

Tableau 1 : Effectifs observés nij


Accident Circulation Domestique Total ligne Li
Sexe
Fille 10 9 19
Garçon 19 12 31
Total colonne Cj 29 21 50

On a calculé les marges du tableau : totaux lignes Li et totaux colonne Cj.

Page | 48
b) Tableau des effectifs théoriques

A partir des effectifs marginaux Li et Cj, on peut calculer les effectifs attendus
lorsque X et Y sont indépendantes.

Ces effectifs théoriques, notés eij, sont donnés par la formule : eij = (Li x Cj) / n.

Tableau 2 : Effectifs théorique eij


Accident Circulation Domestique Total ligne Li
Sexe
Fille (19 × 29) /50 = 11, 02 (19 × 21) /50 = 7, 98 19
Garçon (31 × 29) /50 = 17, 98 (31 × 21) /50 = 13, 02 31
Total colonne Cj 29 21 50

Exemple : Les filles représentent L1/n = 19/50 = 38% des enfants de l'échantillon. S'il
n'y pas de lien entre les variables, on s'attend à trouver 38% de filles chez les enfants
ayant subi un accident domestique (soit 29×19/50 = 11, 02 filles) et 38% de filles chez
les enfants ayant subi un accident domestique (soit 21×19/50 = 7, 98 filles).

c) Coefficient du khi-deux calculé (χ²cal)

Le coefficient le plus important est celui du khi-deux qui est utilisé pour tester
l'indépendance des deux variables à partir d'un échantillon d'individus.

- Coefficient du khi-deux χ²cal

Le coefficient est une mesure de « l'écart à la situation d'indépendance »

Il mesure la distance globale entre les effectifs nij relevés et les effectifs théoriques eij
attendus lorsque X et Y sont indépendantes :

χ²cal = ∑ (nij − eij)² /eij = 0, 363

Page | 49
- Le coefficient est positif ou nul ; la valeur 0 correspond à l'indépendance des
variables.

La valeur du coefficient augmente avec l'intensité de la relation mais aussi avec n et


avec L et C, ce qui le rend difficilement interprétable.

2) Test d'indépendance pour deux variables qualitatives

On reprend l'exemple précédant

Pour tester l'existence d'une liaison entre le sexe et le type d'accident survenu, on
utilise le test du khi-deux d'indépendance.

a) Les différentes étapes du test

1. Les hypothèses et le niveau du test

H0 : les variables sont indépendantes

H1 : les variables sont liées

α = 5%

2. Les observations

On dispose d'un échantillon de taille n = 50. Les 2 échantillons appariés de


mesures sont résumés par la distribution des effectifs joints observés nij donnée
dans le tableau 1

3. La statistique du test : statistique du khi-deux

On utilise le coefficient empirique du khi-deux, noté χ² dans le cours et défini


par la formule

χ² = ∑ (Nij − eij )² / eij

- Les valeurs de χ² sont positives ou nulles. Plus la valeur est grande et plus
l'écart à l'indépendance observé sur l'échantillon est important.
Page | 50
- Sa valeur observée est χ²cal = 0, 363.
4. Loi de χ² sous H0

Sous les conditions n ≥ 30 et tous les eij ≥ 5, la statistique χ² suit


approximativement la loi du khi-deux à (L − 1) (C − 1) = 1 ddl.

5. Région de rejet de H0 associée à α = 5%

Sous H0, on s'attend à observer une valeur de χ² proche de 0. Plus la valeur de


χ² est grande et plus elle est en faveur de H1.

La région de rejet est située à l'extrémité droite du domaine. Elle contient les
5% de valeurs les plus grandes de χ²

6. p-valeur αobs

C'est la probabilité sous H0 d'observer une valeur de χ² au moins aussi grande


que 0,363 :

αobs = PH0 (χ² ≥ 0, 363) = 0, 547.

7. Décision

Règle basée sur la p-valeur : si αobs ≤ α, on rejette H0 au risque d'erreur α.

La p-valeur dépasse (largement) le niveau 5% choisi. On ne peut pas rejeter


H0. Au niveau 5% et avec un risque d'erreur β inconnu, on ne peut pas
conclure qu'il existe un lien entre le sexe et le type d'accident survenu.

Page | 51

Vous aimerez peut-être aussi