Académique Documents
Professionnel Documents
Culture Documents
Mme.Manal NAIMI
2023/2024
2/98 2023/2024
Plan
1 Introduction
2 L’analyse univariée
Terminologie
Statistiques descriptives univariées
Paramètres de position (caractéristique de tendance centrale)
Paramètres de dispersion
Exercices
3 L’analyse bivariée
Deux variables quantitatives
Introduction
L’analyse des données est une discipline essentielle qui nous permet de transformer des
informations brutes en connaissances significatives. Elle constitue le socle sur lequel repose la
prise de décision dans un monde de plus en plus axé sur les données. Au cœur de cette
discipline, nous trouvons les statistiques comme un piler fondamental de l’ADD.
Les statistiques sont une composante essentielle de la prise de décision, de la gestion de
données et de l’optimisation des systèmes informatiques. Ils fournissent des outils et des
méthodes pour analyser, interpréter et utiliser efficacement les données, ce qui est fondamental
dans les domaines du génie informatique, de la gestion et de l’informatique. Dans ce cours,
nous explorerons deux branches distinctes de la statistique :
1 les statistiques descriptives.
2 les statistiques inférentielles.
Les statistiques descriptives constituent la première étape de l’analyse des données. Elles
nous offrent les outils nécessaires pour explorer, résumer et présenter les caractéristiques
principales d’un ensemble de données. Grâce à elles, nous pouvons comprendre la structure et
les tendances de nos données, en utilisant des mesures de tendance centrale telles que la
moyenne, la médiane et le mode, ainsi que des indicateurs de dispersion tels que l’écart-type et
l’étendue. Les visualisations graphiques, telles que les histogrammes et les diagrammes en boîte,
enrichissent notre compréhension en nous permettant de voir les données d’un coup d’œil.
les statistiques inférentielles nous permet de faire des déductions et des prédictions à
partir d’un échantillon de données pour généraliser ces conclusions à une population plus large.
Nous utiliserons des techniques telles que les tests d’hypothèses et les intervalles de confiance
pour prendre des décisions éclairées et résoudre des problèmes du monde réel. Les statistiques
inférentielles sont cruciales pour tirer des conclusions significatives à partir de données limitées
et pour éclairer les choix stratégiques.
Plan
1 Introduction
2 L’analyse univariée
Terminologie
Statistiques descriptives univariées
Paramètres de position (caractéristique de tendance centrale)
Paramètres de dispersion
Exercices
3 L’analyse bivariée
Deux variables quantitatives
Terminologie
La statistique utilise un certain nombre de termes et de concepts spécifiques pour décrire et
analyser les données.
Population : L’ensemble complet des individus, des objets ou des événements que l’on étudie
dans une analyse statistique. On la note Ω.
Exemple: Les étudiants de EHEI.
Variable : Une caractéristique ou une propriété qui peut varier d’un individu, d’un objet ou
d’un événement à un autre. Elle porte aussi le nom de caractère.
Exemple: Notes des étudiants.
Variable
La variable étudiée peut apparaître à des niveaux différents, selon les unités statistiques
étudiées. On la note X . Chacun de ces niveaux est appelé : « Modalité » du variable. Il existe
deux types de variables : Variables qualitatives et variables quantitatives.
Variables qualitatives
La variable est qualitative lorsque ses modalités ne sont pas mesurables, c’est-à-dire elle ne
se prête pas à des valeurs numériques.
Exemple: Couleur(noir, bleu, rouge...)
On peut distinguer deux types de variables qualitatives:
√
Variable qualitative nominale: La variable est dite qualitative nominale quand
les modalités ne peuvent pas être ordonnées.
Exemple: Langue( arabe, français, anglais...).
√
Variable qualitative ordinale: La variable est dite qualitative ordinale quand
les modalités peuvent être ordonnées.
Exemple: Mention( Très bien, bien, assez bien...)
Variables quantitatives
La variable est dit quantitatif lorsque ses modalités sont mesurables, c’est-à-dire ses
modalités prennent des valeurs numériques.
Exemple: Les notes des étudiants. On peut distinguer deux types de variables quantitatives:
√
Variable quantitative discrète: La variable est dite quantitative discrète, si
l’ensemble des valeurs possibles est dénombrable.
Exemple: Le nombre d’enseignants de EHEI.
√
Variable quantitative continue: Une variable est dite quantitative continue, si
l’ensemble des valeurs possibles est continu.
Exemple: Poids des cartables des élèves.
Exemples
Ω = Population Amphi
i = Individu Étudiant
X = Caractère Mention
xi = Modalités Très bien, Bien, Assez bien, , ..
Exemples
Ω = Population Région
i = Individu Famille
X = Caractère Nombre d’enfant
xi = Modalités 0,1, 2,, ..
Ω = Population Amphi
i = Individu Étudiant
X = Caractère Note
xi = Modalités [0,20]
Série statistique
Une série statistique, également appelée distribution statistique, est une collection de données
ou d’observations qui représente des valeurs d’une ou de plusieurs variables. Notons que n est le
nombre des unités de statistiques ou des individus, alors les valeurs de la variable X sont notées
x1 , ..., xi , ..., xn .
6 4 1 10 12 10 1 5 6 6
7 1 2 5 7 12 5 7 3 18
Ici, n = 20,
x1 = 6, x2 = 4, x3 = 1, x4 = 10, x5 = 12, . . . , x20 = 18.
L’effectif : est le nombre de fois qu’une donnée est représentée dans la distribution.
La fréquence relative : est le pourcentage correspondant à l’effectif d’une donnée par rapport
à l’effectif total.
L’effectif cumulé : est la somme de l’effectif d’une donnée et des effectifs des données qui la
précèdent.
Exemple
Dans une région, on a enquêté sur le nombre d’enfants par famille. La variable X représente le
nombre d’enfants par famille. Voici les données recueillies pour 40 familles :
√
√ 10 familles n’ont aucun enfant.
√ 15 familles ont un enfant.
√ 8 familles ont deux enfants.
√ 5 familles ont trois enfants.
2 familles ont quatre enfants.
Comme la variable est quantitative, on peut calculer les effectifs ni , les effectifs cumulés Ni , les
fréquences fi , les fréquences cumulées Fi . Donc on a le tableau statistique:
Exemple
Dans une région, on a enquêté sur le nombre d’enfants par famille. La variable X représente le
nombre d’enfants par famille. Voici les données recueillies pour 40 familles :
√
√ 10 familles n’ont aucun enfant.
√ 15 familles ont un enfant.
√ 8 familles ont deux enfants.
√ 5 familles ont trois enfants.
2 familles ont quatre enfants.
Comme la variable est quantitative, on peut calculer les effectifs ni , les effectifs cumulés Ni , les
fréquences fi , les fréquences cumulées Fi . Donc on a le tableau statistique:
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
Mme.Manal NAIMI L’analyse univariée Terminologie
18/98 2023/2024
Dans le cas où la variable X est continue, la réalisation d’un tableau statistique nécessite au
préalable une répartition en classes des données. On doit définir a priori le nombre de classes K
et l’amplitude (ou l’étendue) de chaque classe. Ce choix doit résulte d’un compromis entre
deux objectifs antagonistes: résumer les données (K ne doit pas être trop grand ) sans perdre
l’information pertinente (K ne doit pas être trop petit). On peut utiliser la méthode suivante:
Ainsi on a:
e= E
k : est l’étendu de la classe
où xmax et xmin étant la valeur maximale et la valeur minimale prises par X. Alors:
Donc:
[e0 , e1 [ [e1 , e2 [ [ek−1 , ek [
| {z } | {z } | {z }
1ére classe 2éme classe k éme classe
Le tableau statistique relatif à la variable continue peut être représenté comme suit:
N◦ de classe Classes ni fi
1 [e0 , e1 [ n1 f1
2 [e1 , e2 [ n2 f2
· · · ·
i [ei−1 , ei [ ni fi
· · · ·
k [ek−1 , ek [ nk fk
Total - N 1
Exemple
Exemple
N0 de classe Classes ni fi
1 [1.5, 1.58[ 1 0.05
2 [1.58, 1.66[ 3 0.15
3 [1.66, 1.74[ 4 0.2
4 [1.74, 1.82[ 4 0.2
5 [1.82, 1.90] 8 0.4
Total - 20 1
On utilise des diagrammes à secteurs circulaires, des diagrammes en tuyaux d’orgue, des
diagrammes en bandes. Le principe est de représenter des aires proportionnelles aux
fréquences de la variable statistique.
Exemple
Exemple
X ni fi
noir 5 0.1
vert 6 0.12
bleu 7 0.14
rouge 9 0.18
jaune 11 0.22
marron 12 0.24
totale 50 1
Exemple
xi ni Ni fi Fi
0 10
1 15
2 8
3 5
4 2
On a
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
Diagramme cumulé
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des bases
supérieures des rectangles.
On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des bases
supérieures des rectangles.
La courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant
les points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.
La courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant
les points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.
Paramètres de position
(caractéristique de tendance centrale)
Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé. il est noté Mo .
Exemple: Pour le tableau statistique suivant:
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé. il est noté Mo .
Exemple: Pour le tableau statistique suivant:
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
Le mode Mo est: 1.
Pour calculer le mode, nous définissions la classe modale comme étant la classe des valeurs de
X qui a le plus grand effectif partiel (ou la plus grande fréquence partielle).
Exemple
Exemple
Pour calculer l’effectif corrigé, on aura besoin d’identifier l’amplitude de base qui est
généralement la plus petite amplitude. Donc l’effectif corrigé est égale à: l’effectif devisé par
l’amplitude correspondante a cet effectif et multiplié par l’amplitude de base.
abase
nicor = ni ×
ai
Exemple
Exemple
La moyenne arithmétique
Série simple:
La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x :
n
x1 + x2 + ... + xn X xi
x= =
N i=1
N
La moyenne arithmétique
Série simple:
La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x :
n
x1 + x2 + ... + xn X xi
x= =
N i=1
N
Série pondérée:
La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
X nj xj
x=
j
N
Exemple:
xi ni
0 2
1 3
2 1
3 1
4 1
La moyenne est
Série pondérée:
La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
X nj xj
x=
j
N
Exemple:
xi ni
0 2
1 3
2 1
3 1
4 1
La moyenne est
2×0+3×1+1×2+1×3+1×4 12
x= = = 1.5
8 8
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
45/98 2023/2024
La moyenne géométrique
Série simple:
Exemple: Soit la série simple {7.5; 8.2; 9.6; 9}. La moyenne géométrique de cette série est :
La moyenne géométrique
Série simple:
Exemple: Soit la série simple {7.5; 8.2; 9.6; 9}. La moyenne géométrique de cette série est :
√
G = 4 7.5 × 8.2 × 9.6 × 9 = 8.53782
Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?
Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
- Si on calcule la moyenne arithmétique des taux on obtient
Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
- Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.1 + 1.15 + 1.1
x= = 1.1
4
- Si on calcule la moyenne géométrique des taux, on obtient
Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
- Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.1 + 1.15 + 1.1
x= = 1.1
4
- Si on calcule la moyenne géométrique des taux, on obtient
√
G = 4 1.05 × 1.1 × 1.15 × 1.1 = 1.099431377.
Le bon taux moyen est bien G et non x , car si on applique 4 fois le taux moyen aux 100 francs,
on obtient
100 × G 4 = 146.1075 Fr . et 100 × x 4 = 146.41 Fr
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
48/98 2023/2024
Série pondérée:
Série pondérée:
La moyenne harmonique
La moyenne harmonique est utilisée dans le calcul des études du pouvoir d’achat, des durées
moyennes, des moyennes de rapports et de pourcentages.
Série simple:
Exemple: Soit la série statistique {2, 3, 5, 7}, la moyenne harmonique de cette série est
La moyenne harmonique
La moyenne harmonique est utilisée dans le calcul des études du pouvoir d’achat, des durées
moyennes, des moyennes de rapports et de pourcentages.
Série simple:
Exemple: Soit la série statistique {2, 3, 5, 7}, la moyenne harmonique de cette série est
4
H= = 3.401
1
2 + 1
3 + 1
5 + 1
7
Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
Vmoy = = 19.2km/h.
20.8333
- Si on calcule la moyenne arithmétique des vitesses, on obtient
Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
Vmoy = = 19.2km/h.
20.8333
- Si on calcule la moyenne arithmétique des vitesses, on obtient
10 + 30 + 40 + 20
x= = 25km/h.
4
- Si on calcule la moyenne harmonique des vitesses, on obtient
Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
Vmoy = = 19.2km/h.
20.8333
- Si on calcule la moyenne arithmétique des vitesses, on obtient
10 + 30 + 40 + 20
x= = 25km/h.
4
- Si on calcule la moyenne harmonique des vitesses, on obtient
4
H= = 19.2km/h.
1
10 + 1
30 + 1
40 + 1
20
Série pondérée:
Exemple:
1 1
X ni ni
xi xi
2 6
3 4
4 8
6 2
− 20 −
Série pondérée:
Exemple:
1 1
X ni ni
xi xi
2 6 0.5 3
3 4 0.33 1.32
4 8 0.25 2
6 2 0.17 0.34
− 20 − 6.66
20
Donc H = = 3.003
6.66
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
54/98 2023/2024
La médiane
La médiane, Me , est la valeur du caractère pour laquelle la fréquence cumulée est égale à 0,5
ou 50%. Elle correspond donc au centre de la série statistique classée par ordre croissant, ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures.
La médiane peut être calculée sur des variables quantitatives et sur des variables qualitatives
ordinales.
Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu
Me = xm+1
Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu
Me = xm+1
Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu
Me = xm+1
Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu
Me = xm+1
Dans le cas d’une variable continue, on commence par le calcul des effectifs cumulés. en
calculant N2 on va déterminer Nm , Nm+1 , xm etxm+1 tels que
N
Nm ⩽ ⩽ Nm+1 et xm ⩽ Me ⩽ xm+1
2
avec Nm effectif cumulé de la classe [xm−1 , xm [
Donc la médiane est calculée de la façon suivante:
N
M e − xm − Nm
= 2
xm+1 − xm Nm+1 − Nm
Exemple:
X ni Ni
[1500; 2000[ 26 26
[2000; 2500[ 12 38
[2500; 3000[ 11 49
[3000; 3500[ 6 55
[3500; 4000] 5 60
Dans le cas d’une variable continue, on commence par le calcul des effectifs cumulés. en
calculant N2 on va déterminer Nm , Nm+1 , xm etxm+1 tels que
N
Nm ⩽ ⩽ Nm+1 et xm ⩽ Me ⩽ xm+1
2
avec Nm effectif cumulé de la classe [xm−1 , xm [
Donc la médiane est calculée de la façon suivante:
N
M e − xm − Nm
= 2
xm+1 − xm Nm+1 − Nm
Exemple:
X ni Ni
[1500; 2000[ 26 26
[2000; 2500[ 12 38
[2500; 3000[ 11 49
[3000; 3500[ 6 55
[3500; 4000] 5 60
On obtient que la médiane vaut: Me = 2166.67
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
57/98 2023/2024
Paramètres de dispersion
Les paramètres de position sont insuffisants pour caractériser complètement une série. Par
exemple, deux séries différentes ayant la même moyenne, ne se repartissent pas nécessairement
de la même manière autour de cette moyenne. Elles sont plus ou moins étalées, ce qui sera
décrit par les caractéristiques de dispersion.
L’étendue est simplement la différence entre la plus grande et la plus petite valeur observée.
E = xmax − xmin
L’écart moyen arithmétique
L’écart moyen arithmétique est la moyenne arithmétique des écarts par rapport à la moyenne
arithmétique x̄ des valeurs du caractère
p
1 X
E (X ) = ni |xi − x̄ |
N
i=1
La variance et l’écart-type
La variance:
La variance d’une série de valeurs du caractère est la moyenne arithmétique des carrés des
écarts de ces valeurs par rapport à leur moyenne arithmétique.
p
1 X 2
V (X ) = ni (xi − x̄ )
N i=1
Pp 2
Lorsque la variable est continue la variance est : V (X ) = 1
N i=1 ni (ci − x̄ ) où les
ci = xi−12+xi sont les centres des classes.
L’ écart-type:
Exercices
Exercice 1:
1 Montrer que la variance d’une série statistique (xi )i i = 1, ..., N est égale à
V = x¯2 − x̄ 2
x̄ − a V (x ) σ(x )
a)- ȳ = b)- V (y ) = c)- σ(y ) =
b b2 |b|
Exercice 1 de la série 1 : 96
Mme.Manal NAIMI L’analyse univariée Exercices
61/98 2023/2024
Exercice 2:
Les pesées de 12 nouveaux-nés dans une maternité ont permis d’établir la série statistique
suivantes:
2.25 − 3.36 − 2.75 − 1.5 − 3.74 − 3.42 − 3.15 − 2 − 4.5 − 2.5 − 3.75 − 3
Exercice 3:
Dans une petite localité, on a relevé le nombre de pièces par appartement :
Nombre de
1 2 3 4 5 6 7
pièces
Nombre
48 72 96 64 39 25 3
d’appartements
Exercice 4:
Lors d’un examen écrit, un correcteur a obtenu les notes suivantes (sur 10) sur 35 copies
corrigées :
8, 4, 5, 3, 3, 2, 1, 1, 1, 1, 2, 1, 6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 7, 0, 0, 7, 5, 0, 7.
Exercice 5:
L’étude du taux de cholestérol sur un échantillon de 100 personnes a donné les résultats suivants :
Taux de Cholestérol (gr/1) effectifs
[1.0; 1.4[ 6
[1.4; 1.6[ 13
[1.6; 1.8[ 16
[1.8; 2.0[ 22
[2.0; 2.2[ 18
[2.2; 2.4[ 10
[2.4; 2.6[ 6
[2.6; 2.8[ 4
[2.8; 3.0[ 3
[3.0; 3.4[ 2
1 Tracer l’histogramme.
2 Tracer la courbe de fréquences cumulées.
3 Déterminer le mode et la moyenne arithmétique de cette distribution.
4 Déterminer la médiane graphiquement et pat le calcul.
5 Calculer la variance et l’écart type.
Mme.Manal NAIMI L’analyse univariée Exercices
65/98 2023/2024
Exercice 6:
On considère l’histogramme des effectifs suivants:
Plan
1 Introduction
2 L’analyse univariée
Terminologie
Statistiques descriptives univariées
Paramètres de position (caractéristique de tendance centrale)
Paramètres de dispersion
Exercices
3 L’analyse bivariée
Deux variables quantitatives
La statistique descriptive bivariée est une branche essentielle de l’analyse statistique qui se
concentre sur l’étude simultanée de deux variables. Contrairement à la statistique descriptive
univariée, qui se penche sur une seule variable à la fois, la statistique descriptive bivariée
examine comment deux variables sont liées et comment elles interagissent.
On se donne une population de taille n et sur chaque élément de cette population on effectue
deux observations portant sur deux caractères différents X et Y . Pour chaque élément de la
population, on peut associer un couple de valeurs (xi ; yi ) où xi est la valeur du caractère X etyi
est la valeur du caractère Y . .La série statistique est alors une suite de n couples des valeurs
prises par les deux variables sur chaque individu.
Chacune des deux variables peut être, soit quantitative, soit qualitative.
Exemple
Soit Ω la population constituée par les quatre pays suivants : France, Allemagne, Grande
bretagne et l’Italie. Notons X la production de fonte (bronze) et Y la production d’acier
arrondies en millons de tonnes
Ω Allemagne France G. B. Italie
X 27.2 15.9 17.6 3.5
Y 37.2 19.8 26.7 9.8
Il est naturel de s’interroger sur la relation qui lié X et Y . On regroupe les valeurs des xi et des
yi dans le tableau suivant :
Exemple
Soit Ω la population constituée par les quatre pays suivants : France, Allemagne, Grande
bretagne et l’Italie. Notons X la production de fonte (bronze) et Y la production d’acier
arrondies en millons de tonnes
Ω Allemagne France G. B. Italie
X 27.2 15.9 17.6 3.5
Y 37.2 19.8 26.7 9.8
Il est naturel de s’interroger sur la relation qui lié X et Y . On regroupe les valeurs des xi et des
yi dans le tableau suivant :
Y \X 3.5 15.2 17.6 27.2 Totaux
9.8 1 0 0 0 1
19.8 0 1 0 0 1
26.7 0 0 1 0 1
37.3 0 0 0 1 1
Totaux 1 1 1 1 4
L’effectif marginal de X : est la somme des effectifs contenus dans la ligne de xi est égale à
l’effectif des éléments dont la valeur du caractère X est xi . Elle est notée ni. .
q
X
ni. = ni1 + · · · + niq = nij .
j=1
L’effectif marginal de Y : est la somme des effectifs partiels contenus dans la colonne de yj
est égale à l’effectif des éléments dont la valeur du caractère Y est yj . Elle est notée n.j .
p
X
n.j = n1j + · · · + npj = nij .
i=1
On a:
p
X q
X p X
X q
N= ni. = n.j = nij .
i=1 j=1 i=1 j=1
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
75/98 2023/2024
Les couples (xi , ni. )1≤i≤p et (yj , n.j )1≤j≤q définissent les distributions statistiques marginales.
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
76/98 2023/2024
nij fij
fi/j = =
n·j f·j
Exemple
Les variables X et Y peuvent être analysées séparément. On peut calculer tous les paramètres
dont les moyennes et les variances :
p p
1 X 1 X 2
x̄ = ni. xi , V (X ) = ni. (xi − x̄ ) ,
N i=1 N i=1
q q
1 X 1 X 2
ȳ = n.j yi , V (Y ) = n.j (yi − ȳ ) .
N i=1 N i=1
Covariance
Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux:
Cov (X , Y )
ρ(X , Y ) =
σ(X )σ(Y )
−1 ⩽ ρ(X , Y ) ⩽ 1
Interprétation
Si 0 < ρ < 1, la corrélation est positive ( X et Y varient dans le même sens), et les points
sont alignés le long d’une droite croissante. La valeur ρ = +1 indique une relation linéaire
parfaite Y = aX + b avec a > 0. C’est un cas extrême très peu rencontré en pratique.
Si −1 < ρ < 0, la corrélation est négative ( X et Y varient dans le sens contraire) et les
points sont alignés le long d’une droite décroissante. La valeur ρ = −1 indique une
relation linéaire parfaite Y = aX + b avec a < 0. C’est un cas extrème très peu rencontré
en pratique.
Si les caractères X et Y sont indépendants alors ρ = 0, tandis que la réciproque n’est pas
nécessairement vraie. Si ρ = 0, on dit qu’il y a corrélation nulle entre X et Y ; la liaison
entre X et Y peut être de forme outre que linéaire. On peut cependant avoir une
dépendance non-linéaire avec un coefficient de corrélation nul.
Exemples
Test statistique
1 Pourquoi?
Y a-t-il une dépendance linéaire (Corrélation) entre les deux variables ?
2 Hypothèses
H0 : rho = 0
H1 : ρ ̸= 0
ρ>0
ρ<0
3 Valeur calculé: √
r n−2
tcal = √
1 − r2
cette statistique suit la loi de student
4 DDL=n-2
5 Valeur théorique: c’est l’intersection du DDL avec (1 − α) dans la table de student.
6 Comparaison:
Droite de régression
La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des
moindres carrés.
On considère la variable X de modalités x1 , x2 , ....xp et la variable Y de modalités
y1 , y2 , ..., yq .L’équation d’une droite est
y = ax + b
Le problème admet une solution unique du système linéaire issue de l’annulation des dérivées
partielles premières de la fonction δ(a, b). II s’agit de résoudre
n
∂δ X
∂a = −2 xi (yi − axi − b) = 0
i=1
n
∂δ X
= −2 (yi − axi − b) = 0
∂b
i=1
cov(X , Y )
a= et b = ȳ − ax̄
V (X )
Théorème
Soit Mi (xi , yi )1≤i≤n un ensemble fini de points fixes du plan euclidien où xi sont les modalités
d’un caractère X et yi celles d’un autre caractère Y définis sur une même population Ω.
p q p
1 X 1 X 1 X 2
Soient x̄ = ni. xi , ȳ = n.j yj , V (X ) = ni. (xi − x̄ ) et
N i=1 N j=1 N i=1
p q
1 XX
cov(X , Y ) = nij (xi − x̄ ) (yi − ȳ ) .
N i=1 j=1
Le coefficient de détermination R 2
Une fois les coefficients de régression sont calculés, l’étape suivante consiste à vérifier si le
modèle statistique établi est capable de reconstruire les données initiales observées.
L’indicateur qui peut le faire est: Le coefficient de détermination R 2 .
Pour déterminer ce coefficient, on aura besoin des notions suivantes:
ybi = axi + b
Les valeurs ajustées sont les ‘prédictions’ des yi réalisées au moyen de la variable x et de la
droite de régression de y en x .
Remarque: La moyenne des valeurs ajustées est égale à la moyenne des valeurs
observées ȳ .
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable
dépendante.
ei = yi − ybi
Les résidus représentent la partie inexpliquée des yi par la droite de régression.
Remarque: La moyenne des résidus est nulle.
On a
SCT = SCRG + SCRS
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
94/98 2023/2024
R2 = r 2
Exemple
yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
Exercice 1
Exercice 1 de la série 2 : 60
Exercice 2
Le tableau suivant représente des âges de patients X et les tensions artérielles Y d’un
échantillon de 9 malades extrait d’une population gaussiennes.
L’âge X 56 42 72 36 63 47 55 49 38
T.A Y 147 125 160 118 149 128 150 145 115
Exercice 3
sur un échantillon de 100 étudiants extrait d’une population gaussienne P, on relevé la taille X
en centimètre, ainsi que le poids Y en kilogrammes comme l’indique le tableau suivant
X \Y [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
[150, 160[ 10 3 1 0 0
[160, 170[ 2 12 6 7 2
[170, 180[ 1 7 11 17 4
[180, 190[ 0 2 2 4 9