Vous êtes sur la page 1sur 124

Statistiques et analyse des données

Mme.Manal NAIMI

Filières: Génie informatique


informatique et gestion
L’École des Hautes Études d’Ingénierie Oujda

2023/2024
2/98 2023/2024

Plan

1 Introduction

2 L’analyse univariée
Terminologie
Statistiques descriptives univariées
Paramètres de position (caractéristique de tendance centrale)
Paramètres de dispersion
Exercices

3 L’analyse bivariée
Deux variables quantitatives

Mme.Manal NAIMI Introduction


3/98 2023/2024

Introduction

L’analyse des données est une discipline essentielle qui nous permet de transformer des
informations brutes en connaissances significatives. Elle constitue le socle sur lequel repose la
prise de décision dans un monde de plus en plus axé sur les données. Au cœur de cette
discipline, nous trouvons les statistiques comme un piler fondamental de l’ADD.
Les statistiques sont une composante essentielle de la prise de décision, de la gestion de
données et de l’optimisation des systèmes informatiques. Ils fournissent des outils et des
méthodes pour analyser, interpréter et utiliser efficacement les données, ce qui est fondamental
dans les domaines du génie informatique, de la gestion et de l’informatique. Dans ce cours,
nous explorerons deux branches distinctes de la statistique :
1 les statistiques descriptives.
2 les statistiques inférentielles.

Mme.Manal NAIMI Introduction


4/98 2023/2024

Les statistiques descriptives constituent la première étape de l’analyse des données. Elles
nous offrent les outils nécessaires pour explorer, résumer et présenter les caractéristiques
principales d’un ensemble de données. Grâce à elles, nous pouvons comprendre la structure et
les tendances de nos données, en utilisant des mesures de tendance centrale telles que la
moyenne, la médiane et le mode, ainsi que des indicateurs de dispersion tels que l’écart-type et
l’étendue. Les visualisations graphiques, telles que les histogrammes et les diagrammes en boîte,
enrichissent notre compréhension en nous permettant de voir les données d’un coup d’œil.

Mme.Manal NAIMI Introduction


5/98 2023/2024

les statistiques inférentielles nous permet de faire des déductions et des prédictions à
partir d’un échantillon de données pour généraliser ces conclusions à une population plus large.
Nous utiliserons des techniques telles que les tests d’hypothèses et les intervalles de confiance
pour prendre des décisions éclairées et résoudre des problèmes du monde réel. Les statistiques
inférentielles sont cruciales pour tirer des conclusions significatives à partir de données limitées
et pour éclairer les choix stratégiques.

Mme.Manal NAIMI Introduction


6/98 2023/2024

Plan

1 Introduction

2 L’analyse univariée
Terminologie
Statistiques descriptives univariées
Paramètres de position (caractéristique de tendance centrale)
Paramètres de dispersion
Exercices

3 L’analyse bivariée
Deux variables quantitatives

Mme.Manal NAIMI L’analyse univariée


7/98 2023/2024

Terminologie
La statistique utilise un certain nombre de termes et de concepts spécifiques pour décrire et
analyser les données.

Mme.Manal NAIMI L’analyse univariée Terminologie


8/98 2023/2024

Population : L’ensemble complet des individus, des objets ou des événements que l’on étudie
dans une analyse statistique. On la note Ω.
Exemple: Les étudiants de EHEI.

Individus: ou « Unités statistiques », est l’élément de la population.


Exemple: un Étudiant de EHEI.

Échantillon : Un sous-ensemble de la population qui est sélectionné pour être étudié. Le


nombre d’individus dans l’échantillon est la taille de l’échantillon. On le note E .
Exemple: Les étudiants de la 3ème année génie informatique.

Variable : Une caractéristique ou une propriété qui peut varier d’un individu, d’un objet ou
d’un événement à un autre. Elle porte aussi le nom de caractère.
Exemple: Notes des étudiants.

Mme.Manal NAIMI L’analyse univariée Terminologie


9/98 2023/2024

Variable

La variable étudiée peut apparaître à des niveaux différents, selon les unités statistiques
étudiées. On la note X . Chacun de ces niveaux est appelé : « Modalité » du variable. Il existe
deux types de variables : Variables qualitatives et variables quantitatives.

Mme.Manal NAIMI L’analyse univariée Terminologie


10/98 2023/2024

Variables qualitatives

La variable est qualitative lorsque ses modalités ne sont pas mesurables, c’est-à-dire elle ne
se prête pas à des valeurs numériques.
Exemple: Couleur(noir, bleu, rouge...)
On peut distinguer deux types de variables qualitatives:

Variable qualitative nominale: La variable est dite qualitative nominale quand
les modalités ne peuvent pas être ordonnées.
Exemple: Langue( arabe, français, anglais...).

Variable qualitative ordinale: La variable est dite qualitative ordinale quand
les modalités peuvent être ordonnées.
Exemple: Mention( Très bien, bien, assez bien...)

Mme.Manal NAIMI L’analyse univariée Terminologie


11/98 2023/2024

Variables quantitatives

La variable est dit quantitatif lorsque ses modalités sont mesurables, c’est-à-dire ses
modalités prennent des valeurs numériques.
Exemple: Les notes des étudiants. On peut distinguer deux types de variables quantitatives:

Variable quantitative discrète: La variable est dite quantitative discrète, si
l’ensemble des valeurs possibles est dénombrable.
Exemple: Le nombre d’enseignants de EHEI.

Variable quantitative continue: Une variable est dite quantitative continue, si
l’ensemble des valeurs possibles est continu.
Exemple: Poids des cartables des élèves.

Mme.Manal NAIMI L’analyse univariée Terminologie


12/98 2023/2024

Mme.Manal NAIMI L’analyse univariée Terminologie


13/98 2023/2024

Exemples

Exemple 1: Variable Qualitative (Nominale)

Ω = Population Voitures du parking


i = Individu Voiture
X = Caractère Couleur de voiture
xi = Modalités Bleu, Vert, Noire, , ..

Exemple 2: Variable Qualitative ( Ordinale)

Ω = Population Amphi
i = Individu Étudiant
X = Caractère Mention
xi = Modalités Très bien, Bien, Assez bien, , ..

Mme.Manal NAIMI L’analyse univariée Terminologie


14/98 2023/2024

Exemples

Exemple 3: Variable Quantitative (Discrète)

Ω = Population Région
i = Individu Famille
X = Caractère Nombre d’enfant
xi = Modalités 0,1, 2,, ..

Exemple 4: Variable Quantitative ( Continue)

Ω = Population Amphi
i = Individu Étudiant
X = Caractère Note
xi = Modalités [0,20]

Mme.Manal NAIMI L’analyse univariée Terminologie


15/98 2023/2024

Série statistique

Une série statistique, également appelée distribution statistique, est une collection de données
ou d’observations qui représente des valeurs d’une ou de plusieurs variables. Notons que n est le
nombre des unités de statistiques ou des individus, alors les valeurs de la variable X sont notées

x1 , ..., xi , ..., xn .

Exemple: On s’intéresse à la variable "Nombre de livres lus" notée X et à la série statistique


des valeurs prises par X sur 20 étudiants. Considérons la série statistique

6 4 1 10 12 10 1 5 6 6
7 1 2 5 7 12 5 7 3 18

Ici, n = 20,
x1 = 6, x2 = 4, x3 = 1, x4 = 10, x5 = 12, . . . , x20 = 18.

Mme.Manal NAIMI L’analyse univariée Terminologie


16/98 2023/2024

L’effectif : est le nombre de fois qu’une donnée est représentée dans la distribution.

L’effectif total :est le nombre total de données dans une distribution.

La fréquence relative : est le pourcentage correspondant à l’effectif d’une donnée par rapport
à l’effectif total.

Si la variable est quantitative ou qualitative ordinale on a:

L’effectif cumulé : est la somme de l’effectif d’une donnée et des effectifs des données qui la
précèdent.

La fréquence relative cumulée : est le pourcentage correspondant à l’effectif cumulé d’une


donnée par rapport à l’effectif total.

Mme.Manal NAIMI L’analyse univariée Terminologie


17/98 2023/2024

Exemple
Dans une région, on a enquêté sur le nombre d’enfants par famille. La variable X représente le
nombre d’enfants par famille. Voici les données recueillies pour 40 familles :

√ 10 familles n’ont aucun enfant.
√ 15 familles ont un enfant.
√ 8 familles ont deux enfants.
√ 5 familles ont trois enfants.
2 familles ont quatre enfants.
Comme la variable est quantitative, on peut calculer les effectifs ni , les effectifs cumulés Ni , les
fréquences fi , les fréquences cumulées Fi . Donc on a le tableau statistique:

Mme.Manal NAIMI L’analyse univariée Terminologie


17/98 2023/2024

Exemple
Dans une région, on a enquêté sur le nombre d’enfants par famille. La variable X représente le
nombre d’enfants par famille. Voici les données recueillies pour 40 familles :

√ 10 familles n’ont aucun enfant.
√ 15 familles ont un enfant.
√ 8 familles ont deux enfants.
√ 5 familles ont trois enfants.
2 familles ont quatre enfants.
Comme la variable est quantitative, on peut calculer les effectifs ni , les effectifs cumulés Ni , les
fréquences fi , les fréquences cumulées Fi . Donc on a le tableau statistique:

xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
Mme.Manal NAIMI L’analyse univariée Terminologie
18/98 2023/2024

Le cas d’une variable continue

Dans le cas où la variable X est continue, la réalisation d’un tableau statistique nécessite au
préalable une répartition en classes des données. On doit définir a priori le nombre de classes K
et l’amplitude (ou l’étendue) de chaque classe. Ce choix doit résulte d’un compromis entre
deux objectifs antagonistes: résumer les données (K ne doit pas être trop grand ) sans perdre
l’information pertinente (K ne doit pas être trop petit). On peut utiliser la méthode suivante:

Soit X un caractère continue et n le nombre d’observation dans notre population.


On considère k le nombre de classes du variable continue. Ce nombre est déterminé par la
formule Sturges suivante:
k = 1 + 3.22 log(n)
Dans la pratique on prend un entier très proche de k.

Mme.Manal NAIMI L’analyse univariée Terminologie


19/98 2023/2024

Ainsi on a:

E = xmax − xmin : est l’étendue de la série statistique.

e= E
k : est l’étendu de la classe

où xmax et xmin étant la valeur maximale et la valeur minimale prises par X. Alors:

e0 = xmin e1 = xmin + e ek = xmin + ke

Donc:
[e0 , e1 [ [e1 , e2 [ [ek−1 , ek [
| {z } | {z } | {z }
1ére classe 2éme classe k éme classe

Mme.Manal NAIMI L’analyse univariée Terminologie


20/98 2023/2024

Le tableau statistique relatif à la variable continue peut être représenté comme suit:

N◦ de classe Classes ni fi
1 [e0 , e1 [ n1 f1
2 [e1 , e2 [ n2 f2
· · · ·
i [ei−1 , ei [ ni fi
· · · ·
k [ek−1 , ek [ nk fk
Total - N 1

Mme.Manal NAIMI L’analyse univariée Terminologie


21/98 2023/2024

Exemple

Considérons les données suivantes qui désignent les tailles de 20 étudiants:


1, 73 1, 82 1, 9 1, 75 1, 68 1, 64 1, 88 1, 86 1, 89 1, 59 1, 5 1, 67
1, 83 1, 76 1, 72 1, 65 1, 79 1, 89 1, 81 1, 9
Le tableau statistique relatif à cette série statistique est:

Mme.Manal NAIMI L’analyse univariée Terminologie


21/98 2023/2024

Exemple

Considérons les données suivantes qui désignent les tailles de 20 étudiants:


1, 73 1, 82 1, 9 1, 75 1, 68 1, 64 1, 88 1, 86 1, 89 1, 59 1, 5 1, 67
1, 83 1, 76 1, 72 1, 65 1, 79 1, 89 1, 81 1, 9
Le tableau statistique relatif à cette série statistique est:

N0 de classe Classes ni fi
1 [1.5, 1.58[ 1 0.05
2 [1.58, 1.66[ 3 0.15
3 [1.66, 1.74[ 4 0.2
4 [1.74, 1.82[ 4 0.2
5 [1.82, 1.90] 8 0.4
Total - 20 1

Mme.Manal NAIMI L’analyse univariée Terminologie


22/98 2023/2024

DIAGRAMMES: Pour une variable statistique qualitative

On utilise des diagrammes à secteurs circulaires, des diagrammes en tuyaux d’orgue, des
diagrammes en bandes. Le principe est de représenter des aires proportionnelles aux
fréquences de la variable statistique.

Mme.Manal NAIMI L’analyse univariée Terminologie


23/98 2023/2024

diagrammes à secteurs circulaires

Les étapes sont:

1 Calculez les fréquences.


2 Calculez les angles: Pour chaque catégorie, calculez l’angle dont vous avez besoin pour
représenter sa fréquence relative par rapport à la fréquence totale. Vous pouvez utiliser la
formule suivante :fréquence × 360.
3 Dessinez le cercle.
4 Dessinez les secteurs: À partir du centre du cercle, dessinez des secteurs (comme des
parts de gâteau) pour chaque catégorie. L’angle de chaque secteur est calculé en fonction
de sa fréquence relative.
5 Étiquetez les secteurs: Étiquetez chaque secteur avec le nom de la modalité
correspondante .

Mme.Manal NAIMI L’analyse univariée Terminologie


24/98 2023/2024

Exemple

En considérant le tableau statistique ci-dessous, on obtient le diagramme au secteurs circulaires


suivant:
X ni fi
noir 5
vert 6
bleu 7
rouge 9
jaune 11
marron 12
totale 50

Mme.Manal NAIMI L’analyse univariée Terminologie


25/98 2023/2024

Exemple

En considérant le tableau statistique ci-dessous, on obtient le diagramme au secteurs circulaires


suivant:

X ni fi
noir 5 0.1
vert 6 0.12
bleu 7 0.14
rouge 9 0.18
jaune 11 0.22
marron 12 0.24
totale 50 1

Mme.Manal NAIMI L’analyse univariée Terminologie


26/98 2023/2024

Diagramme en Tuyaux d’Orgue (Histogramme Vertical)

Les étapes sont:


1 Calculez les fréquences .
2 Choisissez l’échelle : Sur l’axe vertical, choisissez une échelle appropriée pour représenter
les fréquences.
3 Dessinez les rectangles : Pour chaque modalité, dessinez un rectangle dont la hauteur
est proportionnelle à la fréquence de cette modalité.
4 Placez les rectangles : Placez les rectangles côte à côte de manière à former un
diagramme en tuyaux d’orgue.
5 Étiquetez les catégories : Étiquetez l’axe horizontal (l’axe des x) avec le nom des
catégories.

Mme.Manal NAIMI L’analyse univariée Terminologie


27/98 2023/2024

Exemple

Mme.Manal NAIMI L’analyse univariée Terminologie


28/98 2023/2024

Diagramme en Bandes (Histogramme Horizontal)


Ce diagramme suit les mêmes étapes que le diagramme en tuyaux d’orgue, à la différence que
les rectangles sont placés les uns en dessous des autres pour former un diagramme en bandes.

Mme.Manal NAIMI L’analyse univariée Terminologie


29/98 2023/2024

DIAGRAMMES: Pour une variable quantitative discrète

On utilise un diagramme différentiel en bâtons, complété du diagramme des fréquences


cumulées appelé diagramme cumulatif. Le diagramme cumulatif est la représentation graphique
d’une fonction F, appelée fonction de répartition de la variable statistique.

Mme.Manal NAIMI L’analyse univariée Terminologie


30/98 2023/2024

Diagramme différentiel en bâtons

On reprenons l’exemple précédent, calculer compléter le tableau statistique et tracer le


diagramme différentiel en bâtons et le diagramme cumulé:

xi ni Ni fi Fi
0 10
1 15
2 8
3 5
4 2

Mme.Manal NAIMI L’analyse univariée Terminologie


31/98 2023/2024

On a

xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1

Mme.Manal NAIMI L’analyse univariée Terminologie


32/98 2023/2024

Diagramme cumulé

xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1

Mme.Manal NAIMI L’analyse univariée Terminologie


33/98 2023/2024

DIAGRAMMES:Pour une variable quantitative continue


Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés
dont chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle que
l’aire de chaque rectangle soit proportionnelle aux effectifs(histogramme des effectifs) ou aux
fréquences de la classe correspondante (histogramme des fréquences).

Mme.Manal NAIMI L’analyse univariée Terminologie


33/98 2023/2024

DIAGRAMMES:Pour une variable quantitative continue


Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés
dont chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle que
l’aire de chaque rectangle soit proportionnelle aux effectifs(histogramme des effectifs) ou aux
fréquences de la classe correspondante (histogramme des fréquences).

Figure 1: Histogramme des effectifs Figure 2: Histogramme des fréquences

Mme.Manal NAIMI L’analyse univariée Terminologie


34/98 2023/2024

Polygone des fréquences ou des effectifs

On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des bases
supérieures des rectangles.

Mme.Manal NAIMI L’analyse univariée Terminologie


34/98 2023/2024

Polygone des fréquences ou des effectifs

On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des bases
supérieures des rectangles.

Figure 3: polygone des effectifs Figure 4: polygones des fréquences

Mme.Manal NAIMI L’analyse univariée Terminologie


35/98 2023/2024

La courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant
les points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.

Mme.Manal NAIMI L’analyse univariée Terminologie


35/98 2023/2024

La courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant
les points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.

Mme.Manal NAIMI L’analyse univariée Terminologie


36/98 2023/2024

Statistiques descriptives univariées

Paramètres de position
(caractéristique de tendance centrale)

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


37/98 2023/2024

Le mode

Le mode est la valeur distincte correspondant à l’effectif le plus élevé. il est noté Mo .
Exemple: Pour le tableau statistique suivant:

xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


37/98 2023/2024

Le mode

Le mode est la valeur distincte correspondant à l’effectif le plus élevé. il est noté Mo .
Exemple: Pour le tableau statistique suivant:

xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1

Le mode Mo est: 1.

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


38/98 2023/2024

Cas particulier: le cas d’une variable continue

Pour calculer le mode, nous définissions la classe modale comme étant la classe des valeurs de
X qui a le plus grand effectif partiel (ou la plus grande fréquence partielle).

Si les amplitudes sont égales:


La quantité
∆1
M 0 = Li + × ai
∆1 + ∆ 2
s’appelle le mode avec
Li : La borne inférieure de la classe modale.
ai : L’amplitude ou le pas de la classe.
∆1 =n0 − n1 ∆2 =n0 − n2 où
n0 : l’effectif associé à la classe modale.
n1 : l’effectif de la classe qui précède la classe modale.
n2 : l’effectif de la classe qui suit la classe modale.

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


39/98 2023/2024

Exemple

Considérons le tableau statistique suivant:


Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


39/98 2023/2024

Exemple

Considérons le tableau statistique suivant:


Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1

La classe modale est: [1.82, 1.90]


le mode est: 1.85.

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


40/98 2023/2024

Si les amplitudes sont inégales:


La quantité
∆cor
M0 = Li + 1
× ai
∆cor
1 + ∆cor
2
s’appelle le mode avec
Li : La borne inférieure de la classe modale.
ai : L’amplitude ou le pas de la classe modale.
1 =n0 − n1
∆cor 2 =n0 − n2 où
cor cor
∆cor cor cor

n0cor : l’effectif corrigé associé à la classe modale.


n1cor : l’effectif corrigé de la classe qui précède la classe modale.
n2cor : l’effectif corrigé de la classe qui suit la classe modale.

Pour calculer l’effectif corrigé, on aura besoin d’identifier l’amplitude de base qui est
généralement la plus petite amplitude. Donc l’effectif corrigé est égale à: l’effectif devisé par
l’amplitude correspondante a cet effectif et multiplié par l’amplitude de base.
abase
nicor = ni ×
ai

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


41/98 2023/2024

Exemple

Considérons le tableau statistique suivant:


Classes ni fi ai abase
ai nicor
[0, 10[ 5 0.17
[10, 15[ 8 0.27
[15, 25[ 6 0.2
[25, 30[ 4 0.13
[30, 40] 7 0.23
Totale 30 1 - - -

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


42/98 2023/2024

Exemple

Considérons le tableau statistique suivant:


Classes ni fi ai abase
ai nicor
[0, 10[ 5 0.17 10 0.5 2.5
[10, 15[ 8 0.27 5 1 8
[15, 25[ 6 0.2 10 0.5 3
[25, 30[ 4 0.13 5 1 4
[30, 40] 7 0.23 10 0.5 3.5
Totale 30 1 - - -

La classe modale est: [10, 15[


le mode est: 12.62

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


43/98 2023/2024

La moyenne arithmétique

La moyenne ne peut être définie que sur une variable quantitative.

Série simple:

La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x :
n
x1 + x2 + ... + xn X xi
x= =
N i=1
N

Exemple: Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La


moyenne est

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


43/98 2023/2024

La moyenne arithmétique

La moyenne ne peut être définie que sur une variable quantitative.

Série simple:

La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x :
n
x1 + x2 + ... + xn X xi
x= =
N i=1
N

Exemple: Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La


moyenne est
0+0+1+1+1+2+3+4 12
x= = = 1.5
8 8

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


44/98 2023/2024

Série pondérée:

La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
X nj xj
x=
j
N

Exemple:

xi ni
0 2
1 3
2 1
3 1
4 1
La moyenne est

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


44/98 2023/2024

Série pondérée:

La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
X nj xj
x=
j
N

Exemple:

xi ni
0 2
1 3
2 1
3 1
4 1
La moyenne est
2×0+3×1+1×2+1×3+1×4 12
x= = = 1.5
8 8
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
45/98 2023/2024

Lorsque la variable est continue, la moyenne est:


X ni ci
x=
i
N

où ci = xi−12+xi sont les centres des classes.


Exemple:
Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1
La moyenne est

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


45/98 2023/2024

Lorsque la variable est continue, la moyenne est:


X ni ci
x=
i
N

où ci = xi−12+xi sont les centres des classes.


Exemple:
Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1
La moyenne est
1 × 1.54 + 3 × 1.62 + 4 × 1.7 + 4 × 1.78 + 8 × 1.86 35.2
x= = = 1.76
20 20
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
46/98 2023/2024

La moyenne géométrique

La moyenne géométrique est utilisée dans le calcul du taux d’accroissement moyen et de


certains indices statistiques.

Série simple:

on appelle moyenne géométrique la quantité



G = N x1 × x2 × ... × xN

Exemple: Soit la série simple {7.5; 8.2; 9.6; 9}. La moyenne géométrique de cette série est :

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


46/98 2023/2024

La moyenne géométrique

La moyenne géométrique est utilisée dans le calcul du taux d’accroissement moyen et de


certains indices statistiques.

Série simple:

on appelle moyenne géométrique la quantité



G = N x1 × x2 × ... × xN

Exemple: Soit la série simple {7.5; 8.2; 9.6; 9}. La moyenne géométrique de cette série est :

G = 4 7.5 × 8.2 × 9.6 × 9 = 8.53782

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


47/98 2023/2024

Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


47/98 2023/2024

Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
- Si on calcule la moyenne arithmétique des taux on obtient

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


47/98 2023/2024

Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
- Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.1 + 1.15 + 1.1
x= = 1.1
4
- Si on calcule la moyenne géométrique des taux, on obtient

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


47/98 2023/2024

Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
- Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.1 + 1.15 + 1.1
x= = 1.1
4
- Si on calcule la moyenne géométrique des taux, on obtient

G = 4 1.05 × 1.1 × 1.15 × 1.1 = 1.099431377.
Le bon taux moyen est bien G et non x , car si on applique 4 fois le taux moyen aux 100 francs,
on obtient
100 × G 4 = 146.1075 Fr . et 100 × x 4 = 146.41 Fr
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
48/98 2023/2024

Série pondérée:

La moyenne géométrique d’une série pondérée est :


q
G = N x1n1 × x2n2 × ...

dans la pratique, on commence par le calcule de log G = N1 ni log xi , et par la suite


P
i
G = 10log G
Exemple:
X ni log xi ni log xi
0 2
1 4
2 5
3 9
4 1

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


49/98 2023/2024

Série pondérée:

La moyenne géométrique d’une série pondérée est :


q
G = N x1n1 × x2n2 × ...

dans la pratique, on commence par le calcule de log G = N1 ni log xi , et par la suite


P
i
G = 10log G
Exemple:
X ni log xi ni log xi
1 4 0 0
2 5 0.301 1.505
3 9 0.477 4.293
4 1 0.602 0.602
− 19 − 6.4
Donc log G = 6.4
19 = 0.337 et par la suite G = 100.337 = 2.17

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


50/98 2023/2024

La moyenne harmonique

La moyenne harmonique est utilisée dans le calcul des études du pouvoir d’achat, des durées
moyennes, des moyennes de rapports et de pourcentages.

Série simple:

on appelle moyenne harmonique la quantité


N
H = PN 1
i=1 xi

Exemple: Soit la série statistique {2, 3, 5, 7}, la moyenne harmonique de cette série est

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


50/98 2023/2024

La moyenne harmonique

La moyenne harmonique est utilisée dans le calcul des études du pouvoir d’achat, des durées
moyennes, des moyennes de rapports et de pourcentages.

Série simple:

on appelle moyenne harmonique la quantité


N
H = PN 1
i=1 xi

Exemple: Soit la série statistique {2, 3, 5, 7}, la moyenne harmonique de cette série est

4
H= = 3.401
1
2 + 1
3 + 1
5 + 1
7

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


51/98 2023/2024

Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


51/98 2023/2024

Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


51/98 2023/2024

Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
Vmoy = = 19.2km/h.
20.8333
- Si on calcule la moyenne arithmétique des vitesses, on obtient

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


51/98 2023/2024

Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
Vmoy = = 19.2km/h.
20.8333
- Si on calcule la moyenne arithmétique des vitesses, on obtient
10 + 30 + 40 + 20
x= = 25km/h.
4
- Si on calcule la moyenne harmonique des vitesses, on obtient

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


51/98 2023/2024

Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc
400
Vmoy = = 19.2km/h.
20.8333
- Si on calcule la moyenne arithmétique des vitesses, on obtient
10 + 30 + 40 + 20
x= = 25km/h.
4
- Si on calcule la moyenne harmonique des vitesses, on obtient
4
H= = 19.2km/h.
1
10 + 1
30 + 1
40 + 1
20

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


52/98 2023/2024

Série pondérée:

La moyenne harmonique d’une série pondérée est :


N
H=X
1
ni
i
xi

Exemple:
1 1
X ni ni
xi xi
2 6
3 4
4 8
6 2
− 20 −

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


53/98 2023/2024

Série pondérée:

La moyenne harmonique d’une série pondérée est :


N
H=X
1
ni
i
x i

Exemple:
1 1
X ni ni
xi xi
2 6 0.5 3
3 4 0.33 1.32
4 8 0.25 2
6 2 0.17 0.34
− 20 − 6.66
20
Donc H = = 3.003
6.66
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
54/98 2023/2024

La médiane

La médiane, Me , est la valeur du caractère pour laquelle la fréquence cumulée est égale à 0,5
ou 50%. Elle correspond donc au centre de la série statistique classée par ordre croissant, ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures.
La médiane peut être calculée sur des variables quantitatives et sur des variables qualitatives
ordinales.

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


55/98 2023/2024

Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu

Me = xm+1

. Exemple: Soit la série {22,13,35,2,10}. La médiane est

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


55/98 2023/2024

Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu

Me = xm+1

. Exemple: Soit la série {22,13,35,2,10}. La médiane est Me = 13

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


55/98 2023/2024

Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu

Me = xm+1

. Exemple: Soit la série {22,13,35,2,10}. La médiane est Me = 13


si N est pair, alors N = 2m et une médiane est une valeur quelconque entre xm et xm+1 .
Dans ce cas
xm + xm+1
Me =
2
Exemple: Soit la série {22,13,35,10}. La médiane est:

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


55/98 2023/2024

Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu

Me = xm+1

. Exemple: Soit la série {22,13,35,2,10}. La médiane est Me = 13


si N est pair, alors N = 2m et une médiane est une valeur quelconque entre xm et xm+1 .
Dans ce cas
xm + xm+1
Me =
2
Exemple: Soit la série {22,13,35,10}. La médiane est: Me = 17.5

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


56/98 2023/2024

Dans le cas d’une variable continue, on commence par le calcul des effectifs cumulés. en
calculant N2 on va déterminer Nm , Nm+1 , xm etxm+1 tels que

N
Nm ⩽ ⩽ Nm+1 et xm ⩽ Me ⩽ xm+1
2
avec Nm effectif cumulé de la classe [xm−1 , xm [
Donc la médiane est calculée de la façon suivante:
N
M e − xm − Nm
= 2
xm+1 − xm Nm+1 − Nm
Exemple:
X ni Ni
[1500; 2000[ 26 26
[2000; 2500[ 12 38
[2500; 3000[ 11 49
[3000; 3500[ 6 55
[3500; 4000] 5 60

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


56/98 2023/2024

Dans le cas d’une variable continue, on commence par le calcul des effectifs cumulés. en
calculant N2 on va déterminer Nm , Nm+1 , xm etxm+1 tels que

N
Nm ⩽ ⩽ Nm+1 et xm ⩽ Me ⩽ xm+1
2
avec Nm effectif cumulé de la classe [xm−1 , xm [
Donc la médiane est calculée de la façon suivante:
N
M e − xm − Nm
= 2
xm+1 − xm Nm+1 − Nm
Exemple:
X ni Ni
[1500; 2000[ 26 26
[2000; 2500[ 12 38
[2500; 3000[ 11 49
[3000; 3500[ 6 55
[3500; 4000] 5 60
On obtient que la médiane vaut: Me = 2166.67
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
57/98 2023/2024

Paramètres de dispersion

Les paramètres de position sont insuffisants pour caractériser complètement une série. Par
exemple, deux séries différentes ayant la même moyenne, ne se repartissent pas nécessairement
de la même manière autour de cette moyenne. Elles sont plus ou moins étalées, ce qui sera
décrit par les caractéristiques de dispersion.

Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées


58/98 2023/2024

L’étendue et l’écart moyen arithmétique


L’étendue

L’étendue est simplement la différence entre la plus grande et la plus petite valeur observée.
E = xmax − xmin
L’écart moyen arithmétique

L’écart moyen arithmétique est la moyenne arithmétique des écarts par rapport à la moyenne
arithmétique x̄ des valeurs du caractère
p
1 X
E (X ) = ni |xi − x̄ |
N
i=1

Lorsque la variable est continue l’écart moyen arithmétique est :


p
1 X
E (X ) = ni ci − X̄
N
i=1
xi−1 +xi
où les ci = 2
sont les centres des classes.
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
59/98 2023/2024

La variance et l’écart-type
La variance:

La variance d’une série de valeurs du caractère est la moyenne arithmétique des carrés des
écarts de ces valeurs par rapport à leur moyenne arithmétique.
p
1 X 2
V (X ) = ni (xi − x̄ )
N i=1
Pp 2
Lorsque la variable est continue la variance est : V (X ) = 1
N i=1 ni (ci − x̄ ) où les
ci = xi−12+xi sont les centres des classes.

L’ écart-type:

L’ écart-type (ou écart quadratique moyen) est la racine carrée de la variance



σ= V
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées
60/98 2023/2024

Exercices
Exercice 1:
1 Montrer que la variance d’une série statistique (xi )i i = 1, ..., N est égale à

V = x¯2 − x̄ 2

où x̄ est la moyenne arithmétique de la série.


2 Soient (xi ) et (yi )i deux séries statistiques liées par la relation suivante:
xi − a
∀i yi =
b
avec b ̸= 0 a, b ∈ R. Montrer les propriétés suivantes:

x̄ − a V (x ) σ(x )
a)- ȳ = b)- V (y ) = c)- σ(y ) =
b b2 |b|
Exercice 1 de la série 1 : 96
Mme.Manal NAIMI L’analyse univariée Exercices
61/98 2023/2024

Exercice 2:

Les pesées de 12 nouveaux-nés dans une maternité ont permis d’établir la série statistique
suivantes:

2.25 − 3.36 − 2.75 − 1.5 − 3.74 − 3.42 − 3.15 − 2 − 4.5 − 2.5 − 3.75 − 3

1 Ranger ces résultats en classes et établir le tableau statistique.


2 Représenter graphiquement cette variable.
3 Déterminer le mode et la médiane graphiquement et par calcul.
4 Calculer la moyenne, la variance et l’écart type.

Mme.Manal NAIMI L’analyse univariée Exercices


62/98 2023/2024

Exercice 3:
Dans une petite localité, on a relevé le nombre de pièces par appartement :
Nombre de
1 2 3 4 5 6 7
pièces
Nombre
48 72 96 64 39 25 3
d’appartements

1 Calculer les effectifs cumulés, les fréquences et les fréquences cumulées.


2 Donner le nombre d’appartements qui ont 4 pièces.
3 Tracer le diagramme en bâtons des effectifs.
4 Déterminer le mode
5 Tracer la courbe cumulative des fréquences cumulées. En déduire la médiane.
6 A partir de la courbe cumulative, donner le nombre d’appartements qui ont au plus 3
pièces et le nombre d’appartements qui ont au moins 3 pièces.
7 Calculer la moyenne, la variance et l’écart type.
Mme.Manal NAIMI L’analyse univariée Exercices
63/98 2023/2024

Exercice 4:

Lors d’un examen écrit, un correcteur a obtenu les notes suivantes (sur 10) sur 35 copies
corrigées :

8, 4, 5, 3, 3, 2, 1, 1, 1, 1, 2, 1, 6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 7, 0, 0, 7, 5, 0, 7.

1 Dresser le tableau des effectifs.


2 1 Quel est le pourcentage des élèves qui ont la meilleure note ?
2 Quel est le pourcentage des élèves qui ont au plus 4 points sur 10 ?

Mme.Manal NAIMI L’analyse univariée Exercices


64/98 2023/2024

Exercice 5:
L’étude du taux de cholestérol sur un échantillon de 100 personnes a donné les résultats suivants :
Taux de Cholestérol (gr/1) effectifs
[1.0; 1.4[ 6
[1.4; 1.6[ 13
[1.6; 1.8[ 16
[1.8; 2.0[ 22
[2.0; 2.2[ 18
[2.2; 2.4[ 10
[2.4; 2.6[ 6
[2.6; 2.8[ 4
[2.8; 3.0[ 3
[3.0; 3.4[ 2
1 Tracer l’histogramme.
2 Tracer la courbe de fréquences cumulées.
3 Déterminer le mode et la moyenne arithmétique de cette distribution.
4 Déterminer la médiane graphiquement et pat le calcul.
5 Calculer la variance et l’écart type.
Mme.Manal NAIMI L’analyse univariée Exercices
65/98 2023/2024

Exercice 6:
On considère l’histogramme des effectifs suivants:

1 Établir le tableau statistique.


2 Calculer la valeur moyenne. Quel est le mode? quelle est la médiane?
3 Tracer le polygône des fréquences et le polygône des effectifs cumulés.
4 Retrouver la valeur de la médiane.
Mme.Manal NAIMI L’analyse univariée Exercices
66/98 2023/2024

Plan

1 Introduction

2 L’analyse univariée
Terminologie
Statistiques descriptives univariées
Paramètres de position (caractéristique de tendance centrale)
Paramètres de dispersion
Exercices

3 L’analyse bivariée
Deux variables quantitatives

Mme.Manal NAIMI L’analyse bivariée


67/98 2023/2024

La statistique descriptive bivariée est une branche essentielle de l’analyse statistique qui se
concentre sur l’étude simultanée de deux variables. Contrairement à la statistique descriptive
univariée, qui se penche sur une seule variable à la fois, la statistique descriptive bivariée
examine comment deux variables sont liées et comment elles interagissent.

Mme.Manal NAIMI L’analyse bivariée


68/98 2023/2024

Série statistique bivariée

On se donne une population de taille n et sur chaque élément de cette population on effectue
deux observations portant sur deux caractères différents X et Y . Pour chaque élément de la
population, on peut associer un couple de valeurs (xi ; yi ) où xi est la valeur du caractère X etyi
est la valeur du caractère Y . .La série statistique est alors une suite de n couples des valeurs
prises par les deux variables sur chaque individu.
Chacune des deux variables peut être, soit quantitative, soit qualitative.

Mme.Manal NAIMI L’analyse bivariée


69/98 2023/2024

Deux variables quantitatives

Deux variables quantitatives

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


70/98 2023/2024

Représentation graphique de deux variables


Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de
nombres(entiers ou réels) peut toujours être représenté comme un point dans un plan
(x1 ; y1 ), (x2 ; y2 ), (x3 ; y3 ), ... (xn ; yn ),
Exemple: On mesure le poids X et la taille Y de 10 individus.
n° d’individu xi (enkg) yi (enm)
1 55 1.70
2 60 1.66
3 90 1.90
4 76 1.68
5 46 1.53
6 83 1.76
7 68 1.72
8 52 1.60
9 71 1.57
10 50 1.61
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
71/98 2023/2024

On obtient donc un nuage de n points constituant un diagramme de dispersion.


Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
72/98 2023/2024

Distribution jointe - Tableau de contingence


1 Distribution jointe en effectifs de X et de Y :
{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}
2 Pour i = 1, . . . , p et j = 1, . . . , q:

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


72/98 2023/2024

Distribution jointe - Tableau de contingence


1 Distribution jointe en effectifs de X et de Y :
{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}
2 Pour i = 1, . . . , p et j = 1, . . . , q:
X \Y y1 y2 . . . yj . . . yq Totaux
x1 n11 n12 . . . n1j . . . n1q n1.
x2 n21 n22 . . . n2j . . . n2q n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 . . . nij . . . niq ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xp np1 np2 . . . npj . . . npq np.
Totaux n.1 n.2 . . . n.j . . . n.q N
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
73/98 2023/2024

Exemple
Soit Ω la population constituée par les quatre pays suivants : France, Allemagne, Grande
bretagne et l’Italie. Notons X la production de fonte (bronze) et Y la production d’acier
arrondies en millons de tonnes
Ω Allemagne France G. B. Italie
X 27.2 15.9 17.6 3.5
Y 37.2 19.8 26.7 9.8
Il est naturel de s’interroger sur la relation qui lié X et Y . On regroupe les valeurs des xi et des
yi dans le tableau suivant :

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


73/98 2023/2024

Exemple
Soit Ω la population constituée par les quatre pays suivants : France, Allemagne, Grande
bretagne et l’Italie. Notons X la production de fonte (bronze) et Y la production d’acier
arrondies en millons de tonnes
Ω Allemagne France G. B. Italie
X 27.2 15.9 17.6 3.5
Y 37.2 19.8 26.7 9.8
Il est naturel de s’interroger sur la relation qui lié X et Y . On regroupe les valeurs des xi et des
yi dans le tableau suivant :
Y \X 3.5 15.2 17.6 27.2 Totaux
9.8 1 0 0 0 1
19.8 0 1 0 0 1
26.7 0 0 1 0 1
37.3 0 0 0 1 1
Totaux 1 1 1 1 4

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


74/98 2023/2024

Définitions: Effectifs Effectifs marginaux.


L’effectif de la variable double (xi ; yi ) est nij , c’est l’effectif des individus présentant
simultanément les modalités xi et yj .

L’effectif marginal de X : est la somme des effectifs contenus dans la ligne de xi est égale à
l’effectif des éléments dont la valeur du caractère X est xi . Elle est notée ni. .
q
X
ni. = ni1 + · · · + niq = nij .
j=1

L’effectif marginal de Y : est la somme des effectifs partiels contenus dans la colonne de yj
est égale à l’effectif des éléments dont la valeur du caractère Y est yj . Elle est notée n.j .
p
X
n.j = n1j + · · · + npj = nij .
i=1
On a:
p
X q
X p X
X q
N= ni. = n.j = nij .
i=1 j=1 i=1 j=1
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
75/98 2023/2024

Définitions: Fréquences et Fréquences marginaux.


La fréquence de la variable double (xi ; yj ) est fij , elle est définie par
p X
q
nij X
fij = et fij = 1
N i=1 j=1

Les fréquences marginales sont définies par:


ni.
fi. = fréquence marginale de xi .
n
n.j
f.j = fréquence marginale de yj .
n
On a
p
X q
X p X
X q
fi. = f.j = fij = 1.
i=1 j=1 i=1 j=1

Les couples (xi , ni. )1≤i≤p et (yj , n.j )1≤j≤q définissent les distributions statistiques marginales.
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
76/98 2023/2024

Les fréquences conditionnelles - Indépendance


La fréquence conditionnelle de xi sachant yj ( yj réalisé)

nij fij
fi/j = =
n·j f·j

Où nij est l’effectif correspondant à X = xi et n.j l’effectif partiel marginal de yj .


Ainsi
fij = fi. × fj/i = f.j × fi/j .
Définition
Deux variables statistiques X et Y sont dites statistiquement indépendantes si et seulement si,
pour chacune des deux variables, les distributions conditionnelles sont identiques à la
distribution marginale :
fi/j = fi. ou fj/i = f.j ∀(i, j)
Conséquence : Les caractères X et Y sont indépendants si et seulement si

∀(i, j) fij = fi· × f.j

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


77/98 2023/2024

Exemple

Sur le tableau suivant figure l’âge de la mère (X ) et le poids de l’enfant (Y ) pour un


échantillon de 40 naissances, présentés avec un groupement à deux dimensions .
2500 3000 3500 4000 4500 ni.
20 1 5 4 2 - 12
25 2 3 5 1 - 11
30 1 2 2 1 - 6
35 - 3 3 1 1 8
40 - 2 - 1 - 3
n.j 4 15 14 6 1 40
n13 = 4 signifie qu’il y a 4 enfants dont l’âge de la mère est 20 ans et dont le poids est 3500 g.
Il y a 6 mères dont l’âge est 30 ans. Il y a 14 enfants dont le poids est 3500 g.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


78/98 2023/2024

Analyse des variables

Les variables X et Y peuvent être analysées séparément. On peut calculer tous les paramètres
dont les moyennes et les variances :
p p
1 X 1 X 2
x̄ = ni. xi , V (X ) = ni. (xi − x̄ ) ,
N i=1 N i=1
q q
1 X 1 X 2
ȳ = n.j yi , V (Y ) = n.j (yi − ȳ ) .
N i=1 N i=1

Ces paramètres sont appelés paramètres marginaux: variances marginales, moyennes


marginales, écarts-types marginaux.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


79/98 2023/2024

Covariance

La covariance est définie


p q
1 XX
Cov (X , Y ) = nij (xi − x̄ ) (yj − ȳ ) .
N i=1 j=1

La covariance peut prendre des valeurs positives, négatives ou nulles.


Quand xi = yi , pour tout i = 1, . . . , n, la covariance est égale à la variance.
Dans le cas d’une série statistiques bivariées non regroupée, la covariance est donnée par
N
1 X
Cov (X , Y ) = (xi − x̄ ) (yi − ȳ ) .
N i=1

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


80/98 2023/2024

Corrélation

Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux:

Cov (X , Y )
ρ(X , Y ) =
σ(X )σ(Y )

Le coefficient de corrélation mesure la dépendance linéaire entre deux variables:

−1 ⩽ ρ(X , Y ) ⩽ 1

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


81/98 2023/2024

Interprétation

Si 0 < ρ < 1, la corrélation est positive ( X et Y varient dans le même sens), et les points
sont alignés le long d’une droite croissante. La valeur ρ = +1 indique une relation linéaire
parfaite Y = aX + b avec a > 0. C’est un cas extrême très peu rencontré en pratique.
Si −1 < ρ < 0, la corrélation est négative ( X et Y varient dans le sens contraire) et les
points sont alignés le long d’une droite décroissante. La valeur ρ = −1 indique une
relation linéaire parfaite Y = aX + b avec a < 0. C’est un cas extrème très peu rencontré
en pratique.
Si les caractères X et Y sont indépendants alors ρ = 0, tandis que la réciproque n’est pas
nécessairement vraie. Si ρ = 0, on dit qu’il y a corrélation nulle entre X et Y ; la liaison
entre X et Y peut être de forme outre que linéaire. On peut cependant avoir une
dépendance non-linéaire avec un coefficient de corrélation nul.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


82/98 2023/2024

Exemples

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


83/98 2023/2024

Test statistique

Un test consiste à vérifier une information hypothétique. On parle d’ailleurs de tests


d’hypothèses. En statistique mathématique, l’information hypothétique concerne la population
à laquelle on s’intéresse.

Il est généralement impossible de recenser toute la population. On prélève alors un échantillon


dont on déduit une statistique. Cette statistique est comparée à la valeur à laquelle on peut
s’attendre si l’hypothèse est vraie.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


84/98 2023/2024

Le cadre général d’un test statistique

Fixer les Hypothèses:


Ho : L’hypothèse nulle
H1 :L’hypothèse alternative
Choisir la statistique du test: c’est une valeur à calculer en utilisant les données de
l’échantillon. cette statistique va suivre une loi de probabilité selon le test.
Calculer le DDL et choisir α: le DDL est le degré de liberté et α est le seuil d’erreur( le
risque).
Déterminer la valeur théorique: elle est obtenue à partir de la table de la loi de
probabilité associée au test en prenant la valeur de l’intersection entre le risque et le
dégrée de liberté .
Comparaison: il faut comparer la valeur théorique avec la valeur calculée.
Calculer l’intensité.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


85/98 2023/2024

Le test de corrélation de Pearson

1 Pourquoi?
Y a-t-il une dépendance linéaire (Corrélation) entre les deux variables ?
2 Hypothèses
H0 : rho = 0
H1 : ρ ̸= 0
ρ>0
ρ<0
3 Valeur calculé: √
r n−2
tcal = √
1 − r2
cette statistique suit la loi de student
4 DDL=n-2
5 Valeur théorique: c’est l’intersection du DDL avec (1 − α) dans la table de student.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


86/98 2023/2024

6 Comparaison:

le cas : ρ > 0 le cas : ρ < 0 le cas : ρ ̸= 0


on accepte H1 si : on accepte H1 si : on accepte H1 si :
tcal > tth tcal < −tth / [−tth , tth ]
tcal ∈
7 Intensité: Le coefficient de Détermination R qu’on va voir dans a suite du cours.
2

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


87/98 2023/2024

Droite de régression

La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des
moindres carrés.
On considère la variable X de modalités x1 , x2 , ....xp et la variable Y de modalités
y1 , y2 , ..., yq .L’équation d’une droite est

y = ax + b

Soit Mi un point de cordonnées (xi , yi ). On appelle distance de Mi parallèlement à l’axe (oy) à


la droite (△) d’équation y = ax + b, le réel positif di = |yi − axi − b|
Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés qui
consiste à chercher la droite qui minimise la somme des carrés des écarts
X 2
X
δ(a, b) = (yi − axi − b) = di2
i i

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


88/98 2023/2024

Le problème admet une solution unique du système linéaire issue de l’annulation des dérivées
partielles premières de la fonction δ(a, b). II s’agit de résoudre
 n
∂δ X
 ∂a = −2 xi (yi − axi − b) = 0



i=1
n
∂δ X
= −2 (yi − axi − b) = 0



∂b

i=1

Ce système en a et b admet pour solution unique

cov(X , Y )
a= et b = ȳ − ax̄
V (X )

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


89/98 2023/2024

Théorème

Soit Mi (xi , yi )1≤i≤n un ensemble fini de points fixes du plan euclidien où xi sont les modalités
d’un caractère X et yi celles d’un autre caractère Y définis sur une même population Ω.
p q p
1 X 1 X 1 X 2
Soient x̄ = ni. xi , ȳ = n.j yj , V (X ) = ni. (xi − x̄ ) et
N i=1 N j=1 N i=1
p q
1 XX
cov(X , Y ) = nij (xi − x̄ ) (yi − ȳ ) .
N i=1 j=1

La droite d’équation y − ȳ = a(x − x̄ ) où a = cov(X


V (X )
,Y )
est la droite de régression de y en x et
est notée Dy /x .
La droite de régression Dy /x de y en x n’est pas la même que la droite de régression Dx /y de x
en y
Les droites Dy /x etDx /y passent par le point G(x̄ ; ȳ ), qui s’appelle point moyen de la
statistique.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


90/98 2023/2024

Les droites de régression Dy /x et Dx /y ayant pour équations : y = ax + b, x = a′ y + b ′ ont


les propriétés suivantes:
cov(x ,y )2
aa′ = v (x )v (y ) = (ρ(x , y ))2
Dy /x et Dx /y sont confondues si elles ont la même pente (car elles passent toutes les deux
par G(X̄ , Ȳ )).
dans ce cas a = 1
a′ c.à.d. aa′ = 1 donc ρ(x , y ) = ±l. les points Mij sont alors alignés.
La corrélation linéaire est d’autant bonne (ou forte)
 que le coefficient de corrélation ρ est
proche en valeur absolue de 1 ρ ≃ 1 ⇐⇒ a ≃ a1′ .
si ρ est proche de zéro, on dit qu’il y a corrélation linéaire très mauvaise entre X et Y. il
faudrait alors approcher le nuage des points Mij par une courbe.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


91/98 2023/2024

Le coefficient de détermination R 2

Une fois les coefficients de régression sont calculés, l’étape suivante consiste à vérifier si le
modèle statistique établi est capable de reconstruire les données initiales observées.
L’indicateur qui peut le faire est: Le coefficient de détermination R 2 .
Pour déterminer ce coefficient, on aura besoin des notions suivantes:

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


92/98 2023/2024

Résidus et valeurs ajustées

Les valeurs ajustées sont obtenues à l’aide de la droite de régression:

ybi = axi + b

Les valeurs ajustées sont les ‘prédictions’ des yi réalisées au moyen de la variable x et de la
droite de régression de y en x .
Remarque: La moyenne des valeurs ajustées est égale à la moyenne des valeurs
observées ȳ .
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable
dépendante.
ei = yi − ybi
Les résidus représentent la partie inexpliquée des yi par la droite de régression.
Remarque: La moyenne des résidus est nulle.

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


93/98 2023/2024

Sommes de carrés et variances


On appelle somme des carrés totale la quantité
N
X
SCT = (yi − ȳ )2
i=1

On appelle somme des carrés de la régression la quantité


N
X
SCRG = (b
yi − ȳ )2
i=1

On appelle somme des carrés des résidus (ou résiduelle) la quantité


N
X
SCRS = (yi − ybi )2
i=1

On a
SCT = SCRG + SCRS
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives
94/98 2023/2024

Donc le coefficient de détermination R 2 est donné par


SCRG SCT − SCRS SCRS
R2 = = =1−
SCT SCT SCT

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


94/98 2023/2024

Donc le coefficient de détermination R 2 est donné par


SCRG SCT − SCRS SCRS
R2 = = =1−
SCT SCT SCT
Dans le cas d’une régression simple, on a

R2 = r 2

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


95/98 2023/2024

Exemple

On mesure le poids et la taille de 20 individus, on obtient

yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


96/98 2023/2024

Exercice 1

1 Montrer que : |ρ(X , Y )| ≤ 1.


2 On considère deux séries statistiques (xi ) et (yi ) de taille n Soient αi et βi deux séries
statistiques liées aux séries statistiques (xi ) et (yi ) par les relations suivantes:
xi − c
∀iαi = avec d ̸= 0c, d ∈ R
d

yi − c
∀iβi = avec d ′ ̸= 0c ′ , d ′ ∈ R
d′
Montrer les propriétés suivantes :
|dd ′ |
i) cov(α, β) = 1
dd ′ cov(x , y ) et ii) ρ(α, β) = dd ′ ρ(x , y )

Exercice 1 de la série 2 : 60

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


97/98 2023/2024

Exercice 2

Le tableau suivant représente des âges de patients X et les tensions artérielles Y d’un
échantillon de 9 malades extrait d’une population gaussiennes.
L’âge X 56 42 72 36 63 47 55 49 38
T.A Y 147 125 160 118 149 128 150 145 115

1 Représenter le nuage de points M (xi ; yi ) dans le repère orthogonal ci-dessous.


2 Calculer la moyenne et l’écart-type de chacun des deux caractère X et Y .
3 Placer le point G(X̄ , Ȳ ) dans le repère précédent.
4 Calculer la covariance et le coefficient de corrélation du couple (X , Y ). Que peut-on
conclure?
5 Y a-t-il une dépendance entre les deux variables sur cette population?
6 Trouver la droite de régression de X en Y .
7 Lorsque l’âge est 75 ans, quelle Tension artérielle Y peut-on prévoir?

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives


98/98 2023/2024

Exercice 3

sur un échantillon de 100 étudiants extrait d’une population gaussienne P, on relevé la taille X
en centimètre, ainsi que le poids Y en kilogrammes comme l’indique le tableau suivant
X \Y [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
[150, 160[ 10 3 1 0 0
[160, 170[ 2 12 6 7 2
[170, 180[ 1 7 11 17 4
[180, 190[ 0 2 2 4 9

1 Calculer la moyenne et l’écart-type de chacun des deux caractères X et Y


2 Calculer la covariance et le coefficient de corrélation du couple (X , Y ). Que peut-on
conclure?
3 Trouver la droite de régression de Y en X .

Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives

Vous aimerez peut-être aussi