Cours S

Statistiques et analyse des données
Mme.Manal NAIMI
Filières: Génie informatique

informatique et gestion
L’École des Hautes Études d’Ingénierie Oujda
2023/2024
2/98 2023/2024
Plan
1 Introduction
2 L’analyse univariée
Terminologie
Statistiques descriptives univariées
Paramètres de position (caractéristique de tendance centrale)
Paramètres de dispersion
Exercices
3 L’analyse bivariée
Deux variables quantitatives
Mme.Manal NAIMI Introduction

3/98 2023/2024
Introduction
L’analyse des données est une discipline essentielle qui nous permet de transformer des
informations brutes en connaissances significatives. Elle constitue le socle sur lequel repose la
prise de décision dans un monde de plus en plus axé sur les données. Au cœur de cette
discipline, nous trouvons les statistiques comme un piler fondamental de l’ADD.
Les statistiques sont une composante essentielle de la prise de décision, de la gestion de
données et de l’optimisation des systèmes informatiques. Ils fournissent des outils et des
méthodes pour analyser, interpréter et utiliser efficacement les données, ce qui est fondamental
dans les domaines du génie informatique, de la gestion et de l’informatique. Dans ce cours,
nous explorerons deux branches distinctes de la statistique :
1 les statistiques descriptives.
2 les statistiques inférentielles.

4/98 2023/2024
Les statistiques descriptives constituent la première étape de l’analyse des données. Elles
nous offrent les outils nécessaires pour explorer, résumer et présenter les caractéristiques
principales d’un ensemble de données. Grâce à elles, nous pouvons comprendre la structure et
les tendances de nos données, en utilisant des mesures de tendance centrale telles que la
moyenne, la médiane et le mode, ainsi que des indicateurs de dispersion tels que l’écart-type et
l’étendue. Les visualisations graphiques, telles que les histogrammes et les diagrammes en boîte,
enrichissent notre compréhension en nous permettant de voir les données d’un coup d’œil.

5/98 2023/2024
les statistiques inférentielles nous permet de faire des déductions et des prédictions à
partir d’un échantillon de données pour généraliser ces conclusions à une population plus large.
Nous utiliserons des techniques telles que les tests d’hypothèses et les intervalles de confiance
pour prendre des décisions éclairées et résoudre des problèmes du monde réel. Les statistiques
inférentielles sont cruciales pour tirer des conclusions significatives à partir de données limitées
et pour éclairer les choix stratégiques.

6/98 2023/2024
Plan
1 Introduction
Terminologie
Exercices
Mme.Manal NAIMI L’analyse univariée

7/98 2023/2024
Terminologie
La statistique utilise un certain nombre de termes et de concepts spécifiques pour décrire et
analyser les données.
Mme.Manal NAIMI L’analyse univariée Terminologie

8/98 2023/2024
Population : L’ensemble complet des individus, des objets ou des événements que l’on étudie
dans une analyse statistique. On la note Ω.
Exemple: Les étudiants de EHEI.
Individus: ou « Unités statistiques », est l’élément de la population.

Exemple: un Étudiant de EHEI.
Échantillon : Un sous-ensemble de la population qui est sélectionné pour être étudié. Le

nombre d’individus dans l’échantillon est la taille de l’échantillon. On le note E .
Exemple: Les étudiants de la 3ème année génie informatique.
Variable : Une caractéristique ou une propriété qui peut varier d’un individu, d’un objet ou
d’un événement à un autre. Elle porte aussi le nom de caractère.
Exemple: Notes des étudiants.

9/98 2023/2024
Variable
La variable étudiée peut apparaître à des niveaux différents, selon les unités statistiques
étudiées. On la note X . Chacun de ces niveaux est appelé : « Modalité » du variable. Il existe
deux types de variables : Variables qualitatives et variables quantitatives.

10/98 2023/2024
Variables qualitatives
La variable est qualitative lorsque ses modalités ne sont pas mesurables, c’est-à-dire elle ne
se prête pas à des valeurs numériques.
Exemple: Couleur(noir, bleu, rouge...)
On peut distinguer deux types de variables qualitatives:
√
Variable qualitative nominale: La variable est dite qualitative nominale quand
les modalités ne peuvent pas être ordonnées.
Exemple: Langue( arabe, français, anglais...).
√
Variable qualitative ordinale: La variable est dite qualitative ordinale quand
les modalités peuvent être ordonnées.
Exemple: Mention( Très bien, bien, assez bien...)

11/98 2023/2024
Variables quantitatives
La variable est dit quantitatif lorsque ses modalités sont mesurables, c’est-à-dire ses
modalités prennent des valeurs numériques.
Exemple: Les notes des étudiants. On peut distinguer deux types de variables quantitatives:
√
Variable quantitative discrète: La variable est dite quantitative discrète, si
l’ensemble des valeurs possibles est dénombrable.
Exemple: Le nombre d’enseignants de EHEI.
√
Variable quantitative continue: Une variable est dite quantitative continue, si
l’ensemble des valeurs possibles est continu.
Exemple: Poids des cartables des élèves.

12/98 2023/2024

13/98 2023/2024
Exemples
Exemple 1: Variable Qualitative (Nominale)
Ω = Population Voitures du parking

i = Individu Voiture
X = Caractère Couleur de voiture
xi = Modalités Bleu, Vert, Noire, , ..
Exemple 2: Variable Qualitative ( Ordinale)
Ω = Population Amphi
i = Individu Étudiant
X = Caractère Mention
xi = Modalités Très bien, Bien, Assez bien, , ..

14/98 2023/2024
Exemples
Exemple 3: Variable Quantitative (Discrète)
Ω = Population Région
i = Individu Famille
X = Caractère Nombre d’enfant
xi = Modalités 0,1, 2,, ..
Exemple 4: Variable Quantitative ( Continue)
Ω = Population Amphi
i = Individu Étudiant
X = Caractère Note
xi = Modalités [0,20]

15/98 2023/2024
Série statistique
Une série statistique, également appelée distribution statistique, est une collection de données
ou d’observations qui représente des valeurs d’une ou de plusieurs variables. Notons que n est le
nombre des unités de statistiques ou des individus, alors les valeurs de la variable X sont notées
x1 , ..., xi , ..., xn .
Exemple: On s’intéresse à la variable "Nombre de livres lus" notée X et à la série statistique

des valeurs prises par X sur 20 étudiants. Considérons la série statistique
6 4 1 10 12 10 1 5 6 6
7 1 2 5 7 12 5 7 3 18
Ici, n = 20,
x1 = 6, x2 = 4, x3 = 1, x4 = 10, x5 = 12, . . . , x20 = 18.

16/98 2023/2024
L’effectif : est le nombre de fois qu’une donnée est représentée dans la distribution.
L’effectif total :est le nombre total de données dans une distribution.
La fréquence relative : est le pourcentage correspondant à l’effectif d’une donnée par rapport
à l’effectif total.
Si la variable est quantitative ou qualitative ordinale on a:
L’effectif cumulé : est la somme de l’effectif d’une donnée et des effectifs des données qui la
précèdent.
La fréquence relative cumulée : est le pourcentage correspondant à l’effectif cumulé d’une

donnée par rapport à l’effectif total.

17/98 2023/2024
Exemple
Dans une région, on a enquêté sur le nombre d’enfants par famille. La variable X représente le
nombre d’enfants par famille. Voici les données recueillies pour 40 familles :
√
√ 10 familles n’ont aucun enfant.
√ 15 familles ont un enfant.
√ 8 familles ont deux enfants.
√ 5 familles ont trois enfants.
2 familles ont quatre enfants.
Comme la variable est quantitative, on peut calculer les effectifs ni , les effectifs cumulés Ni , les
fréquences fi , les fréquences cumulées Fi . Donc on a le tableau statistique:

17/98 2023/2024
Exemple
Dans une région, on a enquêté sur le nombre d’enfants par famille. La variable X représente le
nombre d’enfants par famille. Voici les données recueillies pour 40 familles :
√
√ 10 familles n’ont aucun enfant.
√ 15 familles ont un enfant.
√ 8 familles ont deux enfants.
√ 5 familles ont trois enfants.
2 familles ont quatre enfants.
Comme la variable est quantitative, on peut calculer les effectifs ni , les effectifs cumulés Ni , les
fréquences fi , les fréquences cumulées Fi . Donc on a le tableau statistique:
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
18/98 2023/2024
Le cas d’une variable continue
Dans le cas où la variable X est continue, la réalisation d’un tableau statistique nécessite au
préalable une répartition en classes des données. On doit définir a priori le nombre de classes K
et l’amplitude (ou l’étendue) de chaque classe. Ce choix doit résulte d’un compromis entre
deux objectifs antagonistes: résumer les données (K ne doit pas être trop grand ) sans perdre
l’information pertinente (K ne doit pas être trop petit). On peut utiliser la méthode suivante:
Soit X un caractère continue et n le nombre d’observation dans notre population.

On considère k le nombre de classes du variable continue. Ce nombre est déterminé par la
formule Sturges suivante:
k = 1 + 3.22 log(n)
Dans la pratique on prend un entier très proche de k.

19/98 2023/2024
Ainsi on a:
E = xmax − xmin : est l’étendue de la série statistique.
e= E
k : est l’étendu de la classe
où xmax et xmin étant la valeur maximale et la valeur minimale prises par X. Alors:
e0 = xmin e1 = xmin + e ek = xmin + ke
Donc:
[e0 , e1 [ [e1 , e2 [ [ek−1 , ek [
| {z } | {z } | {z }
1ére classe 2éme classe k éme classe

20/98 2023/2024
Le tableau statistique relatif à la variable continue peut être représenté comme suit:
N◦ de classe Classes ni fi
1 [e0 , e1 [ n1 f1
2 [e1 , e2 [ n2 f2
· · · ·
i [ei−1 , ei [ ni fi
· · · ·
k [ek−1 , ek [ nk fk
Total - N 1

21/98 2023/2024
Exemple
Considérons les données suivantes qui désignent les tailles de 20 étudiants:

1, 73 1, 82 1, 9 1, 75 1, 68 1, 64 1, 88 1, 86 1, 89 1, 59 1, 5 1, 67
1, 83 1, 76 1, 72 1, 65 1, 79 1, 89 1, 81 1, 9
Le tableau statistique relatif à cette série statistique est:

21/98 2023/2024
Exemple
Considérons les données suivantes qui désignent les tailles de 20 étudiants:

1, 73 1, 82 1, 9 1, 75 1, 68 1, 64 1, 88 1, 86 1, 89 1, 59 1, 5 1, 67
1, 83 1, 76 1, 72 1, 65 1, 79 1, 89 1, 81 1, 9
Le tableau statistique relatif à cette série statistique est:
N0 de classe Classes ni fi
1 [1.5, 1.58[ 1 0.05
2 [1.58, 1.66[ 3 0.15
3 [1.66, 1.74[ 4 0.2
4 [1.74, 1.82[ 4 0.2
5 [1.82, 1.90] 8 0.4
Total - 20 1

22/98 2023/2024
DIAGRAMMES: Pour une variable statistique qualitative
On utilise des diagrammes à secteurs circulaires, des diagrammes en tuyaux d’orgue, des
diagrammes en bandes. Le principe est de représenter des aires proportionnelles aux
fréquences de la variable statistique.

23/98 2023/2024
diagrammes à secteurs circulaires
Les étapes sont:
1 Calculez les fréquences.

2 Calculez les angles: Pour chaque catégorie, calculez l’angle dont vous avez besoin pour
représenter sa fréquence relative par rapport à la fréquence totale. Vous pouvez utiliser la
formule suivante :fréquence × 360.
3 Dessinez le cercle.
4 Dessinez les secteurs: À partir du centre du cercle, dessinez des secteurs (comme des
parts de gâteau) pour chaque catégorie. L’angle de chaque secteur est calculé en fonction
de sa fréquence relative.
5 Étiquetez les secteurs: Étiquetez chaque secteur avec le nom de la modalité
correspondante .

24/98 2023/2024
Exemple
En considérant le tableau statistique ci-dessous, on obtient le diagramme au secteurs circulaires

suivant:
X ni fi
noir 5
vert 6
bleu 7
rouge 9
jaune 11
marron 12
totale 50

25/98 2023/2024
Exemple
En considérant le tableau statistique ci-dessous, on obtient le diagramme au secteurs circulaires

suivant:
X ni fi
noir 5 0.1
vert 6 0.12
bleu 7 0.14
rouge 9 0.18
jaune 11 0.22
marron 12 0.24
totale 50 1

26/98 2023/2024
Diagramme en Tuyaux d’Orgue (Histogramme Vertical)
Les étapes sont:

1 Calculez les fréquences .
2 Choisissez l’échelle : Sur l’axe vertical, choisissez une échelle appropriée pour représenter
les fréquences.
3 Dessinez les rectangles : Pour chaque modalité, dessinez un rectangle dont la hauteur
est proportionnelle à la fréquence de cette modalité.
4 Placez les rectangles : Placez les rectangles côte à côte de manière à former un
diagramme en tuyaux d’orgue.
5 Étiquetez les catégories : Étiquetez l’axe horizontal (l’axe des x) avec le nom des
catégories.

27/98 2023/2024
Exemple

28/98 2023/2024
Diagramme en Bandes (Histogramme Horizontal)

Ce diagramme suit les mêmes étapes que le diagramme en tuyaux d’orgue, à la différence que
les rectangles sont placés les uns en dessous des autres pour former un diagramme en bandes.

29/98 2023/2024
DIAGRAMMES: Pour une variable quantitative discrète
On utilise un diagramme différentiel en bâtons, complété du diagramme des fréquences

cumulées appelé diagramme cumulatif. Le diagramme cumulatif est la représentation graphique
d’une fonction F, appelée fonction de répartition de la variable statistique.

30/98 2023/2024
Diagramme différentiel en bâtons
On reprenons l’exemple précédent, calculer compléter le tableau statistique et tracer le

diagramme différentiel en bâtons et le diagramme cumulé:
xi ni Ni fi Fi
0 10
1 15
2 8
3 5
4 2

31/98 2023/2024
On a
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1

32/98 2023/2024
Diagramme cumulé
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1

33/98 2023/2024
DIAGRAMMES:Pour une variable quantitative continue

Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés
dont chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle que
l’aire de chaque rectangle soit proportionnelle aux effectifs(histogramme des effectifs) ou aux
fréquences de la classe correspondante (histogramme des fréquences).

33/98 2023/2024
DIAGRAMMES:Pour une variable quantitative continue

Le diagramme représentant la série est un histogramme : ce sont des rectangles juxtaposés
dont chacune des bases est égale à l’intervalle de chaque classe et dont la hauteur est telle que
l’aire de chaque rectangle soit proportionnelle aux effectifs(histogramme des effectifs) ou aux
fréquences de la classe correspondante (histogramme des fréquences).
Figure 1: Histogramme des effectifs Figure 2: Histogramme des fréquences

34/98 2023/2024
Polygone des fréquences ou des effectifs
On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des bases
supérieures des rectangles.

34/98 2023/2024
Polygone des fréquences ou des effectifs
On obtient le polygone des effectifs (ou des fréquences) en reliant les milieux des bases
supérieures des rectangles.
Figure 3: polygone des effectifs Figure 4: polygones des fréquences

35/98 2023/2024
La courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant
les points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.

35/98 2023/2024
La courbe cumulative
La courbe cumulative ( ou polygone des fréquences cumulées ) est obtenue en portant
les points dont les abscisses représentent la borne supérieure de chaque classe et les ordonnées
les fréquences cumulées correspondantes, puis en reliant ces points par des segments de droite.

36/98 2023/2024
Paramètres de position
(caractéristique de tendance centrale)
Mme.Manal NAIMI L’analyse univariée Statistiques descriptives univariées

37/98 2023/2024
Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé. il est noté Mo .
Exemple: Pour le tableau statistique suivant:
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1

37/98 2023/2024
Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé. il est noté Mo .
Exemple: Pour le tableau statistique suivant:
xi ni Ni fi Fi
0 10 10 0.25 0.25
1 15 25 0.375 0.625
2 8 33 0.2 0.825
3 5 38 0.125 0.95
4 2 40 0.05 1
Le mode Mo est: 1.

38/98 2023/2024
Cas particulier: le cas d’une variable continue
Pour calculer le mode, nous définissions la classe modale comme étant la classe des valeurs de
X qui a le plus grand effectif partiel (ou la plus grande fréquence partielle).
Si les amplitudes sont égales:

La quantité
∆1
M 0 = Li + × ai
∆1 + ∆ 2
s’appelle le mode avec
Li : La borne inférieure de la classe modale.
ai : L’amplitude ou le pas de la classe.
∆1 =n0 − n1 ∆2 =n0 − n2 où
n0 : l’effectif associé à la classe modale.
n1 : l’effectif de la classe qui précède la classe modale.
n2 : l’effectif de la classe qui suit la classe modale.

39/98 2023/2024
Exemple
Considérons le tableau statistique suivant:

Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1

39/98 2023/2024
Exemple

Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1
La classe modale est: [1.82, 1.90]

le mode est: 1.85.

40/98 2023/2024
Si les amplitudes sont inégales:

La quantité
∆cor
M0 = Li + 1
× ai
∆cor
1 + ∆cor
2
s’appelle le mode avec
Li : La borne inférieure de la classe modale.
ai : L’amplitude ou le pas de la classe modale.
1 =n0 − n1
∆cor 2 =n0 − n2 où
cor cor
∆cor cor cor
n0cor : l’effectif corrigé associé à la classe modale.

n1cor : l’effectif corrigé de la classe qui précède la classe modale.
n2cor : l’effectif corrigé de la classe qui suit la classe modale.
Pour calculer l’effectif corrigé, on aura besoin d’identifier l’amplitude de base qui est
généralement la plus petite amplitude. Donc l’effectif corrigé est égale à: l’effectif devisé par
l’amplitude correspondante a cet effectif et multiplié par l’amplitude de base.
abase
nicor = ni ×
ai

41/98 2023/2024
Exemple

Classes ni fi ai abase
ai nicor
[0, 10[ 5 0.17
[10, 15[ 8 0.27
[15, 25[ 6 0.2
[25, 30[ 4 0.13
[30, 40] 7 0.23
Totale 30 1 - - -

42/98 2023/2024
Exemple

Classes ni fi ai abase
ai nicor
[0, 10[ 5 0.17 10 0.5 2.5
[10, 15[ 8 0.27 5 1 8
[15, 25[ 6 0.2 10 0.5 3
[25, 30[ 4 0.13 5 1 4
[30, 40] 7 0.23 10 0.5 3.5
Totale 30 1 - - -
La classe modale est: [10, 15[

le mode est: 12.62

43/98 2023/2024
La moyenne arithmétique
La moyenne ne peut être définie que sur une variable quantitative.
Série simple:
La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x :
n
x1 + x2 + ... + xn X xi
x= =
N i=1
N
Exemple: Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La

moyenne est

43/98 2023/2024
La moyenne arithmétique
La moyenne ne peut être définie que sur une variable quantitative.
Série simple:
La moyenne est la somme des valeurs observées divisée par leur nombre, elle est notée x :
n
x1 + x2 + ... + xn X xi
x= =
N i=1
N
Exemple: Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La

moyenne est
0+0+1+1+1+2+3+4 12
x= = = 1.5
8 8

44/98 2023/2024
Série pondérée:
La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
X nj xj
x=
j
N
Exemple:
xi ni
0 2
1 3
2 1
3 1
4 1
La moyenne est

44/98 2023/2024
Série pondérée:
La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
X nj xj
x=
j
N
Exemple:
xi ni
0 2
1 3
2 1
3 1
4 1
La moyenne est
2×0+3×1+1×2+1×3+1×4 12
x= = = 1.5
8 8
45/98 2023/2024
Lorsque la variable est continue, la moyenne est:

X ni ci
x=
i
N
où ci = xi−12+xi sont les centres des classes.

Exemple:
Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1
La moyenne est

45/98 2023/2024
Lorsque la variable est continue, la moyenne est:

X ni ci
x=
i
N
où ci = xi−12+xi sont les centres des classes.

Exemple:
Classes ni fi
[1.5, 1.58[ 1 0.05
[1.58, 1.66[ 3 0.15
[1.66, 1.74[ 4 0.2
[1.74, 1.82[ 4 0.2
[1.82, 1.90] 8 0.4
Totale 20 1
La moyenne est
1 × 1.54 + 3 × 1.62 + 4 × 1.7 + 4 × 1.78 + 8 × 1.86 35.2
x= = = 1.76
20 20
46/98 2023/2024
La moyenne géométrique
La moyenne géométrique est utilisée dans le calcul du taux d’accroissement moyen et de

certains indices statistiques.
Série simple:
on appelle moyenne géométrique la quantité

√
G = N x1 × x2 × ... × xN
Exemple: Soit la série simple {7.5; 8.2; 9.6; 9}. La moyenne géométrique de cette série est :

46/98 2023/2024
La moyenne géométrique
La moyenne géométrique est utilisée dans le calcul du taux d’accroissement moyen et de

certains indices statistiques.
Série simple:
on appelle moyenne géométrique la quantité

√
G = N x1 × x2 × ... × xN
Exemple: Soit la série simple {7.5; 8.2; 9.6; 9}. La moyenne géométrique de cette série est :
√
G = 4 7.5 × 8.2 × 9.6 × 9 = 8.53782

47/98 2023/2024
Exemple
Supposons que les taux d’intérêt pour 4 années consécutives soient respectivement de 5, 10,
15, et 10%. Que va-t-on obtenir après 4 ans si je place 100 francs?

47/98 2023/2024
Exemple
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
- Si on calcule la moyenne arithmétique des taux on obtient

47/98 2023/2024
Exemple
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
1.05 + 1.1 + 1.15 + 1.1
x= = 1.1
4
- Si on calcule la moyenne géométrique des taux, on obtient

47/98 2023/2024
Exemple
Après 1 an on a, 100 × 1.05 = 105 Fr
Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr
Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr
Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr .
1.05 + 1.1 + 1.15 + 1.1
x= = 1.1
4
- Si on calcule la moyenne géométrique des taux, on obtient
√
G = 4 1.05 × 1.1 × 1.15 × 1.1 = 1.099431377.
Le bon taux moyen est bien G et non x , car si on applique 4 fois le taux moyen aux 100 francs,
on obtient
100 × G 4 = 146.1075 Fr . et 100 × x 4 = 146.41 Fr
48/98 2023/2024
Série pondérée:
La moyenne géométrique d’une série pondérée est :

q
G = N x1n1 × x2n2 × ...
dans la pratique, on commence par le calcule de log G = N1 ni log xi , et par la suite

P
i
G = 10log G
Exemple:
X ni log xi ni log xi
0 2
1 4
2 5
3 9
4 1

49/98 2023/2024
Série pondérée:
La moyenne géométrique d’une série pondérée est :

q
G = N x1n1 × x2n2 × ...
dans la pratique, on commence par le calcule de log G = N1 ni log xi , et par la suite

P
i
G = 10log G
Exemple:
X ni log xi ni log xi
1 4 0 0
2 5 0.301 1.505
3 9 0.477 4.293
4 1 0.602 0.602
− 19 − 6.4
Donc log G = 6.4
19 = 0.337 et par la suite G = 100.337 = 2.17

50/98 2023/2024
La moyenne harmonique
La moyenne harmonique est utilisée dans le calcul des études du pouvoir d’achat, des durées
moyennes, des moyennes de rapports et de pourcentages.
Série simple:
on appelle moyenne harmonique la quantité

N
H = PN 1
i=1 xi
Exemple: Soit la série statistique {2, 3, 5, 7}, la moyenne harmonique de cette série est

50/98 2023/2024
La moyenne harmonique
La moyenne harmonique est utilisée dans le calcul des études du pouvoir d’achat, des durées
moyennes, des moyennes de rapports et de pourcentages.
Série simple:
on appelle moyenne harmonique la quantité

N
H = PN 1
i=1 xi
Exemple: Soit la série statistique {2, 3, 5, 7}, la moyenne harmonique de cette série est
4
H= = 3.401
1
2 + 1
3 + 1
5 + 1
7

51/98 2023/2024
Exemple
Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de
10km/h, 30km/h, 40km/h, 20km/h. Quelle a été sa vitesse moyenne?

51/98 2023/2024
Exemple
Un raisonnement simple nous dit qu’il a parcouru la première étape en 10h, la deuxième en
3h20, la troisième en 2h30 et la quatrième en 5h. Il a donc parcouru le total des 400 km en
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
sa vitesse moyenne est donc

51/98 2023/2024
Exemple
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
400
Vmoy = = 19.2km/h.
20.8333
- Si on calcule la moyenne arithmétique des vitesses, on obtient

51/98 2023/2024
Exemple
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
400
Vmoy = = 19.2km/h.
20.8333
10 + 30 + 40 + 20
x= = 25km/h.
4
- Si on calcule la moyenne harmonique des vitesses, on obtient

51/98 2023/2024
Exemple
10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,
400
Vmoy = = 19.2km/h.
20.8333
10 + 30 + 40 + 20
x= = 25km/h.
4
- Si on calcule la moyenne harmonique des vitesses, on obtient
4
H= = 19.2km/h.
1
10 + 1
30 + 1
40 + 1
20

52/98 2023/2024
Série pondérée:
La moyenne harmonique d’une série pondérée est :

N
H=X
1
ni
i
xi
Exemple:
1 1
X ni ni
xi xi
2 6
3 4
4 8
6 2
− 20 −

53/98 2023/2024
Série pondérée:
La moyenne harmonique d’une série pondérée est :

N
H=X
1
ni
i
x i
Exemple:
1 1
X ni ni
xi xi
2 6 0.5 3
3 4 0.33 1.32
4 8 0.25 2
6 2 0.17 0.34
− 20 − 6.66
20
Donc H = = 3.003
6.66
54/98 2023/2024
La médiane
La médiane, Me , est la valeur du caractère pour laquelle la fréquence cumulée est égale à 0,5
ou 50%. Elle correspond donc au centre de la série statistique classée par ordre croissant, ou à
la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont inférieures.
La médiane peut être calculée sur des variables quantitatives et sur des variables qualitatives
ordinales.

55/98 2023/2024
Dans le cas d’une variable discrète,on trie la série statistique par ordre croissant des valeurs
observées.
si N est impair, alors N = 2m + 1 et la médiane est la valeur du milieu
Me = xm+1
. Exemple: Soit la série {22,13,35,2,10}. La médiane est

55/98 2023/2024
observées.
Me = xm+1
. Exemple: Soit la série {22,13,35,2,10}. La médiane est Me = 13

55/98 2023/2024
observées.
Me = xm+1

si N est pair, alors N = 2m et une médiane est une valeur quelconque entre xm et xm+1 .
Dans ce cas
xm + xm+1
Me =
2
Exemple: Soit la série {22,13,35,10}. La médiane est:

55/98 2023/2024
observées.
Me = xm+1

si N est pair, alors N = 2m et une médiane est une valeur quelconque entre xm et xm+1 .
Dans ce cas
xm + xm+1
Me =
2
Exemple: Soit la série {22,13,35,10}. La médiane est: Me = 17.5

56/98 2023/2024
Dans le cas d’une variable continue, on commence par le calcul des effectifs cumulés. en
calculant N2 on va déterminer Nm , Nm+1 , xm etxm+1 tels que
N
Nm ⩽ ⩽ Nm+1 et xm ⩽ Me ⩽ xm+1
2
avec Nm effectif cumulé de la classe [xm−1 , xm [
Donc la médiane est calculée de la façon suivante:
N
M e − xm − Nm
= 2
xm+1 − xm Nm+1 − Nm
Exemple:
X ni Ni
[1500; 2000[ 26 26
[2000; 2500[ 12 38
[2500; 3000[ 11 49
[3000; 3500[ 6 55
[3500; 4000] 5 60

56/98 2023/2024
Dans le cas d’une variable continue, on commence par le calcul des effectifs cumulés. en
calculant N2 on va déterminer Nm , Nm+1 , xm etxm+1 tels que
N
Nm ⩽ ⩽ Nm+1 et xm ⩽ Me ⩽ xm+1
2
avec Nm effectif cumulé de la classe [xm−1 , xm [
Donc la médiane est calculée de la façon suivante:
N
M e − xm − Nm
= 2
xm+1 − xm Nm+1 − Nm
Exemple:
X ni Ni
[1500; 2000[ 26 26
[2000; 2500[ 12 38
[2500; 3000[ 11 49
[3000; 3500[ 6 55
[3500; 4000] 5 60
On obtient que la médiane vaut: Me = 2166.67
57/98 2023/2024
Les paramètres de position sont insuffisants pour caractériser complètement une série. Par
exemple, deux séries différentes ayant la même moyenne, ne se repartissent pas nécessairement
de la même manière autour de cette moyenne. Elles sont plus ou moins étalées, ce qui sera
décrit par les caractéristiques de dispersion.

58/98 2023/2024
L’étendue et l’écart moyen arithmétique

L’étendue
L’étendue est simplement la différence entre la plus grande et la plus petite valeur observée.
E = xmax − xmin
L’écart moyen arithmétique
L’écart moyen arithmétique est la moyenne arithmétique des écarts par rapport à la moyenne
arithmétique x̄ des valeurs du caractère
p
1 X
E (X ) = ni |xi − x̄ |
N
i=1
Lorsque la variable est continue l’écart moyen arithmétique est :

p
1 X
E (X ) = ni ci − X̄
N
i=1
xi−1 +xi
où les ci = 2
sont les centres des classes.
59/98 2023/2024
La variance et l’écart-type
La variance:
La variance d’une série de valeurs du caractère est la moyenne arithmétique des carrés des
écarts de ces valeurs par rapport à leur moyenne arithmétique.
p
1 X 2
V (X ) = ni (xi − x̄ )
N i=1
Pp 2
Lorsque la variable est continue la variance est : V (X ) = 1
N i=1 ni (ci − x̄ ) où les
ci = xi−12+xi sont les centres des classes.
L’ écart-type:
L’ écart-type (ou écart quadratique moyen) est la racine carrée de la variance

√
σ= V
60/98 2023/2024
Exercices
Exercice 1:
1 Montrer que la variance d’une série statistique (xi )i i = 1, ..., N est égale à
V = x¯2 − x̄ 2
où x̄ est la moyenne arithmétique de la série.

2 Soient (xi ) et (yi )i deux séries statistiques liées par la relation suivante:
xi − a
∀i yi =
b
avec b ̸= 0 a, b ∈ R. Montrer les propriétés suivantes:
x̄ − a V (x ) σ(x )
a)- ȳ = b)- V (y ) = c)- σ(y ) =
b b2 |b|
Exercice 1 de la série 1 : 96
Mme.Manal NAIMI L’analyse univariée Exercices
61/98 2023/2024
Exercice 2:
Les pesées de 12 nouveaux-nés dans une maternité ont permis d’établir la série statistique
suivantes:
2.25 − 3.36 − 2.75 − 1.5 − 3.74 − 3.42 − 3.15 − 2 − 4.5 − 2.5 − 3.75 − 3
1 Ranger ces résultats en classes et établir le tableau statistique.

2 Représenter graphiquement cette variable.
3 Déterminer le mode et la médiane graphiquement et par calcul.
4 Calculer la moyenne, la variance et l’écart type.

62/98 2023/2024
Exercice 3:
Dans une petite localité, on a relevé le nombre de pièces par appartement :
Nombre de
1 2 3 4 5 6 7
pièces
Nombre
48 72 96 64 39 25 3
d’appartements
1 Calculer les effectifs cumulés, les fréquences et les fréquences cumulées.

2 Donner le nombre d’appartements qui ont 4 pièces.
3 Tracer le diagramme en bâtons des effectifs.
4 Déterminer le mode
5 Tracer la courbe cumulative des fréquences cumulées. En déduire la médiane.
6 A partir de la courbe cumulative, donner le nombre d’appartements qui ont au plus 3
pièces et le nombre d’appartements qui ont au moins 3 pièces.
7 Calculer la moyenne, la variance et l’écart type.
63/98 2023/2024
Exercice 4:
Lors d’un examen écrit, un correcteur a obtenu les notes suivantes (sur 10) sur 35 copies
corrigées :
8, 4, 5, 3, 3, 2, 1, 1, 1, 1, 2, 1, 6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 7, 0, 0, 7, 5, 0, 7.
1 Dresser le tableau des effectifs.

2 1 Quel est le pourcentage des élèves qui ont la meilleure note ?
2 Quel est le pourcentage des élèves qui ont au plus 4 points sur 10 ?

64/98 2023/2024
Exercice 5:
L’étude du taux de cholestérol sur un échantillon de 100 personnes a donné les résultats suivants :
Taux de Cholestérol (gr/1) effectifs
[1.0; 1.4[ 6
[1.4; 1.6[ 13
[1.6; 1.8[ 16
[1.8; 2.0[ 22
[2.0; 2.2[ 18
[2.2; 2.4[ 10
[2.4; 2.6[ 6
[2.6; 2.8[ 4
[2.8; 3.0[ 3
[3.0; 3.4[ 2
1 Tracer l’histogramme.
2 Tracer la courbe de fréquences cumulées.
3 Déterminer le mode et la moyenne arithmétique de cette distribution.
4 Déterminer la médiane graphiquement et pat le calcul.
5 Calculer la variance et l’écart type.
65/98 2023/2024
Exercice 6:
On considère l’histogramme des effectifs suivants:
1 Établir le tableau statistique.

2 Calculer la valeur moyenne. Quel est le mode? quelle est la médiane?
3 Tracer le polygône des fréquences et le polygône des effectifs cumulés.
4 Retrouver la valeur de la médiane.
66/98 2023/2024
Plan
1 Introduction
Terminologie
Exercices
Mme.Manal NAIMI L’analyse bivariée

67/98 2023/2024
La statistique descriptive bivariée est une branche essentielle de l’analyse statistique qui se
concentre sur l’étude simultanée de deux variables. Contrairement à la statistique descriptive
univariée, qui se penche sur une seule variable à la fois, la statistique descriptive bivariée
examine comment deux variables sont liées et comment elles interagissent.

68/98 2023/2024
Série statistique bivariée
On se donne une population de taille n et sur chaque élément de cette population on effectue
deux observations portant sur deux caractères différents X et Y . Pour chaque élément de la
population, on peut associer un couple de valeurs (xi ; yi ) où xi est la valeur du caractère X etyi
est la valeur du caractère Y . .La série statistique est alors une suite de n couples des valeurs
prises par les deux variables sur chaque individu.
Chacune des deux variables peut être, soit quantitative, soit qualitative.

69/98 2023/2024
Mme.Manal NAIMI L’analyse bivariée Deux variables quantitatives

70/98 2023/2024
Représentation graphique de deux variables

Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de
nombres(entiers ou réels) peut toujours être représenté comme un point dans un plan
(x1 ; y1 ), (x2 ; y2 ), (x3 ; y3 ), ... (xn ; yn ),
Exemple: On mesure le poids X et la taille Y de 10 individus.
n° d’individu xi (enkg) yi (enm)
1 55 1.70
2 60 1.66
3 90 1.90
4 76 1.68
5 46 1.53
6 83 1.76
7 68 1.72
8 52 1.60
9 71 1.57
10 50 1.61
71/98 2023/2024
On obtient donc un nuage de n points constituant un diagramme de dispersion.

72/98 2023/2024
Distribution jointe - Tableau de contingence

1 Distribution jointe en effectifs de X et de Y :
{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}
2 Pour i = 1, . . . , p et j = 1, . . . , q:

72/98 2023/2024
Distribution jointe - Tableau de contingence

1 Distribution jointe en effectifs de X et de Y :
{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}
2 Pour i = 1, . . . , p et j = 1, . . . , q:
X \Y y1 y2 . . . yj . . . yq Totaux
x1 n11 n12 . . . n1j . . . n1q n1.
x2 n21 n22 . . . n2j . . . n2q n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 . . . nij . . . niq ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
xp np1 np2 . . . npj . . . npq np.
Totaux n.1 n.2 . . . n.j . . . n.q N
73/98 2023/2024
Exemple
Soit Ω la population constituée par les quatre pays suivants : France, Allemagne, Grande
bretagne et l’Italie. Notons X la production de fonte (bronze) et Y la production d’acier
arrondies en millons de tonnes
Ω Allemagne France G. B. Italie
X 27.2 15.9 17.6 3.5
Y 37.2 19.8 26.7 9.8
Il est naturel de s’interroger sur la relation qui lié X et Y . On regroupe les valeurs des xi et des
yi dans le tableau suivant :

73/98 2023/2024
Exemple
Soit Ω la population constituée par les quatre pays suivants : France, Allemagne, Grande
bretagne et l’Italie. Notons X la production de fonte (bronze) et Y la production d’acier
arrondies en millons de tonnes
Ω Allemagne France G. B. Italie
X 27.2 15.9 17.6 3.5
Y 37.2 19.8 26.7 9.8
Il est naturel de s’interroger sur la relation qui lié X et Y . On regroupe les valeurs des xi et des
yi dans le tableau suivant :
Y \X 3.5 15.2 17.6 27.2 Totaux
9.8 1 0 0 0 1
19.8 0 1 0 0 1
26.7 0 0 1 0 1
37.3 0 0 0 1 1
Totaux 1 1 1 1 4

74/98 2023/2024
Définitions: Effectifs Effectifs marginaux.

L’effectif de la variable double (xi ; yi ) est nij , c’est l’effectif des individus présentant
simultanément les modalités xi et yj .
L’effectif marginal de X : est la somme des effectifs contenus dans la ligne de xi est égale à
l’effectif des éléments dont la valeur du caractère X est xi . Elle est notée ni. .
q
X
ni. = ni1 + · · · + niq = nij .
j=1
L’effectif marginal de Y : est la somme des effectifs partiels contenus dans la colonne de yj
est égale à l’effectif des éléments dont la valeur du caractère Y est yj . Elle est notée n.j .
p
X
n.j = n1j + · · · + npj = nij .
i=1
On a:
p
X q
X p X
X q
N= ni. = n.j = nij .
i=1 j=1 i=1 j=1
75/98 2023/2024
Définitions: Fréquences et Fréquences marginaux.

La fréquence de la variable double (xi ; yj ) est fij , elle est définie par
p X
q
nij X
fij = et fij = 1
N i=1 j=1
Les fréquences marginales sont définies par:

ni.
fi. = fréquence marginale de xi .
n
n.j
f.j = fréquence marginale de yj .
n
On a
p
X q
X p X
X q
fi. = f.j = fij = 1.
i=1 j=1 i=1 j=1
Les couples (xi , ni. )1≤i≤p et (yj , n.j )1≤j≤q définissent les distributions statistiques marginales.
76/98 2023/2024
Les fréquences conditionnelles - Indépendance

La fréquence conditionnelle de xi sachant yj ( yj réalisé)
nij fij
fi/j = =
n·j f·j
Où nij est l’effectif correspondant à X = xi et n.j l’effectif partiel marginal de yj .

Ainsi
fij = fi. × fj/i = f.j × fi/j .
Définition
Deux variables statistiques X et Y sont dites statistiquement indépendantes si et seulement si,
pour chacune des deux variables, les distributions conditionnelles sont identiques à la
distribution marginale :
fi/j = fi. ou fj/i = f.j ∀(i, j)
Conséquence : Les caractères X et Y sont indépendants si et seulement si
∀(i, j) fij = fi· × f.j

77/98 2023/2024
Exemple
Sur le tableau suivant figure l’âge de la mère (X ) et le poids de l’enfant (Y ) pour un

échantillon de 40 naissances, présentés avec un groupement à deux dimensions .
2500 3000 3500 4000 4500 ni.
20 1 5 4 2 - 12
25 2 3 5 1 - 11
30 1 2 2 1 - 6
35 - 3 3 1 1 8
40 - 2 - 1 - 3
n.j 4 15 14 6 1 40
n13 = 4 signifie qu’il y a 4 enfants dont l’âge de la mère est 20 ans et dont le poids est 3500 g.
Il y a 6 mères dont l’âge est 30 ans. Il y a 14 enfants dont le poids est 3500 g.

78/98 2023/2024
Analyse des variables
Les variables X et Y peuvent être analysées séparément. On peut calculer tous les paramètres
dont les moyennes et les variances :
p p
1 X 1 X 2
x̄ = ni. xi , V (X ) = ni. (xi − x̄ ) ,
N i=1 N i=1
q q
1 X 1 X 2
ȳ = n.j yi , V (Y ) = n.j (yi − ȳ ) .
N i=1 N i=1
Ces paramètres sont appelés paramètres marginaux: variances marginales, moyennes

marginales, écarts-types marginaux.

79/98 2023/2024
Covariance
La covariance est définie

p q
1 XX
Cov (X , Y ) = nij (xi − x̄ ) (yj − ȳ ) .
N i=1 j=1
La covariance peut prendre des valeurs positives, négatives ou nulles.

Quand xi = yi , pour tout i = 1, . . . , n, la covariance est égale à la variance.
Dans le cas d’une série statistiques bivariées non regroupée, la covariance est donnée par
N
1 X
Cov (X , Y ) = (xi − x̄ ) (yi − ȳ ) .
N i=1

80/98 2023/2024
Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux:
Cov (X , Y )
ρ(X , Y ) =
σ(X )σ(Y )
Le coefficient de corrélation mesure la dépendance linéaire entre deux variables:
−1 ⩽ ρ(X , Y ) ⩽ 1

81/98 2023/2024
Interprétation
Si 0 < ρ < 1, la corrélation est positive ( X et Y varient dans le même sens), et les points
sont alignés le long d’une droite croissante. La valeur ρ = +1 indique une relation linéaire
parfaite Y = aX + b avec a > 0. C’est un cas extrême très peu rencontré en pratique.
Si −1 < ρ < 0, la corrélation est négative ( X et Y varient dans le sens contraire) et les
points sont alignés le long d’une droite décroissante. La valeur ρ = −1 indique une
relation linéaire parfaite Y = aX + b avec a < 0. C’est un cas extrème très peu rencontré
en pratique.
Si les caractères X et Y sont indépendants alors ρ = 0, tandis que la réciproque n’est pas
nécessairement vraie. Si ρ = 0, on dit qu’il y a corrélation nulle entre X et Y ; la liaison
entre X et Y peut être de forme outre que linéaire. On peut cependant avoir une
dépendance non-linéaire avec un coefficient de corrélation nul.

82/98 2023/2024
Exemples

83/98 2023/2024
Test statistique
Un test consiste à vérifier une information hypothétique. On parle d’ailleurs de tests

d’hypothèses. En statistique mathématique, l’information hypothétique concerne la population
à laquelle on s’intéresse.
Il est généralement impossible de recenser toute la population. On prélève alors un échantillon

dont on déduit une statistique. Cette statistique est comparée à la valeur à laquelle on peut
s’attendre si l’hypothèse est vraie.

84/98 2023/2024
Le cadre général d’un test statistique
Fixer les Hypothèses:

Ho : L’hypothèse nulle
H1 :L’hypothèse alternative
Choisir la statistique du test: c’est une valeur à calculer en utilisant les données de
l’échantillon. cette statistique va suivre une loi de probabilité selon le test.
Calculer le DDL et choisir α: le DDL est le degré de liberté et α est le seuil d’erreur( le
risque).
Déterminer la valeur théorique: elle est obtenue à partir de la table de la loi de
probabilité associée au test en prenant la valeur de l’intersection entre le risque et le
dégrée de liberté .
Comparaison: il faut comparer la valeur théorique avec la valeur calculée.
Calculer l’intensité.

85/98 2023/2024
Le test de corrélation de Pearson
1 Pourquoi?
Y a-t-il une dépendance linéaire (Corrélation) entre les deux variables ?
2 Hypothèses
H0 : rho = 0
H1 : ρ ̸= 0
ρ>0
ρ<0
3 Valeur calculé: √
r n−2
tcal = √
1 − r2
cette statistique suit la loi de student
4 DDL=n-2
5 Valeur théorique: c’est l’intersection du DDL avec (1 − α) dans la table de student.

86/98 2023/2024
6 Comparaison:
le cas : ρ > 0 le cas : ρ < 0 le cas : ρ ̸= 0

on accepte H1 si : on accepte H1 si : on accepte H1 si :
tcal > tth tcal < −tth / [−tth , tth ]
tcal ∈
7 Intensité: Le coefficient de Détermination R qu’on va voir dans a suite du cours.
2

87/98 2023/2024
Droite de régression
La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des
moindres carrés.
On considère la variable X de modalités x1 , x2 , ....xp et la variable Y de modalités
y1 , y2 , ..., yq .L’équation d’une droite est
y = ax + b
Soit Mi un point de cordonnées (xi , yi ). On appelle distance de Mi parallèlement à l’axe (oy) à

la droite (△) d’équation y = ax + b, le réel positif di = |yi − axi − b|
Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés qui
consiste à chercher la droite qui minimise la somme des carrés des écarts
X 2
X
δ(a, b) = (yi − axi − b) = di2
i i

88/98 2023/2024
Le problème admet une solution unique du système linéaire issue de l’annulation des dérivées
partielles premières de la fonction δ(a, b). II s’agit de résoudre
 n
∂δ X
 ∂a = −2 xi (yi − axi − b) = 0



i=1
n
∂δ X
= −2 (yi − axi − b) = 0



∂b

i=1
Ce système en a et b admet pour solution unique
cov(X , Y )
a= et b = ȳ − ax̄
V (X )

89/98 2023/2024
Théorème
Soit Mi (xi , yi )1≤i≤n un ensemble fini de points fixes du plan euclidien où xi sont les modalités
d’un caractère X et yi celles d’un autre caractère Y définis sur une même population Ω.
p q p
1 X 1 X 1 X 2
Soient x̄ = ni. xi , ȳ = n.j yj , V (X ) = ni. (xi − x̄ ) et
N i=1 N j=1 N i=1
p q
1 XX
cov(X , Y ) = nij (xi − x̄ ) (yi − ȳ ) .
N i=1 j=1
La droite d’équation y − ȳ = a(x − x̄ ) où a = cov(X

V (X )
,Y )
est la droite de régression de y en x et
est notée Dy /x .
La droite de régression Dy /x de y en x n’est pas la même que la droite de régression Dx /y de x
en y
Les droites Dy /x etDx /y passent par le point G(x̄ ; ȳ ), qui s’appelle point moyen de la
statistique.

90/98 2023/2024
Les droites de régression Dy /x et Dx /y ayant pour équations : y = ax + b, x = a′ y + b ′ ont

les propriétés suivantes:
cov(x ,y )2
aa′ = v (x )v (y ) = (ρ(x , y ))2
Dy /x et Dx /y sont confondues si elles ont la même pente (car elles passent toutes les deux
par G(X̄ , Ȳ )).
dans ce cas a = 1
a′ c.à.d. aa′ = 1 donc ρ(x , y ) = ±l. les points Mij sont alors alignés.
La corrélation linéaire est d’autant bonne (ou forte)
que le coefficient de corrélation ρ est
proche en valeur absolue de 1 ρ ≃ 1 ⇐⇒ a ≃ a1′ .
si ρ est proche de zéro, on dit qu’il y a corrélation linéaire très mauvaise entre X et Y. il
faudrait alors approcher le nuage des points Mij par une courbe.

91/98 2023/2024
Le coefficient de détermination R 2
Une fois les coefficients de régression sont calculés, l’étape suivante consiste à vérifier si le
modèle statistique établi est capable de reconstruire les données initiales observées.
L’indicateur qui peut le faire est: Le coefficient de détermination R 2 .
Pour déterminer ce coefficient, on aura besoin des notions suivantes:

92/98 2023/2024
Résidus et valeurs ajustées
Les valeurs ajustées sont obtenues à l’aide de la droite de régression:
ybi = axi + b
Les valeurs ajustées sont les ‘prédictions’ des yi réalisées au moyen de la variable x et de la
droite de régression de y en x .
Remarque: La moyenne des valeurs ajustées est égale à la moyenne des valeurs
observées ȳ .
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable
dépendante.
ei = yi − ybi
Les résidus représentent la partie inexpliquée des yi par la droite de régression.
Remarque: La moyenne des résidus est nulle.

93/98 2023/2024
Sommes de carrés et variances

On appelle somme des carrés totale la quantité
N
X
SCT = (yi − ȳ )2
i=1
On appelle somme des carrés de la régression la quantité

N
X
SCRG = (b
yi − ȳ )2
i=1
On appelle somme des carrés des résidus (ou résiduelle) la quantité

N
X
SCRS = (yi − ybi )2
i=1
On a
SCT = SCRG + SCRS
94/98 2023/2024
Donc le coefficient de détermination R 2 est donné par

SCRG SCT − SCRS SCRS
R2 = = =1−
SCT SCT SCT

94/98 2023/2024
Donc le coefficient de détermination R 2 est donné par

SCRG SCT − SCRS SCRS
R2 = = =1−
SCT SCT SCT
Dans le cas d’une régression simple, on a
R2 = r 2

95/98 2023/2024
Exemple
On mesure le poids et la taille de 20 individus, on obtient
yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187

96/98 2023/2024
Exercice 1
1 Montrer que : |ρ(X , Y )| ≤ 1.

2 On considère deux séries statistiques (xi ) et (yi ) de taille n Soient αi et βi deux séries
statistiques liées aux séries statistiques (xi ) et (yi ) par les relations suivantes:
xi − c
∀iαi = avec d ̸= 0c, d ∈ R
d
′
yi − c
∀iβi = avec d ′ ̸= 0c ′ , d ′ ∈ R
d′
Montrer les propriétés suivantes :
|dd ′ |
i) cov(α, β) = 1
dd ′ cov(x , y ) et ii) ρ(α, β) = dd ′ ρ(x , y )
Exercice 1 de la série 2 : 60

97/98 2023/2024
Exercice 2
Le tableau suivant représente des âges de patients X et les tensions artérielles Y d’un
échantillon de 9 malades extrait d’une population gaussiennes.
L’âge X 56 42 72 36 63 47 55 49 38
T.A Y 147 125 160 118 149 128 150 145 115
1 Représenter le nuage de points M (xi ; yi ) dans le repère orthogonal ci-dessous.

2 Calculer la moyenne et l’écart-type de chacun des deux caractère X et Y .
3 Placer le point G(X̄ , Ȳ ) dans le repère précédent.
4 Calculer la covariance et le coefficient de corrélation du couple (X , Y ). Que peut-on
conclure?
5 Y a-t-il une dépendance entre les deux variables sur cette population?
6 Trouver la droite de régression de X en Y .
7 Lorsque l’âge est 75 ans, quelle Tension artérielle Y peut-on prévoir?

98/98 2023/2024
Exercice 3
sur un échantillon de 100 étudiants extrait d’une population gaussienne P, on relevé la taille X
en centimètre, ainsi que le poids Y en kilogrammes comme l’indique le tableau suivant
X \Y [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
[150, 160[ 10 3 1 0 0
[160, 170[ 2 12 6 7 2
[170, 180[ 1 7 11 17 4
[180, 190[ 0 2 2 4 9
1 Calculer la moyenne et l’écart-type de chacun des deux caractères X et Y

2 Calculer la covariance et le coefficient de corrélation du couple (X , Y ). Que peut-on
conclure?
3 Trouver la droite de régression de Y en X .

Cours S

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours S

Transféré par

Droits d'auteur :

Formats disponibles

Statistiques et analyse des données

Filières: Génie informatique

Mme.Manal NAIMI Introduction

Mme.Manal NAIMI Introduction

Mme.Manal NAIMI Introduction

Mme.Manal NAIMI Introduction

Mme.Manal NAIMI L’analyse univariée

Mme.Manal NAIMI L’analyse univariée Terminologie

Individus: ou « Unités statistiques », est l’élément de la population.

Échantillon : Un sous-ensemble de la population qui est sélectionné pour être étudié. Le

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie

Exemple 1: Variable Qualitative (Nominale)

Ω = Population Voitures du parking

Exemple 2: Variable Qualitative ( Ordinale)

Mme.Manal NAIMI L’analyse univariée Terminologie

Exemple 3: Variable Quantitative (Discrète)

Exemple 4: Variable Quantitative ( Continue)

Mme.Manal NAIMI L’analyse univariée Terminologie

Exemple: On s’intéresse à la variable "Nombre de livres lus" notée X et à la série statistique

Mme.Manal NAIMI L’analyse univariée Terminologie

L’effectif total :est le nombre total de données dans une distribution.

Si la variable est quantitative ou qualitative ordinale on a:

La fréquence relative cumulée : est le pourcentage correspondant à l’effectif cumulé d’une

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie

Le cas d’une variable continue

Soit X un caractère continue et n le nombre d’observation dans notre population.

Mme.Manal NAIMI L’analyse univariée Terminologie

E = xmax − xmin : est l’étendue de la série statistique.

e0 = xmin e1 = xmin + e ek = xmin + ke

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie

Considérons les données suivantes qui désignent les tailles de 20 étudiants:

Mme.Manal NAIMI L’analyse univariée Terminologie

Considérons les données suivantes qui désignent les tailles de 20 étudiants:

Mme.Manal NAIMI L’analyse univariée Terminologie

DIAGRAMMES: Pour une variable statistique qualitative

Mme.Manal NAIMI L’analyse univariée Terminologie

diagrammes à secteurs circulaires

Les étapes sont:

1 Calculez les fréquences.

Mme.Manal NAIMI L’analyse univariée Terminologie

En considérant le tableau statistique ci-dessous, on obtient le diagramme au secteurs circulaires

Mme.Manal NAIMI L’analyse univariée Terminologie

En considérant le tableau statistique ci-dessous, on obtient le diagramme au secteurs circulaires

Mme.Manal NAIMI L’analyse univariée Terminologie

Diagramme en Tuyaux d’Orgue (Histogramme Vertical)

Les étapes sont:

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie

Diagramme en Bandes (Histogramme Horizontal)

Mme.Manal NAIMI L’analyse univariée Terminologie

DIAGRAMMES: Pour une variable quantitative discrète

On utilise un diagramme différentiel en bâtons, complété du diagramme des fréquences

Mme.Manal NAIMI L’analyse univariée Terminologie

Diagramme différentiel en bâtons

On reprenons l’exemple précédent, calculer compléter le tableau statistique et tracer le

Mme.Manal NAIMI L’analyse univariée Terminologie

Mme.Manal NAIMI L’analyse univariée Terminologie