Presentation1 - PROBA-STAT-GEGM 2022-2023

FACULTE DES SCIENCES ET TECHNIQUES
SETTAT
Département de Mathématiques et Informatique
Année universitaire :2022-2023
Filière : Tronc commun GEGM
Module: Statistique descriptive et

Probabilités
Pr. Mohamed HANINI

mohamed.hanini@uhp.ac.ma
Plan du cours
Tableaux des données, diagrammes,
Chp.1- Statistique à une variable
paramètres de position, de dispersion
Dépendance, indépendance, Ajustement

Chp.2- Statistique à deux variables
linéaire, méthode des moindres carrées.
Chp.3- espace de probabilités et Espace de probabilité : conditionnement,

dénombrement indépendance.
Chp.4- Variables aléatoires Variables aléatoires discrètes (loi de Bernoulli, loi

discrètes. binomiale, loi de Poisson).
Chp.5- Variables aléatoires

Loi normale, loi exponentielle, loi de Cauchy.
continues.
Indépendance, covariance, lois

Chp6.- Couple de variables aléatoires,
marginales
1
Chapitre :
Statistique descriptive à une variable
Introduction et définitions
Qu’est-ce que la statistique?
Ensembles de méthodes scientifiques dont la

finalité est de présenter les données pour que
l'on puisse en prendre connaissance
facilement.
Et pouvoir prendre des décisions objectives
Statistique
Descriptive Inférentielle
Introduction
Les problématiques de la statistique descriptive
Objectifs :
– Résumer, synthétiser l’information contenue dans
une série statistique, mettre en évidence ses
propriétés.
Outils utilisés :
– Tableaux (table des fréquences,..)
– Graphiques (diagrammes, histogrammes,..)
– indicateurs (moyenne, corrélation,..).
Introduction et définitions
Etapes d’une étude statistique
• Etape1 : collecte des données

– Recensement=Etude de tous les individus d’une population.
Difficile en pratique lorsque les populations sont grandes pour
des questions de coût et de temps.
– Sondage= recueil d’une partie de la population. La partie des
individus étudiés s’appelle l’échantillon. Le recueil d’un
échantillon à partir de la population initiale se fait par des
techniques statistiques, appelées méthodes d’échantillonnage.
• Etape2 : Traitement des données
Trier les données et les organiser en tableaux, diagrammes, calcul des
indices etc...
• Etape3 : exploitation des résultats
Interpréter les résultats ; faire des généralisations, des prévisions…
Définitions de base
terminologie statistique
• La population statistique (ou champ d'étude) est L’ensemble

sur lequel porte l'étude statistique.
Remarque : la population n'est pas forcément un ensemble de
Personnes - ex : parc automobile marocain, . . .
• Un individu est un élément de la population.
• Si la population est trop grande (i.e. trop d'individus) on fait
généralement l'étude sur une partie de la population. Cette
partie est appelée échantillon.
• La variable statistique ou caractère statistique est ce que l'on
observe/mesure chez les individus de la population.
• Chacun des caractères étudiés peut présenter deux ou
plusieurs modalités. Les modalités sont les différentes
situations où les individus peuvent se trouver à l’égard du
caractère considéré.
Exemple de problème
Lors du recensement général de la population et de l’habitat

au Maroc (RGPH : septembre 2014) on désire étudier
plusieurs caractéristiques de la population marocaine :
– Le nombre d’individus par ménage
– Le sexe du chef de ménage (homme ou femme)
– L’âge de la population marocaine
– La quantité stockée d’un produit
– Le couple (niveau d’étude du chef de ménage, nombre
d’individus par ménage)
• Questions : qui va-t-on interroger ? Que va-t-on mesurer ?

• Quelles sont les « valeurs » possibles?
Exemple de problème
• Moyen de transport: maritime, aérien,

ferroviaire, routier
• Nombre de retard.
• Temps de transport : durée
• Quantité stockée d’un produit

• Quantité demandée
Types de variables statistiques
Variable qualitative Variable qualitative nominale : dont les modalités ne sont pas
ses valeurs, ou modalités, ordonnées. Exemple :
s'expriment de façon littérale  Marque de voiture ;
ou par un codage sur lequel les  Sexe : homme, femme
opérations arithmétiques telles Variable qualitative ordinale : dont les modalités sont
que moyenne, somme, ... , naturellement ordonnées. Exemple :
n'ont pas de sens.  Niveau de satisfaction : bon, moyen…
 Utilisation d’un outil : rare, souvent …
 Niveau de résistance d’un matériau : très résistant, assez
résistant, peu résistant,
Variable quantitative : Variable quantitative discrète: si elle ne peut prendre que des
Une variable statistique est valeurs discrètes, représentées généralement entières. Exemples:
quantitative si ses valeurs sont • Nombre d’années de redoublement dans la scolarité des
des nombres exprimant une étudiants;
quantité, sur lesquels les • Nombre d’enfant par famille dans un échantillon de 20
opérations arithmétiques familles.
(somme, etc...) ont un sens. Variable quantitative continue: si ses valeurs peuvent être
n'importe lesquelles d'un intervalle réel. Exemples:
• Tailles des étudiants d’une section MIP;
• Revenus mensuels des chefs de ménage.
Analyse statistique
descriptive à une variable
(Unidimensionnelle)
Présentation des données
Exemple: données brutes
lors d’une enquête sur le nombre de voyages
effectués par les conducteurs dans une agence
de transport pendant une semaine sur un
échantillon de 60 conducteurs , on a obtenu les
résultats suivants :
Données brutes:
000111112222 2 222223333333
3344444 444444444455555555
5566666677
Exemple: distribution statistique (xi,ni)
Nombre de voyages
Effectif (ni )
(xi )
0 3
1 5
2 10
3 9
4 15
5 10
6 6
7 2
Total (n) 60
Fréquences, fréquences cumulées…
• La fréquence : représente la proportion de la
ni
population prenant la valeur xi fi  où n   ni
n i
Pourcentage : pi  f i  100%
Dans le cas des variables ordonnées:

• L’effectif cumulé croissant : qui représente le nombre
d’individus de la population prenant au plus la valeur xi
c
N i  
x j  xi
n j
• La fréquence cumulée croissante : La proportion de la

population prenant au plus la valeur xi Fi c   f j
x j  xi
Fréquences, fréquences cumulées…
Dans le cas des variables ordonnées:
• L’effectif cumulé décroissant : qui représente le

nombre d’individus de la population prenant au moins
la valeur xi d
N i
 
x j  xi
n j
• La fréquence cumulée décroissante : La proportion de

la population prenant au moins la valeur xi d
Fi  
x j  xi
fj
Exemple: variable quantitative discrète
Effectifs
Nombre de Effectifs Fréquence
Effectif cumulés Fréque
voyages (xi cumulés cumulée
(ni ) décroissant nce (fi)
) croissant (Ni) (Ni) croissante(Fi)
0 3 3 60
0,05 0,05
1 5 8 57
0,08 0,13
2 10 18 52
0,17 0,30
3 9 27 42
0,15 0,45
4 15 42 33
0,25 0,70
5 10 52 18
0,17 0,87
6 6 58 8
0,10 0,97
7 2 60 2
0,03 1,00
Total (n) 60
1,00
Exemple: variable quantitative continue
Données brutes
On a noté l’âge des 20 clients dans une agence de transport, les résultats
obtenus sont:
20, 36, 52, 66, 25, 36, 54, 68, 74, 60, 40, 25, 60, 32, 45, 45, 32, 49, 64, 48.
1. Présenter la distribution de la variable âge
2. Présenter les données, groupées dans 4 classes d’amplitudes égales dont
la valeur minimale est 20 et la valeur maximale est 80.
3. Calculer un centre de classe, désigné par ci; les fréquences; les fréquences
cumulées croissantes et décroissantes
variable quantitative continue
distribution de classe
Exemple: 20, 36, 52, 66, 25, 36, 54, 68, 74, 60, 40, 25, 60, 32, 45, 45, 32, 49, 64, 48.
classes Effectif Centre de Effectif Fréquences

[Ci,Ci+1[ ni classes Fréquenc cumulé cumulées
es croissant décroissant
[20,35[ 5 27,5
[35,50[ 7 42,5
[50,65[ 5 57,5
[65,80[ 3 72,5
Variable quantitative continue
Propriétés des classes

• Les classes sont mutuellement exclusives:
disjointes deux à deux
• Les classes doivent être exhaustives: couvrent
toute la population
Les représentations graphiques
cas de classes d’amplitudes différentes: correction d’effectif
Exemple: répartition de 20 étudiants selon les notes obtenues dans une épreuve de statistique
classes [Ci,Ci+1[ Effectif ni amplitude de la classe (longueur Densité d’effectif (effectif
de classe: Li=Ci+1 - Ci ) corrigé): di=ni/Li
[0,5[ 2 5 0.4
[5,8[ 3 3 1
[8,10[ 6 2 3
[10,14[ 5 4 1,25
[14,16[ 3 2 1,5
[16,20 [ 1 4 0,25
effectif
di 
l ' amplitude
Remarque: dans le cas d’amplitude constante, la correction est inutile

Variable qualitative/quantitative : diagramme en « bâtons »
Exemple : Répartition des salariés d’une entreprise selon la catégorie
sociaux professionnelle :
La longueur de chaque
« bâton » est
proportionnelle à
l’effectif (ou à la
fréquence de la
modalité
correspondante)
Variable qualitative: diagramme en secteurs (circulaire ou en Camembert)
L’angle ai au centre du
secteur représentant
une modalité xi est
proportionnel à l’effectif
(ou à la fréquence de
cette modalité):
ai = 360° x fi
Diagramme circulaire représentant la répartition des employés

Variable quantitative continue: Histogramme
Exemple;: répartition des 71 employés d’une entreprise selon leurs salaires mensuels (en Dh)
classes Effectif Fréquence

[1500,2000[ 12 0,17
[2000,2500[ 5 0,07
[2500,3000[ 5 0,07
[3000,3500[ 10 0,14 Le rectangle construit sur chaque
[3500,4000[ 30 0,42 classe a:
[4000,4500[ 6 0,08 •une surface égale Si =ni (l’effectif de
[4500,5000[ 3 0,04 la classe)
• Et alors; la hauteur du rectangle
(valeur sur l’axe des ordonnées) est la
densité : n i
di  où ai est l ' amplitude
ai
Remarque: dans le cas d’amplitude

constante, la hauteur représenter l’effectif
Variable quantitative continue: Histogramme
cas de classes d’amplitudes différentes
Exemple: répartition de 20 étudiants selon les notes obtenues dans une épreuve de statistique
classes [Ci,Ci+1[ Effectif ni amplitude de la classe (longueur Densité d’effectif (effectif
de classe: Li=Ci+1 - Ci ) corrigé): di=ni/Li
[0,5[ 2 5 0.4
[5,8[ 3 3 1
[8,10[ 6 2 3
[10,14[ 5 4 1,25
[14,16[ 3 2 1,5
[16,20 [ 1 4 0,25
Les rectangles dont les bases sont les classes ont des aires proportionnelles aux
fréquences (ou effectifs) de ces classes:
La hauteur du rectangle est proportionnelle à la densité d’effectif
effectif
di 
l ' amplitude
Remarque: dans le cas d’amplitude constante, la hauteur représente l’effectif
Les paramètres numériques d’une
variable statistique quantitative
Objectif:
concentrer en un petit nombre de valeurs
l’information contenue dans une série
statistique.
Les paramètres de position
Ces paramètres permettent de donner un ordre

de grandeur général des observations:
• La moyenne
• Le mode
• La médiane
La moyenne arithmétique: propriété fondamentale
Propriété:
La moyenne est le réel le plus proche à toutes les observations (au sens
de la distance Euclidienne).
2 2
 i
(
i
x  x )   i
(
i
x  x ) , pour tout autre nombre réel x
La moyenne arithmétique
• La moyenne arithmétique d’une distribution
statistique (xi,ni) est la valeur :
1
x   n .x   f .x
n i
i i
i
i i
• Si les données sont sous la forme brute:

1
x 
n

i
xi
• Si le caractère est continu, xi désigne le milieu

c c
c , c 
de la classe i i 1 est: x 
2
i
i i 1
La moyenne arithmétique: propriétés
Si x et y sont deux variables quantitatives observées chez les individus
de la même population et tel que x+y ait un sens,
x y  x y
La moyenne d’une transformation linéaire est une transformation
linéaire de la moyenne.
 .x     .x   .
où  et  sont deux constantes réelles
Exemples
Exemple1:
sachant que la prestation moyenne versée par une assurance
à ces assurés en immobilier est 10 000dh et celle versée aux
assurés pour des dommages corporels est 3 000dh.
Quelles le montant moyen des prestations versées par cette
assurance?
Exemple2:
Une banque décide d’appliquer une réduction de 1% sur les
frais payés par chaque client.
Sachant que les clients paient en moyen 50dh par mois; quel
est le montant moyen des frais payés par un client après
application de la réduction?
La moyenne arithmétique: défaut
On considère deux entreprises de 5 employés chacune.
•Entreprise 1: x1  4000
Les salaires des employés sont les suivants (en dh):
3500 4000 3700 4600 4200
•Entreprise 2: x 2  5000 dh
Les salaires des employés sont les suivants (en dh):
1000 2000 1000 1000 20 000
La moyenne est très sensible aux valeurs extrêmes/exceptionnelle

Le mode: définition
• Le (ou les) mode (s) est la modalité de la série

d’effectif maximal
• La classe modale est la classe de densité maximale.
• Il peut y en avoir plusieurs modes (on parle alors de
distribution bimodale ou plurimodale/ multimodale).
• Exemple:
On considère les séries d’observations suivantes ,
déterminer le mode dans chaque cas :
i. 3; 5; 8; 8; 8; 10; 10; 10; 10; 10; 14; 18; 20; 24; 24
ii. 4; 8; 10; 10; 10; 10; 14; 18; 22; 22; 22; 22; 26
iii. 5; 11; 14; 17; 18; 21; 23; 26; 29; 30; 32; 35; 38
Le mode: propriétés
• Avantages:
• Le mode est facilement détecté sur le diagramme
en bâtons ou l'histogramme.
• Convient aussi aux données qualitatives.
• N’est pas affecté par les valeurs exceptionnelles.
• Défauts:
• varie si l’on modifie l’amplitude de classe.
• Une distribution peut avoir un ou plusieurs
modes.
La médiane: définition
Lorsque les données sont ordonnées de manière
croissante:
La médiane d’une série statistique est le réel qui
partage la population en deux parties de même
effectif.
x 1
2
5 0 % 5 0 %
Valeur pour laquelle la fréquence cumulée est

égale à 0.50.
La médiane: méthode de détermination
Cas discret:
Si on considère les données sous leur forme brute,
la médiane correspond à la valeur :
x 1  x( n1) / 2 : Si n est impair
2
xn  x n
1
x1  2 2 : Si n est pair
2 2
La médiane: méthode de détermination
Cas continu:
1 1
On cherche la classe c i , c i 1  telle que F (ci )  et F (ci 1 )  ,
2 2
la médiane est alors déterminée par interpolation linéaire
de F sur l’intervalle . On a alors :
•En terme de fréquence: 0.5  F (c ) i
x 1  c i  (c i 1  c i )
2 fi
•En terme d’effectif: N
 N (ci )
x 1  ci  (ci 1  ci ) 2
2 ni
Remarque:
Sur le tableau de distribution, F (ci ) désigne la fréquence
cumulée à la classe  c , c 
i 1 i
La médiane: propriétés
• Particulièrement adaptée pour des distributions très

étalées pour lesquelles la moyenne pondère les valeurs
extrêmes.
• Si on ajoute le même nombre k à toutes les valeurs de

la série statistique, la médiane augmente de k
• Si on multiplie toutes les valeurs de la série statistique

par un même nombre k, la médiane est multipliée par
k.
• Se prête mal aux calculs algébriques
La médiane: exemples (1)
Réponse:
Réponse:
Répartition du nombre d’heures de travail
Centres de fréquence
Classes Effectifs ni fréquence
classes cumulée
[50; 70[ 60 6 0,08 0,08

[70; 100[ 85 9 0,12 0,20
[100; 130[ 115 15 0,20 0,40
[130; 150[ 140 23 0,31 0,71
[150; 180[ 160 17 0,23 0,93
[180; 200[ 190 5 0,07 1,00
Total 75 1,00
Réponse: 0.5  0.40 37.5  30
med  130  20.  130  20.  136.45
0.31 23
autres paramètres: les fractiles
les quartiles:
x1/4 (1er quartile) et x3/4 (3ème quartile) : les valeurs pour lesquelles F
vaut 1/4 ou 3/4.
x 1
4
x3
4
2 5 % 2 5 %
Calculs:
Ils se calculent de la même manière que la médiane : même formule en
remplaçant 1/2 par 1/4 (ou 3/4)
Les déciles, les centiles:
On définirait de même les déciles, centiles...
Les paramètres de dispersion
Introduction
• Exemple : la température moyenne dans les villes
d’Essaouira et une ville du Sahara n’est pas à elle seule
suffisante pour donner une idée du climat des deux
villes (les 2 températures moyennes seraient proches).
Mais c’est plutôt la variabilité de la température dans
chacune des 2 villes qui donnerait plus de précision
pour la nature du climat.
• Pour exprimer les caractéristiques d'un échantillon, il
est nécessaire de compléter les paramètres de position
par des paramètres de dispersion, qui mesureront la
variabilité des données.
– L’étendu
– La variance et l’écart type
– Le coefficient de variation:
L’étendu
L'étendue ou intervalle de variation:
e  x max  x min
Propriétés :
• L'étendue « e » est calculée en fonction des valeurs
extrêmes : elle est très sensible aux valeurs
aberrantes
• L’étendue a la même unité que les données
• Si on ajoute une même constante à toute les valeurs,
l’étendue reste constante
• Si on multiplie toutes les valeurs par une même
constante, l’étendue est multipliée par cette
constante
L’écart inter-quartiles
L’écart inter-quartiles:
e  x3 / 4  x1/ 4
Propriétés :
L’intervalle interquartile contient 50% des observations
les plus au centre de la distribution.
x 1 x 3
4 4
5 0 %
La variance et l’écart type :
La variance :
 si les valeurs sont munies de leurs effectifs (distribution) :
1
Var ( X )   ( X )   ni .( xi  x) 2
2
n i
 si les valeurs sont présentées brutes :
1
Var ( X )   ( X )   ( xi  x) 2
2
Remarque: n i
la variance n’est pas utile pour une éventuelle interprétation (à cause de son unité)
l’écart type:
Remarque:
 ( X )  var( X )
l‘écart type s’exprime dans la même unité que les données, ce qui rend son
interprétation plus facile que celle de la variance
La variance et l’écart type :
Propriétés :
1
var( X )   ni .xi 2  ( x) 2 Formule de Kœnigs (cas de distribution
n i
1 2 2
var( X )   .xi  ( x) Formule de Kœnigs (cas brute
n i
var(  X )  var( X )  ( X )    ( X )
var( X )   2 var( X )  (  X )   ( X )
Démonstration en exercice
Le coefficient de variation:
Définition:
 (X )
cv( X )  lorsque : X  0
X
Propriétés:
•C’est un paramètre de dispersion sans unité
•Il peut être utilisé pour comparer la dispersion de deux
populations
Exemple
Le tableau suivant donne la répartition et le gain annuels en
bourse de 100 adhérents à un club d’investissement.
Compléter ce tableau pour répondre aux questions
suivantes :
Perte et gain en 1000 dh nombre d'adhérents
[-30 ;-20[ 8
[-20 ;-10[ 18
[-10 ;0[ 22
[0 ;10[ 24
[10 ;20[ 16
[20 ;30[ 12
a) Déterminer la moyenne
b) Déterminer la variance et l’écart type.
c) Tracer l’histogramme
Représentation graphique des paramètres
« La boite à moustaches »
c’est un graphique qui résume les caractéristiques numériques d’une distributions statistique
Remarques :
• noms: « diagramme en boite » , « boite à pattes » ou encore « diagramme de
Tukey», « Box Plot ».
• c’est un moyen pour comparer un même caractère sur plusieurs séries statistiques.
La boite à moustaches: exemple
La boite à moustaches: exemple (solution)
Statistique à deux variables
Exemples introductifs
Un directeur d’agence bancaire désire connaitre s’il y a une relation
entre l’insolvabilité d’un client et son âge.
Pour cela il dresse le tableau statistique suivant (suivi d’un
échantillon de 10 clients pendant une durée donnée)
Client Age du client xi Nombre de situation « insolvable » yi
1 30 3
2 48 1
3 50 0
4 50 2
5 55 0
6 42 2
7 60 1
8 42 1
9 18 4
10 66 1
(données sous format brute)
1- Pour déterminer les tarifs d’assurance auto, une compagnie
d’assurance désire savoir si le risque d’accident pour une voiture est
une fonction de la puissance du moteur.
Pour cela elle peut réaliser une étude statistique des deux variables:
X: le nombre d’accidents commises
Y: la puissance du moteur.
la puissance du moteur/le nombre d’accidents commises 0 1 2 3

6
7
8
9
tableau de contingence
Une société de transport souhaite connaître le taux de satisfaction de
ses clients (désigné par la variable Y, et noté de 1à 4) suivant le
moyen de transport utilisé (désigné par la variable X). Elle obtient le
tableau suivant :
Y
1 2 3 4
X
Camion 6 8 4 2
Train 3 5 3 4
Avion 3 4 2 1
Représentation des données
Exemple : Répartition de 80 véhicules selon le couple de
variable (X,Y)= (puissance, nombre d’accidents).
nij dans la cellule intersection de la ligne i et de la colonne j =
nombre d’individus ayant en même temps la modalité xi pour
la variable X et la modalité yj pour la variable Y.
Tableau de contingence en effectif du couple (X,Y)
La puissance X / nombre d’accidents Y 0 1 2 3

6 2 5 3 3
7 5 4 4 1
8 6 2 5 3
9 4 3 6 4
Représentation des données
Tableau de contingence en fréquence du couple (X,Y)
La puissance / nombre d’accidents 0 1 2 3

6 0,03 0,08 0,05 0,05
7 0,08 0,07 0,07 0,02
8 0,10 0,03 0,08 0,05
9 0,07 0,05 0,10 0,07
n ij
La fréquence du couple (xi,yj) est : f ij 
n
n  
i, j
n ij taille totale de la population
Etude marginale
Distribution marginale de X en effectif
La puissance X / nombre d’accidents Y 0 1 2 3 Distribution marginale de X

6 2 5 3 3 13
7 5 4 4 1 14
8 6 2 5 3 16
9 4 3 6 4 17
Distribution marginale de X 17 14 18 11 60
La distribution à une dimension de chacun des caractères X et Y peut être obtenue en
sommant les effectifs sur l’un des indices i ou j.
n i .   j
n ij : représente l’effectif des individus ayant la modalité xi (indépendamment de la variable Y)
n.j  
i
n ij : représente l’effectif des individus ayant la modalité yj (indépendamment de la variable X)
Distribution marginale de X en fréquence :
n i.
f i . 
n
où : n   i
n i.   j
n . j
Etude conjointe des deux variables
fréquences conditionnelles
Les fréquences conditionnelles de Y sachant que (X = xi) sont les
fréquences obtenues en ne regardant que la i-ème ligne du
tableau. La population se limite alors aux individus ayant la
modalité xi pour la variable X.
• Fréquences conditionnelle de Y/X=i
• A i fixé on a: n ij f ij
f j / i  f j /( X  x i )   pour tout j  1,..., l 
ni . f i.
6 0,15 0,38 0,23 0,23 1
7 0,36 0,29 0,29 0,07 1
8 0,38 0,13 0,31 0,19 1
9 0,24 0,18 0,35 0,24 1
Représentation graphique
Etude conjointe de deux variables
Reconnaitre l’indépendance
Indépendance et fréquences
conditionnelles
6 0,15 0,38 0,23 0,23 1
7 0,36 0,29 0,29 0,07 1
8 0,38 0,13 0,31 0,19 1
9 0,24 0,18 0,35 0,24 1
Si les deux variables étaient indépendantes: la distribution conditionnelle

du nombre d’accidents ne devrait pas dépendre de la puissance du
véhicule
f j /( X  x i )  f j ' /( X  x i )
 i  1,..., k , et  j , j '  1,..., l 
caractérisation de l’indépendance
• Si les distributions conditionnelles de X sont
indépendantes de l’indice i de la ligne choisie, On
dit alors que X et Y sont indépendantes.
• Dans ce cas, on aura :
f ij f
i
ij
f. j
 
f i. f
i
i. 1
On a donc X et Y sont indépendantes si: pour tout couple (i,j)
ni . .n. j
f ij  f i . . f . j ou en effectif: nij 
n
reconnaitre l’indépendance
• Dans un tableau de fréquences:
Vérifier la formule:
f ij  f i . . f . j
• Dans un tableau de distribution conditionnelle:
Les distributions conditionnelles sont les mêmes par
ligne (colonne)
Mesurer la force de dépendance

Reconnaitre et mesurer la dépendance
Sur 80 entreprises classées ayant des problèmes économiques, 48 décident une
modernisation de la gestion. Au bout de la période d’observation on constate que 25
d’entre elles ont faillite et que, sur les 32 entreprises qui n’ont pas modifié leur gestion,
25 ont fait faillite.
Décision (X)/résultat(Y) Faillite Pas de faillite Distribution marginale de X

Modernisation 25 23 48
Conservation 25 7 32
Total 50 30 80
1- les variables X et Y sont elles indépendantes?

2- Si non:
•Donner le tableau de fréquence correspondant à la situation d’indépendance entre X
et Y.
•Donner le tableau d’effectif correspondant à la situation d’indépendance entre X et Y.
reconnaitre et mesurer la dépendance
distance de khi-deux
on considère les deux tableaux de contingence:
: Oi (observés)
: Ti (théoriques)
On mesure la distance entre les deux tableaux par:

: distance de khi-deux X2
Mesurer la force de dépendance

De variables quantitatives
Représentation graphique
Nuage de points
Nombre de
Age du situation «
Client client xi insolvable » yi
1 30 3
2 48 1
3 50 0
4 50 2
5 55 0
6 42 2
7 60 1
8 42 1
9 18 4
10 66 1
Paramètres d’une distribution à deux
dimensions
• Comme en une dimension, et en utilisant les
distributions marginales, on peut calculer les
paramètres relatifs à chacune des variables X et Y, on
aura alors les couples :
• Point moyen : ( x, y )
2 2
• Point variance : ( S ( X ), S (Y ))
• ..
Mesurer la dépendance entre deux variables
Pour quantifier la relation linéaire de dépendance
entre deux variables on utilise :
Le coefficient de corrélation linéaire :
cov( X , Y )
r ( X ,Y ) 
 ( X ). (Y )
représente un cosinus entre angle de vecteur X et Y
• La covariance : cas de données dans un tableau de

 nij ( xi  x).( y j  y )
contingence: cov( X , Y )  i , j
n
• La covariance: cas de données brutes:
 ( x  x).( y  y)
i
i i
cov( X , Y ) 
n
Propriétés de la covariance
n x y
i, j
ij i j (formule de Kœnigs, cas de
cov( X , Y )   x. y tableau de contingence)
n
x y
i
i i
(formule de Kœnigs, cas de
cov( X , Y )   x. y données brutes)
n
2
cov( X , X )   ( X )
cov( X , Y )  cov( Y , X ) (symétrie)
cov( X   , Y )  cov( X , Y ) (stabilité par translation)

cov(X ,  Y )   cov( X , X )
cov( X , Y )   ( X ). (Y )
Propriétés du coefficient de
corrélation
r ( X , Y )  r (Y , X ) r (X ,  Y )  r ( X , Y )
r( X ,Y )  1
Si X et Y sont indépendan tes alors : cov( X , Y )  r ( X , Y )  0
 1 si a  0
Si Y  aX  b alors : r ( X , Y )  
 1 si a  0
Propriétés du coefficient de corrélation
le coefficient r mesure les liaisons linéaires (le long d’une droite)
entre les variables X et Y, et cette dépendance linéaire est
d’autant plus forte que |r| est proche de 1
Ajustement linéaire
Détermination de la « meilleure » droite
au sens des moindres carrés
La droite de régression linéaire:
« La meilleure droite au sens des moindres carrés »
Si la droite cherchée a pour équation: y  ax  b
Pour chaque x i :
La valeur approchée par la fonction en utilisant cette droite est:
yˆ i  axi  b
La différence entre la valeur observée y i et la valeur approchée

est alors: n n
2 2
 i i  i
( ˆ
y
i 1
 y )  ( ax  b  y
i 1
i )
Qu’on notera:
f (a, b)   (axi  b  yi ) 2
La meilleur droite est celle qui correspond à une valeur minimale de

cette distance
« la meilleure droite au sens des moindres carrés »
Une étude mathématique (détermination des extremums d’une

fonction), permet d’avoir:
cov( X , Y )
a 2
et b  y  a x
 (X )
Valeurs obtenues par la méthode dite des moindres carrés.
cov( X ,Y )
C’est-à-dire: y  2
x  ( y  a x) est l’équation de la
 (X )
droite dite de régression linéaire de y en x.
(ou droite d’ajustement de y en x)

« la meilleure droite au sens des moindres carrés »
cov( X ,Y )
Dans cette régression: y  2
x  ( y  a x)
 (X )
Y est la variable expliquée ou dépendante

X est la variable explicative ou indépendante.
Une régression linéaire y  a x  b permet de

prédire la valeur de Y pour un nouveau individu
connaissant seulement la valeur de X

Presentation1 - PROBA-STAT-GEGM 2022-2023

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Presentation1 - PROBA-STAT-GEGM 2022-2023

Transféré par

Droits d'auteur :

Formats disponibles

FACULTE DES SCIENCES ET TECHNIQUES

Filière : Tronc commun GEGM

Module: Statistique descriptive et

Pr. Mohamed HANINI

Dépendance, indépendance, Ajustement

Chp.3- espace de probabilités et Espace de probabilité : conditionnement,

Chp.4- Variables aléatoires Variables aléatoires discrètes (loi de Bernoulli, loi

Chp.5- Variables aléatoires

Indépendance, covariance, lois

Ensembles de méthodes scientifiques dont la

• Etape1 : collecte des données

• La population statistique (ou champ d'étude) est L’ensemble

Lors du recensement général de la population et de l’habitat

• Questions : qui va-t-on interroger ? Que va-t-on mesurer ?

• Moyen de transport: maritime, aérien,

• Quantité stockée d’un produit

Dans le cas des variables ordonnées:

• La fréquence cumulée croissante : La proportion de la

Dans le cas des variables ordonnées:

• L’effectif cumulé décroissant : qui représente le

• La fréquence cumulée décroissante : La proportion de

classes Effectif Centre de Effectif Fréquences

Propriétés des classes

Remarque: dans le cas d’amplitude constante, la correction est inutile

Diagramme circulaire représentant la répartition des employés

classes Effectif Fréquence

Remarque: dans le cas d’amplitude

La hauteur du rectangle est proportionnelle à la densité d’effectif

Ces paramètres permettent de donner un ordre

• Si les données sont sous la forme brute:

• Si le caractère est continu, xi désigne le milieu

La moyenne est très sensible aux valeurs extrêmes/exceptionnelle

• Le (ou les) mode (s) est la modalité de la série

Valeur pour laquelle la fréquence cumulée est

• Particulièrement adaptée pour des distributions très

• Si on ajoute le même nombre k à toutes les valeurs de

• Si on multiplie toutes les valeurs de la série statistique

[50; 70[ 60 6 0,08 0,08

la puissance du moteur/le nombre d’accidents commises 0 1 2 3

La puissance X / nombre d’accidents Y 0 1 2 3

La puissance / nombre d’accidents 0 1 2 3

La puissance X / nombre d’accidents Y 0 1 2 3 Distribution marginale de X

Si les deux variables étaient indépendantes: la distribution conditionnelle

Mesurer la force de dépendance

Décision (X)/résultat(Y) Faillite Pas de faillite Distribution marginale de X

1- les variables X et Y sont elles indépendantes?

On mesure la distance entre les deux tableaux par:

Mesurer la force de dépendance

• La covariance : cas de données dans un tableau de

cov( X   , Y )  cov( X , Y ) (stabilité par translation)

La différence entre la valeur observée y i et la valeur approchée

La meilleur droite est celle qui correspond à une valeur minimale de

Une étude mathématique (détermination des extremums d’une

Valeurs obtenues par la méthode dite des moindres carrés.

(ou droite d’ajustement de y en x)

Y est la variable expliquée ou dépendante

Une régression linéaire y  a x  b permet de

Vous aimerez peut-être aussi