Vous êtes sur la page 1sur 80

FACULTE DES SCIENCES ET TECHNIQUES

SETTAT
Département de Mathématiques et Informatique
Année universitaire :2022-2023

Filière : Tronc commun GEGM

Module: Statistique descriptive et


Probabilités

Pr. Mohamed HANINI


mohamed.hanini@uhp.ac.ma
Plan du cours
Tableaux des données, diagrammes,
Chp.1- Statistique à une variable
paramètres de position, de dispersion

Dépendance, indépendance, Ajustement


Chp.2- Statistique à deux variables
linéaire, méthode des moindres carrées.

Chp.3- espace de probabilités et Espace de probabilité : conditionnement,


dénombrement indépendance.

Chp.4- Variables aléatoires Variables aléatoires discrètes (loi de Bernoulli, loi


discrètes. binomiale, loi de Poisson).

Chp.5- Variables aléatoires


Loi normale, loi exponentielle, loi de Cauchy.
continues.

Indépendance, covariance, lois


Chp6.- Couple de variables aléatoires,
marginales
1
Chapitre :
Statistique descriptive à une variable
Introduction et définitions
Qu’est-ce que la statistique?

Ensembles de méthodes scientifiques dont la


finalité est de présenter les données pour que
l'on puisse en prendre connaissance
facilement.
Et pouvoir prendre des décisions objectives

Statistique

Descriptive Inférentielle
Introduction
Les problématiques de la statistique descriptive

Objectifs :
– Résumer, synthétiser l’information contenue dans
une série statistique, mettre en évidence ses
propriétés.
Outils utilisés :
– Tableaux (table des fréquences,..)
– Graphiques (diagrammes, histogrammes,..)
– indicateurs (moyenne, corrélation,..).
Introduction et définitions
Etapes d’une étude statistique

• Etape1 : collecte des données


– Recensement=Etude de tous les individus d’une population.
Difficile en pratique lorsque les populations sont grandes pour
des questions de coût et de temps.
– Sondage= recueil d’une partie de la population. La partie des
individus étudiés s’appelle l’échantillon. Le recueil d’un
échantillon à partir de la population initiale se fait par des
techniques statistiques, appelées méthodes d’échantillonnage.
• Etape2 : Traitement des données
Trier les données et les organiser en tableaux, diagrammes, calcul des
indices etc...
• Etape3 : exploitation des résultats
Interpréter les résultats ; faire des généralisations, des prévisions…
Définitions de base
terminologie statistique

• La population statistique (ou champ d'étude) est L’ensemble


sur lequel porte l'étude statistique.
Remarque : la population n'est pas forcément un ensemble de
Personnes - ex : parc automobile marocain, . . .
• Un individu est un élément de la population.
• Si la population est trop grande (i.e. trop d'individus) on fait
généralement l'étude sur une partie de la population. Cette
partie est appelée échantillon.
• La variable statistique ou caractère statistique est ce que l'on
observe/mesure chez les individus de la population.
• Chacun des caractères étudiés peut présenter deux ou
plusieurs modalités. Les modalités sont les différentes
situations où les individus peuvent se trouver à l’égard du
caractère considéré.
Définitions de base
Exemple de problème

Lors du recensement général de la population et de l’habitat


au Maroc (RGPH : septembre 2014) on désire étudier
plusieurs caractéristiques de la population marocaine :
– Le nombre d’individus par ménage
– Le sexe du chef de ménage (homme ou femme)
– L’âge de la population marocaine
– La quantité stockée d’un produit
– Le couple (niveau d’étude du chef de ménage, nombre
d’individus par ménage)

• Questions : qui va-t-on interroger ? Que va-t-on mesurer ?


• Quelles sont les « valeurs » possibles?
Définitions de base
Exemple de problème

• Moyen de transport: maritime, aérien,


ferroviaire, routier
• Nombre de retard.
• Temps de transport : durée

• Quantité stockée d’un produit


• Quantité demandée
Types de variables statistiques
Variable qualitative Variable qualitative nominale : dont les modalités ne sont pas
ses valeurs, ou modalités, ordonnées. Exemple :
s'expriment de façon littérale  Marque de voiture ;
ou par un codage sur lequel les  Sexe : homme, femme
opérations arithmétiques telles Variable qualitative ordinale : dont les modalités sont
que moyenne, somme, ... , naturellement ordonnées. Exemple :
n'ont pas de sens.  Niveau de satisfaction : bon, moyen…
 Utilisation d’un outil : rare, souvent …
 Niveau de résistance d’un matériau : très résistant, assez
résistant, peu résistant,
Variable quantitative : Variable quantitative discrète: si elle ne peut prendre que des
Une variable statistique est valeurs discrètes, représentées généralement entières. Exemples:
quantitative si ses valeurs sont • Nombre d’années de redoublement dans la scolarité des
des nombres exprimant une étudiants;
quantité, sur lesquels les • Nombre d’enfant par famille dans un échantillon de 20
opérations arithmétiques familles.
(somme, etc...) ont un sens. Variable quantitative continue: si ses valeurs peuvent être
n'importe lesquelles d'un intervalle réel. Exemples:
• Tailles des étudiants d’une section MIP;
• Revenus mensuels des chefs de ménage.
Analyse statistique
descriptive à une variable
(Unidimensionnelle)
Présentation des données
Exemple: données brutes
lors d’une enquête sur le nombre de voyages
effectués par les conducteurs dans une agence
de transport pendant une semaine sur un
échantillon de 60 conducteurs , on a obtenu les
résultats suivants :
Données brutes:
000111112222 2 222223333333
3344444 444444444455555555
5566666677
Présentation des données
Exemple: distribution statistique (xi,ni)
Nombre de voyages
Effectif (ni )
(xi )
0 3
1 5
2 10
3 9
4 15
5 10
6 6
7 2
Total (n) 60
Fréquences, fréquences cumulées…
• La fréquence : représente la proportion de la
ni
population prenant la valeur xi fi  où n   ni
n i

Pourcentage : pi  f i  100%

Dans le cas des variables ordonnées:


• L’effectif cumulé croissant : qui représente le nombre
d’individus de la population prenant au plus la valeur xi
c
N i  
x j  xi
n j

• La fréquence cumulée croissante : La proportion de la


population prenant au plus la valeur xi Fi c   f j
x j  xi
Fréquences, fréquences cumulées…

Dans le cas des variables ordonnées:

• L’effectif cumulé décroissant : qui représente le


nombre d’individus de la population prenant au moins
la valeur xi d
N i
 
x j  xi
n j

• La fréquence cumulée décroissante : La proportion de


la population prenant au moins la valeur xi d
Fi  
x j  xi
fj
Exemple: variable quantitative discrète
Effectifs
Nombre de Effectifs Fréquence
Effectif cumulés Fréque
voyages (xi cumulés cumulée
(ni ) décroissant nce (fi)
) croissant (Ni) (Ni) croissante(Fi)
0 3 3 60
0,05 0,05
1 5 8 57
0,08 0,13
2 10 18 52
0,17 0,30
3 9 27 42
0,15 0,45
4 15 42 33
0,25 0,70
5 10 52 18
0,17 0,87
6 6 58 8
0,10 0,97
7 2 60 2
0,03 1,00
Total (n) 60
1,00
Exemple: variable quantitative continue
Données brutes
On a noté l’âge des 20 clients dans une agence de transport, les résultats
obtenus sont:
20, 36, 52, 66, 25, 36, 54, 68, 74, 60, 40, 25, 60, 32, 45, 45, 32, 49, 64, 48.
1. Présenter la distribution de la variable âge
2. Présenter les données, groupées dans 4 classes d’amplitudes égales dont
la valeur minimale est 20 et la valeur maximale est 80.
3. Calculer un centre de classe, désigné par ci; les fréquences; les fréquences
cumulées croissantes et décroissantes
variable quantitative continue
distribution de classe

Exemple: 20, 36, 52, 66, 25, 36, 54, 68, 74, 60, 40, 25, 60, 32, 45, 45, 32, 49, 64, 48.

classes Effectif Centre de Effectif Fréquences


[Ci,Ci+1[ ni classes Fréquenc cumulé cumulées
es croissant décroissant
[20,35[ 5 27,5
[35,50[ 7 42,5
[50,65[ 5 57,5
[65,80[ 3 72,5
Variable quantitative continue

Propriétés des classes


• Les classes sont mutuellement exclusives:
disjointes deux à deux
• Les classes doivent être exhaustives: couvrent
toute la population
Les représentations graphiques
cas de classes d’amplitudes différentes: correction d’effectif

Exemple: répartition de 20 étudiants selon les notes obtenues dans une épreuve de statistique
classes [Ci,Ci+1[ Effectif ni amplitude de la classe (longueur Densité d’effectif (effectif
de classe: Li=Ci+1 - Ci ) corrigé): di=ni/Li
[0,5[ 2 5 0.4
[5,8[ 3 3 1
[8,10[ 6 2 3
[10,14[ 5 4 1,25
[14,16[ 3 2 1,5
[16,20 [ 1 4 0,25

effectif
di 
l ' amplitude

Remarque: dans le cas d’amplitude constante, la correction est inutile


Les représentations graphiques
Les représentations graphiques
Variable qualitative/quantitative : diagramme en « bâtons »
Exemple : Répartition des salariés d’une entreprise selon la catégorie
sociaux professionnelle :

La longueur de chaque
« bâton » est
proportionnelle à
l’effectif (ou à la
fréquence de la
modalité
correspondante)
Les représentations graphiques
Variable qualitative: diagramme en secteurs (circulaire ou en Camembert)

L’angle ai au centre du
secteur représentant
une modalité xi est
proportionnel à l’effectif
(ou à la fréquence de
cette modalité):
ai = 360° x fi

Diagramme circulaire représentant la répartition des employés


Les représentations graphiques
Variable quantitative continue: Histogramme
Exemple;: répartition des 71 employés d’une entreprise selon leurs salaires mensuels (en Dh)

classes Effectif Fréquence


[1500,2000[ 12 0,17
[2000,2500[ 5 0,07
[2500,3000[ 5 0,07
[3000,3500[ 10 0,14 Le rectangle construit sur chaque
[3500,4000[ 30 0,42 classe a:
[4000,4500[ 6 0,08 •une surface égale Si =ni (l’effectif de
[4500,5000[ 3 0,04 la classe)
• Et alors; la hauteur du rectangle
(valeur sur l’axe des ordonnées) est la
densité : n i
di  où ai est l ' amplitude
ai

Remarque: dans le cas d’amplitude


constante, la hauteur représenter l’effectif
Les représentations graphiques
Variable quantitative continue: Histogramme
cas de classes d’amplitudes différentes
Exemple: répartition de 20 étudiants selon les notes obtenues dans une épreuve de statistique
classes [Ci,Ci+1[ Effectif ni amplitude de la classe (longueur Densité d’effectif (effectif
de classe: Li=Ci+1 - Ci ) corrigé): di=ni/Li
[0,5[ 2 5 0.4
[5,8[ 3 3 1
[8,10[ 6 2 3
[10,14[ 5 4 1,25
[14,16[ 3 2 1,5
[16,20 [ 1 4 0,25
Les rectangles dont les bases sont les classes ont des aires proportionnelles aux
fréquences (ou effectifs) de ces classes:

La hauteur du rectangle est proportionnelle à la densité d’effectif

effectif
di 
l ' amplitude
Remarque: dans le cas d’amplitude constante, la hauteur représente l’effectif
Les paramètres numériques d’une
variable statistique quantitative

Objectif:
concentrer en un petit nombre de valeurs
l’information contenue dans une série
statistique.
Les paramètres de position

Ces paramètres permettent de donner un ordre


de grandeur général des observations:
• La moyenne
• Le mode
• La médiane
Les paramètres de position
La moyenne arithmétique: propriété fondamentale

Propriété:
La moyenne est le réel le plus proche à toutes les observations (au sens
de la distance Euclidienne).

2 2
 i
(
i
x  x )   i
(
i
x  x ) , pour tout autre nombre réel x
Les paramètres de position
La moyenne arithmétique
• La moyenne arithmétique d’une distribution
statistique (xi,ni) est la valeur :
1
x   n .x   f .x
n i
i i
i
i i

• Si les données sont sous la forme brute:


1
x 
n

i
xi

• Si le caractère est continu, xi désigne le milieu


c c
c , c 
de la classe i i 1 est: x 
2
i
i i 1
Les paramètres de position
La moyenne arithmétique: propriétés
Si x et y sont deux variables quantitatives observées chez les individus
de la même population et tel que x+y ait un sens,

x y  x y
La moyenne d’une transformation linéaire est une transformation
linéaire de la moyenne.

 .x     .x   .
où  et  sont deux constantes réelles
Exemples
Exemple1:
sachant que la prestation moyenne versée par une assurance
à ces assurés en immobilier est 10 000dh et celle versée aux
assurés pour des dommages corporels est 3 000dh.
Quelles le montant moyen des prestations versées par cette
assurance?

Exemple2:
Une banque décide d’appliquer une réduction de 1% sur les
frais payés par chaque client.
Sachant que les clients paient en moyen 50dh par mois; quel
est le montant moyen des frais payés par un client après
application de la réduction?
Les paramètres de position
La moyenne arithmétique: défaut
On considère deux entreprises de 5 employés chacune.
•Entreprise 1: x1  4000
Les salaires des employés sont les suivants (en dh):
3500 4000 3700 4600 4200
•Entreprise 2: x 2  5000 dh
Les salaires des employés sont les suivants (en dh):
1000 2000 1000 1000 20 000

La moyenne est très sensible aux valeurs extrêmes/exceptionnelle


Les paramètres de position
Le mode: définition

• Le (ou les) mode (s) est la modalité de la série


d’effectif maximal
• La classe modale est la classe de densité maximale.
• Il peut y en avoir plusieurs modes (on parle alors de
distribution bimodale ou plurimodale/ multimodale).
• Exemple:
On considère les séries d’observations suivantes ,
déterminer le mode dans chaque cas :
i. 3; 5; 8; 8; 8; 10; 10; 10; 10; 10; 14; 18; 20; 24; 24
ii. 4; 8; 10; 10; 10; 10; 14; 18; 22; 22; 22; 22; 26
iii. 5; 11; 14; 17; 18; 21; 23; 26; 29; 30; 32; 35; 38
Les paramètres de position
Le mode: propriétés
• Avantages:
• Le mode est facilement détecté sur le diagramme
en bâtons ou l'histogramme.
• Convient aussi aux données qualitatives.
• N’est pas affecté par les valeurs exceptionnelles.
• Défauts:
• varie si l’on modifie l’amplitude de classe.
• Une distribution peut avoir un ou plusieurs
modes.
Les paramètres de position
La médiane: définition
Lorsque les données sont ordonnées de manière
croissante:
La médiane d’une série statistique est le réel qui
partage la population en deux parties de même
effectif.
x 1
2

5 0 % 5 0 %

Valeur pour laquelle la fréquence cumulée est


égale à 0.50.
Les paramètres de position
La médiane: méthode de détermination
Cas discret:
Si on considère les données sous leur forme brute,
la médiane correspond à la valeur :
x 1  x( n1) / 2 : Si n est impair
2
xn  x n
1
x1  2 2 : Si n est pair
2 2
Les paramètres de position
La médiane: méthode de détermination
Cas continu:
1 1
On cherche la classe c i , c i 1  telle que F (ci )  et F (ci 1 )  ,
2 2
la médiane est alors déterminée par interpolation linéaire
de F sur l’intervalle . On a alors :
•En terme de fréquence: 0.5  F (c ) i
x 1  c i  (c i 1  c i )
2 fi
•En terme d’effectif: N
 N (ci )
x 1  ci  (ci 1  ci ) 2
2 ni
Remarque:
Sur le tableau de distribution, F (ci ) désigne la fréquence
cumulée à la classe  c , c 
i 1 i
Les paramètres de position
La médiane: propriétés

• Particulièrement adaptée pour des distributions très


étalées pour lesquelles la moyenne pondère les valeurs
extrêmes.

• Si on ajoute le même nombre k à toutes les valeurs de


la série statistique, la médiane augmente de k

• Si on multiplie toutes les valeurs de la série statistique


par un même nombre k, la médiane est multipliée par
k.
• Se prête mal aux calculs algébriques
Les paramètres de position
La médiane: exemples (1)

Réponse:
Les paramètres de position
La médiane: exemples (2)

Réponse:
Les paramètres de position
La médiane: exemples (3)
Répartition du nombre d’heures de travail
Centres de fréquence
Classes Effectifs ni fréquence
classes cumulée

[50; 70[ 60 6 0,08 0,08


[70; 100[ 85 9 0,12 0,20
[100; 130[ 115 15 0,20 0,40
[130; 150[ 140 23 0,31 0,71
[150; 180[ 160 17 0,23 0,93
[180; 200[ 190 5 0,07 1,00
Total 75 1,00
Réponse: 0.5  0.40 37.5  30
med  130  20.  130  20.  136.45
0.31 23
Les paramètres de position
autres paramètres: les fractiles

les quartiles:
x1/4 (1er quartile) et x3/4 (3ème quartile) : les valeurs pour lesquelles F
vaut 1/4 ou 3/4.
x 1
4
x3
4
2 5 % 2 5 %

Calculs:
Ils se calculent de la même manière que la médiane : même formule en
remplaçant 1/2 par 1/4 (ou 3/4)
Les déciles, les centiles:
On définirait de même les déciles, centiles...
Les paramètres de dispersion
Introduction
• Exemple : la température moyenne dans les villes
d’Essaouira et une ville du Sahara n’est pas à elle seule
suffisante pour donner une idée du climat des deux
villes (les 2 températures moyennes seraient proches).
Mais c’est plutôt la variabilité de la température dans
chacune des 2 villes qui donnerait plus de précision
pour la nature du climat.
• Pour exprimer les caractéristiques d'un échantillon, il
est nécessaire de compléter les paramètres de position
par des paramètres de dispersion, qui mesureront la
variabilité des données.
– L’étendu
– La variance et l’écart type
– Le coefficient de variation:
Les paramètres de dispersion
L’étendu
L'étendue ou intervalle de variation:
e  x max  x min
Propriétés :
• L'étendue « e » est calculée en fonction des valeurs
extrêmes : elle est très sensible aux valeurs
aberrantes
• L’étendue a la même unité que les données
• Si on ajoute une même constante à toute les valeurs,
l’étendue reste constante
• Si on multiplie toutes les valeurs par une même
constante, l’étendue est multipliée par cette
constante
Les paramètres de dispersion
L’écart inter-quartiles
L’écart inter-quartiles:
e  x3 / 4  x1/ 4
Propriétés :
L’intervalle interquartile contient 50% des observations
les plus au centre de la distribution.
x 1 x 3
4 4

5 0 %
Les paramètres de dispersion
La variance et l’écart type :
La variance :
 si les valeurs sont munies de leurs effectifs (distribution) :
1
Var ( X )   ( X )   ni .( xi  x) 2
2

n i
 si les valeurs sont présentées brutes :
1
Var ( X )   ( X )   ( xi  x) 2
2
Remarque: n i
la variance n’est pas utile pour une éventuelle interprétation (à cause de son unité)

l’écart type:
Remarque:
 ( X )  var( X )
l‘écart type s’exprime dans la même unité que les données, ce qui rend son
interprétation plus facile que celle de la variance
Les paramètres de dispersion
La variance et l’écart type :
Propriétés :
1
var( X )   ni .xi 2  ( x) 2 Formule de Kœnigs (cas de distribution

n i
1 2 2
var( X )   .xi  ( x) Formule de Kœnigs (cas brute

n i
var(  X )  var( X )  ( X )    ( X )
var( X )   2 var( X )  (  X )   ( X )
Démonstration en exercice
Les paramètres de dispersion
Le coefficient de variation:
Définition:
 (X )
cv( X )  lorsque : X  0
X
Propriétés:
•C’est un paramètre de dispersion sans unité
•Il peut être utilisé pour comparer la dispersion de deux
populations
Exemple
Le tableau suivant donne la répartition et le gain annuels en
bourse de 100 adhérents à un club d’investissement.
Compléter ce tableau pour répondre aux questions
suivantes :
Perte et gain en 1000 dh nombre d'adhérents
[-30 ;-20[ 8
[-20 ;-10[ 18
[-10 ;0[ 22
[0 ;10[ 24
[10 ;20[ 16
[20 ;30[ 12

a) Déterminer la moyenne
b) Déterminer la variance et l’écart type.
c) Tracer l’histogramme
Représentation graphique des paramètres
« La boite à moustaches »
c’est un graphique qui résume les caractéristiques numériques d’une distributions statistique

Remarques :
• noms: « diagramme en boite » , « boite à pattes » ou encore « diagramme de
Tukey», « Box Plot ».
• c’est un moyen pour comparer un même caractère sur plusieurs séries statistiques.
Représentation graphique des paramètres
La boite à moustaches: exemple
Représentation graphique des paramètres
La boite à moustaches: exemple (solution)
Statistique à deux variables
Présentation des données
Exemples introductifs
Un directeur d’agence bancaire désire connaitre s’il y a une relation
entre l’insolvabilité d’un client et son âge.
Pour cela il dresse le tableau statistique suivant (suivi d’un
échantillon de 10 clients pendant une durée donnée)
Client Age du client xi Nombre de situation « insolvable » yi
1 30 3
2 48 1
3 50 0
4 50 2
5 55 0
6 42 2
7 60 1
8 42 1
9 18 4
10 66 1
(données sous format brute)
Exemples introductifs
1- Pour déterminer les tarifs d’assurance auto, une compagnie
d’assurance désire savoir si le risque d’accident pour une voiture est
une fonction de la puissance du moteur.
Pour cela elle peut réaliser une étude statistique des deux variables:
X: le nombre d’accidents commises
Y: la puissance du moteur.

la puissance du moteur/le nombre d’accidents commises 0 1 2 3


6
7
8
9

tableau de contingence
Exemples introductifs
Une société de transport souhaite connaître le taux de satisfaction de
ses clients (désigné par la variable Y, et noté de 1à 4) suivant le
moyen de transport utilisé (désigné par la variable X). Elle obtient le
tableau suivant :

Y
1 2 3 4
X

Camion 6 8 4 2

Train 3 5 3 4

Avion 3 4 2 1
Représentation des données
tableau de contingence
Exemple : Répartition de 80 véhicules selon le couple de
variable (X,Y)= (puissance, nombre d’accidents).
nij dans la cellule intersection de la ligne i et de la colonne j =
nombre d’individus ayant en même temps la modalité xi pour
la variable X et la modalité yj pour la variable Y.
Tableau de contingence en effectif du couple (X,Y)

La puissance X / nombre d’accidents Y 0 1 2 3


6 2 5 3 3
7 5 4 4 1
8 6 2 5 3
9 4 3 6 4
Représentation des données
tableau de contingence
Tableau de contingence en fréquence du couple (X,Y)

La puissance / nombre d’accidents 0 1 2 3


6 0,03 0,08 0,05 0,05
7 0,08 0,07 0,07 0,02
8 0,10 0,03 0,08 0,05
9 0,07 0,05 0,10 0,07
n ij
La fréquence du couple (xi,yj) est : f ij 
n
n  
i, j
n ij taille totale de la population
Etude marginale
Distribution marginale de X en effectif

La puissance X / nombre d’accidents Y 0 1 2 3 Distribution marginale de X


6 2 5 3 3 13
7 5 4 4 1 14
8 6 2 5 3 16
9 4 3 6 4 17
Distribution marginale de X 17 14 18 11 60
La distribution à une dimension de chacun des caractères X et Y peut être obtenue en
sommant les effectifs sur l’un des indices i ou j.
n i .   j
n ij : représente l’effectif des individus ayant la modalité xi (indépendamment de la variable Y)

n.j  
i
n ij : représente l’effectif des individus ayant la modalité yj (indépendamment de la variable X)
Distribution marginale de X en fréquence :
n i.
f i . 
n
où : n   i
n i.   j
n . j
Etude conjointe des deux variables
fréquences conditionnelles
Les fréquences conditionnelles de Y sachant que (X = xi) sont les
fréquences obtenues en ne regardant que la i-ème ligne du
tableau. La population se limite alors aux individus ayant la
modalité xi pour la variable X.
• Fréquences conditionnelle de Y/X=i
• A i fixé on a: n ij f ij
f j / i  f j /( X  x i )   pour tout j  1,..., l 
ni . f i.
La puissance X / nombre d’accidents Y 0 1 2 3
6 0,15 0,38 0,23 0,23 1
7 0,36 0,29 0,29 0,07 1
8 0,38 0,13 0,31 0,19 1
9 0,24 0,18 0,35 0,24 1
Représentation graphique
Etude conjointe de deux variables

Reconnaitre l’indépendance
Indépendance et fréquences
conditionnelles
La puissance X / nombre d’accidents Y 0 1 2 3
6 0,15 0,38 0,23 0,23 1
7 0,36 0,29 0,29 0,07 1
8 0,38 0,13 0,31 0,19 1
9 0,24 0,18 0,35 0,24 1

Si les deux variables étaient indépendantes: la distribution conditionnelle


du nombre d’accidents ne devrait pas dépendre de la puissance du
véhicule
f j /( X  x i )  f j ' /( X  x i )
 i  1,..., k , et  j , j '  1,..., l 
Etude conjointe des deux variables
caractérisation de l’indépendance
• Si les distributions conditionnelles de X sont
indépendantes de l’indice i de la ligne choisie, On
dit alors que X et Y sont indépendantes.
• Dans ce cas, on aura :
f ij f
i
ij
f. j
 
f i. f
i
i. 1
On a donc X et Y sont indépendantes si: pour tout couple (i,j)

ni . .n. j
f ij  f i . . f . j ou en effectif: nij 
n
Etude conjointe des deux variables
reconnaitre l’indépendance
• Dans un tableau de fréquences:
Vérifier la formule:

f ij  f i . . f . j
• Dans un tableau de distribution conditionnelle:
Les distributions conditionnelles sont les mêmes par
ligne (colonne)
Etude conjointe de deux variables

Mesurer la force de dépendance


Etude conjointe des deux variables
Reconnaitre et mesurer la dépendance
Sur 80 entreprises classées ayant des problèmes économiques, 48 décident une
modernisation de la gestion. Au bout de la période d’observation on constate que 25
d’entre elles ont faillite et que, sur les 32 entreprises qui n’ont pas modifié leur gestion,
25 ont fait faillite.

Décision (X)/résultat(Y) Faillite Pas de faillite Distribution marginale de X


Modernisation 25 23 48
Conservation 25 7 32
Total 50 30 80

1- les variables X et Y sont elles indépendantes?


2- Si non:
•Donner le tableau de fréquence correspondant à la situation d’indépendance entre X
et Y.
•Donner le tableau d’effectif correspondant à la situation d’indépendance entre X et Y.
reconnaitre et mesurer la dépendance
distance de khi-deux
on considère les deux tableaux de contingence:
: Oi (observés)

: Ti (théoriques)

On mesure la distance entre les deux tableaux par:


: distance de khi-deux X2
Etude conjointe de deux variables

Mesurer la force de dépendance


De variables quantitatives
Représentation graphique
Nuage de points
Nombre de
Age du situation «
Client client xi insolvable » yi
1 30 3
2 48 1
3 50 0
4 50 2
5 55 0
6 42 2
7 60 1
8 42 1
9 18 4
10 66 1
Paramètres d’une distribution à deux
dimensions
• Comme en une dimension, et en utilisant les
distributions marginales, on peut calculer les
paramètres relatifs à chacune des variables X et Y, on
aura alors les couples :
• Point moyen : ( x, y )
2 2
• Point variance : ( S ( X ), S (Y ))
• ..
Mesurer la dépendance entre deux variables
Pour quantifier la relation linéaire de dépendance
entre deux variables on utilise :
Le coefficient de corrélation linéaire :
cov( X , Y )
r ( X ,Y ) 
 ( X ). (Y )
représente un cosinus entre angle de vecteur X et Y

• La covariance : cas de données dans un tableau de


 nij ( xi  x).( y j  y )
contingence: cov( X , Y )  i , j
n
• La covariance: cas de données brutes:
 ( x  x).( y  y)
i
i i
cov( X , Y ) 
n
Propriétés de la covariance
n x y
i, j
ij i j (formule de Kœnigs, cas de
cov( X , Y )   x. y tableau de contingence)
n

x y
i
i i
(formule de Kœnigs, cas de
cov( X , Y )   x. y données brutes)
n
2
cov( X , X )   ( X )
cov( X , Y )  cov( Y , X ) (symétrie)

cov( X   , Y )  cov( X , Y ) (stabilité par translation)


cov(X ,  Y )   cov( X , X )

cov( X , Y )   ( X ). (Y )
Propriétés du coefficient de
corrélation
r ( X , Y )  r (Y , X ) r (X ,  Y )  r ( X , Y )

r( X ,Y )  1
Si X et Y sont indépendan tes alors : cov( X , Y )  r ( X , Y )  0

 1 si a  0
Si Y  aX  b alors : r ( X , Y )  
 1 si a  0
Propriétés du coefficient de corrélation
le coefficient r mesure les liaisons linéaires (le long d’une droite)
entre les variables X et Y, et cette dépendance linéaire est
d’autant plus forte que |r| est proche de 1
Ajustement linéaire
Détermination de la « meilleure » droite
au sens des moindres carrés
La droite de régression linéaire:
« La meilleure droite au sens des moindres carrés »
Si la droite cherchée a pour équation: y  ax  b
Pour chaque x i :
La valeur approchée par la fonction en utilisant cette droite est:

yˆ i  axi  b

La différence entre la valeur observée y i et la valeur approchée


est alors: n n
2 2
 i i  i
( ˆ
y
i 1
 y )  ( ax  b  y
i 1
i )
Qu’on notera:
f (a, b)   (axi  b  yi ) 2

La meilleur droite est celle qui correspond à une valeur minimale de


cette distance
La droite de régression linéaire:
« la meilleure droite au sens des moindres carrés »

Une étude mathématique (détermination des extremums d’une


fonction), permet d’avoir:
cov( X , Y )
a 2
et b  y  a x
 (X )

Valeurs obtenues par la méthode dite des moindres carrés.

cov( X ,Y )
C’est-à-dire: y  2
x  ( y  a x) est l’équation de la
 (X )
droite dite de régression linéaire de y en x.

(ou droite d’ajustement de y en x)


La droite de régression linéaire:
« la meilleure droite au sens des moindres carrés »

cov( X ,Y )
Dans cette régression: y  2
x  ( y  a x)
 (X )

Y est la variable expliquée ou dépendante


X est la variable explicative ou indépendante.

Une régression linéaire y  a x  b permet de


prédire la valeur de Y pour un nouveau individu
connaissant seulement la valeur de X

Vous aimerez peut-être aussi