Vous êtes sur la page 1sur 50

Méthodes Quantitatives

Professeurs :
Denis Dupré et Youssef Khoali
Conception : Denis Dupré, Sonia Jimenez et Mohamed Zouaoui – Abdoul Cissé (2009)

Site internet : http://perso.wanadoo.fr/denis.dupre/


1
Plan du cours

 Statistiques élémentaires
 Analyse bivariée
 Éléments de probabilité
 Estimation, intervalles de confiance
 Sondages
 Tests statistiques
 La régression linéaire

2
Statistiques élémentaires

3
Statistiques descriptives

 Définition: ensemble de techniques permettant


d’obtenir de l’information à partir d’observations
nombreuses
 Permet de se renseigner sur des faits pour prendre les
meilleurs décisions

 Utilisation:
 Comptabilité, finance
 Séries chronologiques sur des bilans ou comptes de résultats, gestion du capital,
trésorerie, opérations avec les banques
 Production
 Gestion des stocks, du matériel, contrôle de la qualité
 Achats, ventes
 Statistiques des ventes, études de marché.

4
Statistiques descriptives : Vocabulaire
 Population
 Ex: l’ensemble des entreprises aux EU

 Échantillon
 Ex: les entreprises recensées dans une base de données

 Caractères
 Qualitatifs

 Ex: destination des voyages


 Quantitatifs
 Discrets
 Ex: Nombre d’incidents sur une machine; nombre de jours d’absence des
employés pendant une période
 Continus
 Ex: Ratios d’endettement des entreprises; taille ou poids des individus
dans une population

5
Statistiques élémentaires

 Statistiques à un caractère qualitatif

 Statistiques à un caractère quantitatif

 Caractéristiques de tendance centrale

 Caractéristiques de dispersion

6
Statistiques à 1 caractère qualitatif
 Les valeurs du caractère étudié (modalités) sont
qualitatives. On ne peut pas les mesurer ou les
ordonner.
 Ex: caractère étudié : destination des voyages
 Présentation des données: tableau par catégorie avec effectifs

Destination Effectifs Fréquences Pourcentages

Europe 2300 0,22 22%

Afrique 1200 0,11 11%

Asie 850 0,08 8%

Amérique du Nord 4800 0,46 46%

Amérique du Sud 1100 0,11 11%

Total 10250 1 100%

7
Statistiques à 1 caractère quantitatif
 Les valeurs du caractère étudié sont quantitatives. On peut les
ordonner, cumuler les fréquences, calculer des moyennes, etc.
 Exemples:
 Discret: Nombre de jours d’absence dans le service « Achats »
 Continu: Les salaires des employés dans une entreprise

%
Classes Effectifs %
Nombre de Nombre cumulés
jours d’employés Fréquence: fi
Moins de 5000 30 30 30
d’absence concernés
5000 - 6000 32 16 46
0 5 19
6000 – 8000 22 22 68
1 8 30
2 6 22 8000 - 10000 11 11 79
3 3 11
4 2 7 10000 - 16000 5 15 94

5 1 4
Plus de 16000 3 6 100
6 2 7

8
Analyse des statistiques à un caractère:
Caractéristiques de tendance centrale
 Le mode
 Le mode d’une série statistique (Mo) est défini comme la
modalité de la variable correspondant à l’effectif le plus élevé.
 La médiane
 La médiane (Me) d’une série est une valeur de la variable telle
que 50% des individus présentent une modalité inférieure et
50% une modalité supérieure à Me.
 La moyenne arithmétique
 La moyenne arithmétique (X ) d’une série quantitative est

définie par la somme des valeurs de X divisée par l’effectif total.


 n   n  n
X    ni X i  /   ni    f i X i
 i 1   i 1  i 1

9
Caractéristiques de tendance centrale :
un exemple
 Ex: Absentéisme dans Jours Nb.
Fréquences
Fréquences
absentéisme employés cumulées
le service Achats
 Le mode
0 5 19 19
 Le mode = 1
1 8 30 49
 La médiane
 Médiane= 2 2 6 22 71

 La moyenne 3 3 11 82
arithmétique 4 2 7 89
 Moyenne = 2
5 1 4 93
 n   n 
X    ni X i  /   ni 
 i 1   i 1  6 2 7 100

10
Quelle mesure de tendance retenir ?

 Tout dépend de ce
qu’on veut étudier.
Nb. employés / jours d'absentéisme
 Le mode: peu utilisé 9

 Médiane: stable 8
7

 Moyenne: informative 6
5

mais instable 4
3
2
1
0
0 1 2 3 4 5 6

11
Analyse des statistiques à un caractère:
Caractéristiques de dispersion
 L’étendue: W = Xmax-Xmin
 L’étendue, ou intervalle de variation d’une série statistique se définit,
uniquement pour des variables quantitatives, comme la différence entre
la plus grande et la plus petite des valeurs de la série.

 Intervalles interquartiles: Q2 – Q1, Q3 – Q2


 Pour un caractère ordinal ou quantitatif, on définit le quantile d’ordre q
(0<q<1) par la valeur de la variable qui correspond à la fréquence
cumulée q.
 Si q=1/4, on obtient 3 quantiles: le premier quartile Q1 tel que ¼ des
individus ont une modalité inférieure, le second Q2 qui est la médiane et
le 3ème Q3 tel que ¾ des individus ont une modalité inférieure.
 L’écart interquartile est la différence entre le plus grand et le plus petit
quartile.

12
Caractéristiques de dispersion (suite)

 La variance
 La variance notée V(X) est la moyenne
arithmétique des carrés des écarts à la moyenne.
 n 2 
n
 n
V ( X )    ni  X i  X   /   ni    f i ( X i  X ) 2
 i 1   i 1  i 1
n
V ( X )   fi X i 2  X 2
i 1

  V (X )

 L’écart-type est la racine carrée de la variance. Il


est exprimé dans la même unité que la moyenne.

13
Exercices d’application

 Tendance centrale et dispersion (Ex.1et Ex.2


du T.D.1)

14
Analyse bivariée

15
Statistiques relatives à deux caractères
quantitatifs
 Exemple 1: couples de variables quantitatives

Entreprises A B C D E F

Résultat
120 180 280 400 600 800
d’expl.

Nb.
25 38 65 85 102 150
employés

 Une représentation graphique naturelle consiste à considérer


chaque couple (résultat d’exploitation, nb employés) comme les
coordonnées d’un point dans la plan muni d’un repère.

16
Tendance centrale et dispersion de la série

Res. d'expl.
 Tendance centrale:Pour chaque série
on peut calculer comme paramètre de 900
800
tendance centrale, les moyennes X 700
et Y . 600
500
400
300
200
100
 Dispersion: pour chaque série, on peut 0
aussi mesurer la dispersion des 0 50 100 150 200

individus autour de leur moyenne. C’est Nb. empl.

ce que l’on appelle la covariance de la


série. 1 n
cov( X , Y )   ( X i  X )  (Yi  Y )
n i 1

17
Ajustement linéaire
 Il s’agit de trouver la droite (Y=aX+b) qui
s’ajuste au mieux au nuage de points Res. d'expl.

900
y = 5,6608x - 42,044
800
 Solutions: R2 = 0,9756
700
 a = Cov(X,Y)/Var(X) 600

b  Y  aX 500
400
300
200

 « L’intensité » du lien entre X et Y est 100


0
mesurée par le coefficient de corrélation 0 50 100 150 200
linéaire (r): Nb. empl.
Cov(X,Y)
r=
 X Y
 On démontre aussi que
r²=Var(Y)expl./Var(Y)totale

18
Exemple 2: variables quantitatives regroupées en classes Mesure
du poids Y et de la taille X pour 100 individus
Y/X 145 155 165 175 185 195 T
 À chaque individu est toujours associé un couple,
mais plusieurs individus peuvent être associés
au même couple de modalités 50 4 3 2 0 0 0 9

 On présente la distribution des 100 individus sous


forme d’un tableau à deux entrées appelé tableau de
60 3 5 5 4 0 0 17
contingence.
 La case coloriée: 4 représente le nombre d’individus
ayant la modalité 50 de Y et 145 de X, soit un individus
70 1 7 10 12 2 0 32
dont le poids est compris entre 45 et 55 KG et la taille
entre 140 et 150 cm.
 On appelle distribution marginale, la distribution des
80 0 0 6 10 8 2 26
individus selon une des variables. Par exemple, le 9
représente le nombre d’individus présentant la
modalité 50 de Y, quelque soit leur modalité sur X.
90 0 0 2 4 5 5 16
C’est la distribution marginale en Y.
 La ligne et la colonne de totaux sont les distributions
marginales de X et Y T 8 15 25 30 15 7 100
 Les lignes et les colonnes sont des distributions
conditionnelles.
 La colonne associée à X=175 représente la
distribution conditionnelle des Y associés à cette valeur de X.
19
Exercice d’application

 Ajustement linéaire (Ex.3 du T.D 1)

20
Éléments de probabilité

21
Événements: définition

 Univers  : ensemble de tous les résultats


possibles
 Ex:  = {1,2,3,4,5,6} ensemble des valeurs possibles d’un dé

 Événement A: ensemble de résultats


possibles de l’expérience, sous ensemble de
.
 Ex: A: « obtenir un nombre impair » => A = {1,3,5}  

 Evénement contraire, événement « A et B »,


« A ou B », événements incompatibles

22
Probabilités: définitions
 Soit  un univers et P() l’ensemble des parties de , c’est-à-dire
l’ensemble des événements que l’on peut définir à partir de . On
appelle probabilité sur , une application p de P() dans [0,1] qui
vérifie:
 P()=1 (l’événement certain a une probabilité de 1)
 Si A et B sont deux événements incompatibles alors
p(A U B)=p(A)+p(B)

 Propriétés
 Pour tout événement A, p(A) appartient à [0,1]

 Événement impossible: p ( )  O

 Événement contraire: p( A)  1  p( A)
 Union d’événements quelconques: p( A  B)  p( A)  p( B)  p( A  B)

23
Probabilités: propriétés (suite)
 Intersection d’événements :
 Événements indépendants: p( A  B)  p( A)  p( B)
 Si la réalisation de B dépend de celle de A (événements non
indépendants):
p( A  B)  p( A)  p( B A)

 P(B/A) est la probabilité conditionnelle de B sachant A.

 Théorème de bayes

 Distribution de probabilité: la connaissance des probabilités associées à


un ensemble d’événement constitue une distribution (ou loi) de
probabilité.

 Événements équiprobables: événements dont les probabilités sont


égales

24
Exercice d’application

 Règle de Bayes (Ex.4 du T.D 1)

25
Variables aléatoires (v.a.)
 Variable aléatoire
 Définition: règle permettant d’associer à tout élément de , un
nombre réel. C’est une application de  dans R, notée X.
 Ex: on jette 2 dés et on appelle X la variable aléatoire égale à la somme
des points lus. X()={2,3,4,…12} avec ={(1,1),(1,2),…(2,1),…(6,6)}
 Probabilité associée
 P(X=2)=1/36 car c’est la probabilité de l’événement (1,1);
p(X=3)=p{(1,2),(2,1)} =2/36
 Distribution de probabilité d’une v.a.
 C’est l ’ensemble des probabilités associées aux différentes valeurs
possibles de X.
 Fonction de répartition
 C’est la fonction F(X)=p(X<x)

26
Espérance mathématique et variance

 Soit deux v.a. discrètes X et Y prenant les valeurs xi et yi avec


les probabilités pi,i = 1, …, n. On définit:

n
 Espérance de X: E(X) = x p
i 1
i i

n
 Variance de X: Var(X) =  p X
i 1
i i  E ( X ) ²

Var(X) = E(X2)-E(X)2

 Covariance: Cov(X,Y) = E{[(X-E(X)]*[Y-E(Y)]}

27
Exercice d’application

 Loi de probabilité, Espérance, Variance et


Covariance (Ex.5 du T.D 1).

28
Lois discrètes
 Les réalisations de la variable aléatoire (X) sont discrètes.
 Loi de probabilité: f(xi) = pi = probabilité de réalisation de xi
 Fonction de répartition: F(xi) = P(Xxi)
 Exemple de loi discrète: nombre de points lus sur deux dés
après un jet

Loi de probabilité
Fonction de répartition F(x)
0,18
1,20
0,16
0,14 1,00

0,12 0,80
0,10
0,60
0,08
0,06 0,40

0,04 0,20
0,02
0,00
0,00 2 3 4 5 6 7 8 9 10 11 12
2 3 4 5 6 7 8 9 10 11 12

29
Exemple
Loi de probabilité Fonction de répartition F(x)

0,18 1,20
0,16
1,00
0,14
0,12 0,80
0,10
0,60
0,08
0,06 0,40
0,04
0,20
0,02
0,00 0,00
2 3 4 5 6 7 8 9 10 11 12 2 3 4 5 6 7 8 9 10 11 12

 Expérience: on jette deux dés et on compte le nombre de


points (Xi);  = {2, 3, …, 12}
Xi: 2 3 4 8 … 11 12
pi: 1/36 2/36 3/36
F(Xi): 0 1/36 4/36 …

30
Exemple de loi discrète: Loi binomiale
 Définition
 Si X suit une loi B(n, p), alors:

 X ={1, …, n};
 P(X=k) = Cnkpk(1-p)n-k
 Propriétés: E(X) = n*p; Var(X) = n*p*q
 Utilisation: Evénements indépendants, qui se répètent et
qui ont deux issues possibles (succès et échec).
 Exemple
 Une entreprise finance 12 forages. Probabilité de trouver du
pétrole après un forage = 20%. Pour éviter la banqueroute, il faut
qu’au moins trois puits donnent du pétrole. Quelle est la
probabilité de faillite?
 Réponse: C100.200.812 + C1210.210.811 + C1220.220.810

31
Exercice d’application

 Loi Binomiale (Ex.6 du T.D 1)

32
Lois continues
 Les réalisations de la variable aléatoire (X) sont
continues
 L’événement X = X0 n’a pas de sens
 En revanche, l’événement « X appartient à l’intervalle [X0-;
X0+] » a un sens
 X est caractérisée par :
 La loi de probabilité f(x) : associe à chaque réalisation xi une
valeur f(xi) appelée densité de probabilité
 La fonction de répartition F(x) : représente une fonction F(x)
telle que Proba (xi < X < xk) = F(xj) – F(xk). On a : F’(x) = f(x)

33
Fonction de densité et de répartition d’une
loi continue

34
Principales lois continues

 Loi Normale

 Loi de Student

 Loi du Chi deux

 Loi de Fisher

35
La loi normale générale

 C’est la loi la plus répandue et la plus utile. Par exemple, les


erreurs de mesure suivent des lois normales. Aussi, de
nombreuses lois peuvent être approchées par la loi normale.
 Définition 1  X m 
 
2

1 2  

 X prend toute valeur réelle et la densité est f(X) = e
 2
 Utilisation
 Modélisation de la plupart des phénomènes qui résultent
d’un grand nombre (>30) de ressources de variations
indépendantes
 Estimations et tests pour des échantillons dont la
population est grande
 Propriétés
 E(X) = m, Var(X) = 2, Ecart-type = 

36
Propriétés

 La somme de deux variables aléatoires X1 et


X2 suivant des lois normales suit une loi
normale dont
 L’espérance est la somme des espérances de X1
et X2
 La variance est la somme des variance de X1 et
X2 et de leur covariance

37
Masses de probabilités de la loi normale
générale

38
Loi normale centrée réduite: illustration

 C’est la plus simple des lois normales: m = 0 et  = 1,


donc la densité est:
1  12 x2
f ( x)  e
2

 Si X suit N(µ, ) alors Z=(X-µ)/ suit N(0, 1)

39
40
La loi normale : Exemple

 Pour un échantillon d’entreprises dans le secteur


aéronautique on a mesuré le ratio d’endettement (r):
 moyenne(r) = 1,5
  = 0,5
 On calcule le ratio d’endettement (r) d’une
entreprise dans le secteur aéronautique:
 Quelle est la probabilité que r < 2 ?
 Dans quel intervalle le ratio r a 95% de chances de se
situer?
 Quel est la valeur de r qui est dépassée par 90% des
entreprises?

41
Exercices d’application

 Loi Normale (Ex.7, Ex.8 et Ex.9 du T.D 1)

42
Loi du Khi deux
 Définition
 La loi du Khi deux à n degrés de liberté est la loi suivie par la somme
des carrés de n variables aléatoires normales centrées réduites,
indépendantes.
n
Y  X Y i
2
 2
n
i 1
 Utilisation
 Analyse de la qualité (contexte industriel)
 Tests (moyennes, variances)

 Propriétés
 Espérance: E(Y) = n
 Variance: Var(Y) = 2n

43
Loi de Student
 Définition
 La loi de Student à n degrés de
liberté est la loi suivie par le rapport
entre une variable normale et la
racine d’une loi de Khi deux à n
degrés de liberté divisée par n.
 Utilisation Si X N (0,1) et Y  2 n alors
 Pour des faibles échantillons ou X
quand la variance de la population T= tn
n’est pas connue Y
 Estimation et tests de moyennes
(comparaison, conformité) n
 Estimation et tests de coefficients de
régression
 Propriétés
 Espérance: E(T) = 0
 Variance: Var(T) = n/n-2 pour n>2

44
Loi de Student

45
Loi de Student: Exemple

 Lorsqu'une machine est bien réglée, elle produit des


pièces dont le diamètre moyen est 25 mm.
 Deux heures après un réglage, on prélève un
échantillon au hasard de neuf pièces, dont les
diamètres sont : en mm : 22, 23, 21, 25, 24, 23, 22,
26, 21.
 Que peut-on en conclure, avec une probabilité de
0.95, quant à la qualité du réglage ? (on admettra
que le diamètre des pièces est une variable
normale).

46
Loi de Fisher

 Définition
 La loi de Fisher à n et n’ degrés
de liberté est la loi suivie par le
rapport entre deux variables
suivant des lois du Khi deux à n
et resp. n’ degrés de liberté,
Si Z  2 n et Z'  2 n ' alors
chacune étant divisée par le Z /n
nombre de degrés de liberté. F= Fn ,n '
 Utilisation Z '/ n '
 Estimation et tests de variance
(comparaison, conformité)
 Estimation de la significativité
d’un modèle
 Analyse de la variance

47
Fonction densité de la loi de Fisher pour
différents degrés de liberté

48
Loi de Fisher: Exemple

 Deux machines M1 et M2 produisent les mêmes


pièces. On mesure 20 pièces de M1 et 15 de
M2: M1 = 4; M2 = 3

 Est-ce que les deux machines ont la même


précision?

49
Théorèmes de convergence

 Définition de la convergence en probabilités

 Théorème Central Limite

 Les comportements asymtotiques:


 Si n devient grand tel que np > 20 et np(1-p)>3, la loi
binomiale tend vers une loi normale de moyenne np et
de variance np(1-p)
 Si n>60, la loi de Student tend vers une loi normale
centrée réduite.

50