Académique Documents
Professionnel Documents
Culture Documents
Statistiques descriptives
ECOLE NATIONALE
DE COMMERCE ET DE GESTION
-KENITRA- Année universitaire: 2011/2012
Plan du cours
1) Les termes de la statistique.
2) Étude d’une variable quantitative discrète (tendance centrale, dispersion, concentration, forme)
3) Étude d’une variable quantitative continue (tendance centrale, dispersion, concentration, forme)
4) Caractéristiques de concentration.
5) Caractéristiques de forme.
Tirer à partir d’une série brute de données les différents paramètres statistiques.
Mesurer l'évolution dans le temps d’un grandeur (prix, quantité d’un produit…..).
3
1) Les termes de la statistique descriptive:
1-1) Introduction :
Statistique
descriptive inférentielle
Statistique descriptive:
4
Le lien de complémentarité entre statistique inférentielle et statistique descriptive
1-2) Définitions:
Population: Ensemble des éléments sur lesquelles porte l’étude.
!
Remarque: La population doit être définit d’une manière précise, il différent donc de considérer:
Les étudiants.
Les étudiant de 15 à 23 ans.
Individu (unité statistique): élément sur lequel porte l’étude (=un élément de la population).
Caractère (variable statistique): Ce qu’on observe sur chacun des individus de la population.
6
Il existe deux types de caractères :
Caractères qualitatifs:
Les caractères qualitatifs sont tous les caractères qui ne sont pas représentés par des
nombres. (=non mesurables).
Caractères quantitatifs:
Les caractères quantitatifs sont représentés par des nombres et sur lesquels les opérations
arithmétiques de base ont un sens.(=mesurable)
Caractères quantitatifs discrets: qui peuvent prendre un nombre faible et fini de valeurs (Exp:
nombre d’enfants d’une famille, nombre de pièce d’une immeuble….).
Caractères quantitatifs continus: qui peuvent prendre un nombre théoriquement infini de valeurs
dans un intervalle donné (Exp: Age et taille d’une personne, nombre de diamètres d’une pièce…).
Types de caractères
Rappel:
DEFINITION: q
p et q étant 2 entiers relatifs ∑x
i= p
i = x p + x p +1 + ...... + xq
q q q
REMARQUE 1: i est une variable muette ∑ x =∑ x =∑ x
i= p
i
j= p
j
h= p
h
REMARQUE 2: n
Quand il n’y a pas d’ambiguïté sur le domaine de
variation de i, celui-ci peut être omis
∑x = ∑x = ∑x
i =1
i
i
i i
9
Rappel:
(2) Un outil : L ’OPERATEUR SOMME S
PROPRIETE 1: ∑ ka
i
i = k ∑ ai
i
PROPRIETE 2: ∑(a + b ) = ∑ a + ∑b
i
i i
i
i
i
i
PROPRIETE 3 : ∑ k (a + b ) = k∑ a + k∑b
i
i i
i
i
i
i
n
PROPRIETE 4 : ∑ k = nk
i =1
q
PROPRIETE 5: ∑ k = ( q − p + 1) k
i= p
10
2) Étude d’une variable quantitative discrète.
2-1) Définitions:
Série statistique:
On appelle série statistique les différentes valeurs du caractère étudié (noté xi).
On appelle effectif d'une population le nombre d'individus de cette population.
On appelle également fréquence la quantité : (où ni l’effectif de la valeur xi et N
. représente l’effectif total)
Exemple 1:
Les notes sur 20 obtenues lors d’un devoir de mathématiques dans une classe de seconde
sont les suivantes :
10, 8, 11, 9, 12, 10, 8, 10, 7, 9, 10, 11, 12, 10, 8, 9, 10, 9, 10, 11
Fréquence en % : 5 15 20 35 15 10
2-2) Propriété:
Où: N est l’effectif total
12
on a toujours : Et k est le nombre des valeurs du caractère
2-3) Représentation graphique:
Pour les caractères quantitatifs discrets, on utilise le diagramme en bâton, le diagramme à secteur
et le diagramme cumulatif:
a) Diagramme en bâton:
Dans un repère orthogonal, pour chaque valeur de la série statistique on trace un trait vertical
dont la hauteur est proportionnelle à l’effectif.
b) Diagramme à secteur:
On appelle un diagramme à secteur un graphique qui divise un disque en secteurs angulaires
dont les aires sont proportionnels au effectifs de chaque modalité.
Pour une modalité Mi d’effectif ni , l’angle αi correspondante est: (º)
Exemple:( précédent)
13
Diagramme en bâton Diagramme à secteur
c) Diagramme cumulatif (ou fonction de répartition)
Exemple:
Valeurs du caractère (note obtenue) 7 8 9 10 11 12
Fréquence en % : 5 15 20 35 15 10
Fréquence cumulée croissantes en % 5 20 40 75 90 100
14
2-4) Les caractères de la tendance centrale (paramètres de position)
A) La moyenne
On définit la moyenne arithmétique des valeurs xi (i=1,…..n) d’un caractère pour les n
individus d’une population par :
Remarque:
Si le caractère est groupé dans un tableau de données contenant les effectifs ou les fréquences
de chaque valeur du caractère alors :
et Et 0 ≤ k ≤ n
Exemple:
Valeurs du caractère (note obtenue) 7 8 9 10 11 12
Effectif 1 3 4 7 3 2
Fréquence cumulée en % 5% 20 % 40 % 75 % 90 % 100 %
15
a-2) Propriétés de la moyenne
2) si a et b désignent deux constantes telles que pour toutes les valeurs observées ou tous
les centres de classes xi on a yi = axi + b. alors:
a-3) Moyenne géométrique
On définit la moyenne géométrique des valeurs xi (i=1,…..n) d’effectifs ni d’un caractère pour
les n individus d’une population par :
G= n x1n1 x n2 2 .....x kn k
Utilisée dans le cas de phénomènes multiplicatifs (taux de croissance moyen)
On définit la moyenne harmonique des valeurs xi (i=1,…..n) d’effectifs ni d’un caractère pour
les n individus d’une population par : n
H= k ni
∑x
i=1 i
16 Utilisée dans le cas où l’on combine 2 variables sous forme de rapport (km/heure,……)
b) La médiane:
Pratiquement:
Exemple 1: 6 6 6 8 9 9 12 13 13 14 17 17 18
Mé= 12
Le mode d'une série est la valeur ou la modalité qui revient le plus fréquemment dans
la série ou la distribution.
Mo= 4
Remarque 1: Une série peut avoir plusieurs modes (série multimodale). Elle est bimodale
Mo= 2 , Mo’= 3
S={8,6,5,7,3,1}
! Remarque 3: Mettre la série sous forme d’une distribution pour repérer le mode.
18
2-5) Caractéristiques de dispersion
Ces paramètres permettent de mesurer la façon dont les valeurs du caractère sont réparties
autour de la moyenne et de la médiane. On distingue 3 principaux paramètres: variance,
écart-type et l’écart interquartile .
a) La variance:
La variance d’une série statistique xi, i= 1………n est donnée par :
la variance est la moyenne des
carrés des écarts à la moyenne
ou
19
b) Écart-type:
l’écart-type d’un caractère quantitatif discret est défini alors par : s= V
Propriété
• Si on ajoute à toutes les valeurs d’une série statistique le même nombre b, la variance et
l’écart-type restent inchangés.
• Si les valeurs d’une série statistique sont multipliées ou divisées par un même nombre a,
l’écart-type est multiplié ou divisé par |a|.
Remarque:
On est amené à considérer la racine carrée de la variance pour avoir un résultat exprimé
dans la même unité que le caractère étudié.
c) Ecart interquartile
les quartiles:
Notés Q1, Q2, Q3 les quartiles partagent la population en quatre parties de même effectif.
Etant donné une série statistique de médiane Mé, dont la liste des valeurs est rangée dans l’ordre croissant.
On appelle:
1ér quartile Q1 est la valeur du caractère tel que: 25% des valeurs observées lui sont inférieurs ou égale.
3ème quartile Q3 est la valeur du caractère tel que: 75% des valeurs observées lui sont inférieurs ou égale.
• Si est un entier, le premier quartile Q1 est la valeur qui dans cette liste occupe le rang
et le troisième quartile Q3 est la valeur qui dans cette liste occupe le rang .
• Si n’est pas un entier, le premier quartile Q1 est la valeur qui dans cette liste occupe le
rang immédiatement supérieur à et le troisième quartile Q3 est la valeur qui dans cette liste
occupe le rang immédiatement supérieur à .
Exemple 1 :
1) On peut également définir l’intervalle interquartile qui est égale: [Q1 Q3]
2) De même l'étendue ou amplitude d'une distribution est égale à la différence entre la
plus grande et la plus petite valeur de la distribution : Etendue de X = Xmax- Xmin
Exercice d’application
Les étudiants d’un groupe de TD forment une population statistique P dont le caractère
étudié est la note obtenue à un devoir de mathématiques. Ces notes étant entières, la série
statistique S1 ainsi recueillie est discrète :
S1 = {11; 12; 10; 9; 4; 18; 19; 12; 16; 12; 13; 14; 18; 9; 8; 8; 12; 5; 11; 10}
Questions:
• Déterminer la distribution des effectifs de la série S1 ainsi que la fréquence de ses valeurs
et les fréquences cumulées.
Même notion que dans le cas discret , la seule différence est que on ne considère pas
Les modalités une par une mais on procède par classe.
Intervalle des valeurs
possibles pour une variable
quantitative continue
Chaque classe possède une certaine amplitude, qui est la longueur de l'intervalle définissant
la classe.
Le rapport entre l'effectif d'une classe et son amplitude s'appelle la densité d'effectif.
Le rapport entre la fréquence d'une classe et son amplitude s'appelle la densité de fréquence (hi).
23
Exemple : Temps passé devant la télévision par 34(N=34) élèves pendant une certaine journée.
a3=45-30= 15
24
3-2) Représentation graphique:
Pour les caractères quantitatifs continus, on utilise l’histogramme et la courbe cumulative:
Nous portons en abscisse les classes représentant les modalités et en ordonnées des rectangles
dont les surfaces sont proportionnelles à la fréquence ou à l’effectif.
Remarque:
Si les classes ont la même amplitude les rectangles sont proportionnelles aux hauteurs des barres
25
Exemples: (vu précédemment)
Fréquence en %
Histogramme en fréquence
Courbe cumulative des fréquences croissantes (polygone des fréquences cumulées croissantes)
26
3-3) Les caractères de la tendance centrale (Paramètres de position)
a) La moyenne
Pour la moyenne arithmétique d’une variable continue on considère les centres des classes:
Où: 0< N ≤n
Exemple:
min
27
b) La médiane:
28
Calcul de la médiane
59 F=0.5=50%
36
Mé
Mé = 39,13 min
29 Donc plus de 50% des élèves passent 39 min et 8 seconde devant la télé et 50 % moins
c) Le mode:
Dans le cas continu, le mode se trouve dans la classe ayant le plus grand effectif (la classe modale).
Remarque :
Dans le cas où les classes n’ont pas la même amplitude la détermination de la classe modale se fait
à partir de la densité des fréquences hi.
Détermination du mode
Il se calcule sur l'histogramme des effectifs ainsi :
d1
d2
Remarque:
si les amplitudes entre la classe modale et les classes
adjacentes sont différentes, on calcule les
excédents de densités de fréquence au lieu des
excédents de fréquences ou d'effectifs.
30
0 a Mo b
3-4) Caractéristiques de dispersion
Idem pour un caractère discret mais on prend les centres des classes.
a) Variance.
La variance d’une variable continu X est donnée par :
c) Coefficient de variation
Pour une variable statistique continue X, on appelle coefficient de variation le rapport:
Remarque:
Le coefficient de variation est un nombre sans dimension qui permet de comparer deux
variables statistiques de natures différentes.
31
Exemple: Prix d’une bouteille de jus de mangue.
6.5 F 19.5 F 33 F S1
2E 3E 5E S2
d) L’écart interquartile
d-1).Les quartiles
Pour calculer les quartiles on fait une interpolation linéaire: Pour k=1,2,3
Fréquence cumulée
32
d-2) L’écart interquartile
L’écart interquartile d'une série statistique d’une variable continue est le nombre: Q3 – Q1
Exemple:
( %)
Q1=18.75 min
75
Q3=56.25 min 25
EIQ=Q3-Q1=37.5 min Q1 Q3
33
Exercice d’application
Enoncé :
Au cours d’un TP visant à mesurer expérimentalement la constante d’accélération
de la pesanteur g , 20 étudiants ont chacun obtenu une mesure. La liste de valeurs ainsi
récoltées forme une série statistique continue S2 , car les mesures effectuées pouvaient
a priori conduire à n’importe quel nombre réel autour de 9,81m.s-²(valeur arrondie
au centième souvent retenue pour faire des applications numériques). En réalité, étant
données les incertitudes liées aux appareils de mesure, les résultats obtenus sont tous
des estimations arrondies au millième de la valeur de g .
La série statistique continue S2 est la suivante :
On pourrait considérer cette série comme une série discrète, mais chaque modalité aurait 1
pour effectif, et l’organisation des données sous forme de tableau ou de
graphique ne permettrait pas de dégager une distribution lisible et exploitable.
Avec la série S2 des résultats de mesure de la constante g , on peut, par exemple, regrouper les
modalités selon les classes suivantes :
34
4) Caractéristiques de concentration
L'objectif est de mesurer les inégalités dans la répartition d'une variable à l'intérieur d'une
population.
Pour cela on utilise des moyennes de mesure des inégalités tel que le diagramme de
concentration (courbe de Lorenz) et l’indice de GINI (ou le coefficient de GINI).
Si ci représentent les centres des classes, ni les effectifs correspondants, alors: les valeurs globales
de la série (ci , ni) sont les quantités gi = ni ci.
4-2) La médiale
La médiale de la série (ci , ni) est la médiane de la série (ci , gi).
35
Exemple:
Répartition des employés d’une entreprise selon leurs salaires mensuels nets.
36
Calcul de la médiale
La médiale est le niveau de salaire qui divise en deux la masse salariale: les salaires inférieurs
à la médiale représentent la moitié de la masse salariale. C’est la médiane de la série
représentant le cumul de la masse salariale
0,613
0,385
37
4-3) COURBE DE CONCENTRATION (OU DE LORENZ)
C'est la courbe obtenue en représentant en abscisse les fréquences cumulées croissantes Fi
de la série (ci,ni) et en ordonnée les fréquences cumulées croissantes qi de la série (ci,gi).
(1, 1)
(0, 0)
Lecture de la courbe
1°/ Les points extrêmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reçoit 0 % de la masse
salariale et 100 % de la population reçoit 100 % de la masse salariale.
3°/ Enfin, et surtout, la courbure de la courbe de Lorenz peut être interprétée comme un indice d'inégalité.
38
4-3-1) La courbe de concentration (courbe de Lorenz)
La courbe de concentration exige la connaissance pour chaque classe du nombre d’observations
(comme auparavant) et de la somme des valeurs correspondantes.
Si fi représente la fréquence cumulée et qi les sommes des valeurs alors:
qi=Q(fi) 0.864
4-3-1) Remarques:
1) La diagonale principale du graphique
0.613
(droite d’équi–répartition) représente
une distribution parfaitement égalitaire:
chaque portion de la population possède
une part égale de la valeur totale de la
0.385
caractéristique.
L’indice de Gini est défini comme 2 fois la surface comprise entre la droite
d’équi-répartition et la courbe de concentration.
pi
pi
Rappel :
41
Exemple:
Calcul de l’indice de GINI pour l’exemple précédent :
Si:
Xi est la fréquence cumulative de la classe i, i=1,………..,J
Xo=0 et Xj=1.
Yi est le pourcentage de la masse salariale revenant à la classe i.
Yo=0 et Yj=1.
Alors:
42 G=1-0,8822=0,1178
5) Caractéristiques de forme
Outre les paramètres de position, de dispersion et de concentration, il existe deux autres
classes de paramètres, dits de forme, qui décrivent une série.
Ils mesurent le degré de symétrie d’une part et d’aplatissement, d’autre part.
5-1) La symétrie
Définition : une distribution est symétrique si les valeurs équidistantes
de la valeur centrale ont une fréquence égale ou si xmo = xmé = x
0≤k≤n
Pour r = 0 : µ0 = 1.
Pour r = 1 : µ1 = 0.
Pour r = 2 : µ2 = Le moment d’ordre 2 n’est que la variance.
b) Coefficient de Fisher
Le coefficient d'asymétrie de Fisher fait intervenir les moments centrés, il est défini par :
44
c) Coefficient de Yule
Le coefficient d'asymétrie de Yule fait intervenir la médiane et les quartiles, il est défini par :
Y=0 symétrie
Y> 0 la courbe est étalée à droite
Y<0 la courbe est étalé a gauche
d) Coefficient de Pearson
P=0 symétrie
P>0 la courbe est étalée à droite
P<0 la courbe est étalé a gauche
45
5-2) L’Aplatissement
Définition :
une distribution est plus ou moins aplatie suivant que les fréquences des valeurs voisines des
valeurs centrales sont plus ou mois élevées par rapport aux autres.
mésokurtique, si cette distribution est similaire à une distribution normale centrée réduite (N(0,1))
leptokurtique, si cette distribution est moins plate que la distribution normale ;
platykurtique, si cette distribution est plus plate que la distribution normale.
Densité de probabilité de N ( ,, s )
=0
S=1
46
5-2-1) Aplatissement d’une distribution
fi
leptokurtique
mésokurtique
platykurtique
xi
a) Coefficient d’aplatissement.
Coefficient de Pearson
47
Exemple:
On a:
y1 r=i-1 i=1+r
r1 0 = − 1 = i1 0 − 1
y0
51
6-3) Indices et taux de variation moyens
y0, y1, ….., yn les valeurs prises par une variable aux dates t0, t1, ….., tn
i1, i2, ….., in les indices élémentaires sur chacune des périodes
y n = i n × y n-1 = i n × i n-1 × y n-2 = ...... = i n × ..... × i 2 × i1 × y0
i l’indice moyen
i G = i n = i n × ..... × i 2 × i1
i1, i2, ….., ik indices élémentaires sur des périodes de n1, n2, ….., nk unités (jour, mois, année…)
i G = i n = i1n1 × i n2 2 × ..... × i nk k
i = n i1n1 × i 2n 2 × ..... × i kn k
Moyenne géométrique des indices élémentaires
52
6-3) Indices et taux de variation moyens
y0, y1, ….., yn les valeurs prises par une variable aux dates t0, t1, ….., tn
ri11, ir22,, …..,
….., irnnles
lesindices
taux deélémentaires
croissance sur
surchacune
chacunedes
despériodes
périodes
y n = i(1n ×
+ yrnn-1
) × =y n-1
i n ×=i(1 ×ryn )n-2× (1=+......
n-1+ rn-1 )=×i ny×n-2.....
= (1× i+2 ×rn i)1××.....
y0 × (1 + r2 ) × (1 + r1 ) × y 0
riGG l’indice
le taux élémentaire
de croissance global
global entreentre
t0 et ttn0 et tn
ynn = (1
i G +×ryG0) × y 0
= y(1n-1+ r)=2 i×2 y×n-2
y n = (1 + r) y×ny=n-1i × n n
y n-2= ...==...(1=+ir)××y0y 0
r le taux de croissance
i l’indicemoyen
moyen
i = n i1n1 × i n2 2 × ..... × i nk k
Moyenne Moyenne
géométrique des taux de
géométrique descroissance élémentaires
indices élémentaires
53
Indices usuels
Exercice d’application :
54
6-4) Indices synthétiques
Un indice synthétique est une moyenne pondérée des indices élémentaires des
différents produits.
∑V
j=1
j,n ∑P
j=1
j,n Q j,n
n
Remarque : ∑α
j=1
j,n =1
55
6-4-1) Indices synthétiques de LASPEYRES
L ( P )1 0 = Moyenne arithmétique des indices élémentaires des prix, base 100, pondérés
par des coefficients de pondération relatifs à la date de référence t0
n 1 seul indice sur 4 doit être modifié
L ( P )1 0 = ∑ α j,0 I ( Pj )1 0
j=1 Comment s’en souvenir ? n
n ∑P j,1 Q j,10
∑P
j=1
j,1 Q j,0 Dépense de la date courante
= j=1
n
= × 100 Dépense de la date de référence
n ∑P j,0 Q j,0
∑P
j=1
j,0 Q j,0 j=1
56
6-4-2) Indices synthétiques de LASPEYRES
57
6-4-3) Indices synthétiques de PAASCHE
P ( P )1 0 = Moyenne harmonique des indices élémentaires des prix, base 100, pondérés
par des coefficients de pondération relatifs à la date courante t1
1
P ( P )1 0 = n α j,1
∑I 1 seul indice sur 4 doit être modifié
j=1 (P )
j 10 Comment s’en souvenir ?
n
n
∑ Pj,0Q j,1 ∑P
j=1
j,0 Q j,0 1
j=1
1
P ( Q )1 0 = n α j,1
∑I 1 seul indice sur 4 doit être modifié
j=1 (Q ) j 10 Comment s’en souvenir ?
n
n ∑P j,1 Q j,1
∑P
j=1
j,1 Q j,1 Dépense de la date courante
= j=1
n
= × 100 Dépense de la date de référence
n ∑P j,0 1 Q j,0
∑P
j=1
Q j,0
j,1
j=1
Supposons qu'une entreprise utilise 2 produits pour fabriquer son propre produit. Elle achète
ces quatre produits à des fournisseurs. Et que les prix évoluent de la façon suivante:
1) Quelle serait l'évolution du coût d'achat total si les quantités ne changeaient pas
entre 0 et t ?
2) Quelle serait l'évolution de la valeur totale des produits si les prix n'avaient
pas changé et que seulement les quantités avaient changé ?
60
On enregistre une évolution des prix de + 2,8 % selon la formule de LASPEYRES.
1) Calcul de l’indice de Laspeyres des quantités
On enregistre donc une évolution des volumes du panier de bien de 90,74 % selon la
formule de LASPEYRES.
61
Exercice d’application
Calculer les indices de Laspeyres, de Paasche (prix et quantité) pour 1991 par rapport à 1990 sur
l’ensemble des quatre produits décrits ci-dessous :
1990 1991
Produits Prix Quantités Prix Quantités
Po qo P1 q1
A 9,00 27 9,25 37
B 4,90 31 5,20 40
C 3,65 40 5,00 28
D 8,10 15 7,70 30
62
7) Les caractéristiques des distributions à deux caractères
Jusqu’à présent, nous avons utilisé des méthodes pour résumer les données pour une seule variable
statistique.
Dans ce chapitre, nous étudierons le croisement de deux variables (statistiques bidimensionnelles).
On cherche alors a décider si les deux variables sont liées (l'une est dépondant de l'autre). Si ces
variables sont liées, on tentera ensuite de trouver la relation qui unit vraisemblablement ces
variables.
: c'est l'effectif de xi
Remarque:
Le calcul des effectifs partiels ni et nj (i=1,…….p, j = 1,……..,q) permet d’étudier la série des xi
et la série des yj comme des séries à une variable. On les appelle séries marginales et on peut leur
associer tous les paramètres vus précédemment: V (x), s(x), ,V(y), s(y) et
64
a) La covariance.
En dehors de ces paramètres à une variable, il y a dans ce contexte des paramètres
spécifiques à l’étude d'une série à deux variables, en particulier la covariance : qui est
la quantité:
Propriétés :
65
Exemple:
13
66
b) Fréquence conditionnelle
La fréquence conditionnelle de xi sachant yi est la proportion d’individus présentant la modalité
xi du caractère X par rapport au totale des individus présentant la modalité yi du caractère Y
noté :
On a :
c) Indépendance.
On dit que la variable X est indépendante de la variable Y si la variation de Y n’entrainent pas
de variation de X
Propriétés:
1) Si X est indépendante de Y alors Y est indépendante de X : on dit que X et Y sont
indépendantes.
2) X et Y sont indépendantes si les fréquences conditionnelles de X (resp Y) sachant Y (resp X)
sont égales aux fréquences marginales de X (resp Y).
67
7-2) Ajustement affine par la méthode des moindres carrés.
7-2-1) introduction.
Les études statistiques nous permettent, en général, d’analyser et de prévoir une tendance.
Le but de cet paragraphe est de déterminer s’il existe un lien de dépendance entre deux
caractères que nous étudions simultanément.
7-2-2) Définition:
Le plan est muni d’un repère orthogonal. A chaque couple nous associons le point M de
coordonnées . L’ensemble des points , Mi est le nuage de points associé à la
série statistique double
Nous appelons point moyen du nuage le point G de coordonnées
avec :
b) Définition 1:
Nous appelons somme des résidus associée à la droite (D) le nombre réel S défini par :
c) Définition 2:
Nous appelons méthode des moindres carrés la méthode qui consiste à rechercher les
coefficients a et b tels que la somme S soit minimale. Remarquons que S est une fonction des
deux variables a et b.
69
d) Théorème.
La droite d’équation qui rend minimale la somme des résidus est la droite :
Qui passe par le point moyen:
Qui a pour coefficient directeur:
Remarque 1 :
Il est possible de définir la droite de régression de x en y : elle passe, elle aussi, par le point
moyen et elle a pour coefficient directeur:
Remarque 2 :
Cependant, il nous faudrait un outil nous permettant de décider d’ajuster un nuage de
points par une droite. C’est l’objet de la définition qui suit.
70
7-2-4) Coefficient de correlation.
Définition
Nous appelons coefficient de corrélation linéaire le nombre réel, noté , r(x,y) tel que:
Remarques:
• Lorsque la corrélation est forte ( ) le nuage peut être approximé par une droite.
• Lorsque la corrélation est faible, le nuage de points ne peut pas être ajusté par une
. droite, mais il se peut qu’une autre courbe permette un bon ajustement.
71
Quelques formes typiques de nuages
de points en relation avec les valeurs
du coefficient de corrélation pour la
régression linéaire
(Sx et Sy représentent respectivement
l‘écart-type de la variable x et l‘écart-type
de la variable y)
Exemple:
Une entreprise xxx de boites de conserve a étudié l’incidence de sa pression marketing.
Elle enregistre dans 5 zones géographiques les ventes yi (en milliard de boite de conserve) et
les dépenses publicitaire xi en milliers d’euros.
73
74
10
75
76