Vous êtes sur la page 1sur 17

1LG - Statistique Descriptive & calcul des Probabilités Série 3

Eléments de correction de la Série n°3 :


Distribution à deux dimensions et relation entre variables

Vous avez également à votre disposition le fichier excel avec tous les détails des calculs,
chaque feuille correspond à un exercice. Il y a des icones rouges sur les cellules cliquez dessus
pour lire les commentaires. Bon travail à tous

Exercice 1 :
Le service marketing de la société TEL a mené une étude sur l’âge (X) et le montant de la facture
téléphonique mensuelle des abonnés (Y). Les résultats se présentent comme suit :

• 250 individus ont un âge compris entre 18 et moins de22 ans ont une facture qui varie entre
40 à moins de 50 dinars

• 25 individus ont moins de 18 ans et ont une facture entre 10 et moins de 20 dinars.

• 100 individus âgés entre 22 et moins de 30 ans ont une facture de 20 et moins de 40 dinars

• 75 individus ont une facture de 50 à moins de 70 dinars et ont un âge compris entre 30 et
moins de 40 ans.

1. Identifier les variables étudiées et préciser leur nature.


2. Dresser les données dans un tableau à double entrée.
3. Dresser la distribution marginale de X et calculer la moyenne et la variance de X
4. On ne s’intéresse qu’aux individus de moins de 22 ans. Représenter la distribution
conditionnelle de Y et calculer sa moyenne et sa variance.

Correction Exercice 1 :
1. Identifier les variables étudiées et préciser leur nature.
X : âge : variable quantitative continue
Y : Montant de facture téléphonique : variable quantitative continue
2. Dresser les données dans un tableau à double entrée.
yj [10-20[ [20-40[ [40-50[ [50-70[ Total
Xi
[14-18[ 25 0 0 0 25

[18-22[ 0 0 250 0 250

[22-30[ 0 100 0 0 100

[30-40[ 0 0 0 75 75
Série 3

Total 25 100 250 75 450


1LG - Statistique Descriptive & calcul des Probabilités Série 3

3. Dresser la distribution marginale de X et calculer la moyenne et la variance de X

• Moyenne marginale de X m =23, 63 ans : En moyenne, les abonnés interrogés sont agés de
23,63 ans
• Variance marginale de X σ²m =592,33-(23,63)²= 33,95 forte dispersion entre les individus
en terme d’âge.
• L’écart type = =5,82 ans : forte dispersion entre les individus en
terme d’âge.

4. On ne s’intéresse qu’aux individus de moins de 22 ans. Représenter la distribution


conditionnelle de Y et calculer sa moyenne et sa variance.
Soit Z la distribution conditionnelle de Y/X « moins de 22 ans »

Z la distribution conditionnelle de Y/X « moins de 22 ans »


nj/i moins de 22 fj/imoins de fj
Z anns 22 arrondis c f*c f*c²
[10-20[ 25 0,090909091 0,09 15 1,35 20,25
[20-40[ 0 0 0 30 0 0
[40-50[ 250 0,909090909 0,91 45 40,95 1842,75
[50-70[ 0 0 0 60 0 0
Total 275 1 1 42,3 1863

moyenne 42,3
variance 73,71

• Moyenne conditionnelle de Y : =42,3dinars : La facture mensuelle moyenne des moins de


22 ans s’élève à 42,3 dinars
• Variance conditionnelle de Y σ² = 1863-(42,3)²=73,71 dispersion entre les individus moins
de 22 ans en terme de consommation téléphonique
Série 3
1LG - Statistique Descriptive & calcul des Probabilités Série 3

Exercice 2 :
Nous souhaitons étudier la distribution de la population active de la Manouba en 2017 selon l’âge
(Xi) et le Genre (Yj) ; N=646 893 individus

Nous disposons des données de l’Institut National de la Statistique


Tableau 1 : Distribution de la population active de la Manouba selon l’âge

Hommes Femmes Total


15-20 0,051 0,048 0,099
20-25 0,059 0,056 0,115
25-35 0,129 0,129 0,258
35-45 0,104 0,104 0,208
45-55 0,09 0,094 0,184
55-65 0,07 0,066 0,136
Total 0,503 0,497 1

1. Préciser la population, les variables étudiées et leurs natures.


2. Dresser la distribution marginale de Xi
a. Calculer la médiane, la moyenne et déterminer la classe modale
Les valeurs doivent être interprétées.
b. En déduire la forme de la distribution. Justifier
c. Calculer la variance et commenter.
3. Le tableau I.2 fournit des statistiques descriptives relatives à la variable X
Tableau I.2 : Calculs effectués sur la variable Xi
Q1 26,395 ans
 f i xi ² 1603,137
 f x  X
3
i i 61297,771
 f x  X
4
i i 73143,066

a. D’après le coefficient de Pearson, la population est elle dissymétrique en termes d’âge ?


b. Calculer le coefficient d’aplatissement de Pearson et commenter le résultat
c. Calculer l’écart interquartile de la distribution.
Correction Exercice 2 :
1. Préciser la population, les variables étudiées et leurs natures.
Population : la population active de la Manouba
Variable X : L’âge : variable quantitative continue
Variable Y :Le genre : Variable qualitative.

2. Présenter dans le tableau I. C la distribution marginale de X .


Série 3
1LG - Statistique Descriptive & calcul des Probabilités Série 3

Distribution marginale de
X
Xi fi. Fi Ci fi.ci fi.ci²
15-20 0,099 0,099 17,5 1,7325 30,31875
20-25 0,115 0,214 22,5 2,5875 58,21875
25-35 0,258 0,472 30 7,74 232,2
35-45 0,208 0,68 40 8,32 332,8
45-55 0,184 0,864 50 9,2 460
55-65 0,136 1 60 8,16 489,6
total 1 37,74 1603,1375

a. L’âge médian
Me est tq F(Me)=0,5 Me [35 ; 45 [

35 F(35)=0,472
Me F(Me)= 0.5
45 F(45)= 0,68

Interpolation linéaire :
Me=36,346 ans
50% de la population active à la Manouba est âgée de 36,346 ans

k
L’âge moyen X   f i xi =37,74 ans
i 1
En moyenne les individus sont âgés de 37,74 ans à la Manouba.

La classe modale : les amplitudes étant inégales il faut d’abord corriger les fréquences
comme vu dans les autres séries
La classe modale est [25-35[ car elle correspond à la fréquence corrigée la plus élevée

b. Pour qu’une distribution soit symétrique il faut que le mode soit égal à la médiane ainsi
que la moyenne ; or nous constatons que Me≠de la moyenne, la distribution est
dissymétrique.

c. Calculer la variance et commenter la valeur trouvée


V ( x)   2   f i ci2 X 2 =1603,13-(37,34²)=178,82 il s’agit d’une forte dispersion de la
population de la Manouba en terme d’âge.

3. Le tableau I.2 fournit des statistiques descriptives relatives à la variable Xi.

a. D’après le coefficient de Pearson, la population est elle dissymétrique en termes


Série 3

d’âge ?
3X  Me
Coef d’asymétrie de Pearson=   0,289  0 dissymétrie positive

1LG - Statistique Descriptive & calcul des Probabilités Série 3

b. Calculer le coefficient d’aplatissement de Pearson et commenter le résultat


 73143,066
Coef d’aplatissement=  2  42  =1,63 <3 distribution APLATIE
2 43622

c. Calculer l’écart interquartile de la distribution.

EIQ=Q3-Q1
Nous avons Q1, nous devons calculer Q3
Q3 est tq F(Q3)=0,75 Q3 [45 ; 55 [

45 F(45)=0,68
Q3 F(Me)= 0.75
55 F(55)= 0,864

Interpolation linéaire :
Q3=48,804 ans
EIQ=Q3-Q1=48,804-26,395=22,4
Forte dispersion de la population active en terme d’age. La différence entre les 25% les
plus âgés et les 25% les plus jeunes est élevée (22 ans)
Exercice 3
On donne la répartition de 100 employés par ancienneté (X) (en nombre d’années) et par tranches
de revenu annuel en milliers de dinars (Y) :
X\Y [4-6[ [6-10[ [10-14[ [14-18[ 18 et plus
[1-3[ 10 4 5 1 0
[3-5[ 3 8 12 6 1
[5-10[ 2 5 16 5 1
10 et plus 0 3 7 8 3

1. Présenter dans un tableau la distribution marginale de X (effectifs et fréquences) ; calculer


sa moyenne arithmétique, son écart-type et sa classe modale.
2. Représenter graphiquement la distribution de la variable X (les effectifs)
3. Quelle est la forme de la distribution de X ?
4. Calculer la covariance entre l’ancienneté et le revenu. Commenter
5. Calculer le coefficient de corrélation. Commenter.
On donne la répartition de 100 employés par ancienneté (X) (en nombre d’années) et par
tranches de revenu annuel en milliers de dinars (Y) :
X\Y [4 ; 6[ [6 ; 10[ [10 ; 14[ [14 ; 18[ 18 et plus
[1 ; 3[ 10 4 5 1 0
[3 ; 5[ 3 8 12 6 1
[5 ; 10[ 2 5 16 5 1
10 et plus 0 3 7 8 3
Série 3
1LG - Statistique Descriptive & calcul des Probabilités Série 3

Correction exercice 3

1. Présenter dans un tableau la distribution marginale de X (effectifs et fréquences) ; calculer


sa moyenne arithmétique, son écart-type et sa classe modale.

Question 1 loi marginale de X


Age (X) ni. fi. ci fi.ci fi.ci² ai fi corrigées ni corrigés
[1-3[ 20 0,2 2 0,4 0,8 2 0,2 20
[3-5[ 30 0,3 4 1,2 4,8 2 0,3 30
[5-10[ 29 0,29 7,5 2,175 16,3125 5 0,116 11,6
[10-15[ 21 0,21 12,5 2,625 32,8125 5 0,084 8,4
Total 100 1 6,4 54,725

- Moyenne marginale de X :

En moyenne les salariés ont plus de 6 ans d’ancienneté.


k
- Ecart type de X  X   x2  fc
i 1
2
i i  x ²  3,71
faible dispersion
- Le mode correspond à la valeur de X qui a la fréquence corrigée la plus élevée car les
amplitudes sont inégales : [3 ;5[. Nous avons choisi comme amplitude 2 car puisque 2 et 5
ont la meme fréquence nous prenons la plus petite
Les salariés de l’entreprise ont la plupart entre 3 et 5 ans d’ancienneté.

2. Représenter graphiquement la distribution de la variable X (les effectifs)


Titre Distribution des employés selon le nombre d’années d’ancienneté

Série 3

3. Quelle est la forme de la distribution de X ?


1LG - Statistique Descriptive & calcul des Probabilités Série 3

Forme à déduire du graphique : distribution dissymétrique

4.

Pour calculer

X\Y 5 8 12 16 20
2 100 64 120 32 0
4 60 256 576 384 80
7,5 75 300 1440 600 150
12,5 0 300 1050 1600 750

7937

CALCUL DE LA MOYENNE MARGINALE DE Y COMME POUR X ; moyenne marginale de


Y 11,35

6,73

La covariance étant positive, le revenu varie dans le même sens que l’ancienneté, autrement si le
nombre d’années passées dans l’entreprise augmente le revenu aurait tendance à augmenter aussi.

5. Le coefficient de corrélation de X et Y

k
 y   y2  f
j 1
j c 2j  y ²  4,065

Corrélation faible entre le revenu et le nombre d’années d’ancienneté dans l’entreprise


Série 3
1LG - Statistique Descriptive & calcul des Probabilités Série 3

Exercice 4
Un sociologue s’intéresse aux conditions de vie des élèves et étudiants tunisiens et souhaite étudier
le temps en minutes (X) que mettent les individus pour rejoindre leurs établissements scolaires en
distinguant le milieu (Y) : communal (urbain) non communal (rural)
Il dispose des données de l’Institut National de la Statistique résumées dans le tableau 1

Tableau 1 : Répartition des élèves et étudiants tunisiens selon le temps du trajet


habitation/établissement scolaire et selon le milieu en 2017 (les données sont en milliers)

Le Milieu Y
Communal Non communal
Trajet en minutes X
[1-5[ 65,7 31,8
[5-15[ 813,8 173,8
[15-30[ 723,5 274,9
[30-60[ 298 231,6
plus que 60 95,3 69,2
Source : INS septembre 2017

1. Déterminer les variables étudiées et préciser leurs natures.


2. Dans cette question, nous nous intéressons uniquement à la distribution marginale de X
a. Dresser la distribution marginale de X.
b. Déterminer la classe modale de X.
c. Est-il vrai que « 50% des élèves et étudiants en Tunisie mettent moins de 16 minutes
pour se rendre à leurs établissements scolaires » ? Justifier.
d. Calculer la moyenne marginale de X.
e. Calculer la variance marginale de X et en déduire l’écart-type. Commenter.

3. Le sociologue souhaite étudier une variable Z qui correspond à la durée du trajet en


considérant uniquement le milieu non communal.
a. Comment se nomme statistiquement la distribution de Z
b. Dresser la distribution de Z dans un tableau.

4. Le sociologue a étudié séparément la durée du trajet des étudiants et élèves en milieu


communal et celle en milieu non communal. Le tableau 2 présente les statistiques
descriptives obtenues. Commenter les résultats fournis et comparer les avec ceux obtenus
dans la question 2.
Tableau 2 : Statistiques descriptives :
Paramètres La durée en milieu Communal La durée en milieu non communal
Moyenne 22,629 minutes 30,258 minutes
Mode [5-15[ [15-30[
Médiane 17,444 25,099
Variance 284,01 385,247
Série 3
1LG - Statistique Descriptive & calcul des Probabilités Série 3

Correction Exercice 4
1. Déterminer les variables étudiées et préciser leurs natures.
X : durée du trajet variable quantitative continue
Y : Le milieu Variable qualitative

2. Dans cette question, nous nous intéressons uniquement à la distribution marginale de X


a. Dresser la distribution marginale de X.

Distribution marginale de X
fi fi
X ni fi arrondies Ai corrigées F ci fi*ci fi*ci²
[1-5[ 97,5 0,035102247 0,035 4 0,2625 0,035 3 0,105 0,315
[5-15[ 987,6 0,355558756 0,356 10 1,068 0,391 10 3,56 35,6
[15-30[ 998,4 0,359447005 0,359 15 0,718 0,75 22,5 8,0775 181,74375
[30-60[ 529,6 0,190668203 0,191 30 0,191 0,941 45 8,595 386,775
[60-90[ 164,5 0,05922379 0,059 30 0,059 1 75 4,425 331,875
total 2777,6 1 1 24,7625 936,30875

b. Pour déterminer la classe modale, il faut d’abord corriger les fréquences puisque l’amplitude n’est
pas la même.
L’amplitude retenue pour corriger est 30 car c’est la plus fréquente.
Classe modale [5-15[ car elle correspond à la fréquence corrigée la plus élevée
c. Est-il vrai que « 50% des élèves et étudiants en Tunisie mettent moins de 16 minutes pour se rendre
à leurs établissements scolaires » ? Justifier.
Cela revient à calculer la médiane
La médiane Me est tq F(Me)=0,5 Me [15 ; 30 [
15 ,F(5)=0,391
Me F(Me)= 0.5
30 F(10)= 0,75

Interpolation linéaire :

Me =19,554
Donc c’est faux « 50% des élèves et étudiants en Tunisie mettent moins de 19,554 minutes pour se
rendre à leurs établissements scolaires »

d. Calculer la moyenne marginale de X.


k
X m   f ici  24,76 min
i 1
Série 3

e. Calculer la variance marginale de X et en déduire l’écart-type. Commenter.


k
 x2 =  f i ci2  x ² =936,3-(24,76)²=323,12 (j’ai pris tous les chiffres après la virgule, le résultat peut
i 1
1LG - Statistique Descriptive & calcul des Probabilités Série 3

changer en ne retenant que deux ou trois chiffres)


Variance très élevée la distribution est fortement dispersée

k
 X   x2  fc
i 1
2
i i  x ²  17,975 forte dispersion

3. Le sociologue souhaite étudier une variable Z qui correspond à la durée du trajet en considérant
uniquement le milieu non communal.
a. Comment se nomme statistiquement la distribution de Z
Il s’agit de la distribution conditionnelle de X sachant que Y= le milieu non communal
b. Dresser la distribution de Z

Z ni fi
[1-5[ 31,8 0,041
[5-15[ 173,8 0,222
[15-30[ 274,9 0,352
[30-60[ 231,6 0,296
plus que 60 69,2 0,089
Total 781,3 1

4. Le sociologue a étudié séparément la durée du trajet des étudiants et élèves en milieu communal et celle
en milieu non communal. Le tableau 2 présente les statistiques descriptives obtenues. Commenter les
résultats fournis et comparer les avec ceux obtenus dans la question 2.

Tableau 2 : Statistiques descriptives :


Paramètres La durée en milieu La durée en milieu non X
Communal communal
Moyenne 22,629 minutes 30,258 minutes 24,76
Mode [5-15[ [15-30[ [5-15[
Médiane 17,444 25,099 19,554
Variance 284,01 385,247 323,100

Remarque : pour le commentaire il faut toujours partir du général vers le particulier :


D’après les données de l’INS, les élèves et étudiants mettent en moyenne 24, 76 minutes pour se
rendre à leurs établissements scolaire en 2017. 50% d’entre eux mettent moins de 19,554 minutes ;
mais la plupart entre 5 et 15 minutes.
Cependant, nous constatons que la durée du trajet varie en fonction du milieu. En effet, les valeurs
des paramètres de position (Mode, Médiane, Moyenne) du milieu non communal. Autrement, la
durée du trajet en zone rurale est plus élevée. Ceci pourrait s’expliquer par l’éloignement des
habitations de l’école en milieu non communal ainsi que la fréquence moins élevée en matière des
Série 3

transports.
1LG - Statistique Descriptive & calcul des Probabilités Série 3

La distribution est fortement dispersée (variance très élevée) et ce quelque soit le milieu. La
dispersion est plus forte en milieu non communal.

Exercice 5
Dans un centre de planning familial, nous avons interrogé 100 femmes sur leur âge et le nombre
d’enfants qu’elles ont. Les tableaux 1 et 2 résument l’enquête menée.

Tableau 1 : Distribution de 100 femmes selon leur âge et le nombre d’enfants qu’elles ont (en effectifs)
y
X 1 2 3 4 Total

[20-25[ 10 5 2 1 18
[25-30[ 5 10 8 1 24
[30-35[ 4 12 9 2 27
[35-45[ 1 14 12 4 31
Total 20 41 31 8 100

Tableau 2 statistiques descriptives


Je vous prie de corriger les valeurs de X comme suit

Paramètres X Y
Moyenne marginale 28,725 2,27
Mode [30-35[ 2
Médiane 31,48148148 2
Variance marginale 11,68 0,7571

1. Commenter les résultats du tableau 2.


2. Calculer cov (x,y), interpréter.
3. Les deux variables étudiées sont elles indépendantes ? Commenter.
4. Calculer le coefficient de corrélation.

Correction Exercice 5
1. D’après une étude menée aupres de 100 femmes dans un centre de planning familial, nous
constatons qu’en moyenne les femmes de l’echantillon sont agées de 31,8 ans et ont en
moyenne deux enfants (2,28)
La pluaprt des femmes ont 30 ans et deux enfants.
50% des femmes étudiées ont moins de 31,48 et 2 enfants.
Nous constatons que les valeurs des paramètres de position (moyenne, mode et médiane)
sont proches mais ne sont pas égales, nous pouvons en déduire une légère dissymétrie de la
distribution aussi bien en termes d’âge que de nombre d’enfants.
S’agissant des paramètres de dispersion, nous pouvons dire que les femmes sont plus
dispersés en termes d’âge qu’en termes de nombre d’enfants (variance faible=0,7571)
Série 3

2. Pour calculer la cov


1LG - Statistique Descriptive & calcul des Probabilités Série 3

Nous utilisons le centre de classe pour la variable X car c’est une variable quantitative continue
1 2 3 4
22,5 10 5 2 1
27,5 5 10 8 1
32,5 4 12 9 2
30 1 14 12 4
Total 20 41 31 8
(1*22,5*4)=90
1 2 3 4
22,5 225 225 135 90
27,5 137,5 550 660 110
32,5 130 780 877,5 260
30 30 840 1080 480
Cela nous permet d’obtenir la
2*30*14=840

Nous avons déjà les moyennes données


Donc nous calculons
0,894

La covariance étant positive, les deux variables x (l’âge des mères) et y(le nombre d’enfants)
varient dans le même sens.

3. Nous savons que l’indépendance entre X et Y entraine l’égalité entre les lois
conditionnelles et marginales càd

f ij  f i  f  j
f i  f i j  f i  f  j  f  j  f ji
f ji  f  j
f i j  f i

Nous calculons les fréquences

1 2 3 4 Total
[20-25[ 0,1 0,05 0,02 0,01 0,18
Série 3

[25-30[ 0,05 0,1 0,08 0,01 0,24


[30-35[ 0,04 0,12 0,09 0,02 0,27
1LG - Statistique Descriptive & calcul des Probabilités Série 3

[35-45[ 0,01 0,14 0,12 0,04 0,31


Total 0,2 0,41 0,31 0,08 1

f11=0,1 ; f1.=0,2 ; f.1=0,18 f1.* f.1=0,2*0,18=0,036 ≠f11 X et Y ne sont pas


indépendantes.

4. Le coefficient de corrélation de X et Y

Corrélation positive faible entre l’âge des mères et le nombre d’enfants qu’elles ont puisque
le coef de perason est positif mais proche de zéro

Exercice 6

Nous disposons de données relatives à la consommation et au revenu en dinars tunisiens au cours du


mois d’avril 2018 d’un échantillon de 1500 individus qui résident dans la région de la Manouba.

Un économiste a procédé à un ajustement linéaire de la consommation (C) sur le revenu (R) pour
cet échantillon en utilisant la méthode MCO et il a obtenu les résultats suivants

Le coefficient de détermination R²=0.90


1. Donner les formules ayant permis de trouver les valeurs 0,9 et 290.
2. Expliquer et commenter (statistiquement et économiquement) les différents éléments de la
droite de régression.
3. Interpréter la valeur de R² et en déduire le coefficient de corrélation de Pearson.
Commenter.

Correction Exercice 6

1. Donner les formules ayant permis de trouver les valeurs 0,9 et 290.
n n

 yi xi nxy  x  x  y
i i  y
aˆ  i 1
n
 i 1
n
 0,9
x
i 1
2
i nx 2
 x  x 
i 1
i
2

bˆ  y  aˆx  290
2. Expliquer et commenter (statistiquement et économiquement) les différents éléments de la
Série 3

droite de régression.

La consommation C est la variable expliquée (ou endogène ou dépendante)


1LG - Statistique Descriptive & calcul des Probabilités Série 3

Le revenu R est la variable explicative (ou exogène ou indépendante)


Les paramètres â (0,9) et ^b (290) ont été estimés par méthode MCO de façon à min le carré
des erreurs
Nous constatons que la pente de la droite (â) est positive, une augmentation du revenu de un
dinar entrainerait une augmentation de la consommation de 900 millimes.
b̂ =290 il s’agit de la constante. Meme si le revnu est nul, la consommation s’élève à 290, il
s’agit de la consommation autonome ou incompressible.
Cette équation rappelle la fonction keynesienne de consommation composée d’une
consommation marginale et d’une consommation autonome.
3. Interpréter la valeur de R² et en déduire le coefficient de corrélation de Pearson.
Commenter.
R² etant proche de 1, nous avons une bonne qualité d’ajustement entre revenu et
consommation
Coef de pearson = =0,94 forte corrélation positive entre revenu et consommation.

Exercice 7
Nous disposons des données suivantes relatives aux notes obtenues par 87 étudiants de première
années de l’ESCT lors de la session principale en Statistique Descriptive et Probabilité (Y) et
Mathématiques (X), et nous souhaitons ajuster linéairement Y sur X.

1. Ajuster par la méthode de MCO Y sur X, expliquer chaque composante de la droite et


interpréter les résultats obtenus.

2. Calculer le coefficient de détermination. Commenter.


3. En déduire le coefficient de corrélation. Commenter

Correction exercice 7

1. Ajuster par la méthode de MCO Y sur X, expliquer chaque composante de la droite et


interpréter les résultats obtenus.
Yt=axt+b avec Y la note obtenue en stat la variable expliquée (ou endogène ou dépendante)
X est la note obtenue en math : la variable explicative (ou exogène ou indépendante)
Les paramètres â et ^b estimés par méthode MCO de façon à min le carré des erreurs
Série 3
1LG - Statistique Descriptive & calcul des Probabilités Série 3

y
i 1
i xi nx y
2690,31  (87 * 3,54 * 6,11)
aˆ    1,19
n
1766,18  87 * (3,54)²
x
i 1
2
i nx 2

bˆ  y  aˆx  6,11  3,54 * 1,19  1,89

Nous constatons que la pente de la droite (â) est positive, une augmentation de la note de
math de 1 point entrainerait une augmentation 1,19 en note de stat.
Même si la note de math est nulle (X=0) la note de stat serait égale à 1,89.

2. Calculer le coefficient de détermination. Commenter.


cov (2x , y )
R  2 2   (2x , y )
2

 x y
1 n 2 2
 x2  xi x
n i 1 7,76
R 2  aˆ 2  1,19² n  1,4161 *
 y2 1

2 21,08
y i2  y
n i 1

R²=0.518 ; moyenne qualité d’ajustement entre X et Y


3. En déduire le coefficient de corrélation. Commenter

Coef de corrélation=0.719 proche de 1 une forte corrélation positive entre les notes de math
et celles de stat

Exercice 8

Le service marketing de l’entreprise Preum’s cherche à étudier la relation entre les dépenses de
publicités (X) et le chiffre d’affaire annuel (Y) sur 10 années en millions de dinars
Les données se présentent dans le tableau suivant :
Années Yt Xt
2010 38 2,4 1. Soit le modèle Yt=axt+b, estimez’
2011 42 3 l’équation par MCO et interprétez les
2012 42 3
Série 3

résultats
2013 39 2,5 2. Si l’entreprise décide de doubler ses
2014 40 3,2 dépenses de publicités de 2019, quel
serait le montant du chiffre d’affaire en
2020 ?
3. Calculer le coefficient de corrélation.
Interpréter.
1LG - Statistique Descriptive & calcul des Probabilités Série 3

2015 45 3,5
2016 35 2
2017 24 1,8
2018 38 3,2
2019 42 3,4
Total 385 28

Correction de l’exercice 8

1. Soit le modèle Yt=axt+b, estimez et interprétez les résultats


Y est la variable expliquée ou endogène ( chiffre d’affaire)
X est la variable explicative exogène ( dépenses publicitaires)
a et b sont les paramètres à estimer
yˆ  aˆx  bˆ
i i n

y i xi nx y
avec aˆ  i 1
n
et bˆ  y  aˆx
x
i 1
2
i nx 2

Années Yt Xt Yt*Xt Xt²

2010
38 2,4 91,2
5,76 x
x i

28
 2,8 millions de dinars
2011 42 3 126 9 n 10
2012 42 3 126 9
y
y i

385
 38,5 millions de dinars
2013 39 2,5 97,5 6,25 n 10
2014 40 3,2 128 10,24 n

2015 45 3,5 157,5 12,25 y


i 1
i x i nx y
1103,8 - 10 * 2,8 * 38,5
aˆ    8,21
2016
2017
35
24
2
1,8
70
43,2
4
3,24 x
n
2
i nx 2 
81,54 - 10 * 2,8
2

i 1
2018 38 3,2 121,6 10,24
42 3,4 142,8 11,56 bˆ  y  aˆx  38,5  1,29 * 2,8  15,49
2019
Total 385 28 1103,8 81,54

yˆ i  aˆxi  bˆ  8,21xi  15,49


Une augmentation des dépenses publicitaires de un million de dinars entrainerait un
accroissement du chiffre d’affaires de 8,21 millions de dinars.
Si l’entreprise décide de ne rien dépenser en publicité (X=0), son chiffre d’affaires serait de
Série 3

15,49 millions de dinars.


1LG - Statistique Descriptive & calcul des Probabilités Série 3

2. Si l’entreprise décide de doubler ses dépenses de publicités de 2020, quel serait le montant
du chiffre d’affaire en 2015 ?
Si l’entreprise double ses dépenses de 2020, x =2*3,4=6,8, le CA de 2015 serait de 71,31
md
yˆ i  8,21xi  15,49  (8,21* 6,8)  15,49  71,31millions

3. Calculer le coefficient de corrélation. Interpréter.


cov  x, y 
 x, y 
 x y

cov  x, y  
1 1103,8
n
 xi y i  x y 
10
 (2,8 * 38,5)  2,58

1
 x   x2 avec  x2   xi2  x 2  0,314
n
 x  0,314  0,56
1
 y   y2 avec  y2 
n
 y i2  y 2  30,45

 y  30,45  5,51
cov  x, y  2,58
 x, y    0,83
 x y 0,56 * 5,51
 x , y  1 une forte relation positive entre le montant des dépenses publicitaires et le CA

Série 3