Vous êtes sur la page 1sur 7

ISET SILIANA A. U.

2023/2024
Département : Technologies de l’ Informatique Section TI1, 4
Matière : Statistiques Enseignante : Aroua Selmi

1 Série statistique simple

1.1 Définitions

Une série statistique simple est la donnée d’une famille de couples (ni , xi ) tels
que ni soit l’effectif du caractère xi , lorsque xi est un intervalle, on prend au
lieu de xi , son centre ci .

Définition 1.1. Pour une série statistique simple (ni , xi ) de taille n, on appelle :
1 Pp
• Moyenne arithmétique le réel noté X̄ définie par : X̄ = ni xi oú p est le nombre
n i=1
des valeurs, avec (p 6 n).
1 Pp 1 Pp
• Variance le réel positif noté Vx définie par : Vx = 2
i=1 ni (xi − X̄) = ni x2i −
n n i=1
X̄ 2 √
• Écart-type le réel positif noté σx défini par : σx = Vx .

Remarque 1.2. – La variance et l’écart-type sont des mesures statistiques utilisées pour
quantifier la dispersion ou l’étalement des données autour de leur moyenne. Ils fournissent
des informations sur la répartition des valeurs dans un ensemble de données !
– La variance mesure la dispersion en calculant la moyenne des carrés des écarts entre
chaque valeur de données et la moyenne. En d’autres termes, elle indique à quel point les
valeurs individuelles s’éloignent de la moyenne !
– L’écart-type est simplement la racine carrée de la variance. Il s’agit d’une mesure plus
facile à interpréter, car elle est exprimée dans la même unité que les données originales

Propriété 1.3. Soient a et b deux réels, alors : V (aX + b) = a2 Vx =⇒ σx (aX + b) = |a|σx

Exemple 1.4. La série Si ci-contre donne la répartition des élèves d’une classe selon leurs
moyennes en mathématiques lors du 1er trimestre.
Moyennes (xi ) [0,5[ [5,10[ [10,15[ [15,20[
Effectifs (ni ) 3 13 9 1

Calculer X̄, Vx et σx

2 Série statistique double

Exercice 2.1. La série (S2 ) ci-dessous donne l’évolution des revenues de l’exportation du
phosphate (xi en millions de DT) et sa part en pourcentage des revenues totales des expor-
tations tunisienne de l’année 1999 à l’année 2003.

1
xi 720 730 740 760 800
yi 6 6.5 7 7.5 8
1. Calculer Calculer X̄, Ȳ , Vx , Vy , σx et σy .
2. Représenter le nuage de point de coordonnées (xi , yi ) associés à cette série statistique.

2.1 Covariance et coefficient de corrélation

2.1.1 Cas d’un échantillon simple

Définition 2.2. On appelle covariance de X et Y le réel noté cov(X, Y ) définie par :


1 Pn 1 Pn
cov(X, Y ) = cov(Y, X) = (xi − X̄)(yi − Ȳ ) = xi yi − X̄ Ȳ
n i=1 n i=1
Propriété 2.3. • cov(X, X) = Vx et cov 2 (X, Y ) 6 Vx Vy .
• Si cov(X, Y ) 6= 0, on dit que X et Y sont corrélées.
• Si cov(X, Y ) = 0, on dit que X et Y ne sont pas corrélées.
• Pour tout réels α et β, on a : cov(X + α, Y + β) = cov(X, Y ) et cov(αX, βY ) =
αβcov(X, Y )
• La covariance permet une mesure de dispersion des points du nuage par rapport au point
moyen.
• La covariance mesure la tendance qu’ont les variables X et Y à varier ensemble.
• Si cov(X, Y ) > 0, alors X et Y ont tendance à varier dans le même sens.
• cov(X, Y ) 6 0, alors X et Y ont tendance à varier en sens contraires.
Définition 2.4. On appelle coefficient de corrélation linéaire de X et Y le réel noté r ou
cov(X, Y )
r(X, Y ) défini par : r =
σX σY
Remarque 2.5. • r(X, Y ) = r(Y, X) = r
• Si r = ±1alors il y a une dépendance totale entre X et Y c-à-d, l’une des deux variables
est une fonction affine de l’autre.
• Si X et Y sont indépendantes alors r = 0. (La réciproque est fausse, on dit que X et Y
ne sont pas
 liées
 par une relation de type affine).
3
• Si |r| ∈ 0, alors la corrélation linéaire entre X et Y est faible.
# 4√ "
3 3
• Si |r| ∈ , alors la corrélation linéaire entre X et Y est forte.
4 2
#√ "
3
• Si |r| ∈ , 1 alors la corrélation linéaire entre X et Y est très forte.
2
Exemple 2.6. Calculer cov(X, Y ) et r coefficient de corrélation de X et Y de la série (S2 )
dans (2.1) et interpréter les résultats trouvés.

2.1.2 Cas d’un échantillon groupé

Définition 2.7. Soit (X, Y ) une série statistique double de taille n et nij la fréquence
1 Pp Pq
d’apparition de couple (xi , yj ), alors cov(X, Y ) = ni,j xi yj − X̄ Ȳ
n i=1 j=1

2
Exercice 2.8. La série (S3 ) ci dessous donne la distribution des employés par âge X et
par salaire Y dans une entreprise.
X
]20, 30[ ]30, 40[ ]40, 50[ ]50, 60[ Total(Y)
Y
[600, 800[ 30 40 40 20 130
[800, 1000[ 40 20 40 20 120
[1000, 1200[ 0 40 50 60 150
Total (X) 70 100 130 100 400
1. Calculer X̄ et σX .
2. Calculer Ȳ et σY
3. Déterminer r le coefficient de corrélation de X et Y puis interpréter ce résultat.

3 Ajustement-Droite de régression

3.1 Ajustement affine

Le problème de l’ajustement affine consiste à déterminer une droite ∆ qui ap-


proche le mieux possible des points du nuage dans le plan. Il est utilisé no-
tamment en analyse de données pour évaluer la pertinence d’une relation affine
entre deux variables statistiques, et pour estimer les coefficients d’une telle rela-
tion. Cette droite est appelée droite de régression. Un tel ajustement est justifié
si |r| > 0.75

3.1.1 Méthode d’ajustement affine par les moindres carrés

Définition 3.1. Soit (X, Y ) une série statistique double de taille n telle que σx 6= 0.
La droite ∆ appelée droite de régression de Y en X ou droite des moindres carrés a pour
cov(X, Y ) σY
équation : ∆ : Y = aX + b avec a = = r et b = Ȳ − aX̄. ∆ passe par le
VX σX
point moyen G(X̄, Ȳ )

Remarque 3.2. • Les réels cov(X, Y ), r et a sont de même signe.


• La droite de régression de X en Y notée ∆0 est d’équation : ∆0 : X = a0 Y + b0 avec
cov(X, Y ) σx
a0 = = r et b0 = X̄ − a0 Ȳ
VY σY
∆0 passe par le point moyen G0 (Ȳ , X̄)
• a × a0 = r 2

Exercice 3.3. 1. Déterminer une équation de la droite ∆de régression de Y en X dans


la série (S2 ) de (2.1).
2. Estimer le pourcentage des revenues totales des exportations tunisiennes d’un milliard
de DT.

3
3.1.2 Ajustement par la méthode de Mayer

3.1.2.1 Principe de la méthode de Mayer Soit un nuage des points repré-


sentant une série statistique double (X, Y ) et G son point moyen. On scinde le
nuage de points de (X, Y ) en deux parties contenant à peu près le même nombre
de points, (la différence ne doit pas dépasser 1), on considère alors les points
moyens G1 et G2 des deux nuages obtenus. La droite (G1 G2 ) définit un ajuste-
ment affine, elle est appelée droite de Mayer, Cette droite passe par le point
moyen G du nuage global.
Exemple 3.4. La série (S5 ) suivante donne le relevé des valeurs d’une action en DT sur
15 jours consécutifs d’une bourse.
Joursxi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
ValeursYi 18.8 18.9 18.9 19.1 19.2 19 19.2 19.3 19.5 19.7 19.6 19.7 19.8 20 20.3
1. Déterminer les coordonnées du point moyen du nuage G
2. Déterminer les coordonnées du point moyen G1 des jours allant de 1 à 8
3. Déterminer les coordonnées du point moyen G2 des jours allant de 9 à 15
4. Déterminer l’équation de le droite (G1 G2 ), la droite de Mayer puis tracer la.

3.2 Ajustement non affine

Exemple 3.5. Les prix d’un litre de pétrole (en $) au canada durant les huit premiers mois
de l’année 2018 sont consignés dans le tableau suivant :
Rang du mois (X) 0 1 2 3 4 5 6 7
Prix d’un litre (Y ) 4.61 4.57 4.57 4.57 4.60 4.62 4.63 4.65
1. (a) Déterminer le coefficient de corrélation linéaire r, arrondi à 10−2 près de X et
Y.
(b) Un ajustement affine est-il justifié ?
2. (a) Compléter, en arrondissant à l’unité, le tableau ci-dessous :
X 0 1 2 3 4 5 6 7
Z=e Y

(b) Déterminer le coefficient de corrélation linéaire r0 , de X et Z arrondi à 10−2


près.
(c) Un ajustement affine est-il justifié ?
(d) Donner une équation cartésienne de la droite de régression ∆ de Z en X en se
procédant par les moindres carrés puis exprimer Y en fonction de X.
(e) En poursuivant la même évolution, estimer le prix d’un litre de pétrole à la fin
de l’année 2018.
Série d’exercices

Exercice 1
Le tableau suivant représente l’évolution du chiffre d’affaire (en milliers de
dinars) d’une entreprise pendant 5 années entre 2006 et 2010.
Année 2006 2007 2008 2009 2010
Rang de l’année Xi 1 2 3 4 5
Chiffre d’affaires Yi 120 200 280 400 450

4
1. (a) Calculer X̄, Ȳ les coordonnées du point moyen G.
(b) Dans un repère orthogonal dessiner le nuage des points et le point G.
(c) Est-ce qu’on peut penser qu’un ajustement affine soit adapté ?
2. On pose Zi = ln(Yi )
(a) Compléter le tableau suivant :
Année 2006 2007 2008 2009 2010
Rang de l’année Xi 1 2 3 4 5
Zi = ln(Yi )
(b) Calculer le coefficient de corrélation linéaire r de X et Z.
(c) Déterminer une équation de la droite d’ajustement linéaire par la mé-
thode des moindres carrés de Z en X.
3. (a) Exprimer Y en fonction de X
(b) À l’aide de cet ajustement quel est le chiffre d’affaire prévisible en
2012 ?
Exercice 2
Le tableau ci-dessous donne les pourcentages des chômeurs en Tunisie pendant
eu trimestres successifs à compter du premier trimestre de l’année 2012.
Xi : Rang du trimestre 1 2 3 4 5 6 7 8 9
Yi : Pourcentage des chômeurs 18.1 17.6 17 17.7 16.5 15.9 15.7 15.3 15.2

1. Représenter, dans un repère orthogonal, le nuage des points de la série


statistique (Xi , Yi )
Dans la suite, les résultats seront donnés à 10−2 prés.
2. (a) Calculer le coefficient de corrélation linéaire entre X et Y .
(b) Justifier l’existence d’un ajustement affine entre X et Y .
3. (a) Donner une équation de la droite de régression de Y en X par la
méthode des moindres carrés.
(b) Estimer le pourcentage des chômeurs en Tunisie pendant la deuxième
trimestre de l’année 2015.

Exercice 3
Le tableau suivant donne l’évolution du nombre d’adhérents d’un club de rugby
de 2001 à 2006.
Année 2001 2002 2003 2004 2005 2006
Rang xi 1 2 3 4 5 6
Nombre d’adhérents yi 70 90 115 140 170 220

On cherche à étudier l’évolution du nombre y d’adhérents en fonction du rang


x de l’année.
Partie A : Un ajustement affine.
1. Dans le plan muni d’un repère orthogonal d’unité graphique : 2 cm pour
une année sur l’axe des abscisses et 1 cm pour 20 adhérents sur l’axe des
ordonnées, représenter le nuage de points associé à la série (xi , yi ).
2. Calculer le coefficient de corrélation linéaire de cette série statistique. In-
terpréter le résultat.

5
3. Déterminer une équation de la droite d’ajustement de y en x obtenue par
la méthode des moindres carrés et la tracer sur le graphique précédent (les
coefficients seront arrondis à l’unité).
4. En supposant que cet ajustement reste valable pour les années suivantes,
donner une estimation du nombre d’adhérents en 2009.
Partie B : Un ajustement exponentiel.
On pose z = ln(y)
1. Compléter le tableau suivant en arrondissant les valeurs de zi au millième.
xi 1 2 3 4 5 6
zi 4.248
2. Déterminer une équation de la droite d’ajustement de z en x obtenue par la
méthode des moindres carrées (les coefficients seront arrondis au millième).
3. En déduire une approximation du nombre d’adhérents y e fonction du rang
x de l’année.
4. En prenant l’approximation y = 57.1 e0.224x et en supposant qu’elle reste va-
lable pour les années suivantes, donner une estimation de nombre d’adhé-
rents en 2009
Partie C : Comparaison des ajustements.
En 2009, il y a eu 430 adhérents. Lequel des deux ajustements semble le plus
pertinent ? Justifier la réponse.
Exercice 4
Le tableau suivant donne la distance de freinage d (en mètre) d’une voiture en
fonction de sa vitesse v (en Km/h) :
v(Km/h) 30 40 50 60 70 80
d(en mètre) 42 60 80 90 95 110
¯ V (v), V (d) et cov(v, d).
1. Calculer v̄, d,
2. (a) Calculer le coefficient de corrélation linéaire entre v et d.
(b) Y-a-t-il forte corrélation affine entre v et d ? Justifier.
3. Soit ∆ la droite de régression de d en v. On considère qu’une équation
cartésienne de ∆ est ∆ : d = 1.3 v + 8. Calculer la distance de freinage
lorsque la voiture roule à 100Km/h.
4. La vitesse de la voiture est de 140Km/h, lorsque le conducteur, roulant
suivant une line droite aperçoit un obstacle situé à une distance de 200
mètres.
Pourrait-il, alors, éviter cet obstacle sachant qu’il met une seconde pour
appuyer sur le freins ?
Exercice 5
Le médecin de la Faculté des sciences a relevé le nombre X d’étudiants qui se
sont présentés par jour à son service pendant une période de 15 jours.
Les valeurs prises par X sont données par la série statistique suivante :
4, 0, 4, 1, 2, 5, 4, 2, 3, 4, 3, 4, 4, 2, 3.
1. Déterminer la population Ω, l’individu ω et C l’ensemble des modalités.
2. Calculer directement à partir de la série statistique :
(a) la moyenne.

6
(b) La variance V(X)
(c) la médiane Me
(d) l’écart type σx
Exercice 6
Soit x le caractère discret égal au nombre d’enfants par famille d’une ville au
nord de la Tunisie. Les valeurs prises par x avec leurs effectifs partiels respectifs
sont données par :
xi 1 2 3 4 5 6 7
ni 201 238 137 142 55 15 6
1. Interpréter le nombre 142.
2. Compléter le tableau suivant :
xi ni fi ñi f˜i
3. Calculer
(a) La moyenne x̄
(b) L’écart type σx
4. Tracer le diagramme en bâtons de fi .
5. Déterminer la fonction de répartition Fx .
6. Tracer la courbe cumulative des fréquences de x.
7. Calculer et interpréter
(a) Fx (3.65)
(b) 1 − Fx (5)

Vous aimerez peut-être aussi