Académique Documents
Professionnel Documents
Culture Documents
Démarrage de
1
2. Calculer la somme et la somme des carrés des valeurs observées
sum(X)
sum(X^2)
3. Calculer les moyenne, variance et écart-type sans biais des valeurs observées
mean(X)
var(X)
sd(X)
4. Calculer les variance et écart-type biaisés des valeurs observées
n <- length(X)
(n-1)*var(X)/n
sd(X)*sqrt((n-1)/n)
5. Autres résumés numériques : minimum, maximum et quantiles observés
summary(X)
min(X); max(X); median(X)
quantile(X)
quantile(X, type=4) # calcul avec la fct de répartition observée
sort(X)
1:n/n # proportion de valeurs inférieures
6. Variable centrée réduite
(X-mean(X))/sd(X); scale(X)
7. Représentations graphiques å une troisième fenêtre R Graphics s’ouvre automatiquement à
l’exécution des commandes graphiques
# Histogramme
hist(X)
hist(X, freq=FALSE, main="Histogramme des durées de vie", ylab="fréquences observées")
par(mfrow=c(2,2))
hist(X, freq=FALSE, main="Histogramme des durées de vie", ylab="fréquences observées",
ylim=c(0,0.12))
# Densités de lois usuelles
curve(dunif(x,min=0,max=50), add=TRUE, col="cyan")
curve(dnorm(x,mean=mean(X),sd=sd(X)), add=TRUE, col="red")
curve(dexp(x,rate=1/mean(X)), add=TRUE, col="blue")
curve(dchisq(x,df=mean(X)), add=TRUE, col="violet")
curve(dgamma(x,shape=mean(X)^2/var(X),rate=mean(X)/var(X)), add=TRUE, col="green")
# Boîte à moustaches
boxplot(X, main="Boîte à moustaches des durées de vie")
# Fonction de répartition observée
plot(sort(X),1:n/n, main="Fonction de répartition observée")
# Fonctions de répartition de lois usuelles
curve(pnorm(x,mean=mean(X),sd=sd(X)), add=TRUE, col="red")
curve(punif(x,min=0,max=50), add=TRUE, col="cyan")
curve(pexp(x,rate=1/mean(X)), add=TRUE, col="blue")
curve(pchisq(x,df=mean(X)), add=TRUE, col="violet")
curve(pgamma(x,shape=mean(X)^2/var(X),rate=mean(X)/var(X)), add=TRUE, col="green")
# Droite de Henry
qqnorm(scale(X))
abline(0,1, col="red",lty=2)
# Ouvrir une nouvelle fenêtre graphique
x11()
2
8. Fonction : calcul de la variance observée (biaisée)
# fonction variance observée : var_obs(x)
var_obs <- function(x) var(x)*(length(x)-1)/length(x)
var_obs(X)
9. Liste des objets créés et suppression
ls()
rm(n,X)
ls()
Les données sont les réalisations (x1 , . . . , xn ) d’un échantillon de taille n d’une v.a. quantitative X de
moyenne µ et de variance σ 2 .
Une estimation ponctuelle de
P
xi
– la moyenne µ est donnée par la moyenne observée x = i (estimation sans biais) ;
n
i (xi − x)
P 2 P 2
x
– la variance σ est donnée par la variance observée sx =
2 2 = i i − x2 (estimation
n n
(xi − x)2
P
n
biaisée) ou par la variance observée sans biais sbx = i2 = s2 .
n−1 n−1 x
On considère la population des composants électroniques.
La moyenne µ des durées de vie des composants électroniques est estimée à x = 7, 45 (heures) ;
la variance σ 2 des durées de vie des composants électroniques est estimée à sb2x = 81, 07431 et
l’écart-type σ à sbx = 9, 004127 (heures).
Sauvegardes avec
ä Pour le fichier des commandes
* dans la fenêtre Sans titre - Editeur R menu Fichier sélectionner Sauver ou Sauver sous...
choisir le dossier adéquat et donner un nom au fichier ; par défaut le fichier a l’extension .R
å le nom du fichier apparaît dans le nom de la fenêtre nom du fichier - Editeur R
ä Pour le(s) graphique(s)
3
Exercice 2 Variable qualitative dichotomique
On a observé sur 20 lancers d’une pièce, les résultats suivants :
pile ; face ; pile ; face ; pile ; face ; face ; face ; face ; pile ; pile ; face ; pile ; face ; face ; pile ; pile ; face ; pile ; face
4
Les données sont les réalisations (x1 , . . . , xn ) d’un échantillon de taille n d’une v.a. qualitative X à
deux modalités, pile et face, de proportions respectives p et 1 − p.
Une estimation ponctuelle sans biais de la proportion de piles p est donnée par la fréquence observée de
n1
piles f = = x et celle de la proportion de faces 1−p par la fréquence observée de faces 1−f = 1−x.
n
On estime la proportion de piles à f = 0, 45 et celle de faces à 1 − f = 0, 55.
(a) Calculer le nombre total de nouveaux cas de COVID-19 pendant la période étudiée.
(b) Calculer les fréquences observées de nouveaux cas par jour de la semaine.
(c) Représenter graphiquement la distribution observée des nouveaux cas de COVID-19 selon le jour de
la semaine.
Les données sont les réalisations (x1 , . . . , xn ) d’un échantillon de taille n d’une v.a. qualitative X à
k = 7 modalités, de proportions respectives p1 , . . . , pk avec j pj = 1.
P
nj
Une estimation ponctuelle sans biais de la proportion pj est donnée par la fréquence observée fj = .
n
On considère la population des nouveaux cas de COVID-19 en France fin 2020.
On estime la proportion de nouveaux cas, le lundi à f1 = 0, 04482, le mardi à f2 = 0, 12752, le mercredi
à f3 = 0, 18777, le jeudi à f4 = 0, 17489, le vendredi à f5 = 0, 15837, le samedi à f6 = 0, 17114 et le
dimanche à f7 = 0, 13549.
5
Exercice 4 Variable quantitative discrète
Les nombres de clients entrant dans un supermarché pendant 40 périodes consécutives de 1 minute sont les
suivants : 3 7 7 7 9 7 1 4 7 6 7 6 4 10 5 8 5 4 4 4
5 5 4 2 0 8 6 9 8 2 6 4 5 6 4 8 4 4 13 8
(a) Calculer les résumés numériques observés des nombres de clients par minute : moyenne x, variance s2x ,
x
écart-type sx , médiane mx , quartiles q0,25 x .
et q0,75
(b) Représenter graphiquement la distribution observée des nombres de clients par minute.
6
Exercice 5 Couple de variables quantitative/qualitative
Pour étudier les taux de contamination des sols par la substance toxique PCB (biphenil polychlorinaté), 24
échantillons de sols ont été prélevés : 14 proviennent de régions rurales et 10 de régions urbaines. Le taux
de PCB contenu dans ces échantillons (mesurés en 10−4 g par kg de sol) sont :
région rurale 3,5 1 1,6 12 8,1 5,3 23 8,2 1,8 9,8 1,5 9,7 9 15
région urbainee 24 11 107 18 29 49 94 12 16 22
(a) Estimer le taux de PCB moyen des régions rurales et celui des régions urbaines.
(b) Estimer la variance des taux de PCB des régions rurales et celle des régions urbaines.
(c) Représenter graphiquement les distributions observées pour les régions rurales et urbaines.
7
Exercice 6 Couple de variables quantitatives
Les données suivantes concernent le temps de travail X en dizaine d’heures et la production industrielle Y
en milliers de tonnes de 12 entreprises. On note Xi le temps de travail et Yi la production de l’entreprise
n°i, i = 1, ..., 12.
entreprise n°i 1 2 3 4 5 6 7 8 9 10 11 12
xi 110 112 120 129 143 150 152 160 162 180 180 182
yi 6 8 12 19 19 25 30 35 36 38 44 43
(a) Vérifier que : xi = 1780 x2i = 271 506 yi = 315 yi2 = 10 241 xi yi = 50 492.
P P P P P
(b) Calculer le temps de travail moyen observé x et la production industrielle moyenne observée y des 12
entreprises. Calculer la variance observée des temps de travail s2x et celle des productions industrielles
y3 − ȳ
s2y . Calculer la production industrielle centrée et réduite z3 = de l’entreprise n◦ 3.
sy
(c) Estimer le temps de travail moyen et la production industrielle moyenne des entreprises.
(d) Estimer la variance et l’écart-type des temps de travail et des productions industrielles des entreprises.
(e) Représenter le nuage de points du couple (x, y). Déterminer le barycentre G = (x, y) du nuage de
points et le représenter.
(f) Calculer la covariance observée cov(x, y) et le cœfficient de corrélation observé r(x, y) entre le temps
de travail et la production.
(g) Construire la matrice de covariance observée des 2 caractères temps de travail et production puis la
matrice de corrélation observée.
8
4. Covariance et cœfficient de corrélation observés entre temps de travail et production
cov(X,Y); cov(X,Y)*(length(X)-1)/length(X)
cor(X,Y)
5. Création d’un tableau de données : dataframe
don <- data.frame(TRAV=X, PROD=Y)
don
don$TRAV; don$PROD
summary(don)
var(don)
var(don)*(length(don$TRAV)-1)/length(don$TRAV)
cor(don)
pairs(don)
ls()
rm(don, X,Y,Z)
Les données sont les réalisations de deux échantillons appariés de même taille n :
– (x1 , . . . , xn ) de la v.a. quantitative X de moyenne µX et de variance σX
2 ;
9
Exercice 7 Variables quantitatives
On souhaite étudier la relation entre le PIB par habitant (en milliers de dollars PPA (Parité de Pouvoir
d’Achat)) et chacune des variables :
– la consommation d’énergie par habitant (en Tonnes d’Équivalent Pétrole TEP)
– le taux de mortalité infantile (nombre de décès d’enfants de moins d’un an pour 1000 naissances
vivantes)
– l’espérance de vie à la naissance (en années)
– la densité de population (en nombre d’habitants par km2 )
relevés en 2011 pour 30 pays 1 et figurant dans le tableau suivant
n° Pays Code PIB/hab Cons. énergie Mort. infantile Esp. vie Dens. pop.
1 Afrique du Sud ZA 11,0 2,795 43,2 49,3 40,0
2 Algérie DZ 7,2 1,108 25,8 74,5 14,9
3 Australie AU 40,8 5,296 4,6 81,8 2,8
4 Belgique BE 37,6 5,349 4,3 79,5 341,9
5 Brésil BR 11,8 1,371 21,2 72,5 24,2
6 Bulgarie BG 13,5 2,615 16,7 73,6 63,5
7 Canada CA 40,5 7,426 5,6 81,4 3,4
8 Chili CL 16,1 1,877 7,3 77,7 22,5
9 Chine CN 8,4 2,029 16,1 74,7 140,0
10 Corée du Sud KR 31,7 5,175 4,2 79,0 496,1
11 Côte d’Ivoire CI 1,6 0,579 64,8 56,8 68,1
12 Égypte EG 6,5 0,978 25,2 72,7 83,6
13 Équateur EC 8,3 0,849 19,6 75,7 53,7
14 Estonie EE 20,2 4,140 7,1 73,3 28,2
15 États-Unis US 48,1 7,032 6,1 78,4 32,6
16 Finlande FI 38,3 6,359 3,4 79,3 15,6
17 France FR 35,0 3,843 3,3 81,2 120,3
18 Haïti HT 1,2 0,320 54,0 62,2 353,2
19 Inde IN 3,7 0,614 47,6 66,8 366,6
20 Iran IR 12,2 2,813 42,3 70,1 47,9
21 Japon JP 34,3 3,584 2,8 82,2 337,1
22 Norvège NO 53,3 5,681 3,5 80,2 14,5
23 Nouvelle Zélande NZ 27,9 4,124 4,8 80,6 16,1
24 Pays-Bas NL 42,3 4,638 4,6 79,7 402,9
25 Pologne PL 20,1 2,629 6,5 76,0 122,9
26 Portugal PT 23,2 2,187 4,7 78,5 116,7
27 Royaume-Uni GB 35,9 2,997 4,6 80,0 257,5
28 Slovénie SI 29,1 3,531 4,2 77,3 98,5
29 Tunisie TN 9,5 0,890 25,9 75,0 78,6
30 Turquie TR 14,6 1,539 23,9 72,5 102,2
somme 683,9 94,368 507,9 2 242,5 3 866,1
P
x
Pi i2
somme des carrés x 22 205,2 416,125 17 370,2 169 270,4 1 079 889,0
Pi i
somme des produits i x i yi 2 952,518 5 701,5 53 388,9 91 824,9
10
1. Lire les données avec du fichier Pays-PIB.csv : tableau de données dataframe
# afficher le répertoire courant
getwd()
# modifier le répertoire courant
setwd("nom répertoire courant ")
getwd()
données <- read.csv2("Pays-PIB.csv", encoding="UTF-8")
données
str(données)
class(données)
summary(données)
attach(données)
2. Calculer les moyennes et variances observées
# fonction variance observée : var_obs(x)
var_obs <- function(x) var(x)*(length(x)-1)/length(x)
mean(PIB); var(PIB); var_obs(PIB)
mean(Conso); var(Conso); var_obs(Conso)
mean(Mort); var(Mort); var_obs(Mort)
mean(Esp); var(Esp); var_obs(Esp)
mean(Dens); var(Dens); var_obs(Dens)
3. Calculer les covariances et cœfficients de corrélation linéaires observés
# fonction covariance observée : cov_obs(x,y)
cov_obs <- function(x,y) cov(x,y)*(length(x)-1)/length(x)
cov(PIB,Conso); cov_obs(PIB,Conso)
cov(PIB,Mort); cov_obs(PIB,Mort)
cov(PIB,Esp); cov_obs(PIB,Esp)
cov(PIB,Dens); cov_obs(PIB,Dens)
cor(PIB,Conso); cor(PIB,Mort); cor(PIB,Esp); cor(PIB,Dens)
# Matrice de corrélation observée
cor(données[,3:7])
4. Tracer les nuages de points en fonction du PIB/hab
par(mfrow=c(2,2))
plot(PIB,Conso)
plot(PIB,Mort)
plot(PIB,Esp)
plot(PIB,Dens)
par(mfrow=c(1,1))
plot(PIB,Conso, xlab="PIB/hab (en milliers $ PPA)",ylab="Conso énergie (en TEP)",
pch=16, col="blue", xlim=c(0,60), ylim=c(0,8), xaxt="n",yaxt="n",
xaxs="i",yaxs="i", cex=1.25)
axis(side=1, seq(0,60,10),cex.axis=1)
axis(side=1, seq(0,60,1),labels=FALSE,tcl=-0.3,cex.axis=1, lwd.ticks=1)
axis(side=2, seq(0,8,1),las=2,cex.axis=1, lwd.ticks=1, cex.lab=1 )
axis(side=2, seq(0,8,0.1),labels=FALSE, cex.axis=1,lwd.ticks=1,tcl=-0.3 )
text(PIB,Conso, Code, pos=3, cex=0.7)
mtext(bquote(paste("coefficient de corrélation observé : ",
r==.(round(cor(PIB,Conso),5)))), line=1)
grid()
5. Tracer tous les nuages de points des couples de variables
pairs(données[,3:7])
detach(données)
ls() ; rm(données)
11