Académique Documents
Professionnel Documents
Culture Documents
Exercice 2
Exercice 3
1
Exercice 4
xi 18 7 14 31 21 5 11 16 26 29
yi 55 17 36 85 62 18 33 41 63 87
1. La première étape est d’obtenir les données. Pour cela, vous pouvez créer ces données
(csv/txt), puis les enregistrer sur le bureau du poste.
2. Tracer le diagramme de dispersion des couples (xi ; yi ). A la vue de ce diagramme,
pouvons-nous soupçonner une liaison linéaire entre ces deux variables ?
3. Déterminer pour ces observations la droite des moindres carrés, c’est donner les coeficients
de la droite des MC.
4. Donner les ordonnées des yi calculés par la droite des moindres carrés correspondant aux
diférentes valeurs des x i .
5. Tracer ensuite la droite sur le même graphique.
6. Quelle est une estimation plausible de Y à xi = 21 ?
7. Quel est l’écart entre la valeur observée de Y à xi = 21 et la valeur estim ?ee avec la
droite des moindres carrés ? Comment appelons-nous cet écart ?
8. Est-ce que la droite des moindres carrés obtenue en b) passe par le point (x ; y) ?
9. Pouvons-nous généraliser cette conclusion à n’importe laquelle droite de régression ?
Correction 1) Pour obtenir ces données, il suffit d’utiliser la commande read.table ("file=file.choose(.),
header=T, sep="", dec=".", rownames=1).
2) Ici, ça revient à tracer le nuage de points de cette base afin de visualiser la dépendance entre
ces deux variables (xi , yi ). Utiliser logiciel R avec la commande plot(x,y)) (méthode graphique).
Numériquement, on doit Pn calculer le coefficient de corrélation entre les deux variables xi , yi .
moyenne de x : x̄ = n1 i=1 xi =
Pn
1 i=1 xi yi
ρx,y = = 1/10[18 ∗ 55 + 7 ∗ 17 + 14 ∗ 36 + · · · 29 ∗ 87]
n sd (x)sd (y)
Exercice 5
On considère les compositions chimiques de 20 eaux minirales suivantes :
1. Calculer les quartiles Q1 , Q2 , Q3 , et les limites des moustaches (min, max) pour les
variables HCO3− et Ca+ .
2. Représenter les boites à moustaches pour les variables HCO3− et Ca+ .
2
Exercice 6
On a mesuré la taille (en cm) de 40 élèves d’une classe et on a obtenu les résultats suivants :
138 163 164 119 150 154 132 165 144 146 125 173 149 142 157 147
146 135 158 153 140 140 147 135 136 161 148 145 152 135
144 142 168 150 126 156 138 145 176 128
1. Calculer la moyenne et la variance (non corrigée) des tailles.
2. Déterminer l’écart interdécile.
3. Regrouper les données en 10 classes, puis en 5 classes. Représenter graphiquement les
données obtenues dans les deux cas à l’aide d’un histogramme. Calculer la moyenne dans
les deux cas. Commenter les résultats obtenus.
4. Trouver le mode et les quartiles ? Tracer la boite à moustache de cette série ?
Exercice 7
En 1973, F.J. Anscombe à publié dans le numéro 27 de American Statistician un jeu de don-
nées très intéressantes pour montrer les pièges du calcul "aveugle" du coefficient de corrélation
linéaire.
Exercice 8
On étudie les résultats des élections européennes de 1999 à Paris et dans quelques villes de ban-
lieue. les pricipales listes en présence sont : LOLCR (extremes gauches), PC (communistes), PS
(socialistes), VERTS (Ecologistes), UDF (centre droit). Les communes sont les 20 arrondisse-
ments de Paris (I à XX), la ville dans son ensemble (Paris) et quelques communes de banlieue
parisienne. Athis- M (Athis-Mons), Courneuv (La Courneuve), Draveil, Neuilly (Neuilly-sur-
seine), Pontoise et Thiais. On donne ci-dessous données brutes et leurs matrice de corrélations.
3
1. Nicolas Sarkozy était maire de Neuilly en 1999, et il était la tête de la liste RPRDL.
Comment cela se retrouve-t-il dans les données
2. Quelles sont les couples de variables remarquables (les plus corrélées, les moins corrélées,
les plus opposées)
3. Comment se groupent les variables du point de vue des signes de corrélations. Quelle est
la particularité du vote FN(et dans une moindre mesure MN).
Exercice 9
10 essais en laboratoire ont permis de dresser le tableau suivant qui porte sur la charge de rupture
d’un acier en fonction de sa teneur en carbone X :
xi 70 60 68 64 66 64 62 70 74 62
yi 87 71 79 74 79 80 75 86 95 70
Exercice 10
Soient (x1 , y1 ), ..., (xn , yn ) les valeurs de deux variables quantitatives observées sur un ensemble
de n individus. La droite de régression DY |X de Y sur X est donnée par l’équation y = âx + b̂
où
(â, b̂) = arg min R(a, b)
a,b
Pn Pn
avec R(a, b) = 1
n i=1 (yi − axi − b)2 . On suppose que i=1 (x̄ − xi )2 > 0.
1. Prouver que
sxy
â = b̂ = ȳ − âx̄ R(â, b̂) = s2y (1 − rxy
2
)
s2x
où x̄ et s2x sont la moyenne et la variance des xi , ȳ et s2y sont la moyenne et la variance
des yi , sxy et rxy sont la covariance et le coefficient de corrélation des (xi , yi ).
x 121 123 108 118 111 109 114 103 110 115
y 25 22 19 24 19 18 20 15 20 21
2. Dessiner le nuage des points de ces observations.
3. Calculer x̄ et s2x , sxy , rxy , ȳ et s2y .
4. Déterminer une équation de la droite de régression de Y en X par la méthode des moindres
carrés. On donnera des valeurs approchées à 10−2 près des coéfficients.
5. En utilisant le résultat de la question précédente, donner une prédiction de la taille d’un
enfant de 6 ans qui pèse 23 kg.
Exercice 11
4
A répondre que à travers des commandes de R
Douze personnes sont inscrites à une formation. Au début de la formation, ces stagiaires
subissent une épreuve A notée sur 20. A la fin de la formation, elles subissent une épreuve B de
niveau identique. Les résultats sont donnés dans le tableau suivant :
Epreuve A
3 4 6 7 9 10 9 11 12 13 15 4
Epreuve B
8 9 10 13 15 14 13 16 13 19 6 19
Exercice 12
On considère la fonction de production (de type Cobb-Douglas) suivante :
P = cLβ1 K β2 (E)
yi = β0 + β1 li + β2 ki + i ,
Expliciter les relations entre les nouvelles variables (y, l, k) et les variables initiales (P, L, K)
et rappeler les hypothèses du modèle.
2. Ecrire le modèle sous la forme matricielle suivante : Y = Xβ + en précisant la forme
et la dimension de chaque élément.
3. Les données numériques sont les suivantes :
n
X n
X n
X
n = 1000; li = 500; ki = 490; yi = 1490
i=1 i=1 i=1
n
X n
X n
X
li2 = 330 ki2 = 320; yi2 = 3200
i=1 i=1 i=1
n
X n
X n
X
li yi = 800 ki yi = 770; li ki = 245
i=1 i=1 i=1
5
A propos de la base des données" iris"
Exercice 13
Fichier de données : iris.
R est un ensemble de bibliothèques de fonctions appelées « packages ». Chaque bibliothèque
contient des jeux de données. Pour connaître par exemple les jeux de données contenus dans le
« package » base, écrire l’instruction suivante :
> data(package = "base").
Le résultat apparaït dans une fenêtre R data sets. En voici un extrait :
<-Data sets in package "datasets" :
AirPassengers...........Monthly Airline Passenger Numbers 1949-1960
BJsales.................Sales Data with Leading Indicator
BJsales.lead (BJsales)..Sales Data with Leading Indicator
BOD.....................Biochemical Oxygen Demand
...
iris....................
Edgar Anderson’s Iris Data
1. Noter la présence du fichier iris et du fichier women sur lequel on va travailler (cf T.P.
1). Le fichier iris a toute une histoire. La connaissez-vous ? Les données de ce T.P.
sont célèbres. Elles ont été collectées par Edgar Anderson 1 . Vous auriez pu le deviner.
Pourquoi ? Le fichier donne les mesures en centimètres des variables suivantes :
(i) longueur du sépale (Sepal.Length),
(ii) largeur du sépale (Sepal.Width),
(iii) longueur du pétale (Petal.Length) et
(iv) largeur du pétale (Petal.Width) pour trois espèces d’iris :
(i) Iris setosa,
(ii) Iris versicolor et
(iii) Iris virginica.
Sir R.A. Fisher a utilisé ces données pour construire des combinaisons linéaires des va-
riables permettant de séparer au mieux les trois espèces d’iris.
2. Pour analyser le fichier iris, il faut le charger. Quelle est l’instruction qu’il faut taper
pour charger ce fichier ?
Taper une a‘ une chacune des instructions ci-dessous et noter le résultat obtenu si possible.
Attention, le logiciel R n’est pas indifféent aux majuscules et aux minuscules.
>iris
>dim(iris)
>names(iris)
>irisδSpecies
>iris ?Petal.Length
3. Quelle(s) différence(s) faites-vous avec la commande str(iris) ?
4. summary(iris ?Species)
Quel est le résultat qui s’affiche ?
Exercice 14
Exercice 15
Nous vous demandons dans cet exercice de tracer une boîte à moustaches. Pour cela, il faut
que vous téléchargiez le fichier Lina.csv ( à me le demander ! ! !) de données source
6
correspondant, puis que vous tapiez les lignes de commande suivantes : Par exemple pour moi
c’est : > Chemin <-/Users/salah/Desktop/Cours de Statistique FST/DATA.
Lit le fichier. Vous déterminerez en particulier le ro ?le des options « dec », « sep »et « quote ».
> Lina <- read.table(paste(Chemin,"Lina.csv",sep=""),dec=".", +
sep=" ;",quote="¨ ",header=T)
• Vérification du bon déroulement de l’importation et statistiques descriptives.
> head(Lina)
> str(Lina)
> summary(Lina)
> range(Lina ?Durée.heures.)
> sd(Lina ?Durée.heures.)
• Quelques représentations graphiques
> plot(Lina)
> boxplot(Lina ?Durée.heures.,ylab="Durée (heures)")
> points(1,mean(Lina ?Durée.heures.),pch=2)
pch est une option graphique qui définit le symbole qui représente les observations.
• Sauvegarde de la boîte à moustaches au format .pdf
> pdf(file = paste(Chemin,"boxplot.pdf",sep=""),
+ width = 6, height = 6, onefile = TRUE, family = "Helvetica",
+ title = "Lina boxplot", paper = "special")
> boxplot(Lina ?Durée.heures.,ylab="Durée (heures)")
> points(1,mean(Lina ?Durée.heures.),pch=2)
> dev.off()
• Sauvegarde de la boîte à moustaches au format .ps
> postscript(file = paste(Chemin,"boxplot.eps",sep=""),
+ width = 6, height = 6, onefile = TRUE, family = "Helvetica",
+ title = "Lina boxplot", horizontal = FALSE, paper = "special") >
boxplot(Lina ?Durée.heures.,ylab="Durée (heures)")
> points(1,mean(Lina ?Durée.heures.),pch=2)
> dev.off()
Exercice 16
Nous allons dans cette partie étudier le jeu de données “ozone” (contenu dans le fichier
ozone.txt). Il s’agit de données concernant la pollution de l’air.
Les données contenues dans ce fichier concernent n = 112 relevés faits durant l’été 2001 à la
ville de Kef (Tunisie) .
Dans le fichier, la variable à expliquer est le maximum journalier de la concentration en ozone
(en µg/m3 ), variable max03, en fonction des autres variables quantitatives disponibles : des
variables de température T9, T12, T15, des variables de nébulosité Ne9, Ne12, Ne15, des
variables de vent Vx9, Vx12, Vx15, et aussi de la mesure du maximum de la concentration en
ozone de la veille max03v.
7
> ozone<-read.table("ozone.txt",header=T)
> colnames(ozone)
[1] "maxO3" "T9" "T12" "T15" "Ne9" "Ne12" "Ne15" "Vx9" "Vx12" "Vx15"
"maxO3v"
[12] "vent" "pluie"
> pairs(ozone)
>
res<-lm(maxO3 T9+T12+T15+Ne9+Ne12+Ne15+Vx9+Vx12+Vx15+maxO3v,
data=ozone)
> res
Call :
lm(formula = maxO3 T9 + T12 + T15 + Ne9 + Ne12 + Ne15 + Vx9 + Vx12 +
Vx15 + maxO3v, data = ozone)
Coefficients :
(Intercept) T9 T12 T15 Ne9
12.24442 -0.01901 2.22115 0.55853 -2.18909
Ne12 Ne15 Vx9
-0.42102 0.18373 0.94791
Vx12 Vx15 maxO3v
0.03120 0.41859 0.35198
8
Exercice 17
Les données suivantes concernent un échantillon de 20 offres de vente d’appartements. On a
relevé pour chaque offre, le prix Y (en millions) et la surface X (en mètres carrés). Peut-on
utiliser un modèle de régression linéaire simple pour expliquer le prix d’un appartement en
fonction de sa surface ?
y 130 280 268 500 320 250 378 250 350 300
x 28 50 55 110 60 48 90 35 86 65
y 155 245 200 325 85 78 375 200 270 85
x 32 52 40 70 28 30 105 52 80 20
Exercice 18
nt = n0 exp(βt)
ln(nt ) = ln(no ) + βt + ut = a + bt + ut .
1. Faire la régression linéaire de nt sur t et constater que le modèle n’est pas bon.
2. Faire alors la régression linéaire de ln(nt ) sur t.
9
3. En déduire une estimation de n0 et de β.
Exercice 19
Jeux de données Réelles : Données smp : une étude de santé mentale en prison
(smp) :
1. 799 détenus tirés au sort
2. Age
3. Profession
4. Dépression, schizophrénie (diagnostic issu du consensus de deux cliniciens)
5. Gravité de la pathologie éventuelle
6. Nombre d’enfants
Les données sont généralement représentées sous la forme d’un tableau rectangulaire dans
lequel les variables sont arrangées en colonnes, et les observations en lignes. Sous R, on parle
de data frame.
Vérifier le contenu du fichier avec la commande str()
10
................................
Exercice 20
Analyse en Composantes principales :
> round(apply(notepeda,2,mean),1)
francais lv1 maths physique art
9.7 9.8 10.3 10.1 11.0
> boxplot(notepeda)
Mais cette étude "univariée" est tout à fait insuffisante car elle ne tient pas compte des
liaisons qui peuvent exister entre les variables, liaisons qui sont souvent l’aspect le plus
important. Il est donc préfèrable d’analyser les données en tenant compte de leur caractère
multidimensionnel.
........................
Exercice 21
On considère le tableau de données suivant :
Nom de l’eau intensité d’émission de bulles saveur salée appréciation globale
St Yorre 3,9 6,4 2,9
Vichy 1,4 6,0 2,8
Quézac 5,1 4,7 3,5
Salvetat 2,9 4,1 3,4
Perrier 8,2 4,9 2,8
11
On désire faire une ACP de ce petit jeu de données avec le logiciel R. Pour cela, on va utiliser
la fonction PCA (pour “Principal Component Analysis”) d’un package dédié à l’analyse des
données, le package FactoMineR.
Correction exercice 23
{\footnotesize
\begin{verbatim}
eaux<-read.table("eaux.txt", header=TRUE, row.names=1,sep=";")
# importation du tableau des donn\’ees
res<-PCA(eaux) # tous les calculs de l’ACP sont stockes dans l’objet "res"
# NB : par defaut les graphiques des plans factoriels 1-2
sont affiches a l’ecran
12
> res$eig
eigenvalue percentage of variance cumulative percentage of variance
comp 1 1.7332693 57.775643 57.77564
comp 2 1.0635340 35.451135 93.22678
comp 3 0.2031967 6.773222 100.00000
> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02
> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02
> round(res$var$cos2,digit=2)
Dim.1 Dim.2 Dim.3
intensite.emission.de.bulles 0.07 0.91 0.02
saveur.salee 0.90 0.01 0.10
appreciation.globale 0.77 0.15 0.09
> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02
13
> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02
> round(res$var$cos2,digit=2)
Dim.1 Dim.2 Dim.3
intensite.emission.de.bulles 0.07 0.91 0.02
saveur.salee 0.90 0.01 0.10
appreciation.globale 0.77 0.15 0.09
.........
14
Cercle des corrélations (plan 1-3)(notepeda)
> plot.PCA(res,axes=c(1,3),choix="var")
> plot.PCA(res,axes=c(1,3),choix="ind")
> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
15
jean 0.88 0.04 0.08 0 0
alain 0.79 0.05 0.16 0 0
anne 0.50 0.48 0.02 0 0
monique 0.88 0.00 0.12 0 0
didier 0.88 0.11 0.01 0 0
adrien 0.25 0.45 0.30 0 0
pierre 0.03 0.81 0.16 0 0
beatrice 0.18 0.64 0.18 0 0
eve 0.05 0.29 0.66 0 0
> round(res$var$cos2,digit=2)
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
francais 0.66 0.33 0.01 0 0
lv1 0.81 0.18 0.00 0 0
maths 0.56 0.41 0.04 0 0
physique 0.84 0.15 0.01 0 0
art 0.00 0.07 0.93 0 0
Exercice 22
On considère le tableau R de notes sur 20 suivant (n=9 individus, p=5 variables) :
Math Science Français Latin Musique
Jean 6 6 5 5.5 8
Aline 8 8 8 8 9
Annie 6 7 11 9.5 11
Monique 14.5 14.5 15 15.5 8
Didier 14 14 12 12 10
André 11 10 5.5 7 13
Pierre 5.5 7 14 11.5 10
Brigide 13 12.5 8.5 9.5 12
Evelyne 9 9.5 12 12.5 180
Le tableau des moyennes par matière est :
Math Science Français Latin Musique
Moyenne 9.67 9.83 10.2 10.1 11
On désire soumettre le tableau à une ACP. Pour cela on est conduit à rechercher les vecteurs
propres de la matrice des covariances empiriques des cinq variables, qui est
M ath Science F ranais Latin M usique
M ath 11.4 9.92 2.66 4.82 0.111
Science 8.94 4.12 5.48 0.056
TX X
F ranais 12.1 9.29 0.389
Latin 0 0 0 7.91 0.667
M usique 0 0 0 0 8.67
1. Indiquer la transformation qui permet de passer de la matrice R à la matrice X. Calculer
la première ligne de X.
2. Les trois plus grandes valeurs propres de la matrice des variances-covariances sont λ1 =
28.253, λ2 = 12.075, λ2 = 8.616
3. Quels sont les taux d’inertie expliquée par chacun des trois axes factoriels correspondants ?
En limitant la représentation à l’espace des 3 premiers facteurs, quel est le taux d’inertie
totale expliquée par cette représentation ? Que peut-on en conclure ?
4. Les trois premiers vecteurs propres normés de X T X sont donnés dans le tableau ci-
dessous :
1 2 3
Maths 0.515 -0.567 -0.051
Sciences 0.507 -0.372 -0.014
Français 0.492 0.650 0.108
Latin 0.485 0.323 0.023
Musique 0.031 0. 113 -0.992
16
5. Calculer les coordonnées de « Jean » sur les trois axes factoriels.
6. Calculer les coefficients de corrélation linéaire entre le premier facteur et les 5 variables.
7. Les corrélations entre les variables et les deux autres facteurs sont données ci-dessous :
Facteur 2 Facteur 3
Math -0.584 -0.045
Sciences -0.432 -0.014
Français 0,651 0,091
Latin 0,399 0,024
Musique 0,133 -0,990
8. Donner brièvement une interprétation possible pour les 3 facteurs.
9. En utilisant les résultats obtenus à la première et à la troisième question, calculer l’indice
ponctuel de qualité de la représentation de « Jean » sur le premier axe factoriel, puis sur
le plan des deux premiers facteurs, puis sur l’espace des trois premiers facteurs. Conclure.
17
Exercice 23
Le tableau suivant présente pour différentes villes, les précipitations P (en cm), les
températures maximales Tmax et minimales Tmin (en C’), mesurées en 2019 :
P Tmax Tmin
Ajaccio 12.04 23.7 5.9
Brest 17.18 15.5 -1.8
Dunkerque 11.83 13.1 2.8
Nancy 6.23 13.5 -2.4
Nice 16.99 21.1 7.2
Toulouse 38.7 20.30 -0.90
Moyenne 11.36 17.87 1.80
Ecart-type 4.98 4.04 3.76
G1 G2 G3
P 0.62 0.76 0.20
Tmax 0.76 -0.59 0.28
Tmin 0.93 -0.03 -0.36
18
11. Projeter les données sur le plan factoriel F1 , F2
12. Interpréter le plan factoriel c’est à dire les positions des villes dans ce dernier.
13. Représenter les résultats sur le cercle de corrélations.
14. Réaliser un tableau qui synthétise la qualité de représentation et la contribution des indi-
vidus aux axes factoriels et leurs contributions à l’inertie totale.
15. Rédiger un code R pour implémenter numériquement le maximum de ré-
ponses à ces questions
Exercice 24
On considère le tableau X de type (3,2) suivant :
2 3
4 5
6 1
Exercice 25
Au cours d’une enquête sur un échantillon de taille 60, on a obtenu le tableau de contingence
suivant :
Ensemble I (Individus) Ensemble J (Paramètres)
1 2
1 10 10
2 5 15
3 15 5
Réaliser une Analyse Factorielle des correspondances (AFC) sur ces données, en répondant aux
questions suivantes :
1. Donner le tableau des probabilités conjointes et marginales, associé au tableau précédent.
2. Dans l’espace R2 , on représente un nuage B(I) des points Mi avec i ∈ I de coordonnées
suivant des axes normalisées.
3. Donner tous les points Mi du nuage B(I) en explicitant leurs coordonnées.
4. Calculer la distance χ2 entre les différentes pairs des points de nuages B(I).
5. Déterminer la matrice des variances-covariances W du nuage B(I).
6. Déterminer les valeurs propres de la matrice W.
7. En déduire la variabilité totale du nuage B(I).
8. On projette, maintenant, le nuage B(I) orthogonalement sur un axe, et on note C(I) le
nuage projeté. Donner la variabité totale du nuage projeté. Donner la variabilté totale du
nuage projeté C(I).
9. Calculer la variabilité expliquée par la projection du nuage B(I).
Exercice 26
Données : n individus observés sur p variables quantitatives. Expliquer brièvement les étapes
pour faire une Analyse en composantes Principales (A.C.P. ) qui permet d’explorer les liaisons
entre variables et les ressemblances entre individus.
Exercice 27
Soit X une variable aléatoire discrète dont la loi de probabilité, donnée ci dessous, dépend d’un
paramètre θ ∈]0, 1[.
19
P (X = 0) = θ2 ; P (X = 1) = 2θ(1 − θ), P (X = 2) = (1 − θ)2
Exercice 29
Un bureau de conseil en ressources humaines a effectué une étude sur le niveau d ?anxiété Y
mesuré sur une échelle de 1 à 50 de cadres d ?entreprises au cours d ?une période de deux
semaines. Nous voulons examiner si les facteurs suivants peuvent influencer sur le niveau
d ?anxiété des cadres :
— X1 : pression artérielle systolique
— X2 : test évaluant les capacités managériales
— X3 : niveau de satisfaction du poste occupé.
Le tableau d ?analyse de la variance indique l ?apport de chaque variable introduite dans
l ?ordre indiqué et ceci pour 22 cadres.
1. Quelle est la somme des carrés due à la régression pour l’ensemble des trois variables
explicatives ?
2. Quelle proportion de la variation dans le niveau d’anxiété est expliquée par les trois va-
riables explicatives ?
3. Pouvons-nous conclure que dans l’ensemble les trois variables explicatives ont un effet
significatif sur le niveau d’anxiété ? Utiliser un seuil de signification α = 5%. Préciser les
hypothèses que nous souhaitons tester.
4. Si nous ne tenons compte que de la variable explicative X1, quel serait alors le tableau
d ?analyse de la variance correspondant ?
20
Exercice 30
On étudie l’influence des heures de travail et du capital utilisé sur la production industrielle.
Pour cela, on dispose des observations de 9 entreprises résumées dans le tableau ci-dessous :
On suppose que la production est expliquée par un modèle de régression linéaire multiple avec
deux variables explicatives, le capital et le travail.
1. Ecrire le modèle sous forme matricielle.
2. Estimer le vecteur β puis donner l’équation de l’hyperplan des moindres carrés. Pour cela,
on donne
6.304777 −0.007800 0.011620
(X 0 X)−1 = −0.007800 0.000015 −0.000031
0.011620 −0.000031 0.000072
6.304777 −0.007800 0.011620
(X 0 X)−1 = −0.007800 0.000015 −0.000031
0.011620 −0.000031 0.000072
Exercice 31
On considère le modèle de régression linéaire simple du Chapitre 1 où l’on dispose de n obser-
vations (xi , yi ) vérifiant
yi = β0 + β1 xi + i ,
21
5. A partir de la région de confiance simultanée de β du modèle matriciel, retrouver l’ellipse
de confance de (β0 , β1 ) de la régression simple.
6. On observe un nouveau point x ∈ R . A partir des propriétés de Ŷ (x) du modèle matriciel,
retrouver l’intervalle de confiance de cet estimateur.
Un peu de Probabilités ! ! ! ! ! ! :
Exercice 32
Nous sommes dans un pays où il fait beau 5 jours sur 7.Deux stations méteo S1 et
S2 annoncent indépendamment l’une de l’autre le temps qu’il va faire.
La station S1 est fiable à 90%, la station S2 est fiable à 80% seulement. Lorsque
S1 annonce du mauvais temps et S2 annonce du beau temps, qui faut-il écouter ?
Exercice 33
Sur 1000 petites entreprises, 10 font faillite dans une année. Sur 1000 grandes
entreprises, 2 font faillite.Une entreprise fait faillite, calculer la probabilité que
ce soit une petite sachant qu’il ya 70% de petites dans l’ensemble des entreprises.
Exercice 34
Un marchand vend des articles dont 30% proviennent d’un fournisseur A et 70%
d’un autre fournisseur B.6% de la production de A est défectueuse, contre 3%
seulement de la population de B. Un client achète un article.
1. Quelle est la probabilité que cet article soit défectueux ?
2. Sachant que cet article est défectueux, quelle est la probabilité qu’il pro-
viennent de B ?
Exercice 35
Une ville comporte 30,000 habitants dont 40% des femmes. De plus, 30% des
hommes et 25% des femmes parlant une langue étrangère. On interroge une
personne au hasard.
1. Quelle est la probabilité pour que cette personne :
(a) Soit une femme qui parle une langue étrangère.
(b) Soit une femme qui ne parle aucune une langue étrangère.
(c) Soit un homme qui parle une langue étrangère.
2. Sachant que la personne interrogée parle l’Anglais, quelle est la probabilité
que se soit une femme.
Exercice 36
Une maladie rare touche 1 personne sur 1000 dans la population Tunisienne.
Quand cette maladie est présente, un test sanguin permet de la détecter dans
99% des cas. En revanche, ce test produit des faux positifs dans 1 cas sur 1000.
Le test d’une personnes est positif. Quelle est la probabilité qu’elle soit vraiment
atteinte de la maladie ? Que pensez-vous de la qualité de ce test sanguin ?
NB : La qualité de la rédaction, la clarté et la précision des raisonnements
entreront pour une part importante dans l’appréciation des copies.
Questions de cours
1. Enoncer le théorème de Gauss-Markov ?
2. Expliquer l’utilisation d’une modélisation par le biais d’une ANOVA à 1
facteur ?
3. Expliquer l’utilisation d’une modélisation par le biais d’une ANOVA à 2
facteurs ?
22
Exercice 37
Nous considérons le modèle de régression linéaire
Y = Xβ + ,
23
Exercice 38
Nous avons ajusté un modèle de régression linéaire simple pour expliquer le prix
en fonction de la surface.
Coefficients :
Estimate Std. Error t -value Pr(>|t|)
(Intercept) -29.466 41.245 -0.714 0.481
surface 5.353 0.414 12.931 7.86e-13
—
( Bon Travail)
Exercice 39
On dispose du classement de 11 individus sur 3 matières : math, musique et
français. Le classement en math revient à numéroter les individus. Le tableau des
classements selon les trois matières est le suivant :
Math 1 2 3 4 5 6 7 8 9 10 11
Musique 6 1 4 5 3 2 9 7 8 10 11
Français 2 6 5 3 4 1 8 9 7 10 11
Chaque individu est affecté du même poids. Pour les calculs, vous pouvez utiliser
les valeurs arrondies au millième.
1. Calculer le centre de gravité GI du nuage des individus.
2. Calculer le tableau centré Y (centré en lignes).
3. Calculer la matrice de covariance V du nuage des individus N (I).
4. Que représente cette matrice ?
5. Quelle est l’inertie du nuage ?
Les trois valeurs propres de V sont : 25,090 ; 2.455 ; 2.455.
6. Vérifier votre réponse d’une question précédente.
24
7. Quelle est la contribution absolue de l’axe Z1 à l’inertie du nuage ? calculer
son taux d’inertie ?
8. Quelle est la meilleure représentation plane ?
Sur les Statistiques non paramétriques
Exercice 40
Considérons X1 , , Xn , n variables aléatoires i.i.d. de densité fX . On cherche à
estimer fX à partir des observations X1, , Xn .
1. Donner la définition d ?un estimateur à noyau de fX , en précisant toutes les
quantités qui interviennent.
2. Donner des exemples de noyaux
3. Montrer que le risque quadratique ponctuel de cet estimateur s’écrit comme
la somme d’un biais et d ?une variance que l ?on définira.
4. Calculer la variance de cet estimateur à noyau. En déduire une majoration
de cette variance, ainsi que les conditions requises pour le noyau et pour fX ,
permettant d’établir cette majoraion.
5. Calculer le biais de cet estimateur à noyau. En déduire une majoration de ce
biais, ainsi que les conditions requises pour le noyau et pour fX , permettant
d’établir cette majoration.
6. En déduire une majoration du risque quadratique ponctuel de cet estimateur
à noyau.
7. Commenter
Exercice 41
Le but de cet exercice est de proposer une méthode d’estimation non
paramétrique de la densité d’un échantillon aléatoire. Soit X1 , ..., Xn une suite de
variables aléatoires indépendantes identiquement distribuées de loi absolument
continue de densité f supposée de classe C 2 . On pose
1. Calculer E[fn,h ], que peut-on dire de la convergence de fn,h ?
R
2. On note µ2 (K) = R x2 K(x)dx. Estimer en fonction de µ2 (K) le biais de
l’estimateur fn,hR de f .
1
3. Soit h = np , montrer que fn,h converge vers f en norme in ?nie presque
surement.
4. Estimer la variance de cet estimateur. En déduire l’erreur asymptotique qua-
dratique intégrée (AMISE) :
Z
kfn,h (x) − f (x)k2 dµ(x)
R
pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.
Exercice 42
Le but de cet exercice est de proposer une méthode d’estimation non
paramétrique de la densité d’un échantillon aléatoire. Soit X1 , · · · , Xn une suite
de variables aléatoires indépendantes identiquement distribuées de loi absolument
continue de densité f supposée de classe C 2 . On pose
n
3 2 1 X x − Xi
K(x) = (1 − x )1[−1,1] , fn,hn (x) = K , hn → 0,
4 nhn i=1 hn
25
1. Calculer E[fn,hn ] , que peut- on dire de la convergence de fn,hn .
R
2. On note µ2 (K) = R x2 K 2 (x)dx. Estimer en fonction de µ2 (K) le biais de
l’estimateur fn,hn de f .
3. Montrer que fn,hn converge vers f en norme infinie presque surement.
4. Estimer la variance de cet estimateur. En déduire l’erreur asymptotique qua-
dratique intégrée (AMISE) :
Z
2
|(fn,hn − f )(x)| dx
R
pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.
Exercice 43
Le but de cet exercice est de proposer une méthode d’estimation non
paramétrique de la densité d’un échantillon aléatoire. Soit X1 , · · · , Xn une suite
de variables aléatoires indépendantes identiquement distribuées de loi absolument
continue de densité f supposée de classe C 2 . On pose
n
3 2 1 X x − Xi
K(x) = (1 − x )1[−1,1] , fn,hn (x) = K , hn → 0,
4 nhn i=1 hn
pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.
Exercice 44
Soit X1 , · · · , Xn un échantillon i.i.d. de variables alétoires réelles de densité f .
Un estimateur fˆh à noyau de f s’écrit sous la forme
n
ˆ 1 X x − Xi
∀x ∈ R, fh (x) = K (1)
nh i=1 h
26
3. Écrire une fonction fchapG qui prend en paramètres un vecteur X, x ∈
R, h > 0, et renvoie la valeur de l’estimateur (1) au point x de l’échantillon
X muni du noyau gaussien et de la fenêtre h. Détailler cette fonction sur la
feuille d’examen.
4. Même question avec fchapE pour le noyau d’Epanechnikov. Détailler cette
fonction sur la feuille d’examen.
Exercice 45
Soit X1 , · · · , Xn un échantillon i.i.d. de variables alétoires réelles de densité f .
Un estimateur fˆh à noyau de f s’écrit sous la forme
n
ˆ 1 X x − Xi
∀x ∈ R, fh (x) = K
nh i=1 h
3. Montrer que V ar(fˆh )(x) 6 Cnh2 . avec, C2 = supz∈R f (z) R K(u)2 du.
R
Exercice 46
Supposons que la fonction densité f vérifie f (x) 6 fmax < ∞, pour tout x ∈ R,
et que K est un noyau tel que
Z Z
K(u)du = 1, K 2 (u)du < ∞.
27
On définit l’ensemble des fonctions suivant
Z
P (β, L) = {f telle que f > 0, f = 1 et f ∈ Σ(β, L) sur R}
avec
Z
L
C2 = |u|β K(u)du
`!
Exercice 48
P`
Soit K` : u → m=0 φm (0)φm (u)1|u|61 est intégrable sur R. Montrer que K` est
un noyau d’ordre `.
avec (φm )m∈N la base orthonormé des polynomes de Legendre dans L2 ([−1, 1])
définie par
1
φ0 = √
2
et pour tout m > 1
r
2m + 1 1 dm
φm (x) = [(x2 − 1)m ]
2 2m m! dxm
Soit K` : u → uj K(u) est intégrable sur R. De plus ∀j ∈ N , ∃(αq )q > 0 telle que
∀u ∈ [−1, 1],
j
X X
j
u = αq φq (u) = αq φq (u)
q>0 q=0
Exercice 49
28
2. Donner l’expression de la projection orthogonale de fX sur SD notée πSD (fX ).
3. En déduire un estimateur sans biais de πS (fX ) , noté fˆD .
D
5. Montrer que
EkfˆD − πSD (fX )k2 6 D/n
6. Montrer que si fX est telle que |fX (x) − fY (y)| 6 |x − y|α pour α ∈]0, 1[
alors
kfˆD − fX k2 6 C 2 D−2α
7. En déduire une majoration du risque quadratique intégré de fˆD .
8. Trouver Dopt qui minimise cette majoration du risque quadratique intégré.
9. En déduire la majoration du risque quadratique intégré pour ce Dopt .
10. Commenter
Exercice 50
Soit X1 , · · · , Xn une suite de variables aléatoires indépendantes identiquement
distribuées de loi absolument continue de densité f supposée de classe C 2 . On
pose
n
3 2 1 X x − Xi
K(x) = (1 − x )1[−1,1] , fn,hn (x) = K , hn → 0,
4 nhn i=1 hn
pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.
Exercice 51
Soient X1 , · · · , Xn des variables aléatoires i.i.d. de densité f (·) sur R. On
suppose que f est bornée et régulière d’ordre 3, c’est-à-dire que f est 2 fois
dérivable et sa dérivée seconde est Lipshitzienne :
00 00
|f (x) − f (y)| 6 L|x − y|, ∀x, y ∈ R
Le but de cet exercice est de proposer un estimateur de f dont le risque
quadratique décroît vers 0 comme n−6/7 , lorsque n → 0.
1. Rappeler la défition de l’estimateur à noyau et la majoration de son risque
obtenue en cours pour les densités deux fois continûment différentiables.
29
2. Soit K une fonction (noyau) paire continue vérifiant
Z Z Z
K(u)du = 1, u K(u)du = 0, CK = |u|3 |K(u)|du < ∞.
2
30