Vous êtes sur la page 1sur 30

Faculté des Sciences de Tunis 2021/2022

TD -TP de Statistique : Analyse des données


Khardani Salah

Pour bien démarrer avec R ! ! !


Exercice 1

1. Créer le vecteur x=(101 ; 102 ;. . .112).


2. Créer un vecteur de longueur 12 formé de 4 fois la suite de nombres (4 ;6 ;3).
3. Créer un vecteur composé de huit 4, de sept 6 et de cinq 3.

Exercice 2

1. Saisir la variable poids contenant les 15 valeurs suivantes :


28 ; 27.5 ; 27 ; 28 ; 30.5 ; 30 ; 31 ; 29.5 ; 30 ; 31 ; 31 ; 31.5 ; 32 ; 30 ; 30.5.
2. Saisir la variable poids1 contenant les 5 valeurs suivantes :
40 ; 39 ; 41 ; 37.5 ; 43.
3. Sans refaire de saisie, créer la variable nouveau.poids contenant 20 valeurs (les 5 valeurs
de poids1 répétées 2 fois et les 10 dernières valeurs de poids).
4. Enregistrer, dans votre répertoire de travail, la variable nouveau.poids dans une feuille
nommée "Nouveau Poids" du classeur Excel "Poids.xls".

Exercice 3

1. Créer le vecteur nom contenant les noms de 10 personnes.


2. Créer le vecteur age contenant l’âge des 10 personnes précédentes (entre 20 et 60 ans).
Les noms des personnes seront utilisés comme légende pour le vecteur age.
3. Créer le vecteur poids contenant le poids des 10 personnes (entre 50 et 100 kg) en utilisant
à nouveau le nom des personnes comme légende pour ce vecteur.
4. Même chose pour le vecteur taille contenant la taille des 10 personnes.
5. Créer le vecteur poids.lourds contenant le poids des personnes de plus de 80 kg.
6. Créer le vecteur taille.poids.lourds contenant la taille des personnes de plus de 80 kg.
7. Créer le vecteur taille.vieux.poids.lourds contenant la taille des personnes de plus de 80
kg et âgées de plus de 30 ans. Pour répondre à cette question, vous pourrez utiliser le
connecteur logique ET dont la syntaxe est donnée ci-dessus ou dans l’aide sur opérateurs
logiques accessible en tapant l’instruction ?Logic.

1
Exercice 4

xi 18 7 14 31 21 5 11 16 26 29
yi 55 17 36 85 62 18 33 41 63 87
1. La première étape est d’obtenir les données. Pour cela, vous pouvez créer ces données
(csv/txt), puis les enregistrer sur le bureau du poste.
2. Tracer le diagramme de dispersion des couples (xi ; yi ). A la vue de ce diagramme,
pouvons-nous soupçonner une liaison linéaire entre ces deux variables ?
3. Déterminer pour ces observations la droite des moindres carrés, c’est donner les coeficients
de la droite des MC.
4. Donner les ordonnées des yi calculés par la droite des moindres carrés correspondant aux
diférentes valeurs des x i .
5. Tracer ensuite la droite sur le même graphique.
6. Quelle est une estimation plausible de Y à xi = 21 ?
7. Quel est l’écart entre la valeur observée de Y à xi = 21 et la valeur estim ?ee avec la
droite des moindres carrés ? Comment appelons-nous cet écart ?
8. Est-ce que la droite des moindres carrés obtenue en b) passe par le point (x ; y) ?
9. Pouvons-nous généraliser cette conclusion à n’importe laquelle droite de régression ?
Correction 1) Pour obtenir ces données, il suffit d’utiliser la commande read.table ("file=file.choose(.),
header=T, sep="",  dec=".", rownames=1).
2) Ici, ça revient à tracer le nuage de points de cette base afin de visualiser la dépendance entre
ces deux variables (xi , yi ). Utiliser logiciel R avec la commande plot(x,y)) (méthode graphique).
Numériquement, on doit Pn calculer le coefficient de corrélation entre les deux variables xi , yi .
moyenne de x : x̄ = n1 i=1 xi =
Pn
1 i=1 xi yi
ρx,y = = 1/10[18 ∗ 55 + 7 ∗ 17 + 14 ∗ 36 + · · · 29 ∗ 87]
n sd (x)sd (y)

Exercice 5
On considère les compositions chimiques de 20 eaux minirales suivantes :

Origines HCO3− SO4− CL− Ca+ M g+ N a+


Aix-les-Bains 341 27 3 84 23 2
Beckerish 263 23 9 91 5 3
Cayranne 287 3 5 44 24 23
Chambon 298 9 23 96 6 11
Cristal-roc 200 15 8 70 2 4
St Cyr 250 5 20 71 6 11
Evian 357 10 2 78 24 5
Ferita 311 14 18 73 18 13
St Hyppolite 256 6 23 86 3 18
Laurier 186 10 16 64 4 9
Ogeu 183 16 44 48 11 31
Ondine 398 218 15 157 35 8
Perrier 348 51 31 140 4 14
Ribes 168 24 8 55 5 9
Spa 110 65 5 4 1 3
Thonon 332 14 8 103 16 5
Veri 196 18 6 58 6 13
Viladreau 59 7 6 16 2 9
Vittel 402 306 15 202 36 3
Volvic 64 7 8 10 6 8

1. Calculer les quartiles Q1 , Q2 , Q3 , et les limites des moustaches (min, max) pour les
variables HCO3− et Ca+ .
2. Représenter les boites à moustaches pour les variables HCO3− et Ca+ .

2
Exercice 6
On a mesuré la taille (en cm) de 40 élèves d’une classe et on a obtenu les résultats suivants :
138 163 164 119 150 154 132 165 144 146 125 173 149 142 157 147
146 135 158 153 140 140 147 135 136 161 148 145 152 135
144 142 168 150 126 156 138 145 176 128
1. Calculer la moyenne et la variance (non corrigée) des tailles.
2. Déterminer l’écart interdécile.
3. Regrouper les données en 10 classes, puis en 5 classes. Représenter graphiquement les
données obtenues dans les deux cas à l’aide d’un histogramme. Calculer la moyenne dans
les deux cas. Commenter les résultats obtenus.
4. Trouver le mode et les quartiles ? Tracer la boite à moustache de cette série ?

Exercice 7
En 1973, F.J. Anscombe à publié dans le numéro 27 de American Statistician un jeu de don-
nées très intéressantes pour montrer les pièges du calcul "aveugle" du coefficient de corrélation
linéaire.

1. Calculer la moyenne et la variance des 8 variables x1 , x2 , · · · , x4 et y1 , y2 , · · · , y4


2. Calculer les coéfficients de corrélation des couples (x1 , y1 ), · · · (x4 , y4 ). Que constate t-on ?
3. Tracer la représentation des couples (x1 , y1 ), · · · (x4 , y4 ). Commenter
4. Tracer la droite de regéssion décrite par la méthode des MOINDRES CARRÉS.

Exercice 8
On étudie les résultats des élections européennes de 1999 à Paris et dans quelques villes de ban-
lieue. les pricipales listes en présence sont : LOLCR (extremes gauches), PC (communistes), PS
(socialistes), VERTS (Ecologistes), UDF (centre droit). Les communes sont les 20 arrondisse-
ments de Paris (I à XX), la ville dans son ensemble (Paris) et quelques communes de banlieue
parisienne. Athis- M (Athis-Mons), Courneuv (La Courneuve), Draveil, Neuilly (Neuilly-sur-
seine), Pontoise et Thiais. On donne ci-dessous données brutes et leurs matrice de corrélations.

3
1. Nicolas Sarkozy était maire de Neuilly en 1999, et il était la tête de la liste RPRDL.
Comment cela se retrouve-t-il dans les données
2. Quelles sont les couples de variables remarquables (les plus corrélées, les moins corrélées,
les plus opposées)
3. Comment se groupent les variables du point de vue des signes de corrélations. Quelle est
la particularité du vote FN(et dans une moindre mesure MN).

Exercice 9
10 essais en laboratoire ont permis de dresser le tableau suivant qui porte sur la charge de rupture
d’un acier en fonction de sa teneur en carbone X :

xi 70 60 68 64 66 64 62 70 74 62
yi 87 71 79 74 79 80 75 86 95 70

1. Déterminer le mode de Y et les quartiles de X.


2. Calculer la moyenne x̄ , la variance observée V (X) = s2 (X), ȳ, V (Y ) = s2 (Y ), la
covariance cov(X, Y ) et le coefficient de corrélation linéaire ρ(X, Y ).
3. Donner une équation cartésienne de la droite de regression DY /X du caractère Y par
rapport au caractère X (justifier les formules utilisées). Quelle valeur y de Y pouvons-
nous escompter pour x = 72 ?

Exercice 10
Soient (x1 , y1 ), ..., (xn , yn ) les valeurs de deux variables quantitatives observées sur un ensemble
de n individus. La droite de régression DY |X de Y sur X est donnée par l’équation y = âx + b̂

(â, b̂) = arg min R(a, b)
a,b
Pn Pn
avec R(a, b) = 1
n i=1 (yi − axi − b)2 . On suppose que i=1 (x̄ − xi )2 > 0.
1. Prouver que
sxy
â = b̂ = ȳ − âx̄ R(â, b̂) = s2y (1 − rxy
2
)
s2x
où x̄ et s2x sont la moyenne et la variance des xi , ȳ et s2y sont la moyenne et la variance
des yi , sxy et rxy sont la covariance et le coefficient de corrélation des (xi , yi ).

Le tableau ci-dessous contient les tailles en centimètres (échantillon x) et les poids en


kilogrammes (échantillon y) de 10 enfants de 6 ans :

x 121 123 108 118 111 109 114 103 110 115
y 25 22 19 24 19 18 20 15 20 21
2. Dessiner le nuage des points de ces observations.
3. Calculer x̄ et s2x , sxy , rxy , ȳ et s2y .
4. Déterminer une équation de la droite de régression de Y en X par la méthode des moindres
carrés. On donnera des valeurs approchées à 10−2 près des coéfficients.
5. En utilisant le résultat de la question précédente, donner une prédiction de la taille d’un
enfant de 6 ans qui pèse 23 kg.

Exercice 11

4
A répondre que à travers des commandes de R
Douze personnes sont inscrites à une formation. Au début de la formation, ces stagiaires
subissent une épreuve A notée sur 20. A la fin de la formation, elles subissent une épreuve B de
niveau identique. Les résultats sont donnés dans le tableau suivant :

Epreuve A

3 4 6 7 9 10 9 11 12 13 15 4

Epreuve B

8 9 10 13 15 14 13 16 13 19 6 19

1) Représenter le nuage de points.


2) Calculer les moyennes et les écarts types de chaque épreuve.
2) Calculer la covariance et le coéfficient de régression linéaire de ces deux séries statistiques.
4) Déterminer la droite de régression et la représenter sur le même graphe précédent. Com-
menter.

Exercice 12
On considère la fonction de production (de type Cobb-Douglas) suivante :

P = cLβ1 K β2 (E)

où P représente le niveau de production, L le travail, K le capital, et où c, β1 etβ2 sont des


constantes à déterminer. On dispose d’un échantillon d’observations indépendantes des valeurs
des variables P, K et L pour n entreprises : {(Pi , Li , Ki ), i = 1, · · · , n}.
1. Montrer que la linéarisation de (E) nous amène à considérer le modèle de régression
linéaire suivant :

yi = β0 + β1 li + β2 ki + i ,
Expliciter les relations entre les nouvelles variables (y, l, k) et les variables initiales (P, L, K)
et rappeler les hypothèses du modèle.
2. Ecrire le modèle sous la forme matricielle suivante : Y = Xβ +  en précisant la forme
et la dimension de chaque élément.
3. Les données numériques sont les suivantes :
n
X n
X n
X
n = 1000; li = 500; ki = 490; yi = 1490
i=1 i=1 i=1

n
X n
X n
X
li2 = 330 ki2 = 320; yi2 = 3200
i=1 i=1 i=1
n
X n
X n
X
li yi = 800 ki yi = 770; li ki = 245
i=1 i=1 i=1

Ecrire la matrice t XX et le vecteur t XY à partir de ces données.


4. On donne  
0.00713 −0.00625 −0.006133
(t XX)−1 =  −0.00625 0.0125 0 
−0.006133 0 0.012516

Calculer une estimation de β̂.


5. On dispose des valeurs suivantes pour une nouvelle entreprise : l0 = 0.5 et k0 = 0.5. Quel
est le niveau de production prédit par le modèle ?

5
A propos de la base des données" iris"

Exercice 13
Fichier de données : iris.
R est un ensemble de bibliothèques de fonctions appelées « packages ». Chaque bibliothèque
contient des jeux de données. Pour connaître par exemple les jeux de données contenus dans le
« package » base, écrire l’instruction suivante :
> data(package = "base").
Le résultat apparaït dans une fenêtre R data sets. En voici un extrait :
<-Data sets in package "datasets" :
AirPassengers...........Monthly Airline Passenger Numbers 1949-1960
BJsales.................Sales Data with Leading Indicator
BJsales.lead (BJsales)..Sales Data with Leading Indicator
BOD.....................Biochemical Oxygen Demand
...
iris....................
Edgar Anderson’s Iris Data
1. Noter la présence du fichier iris et du fichier women sur lequel on va travailler (cf T.P.
1). Le fichier iris a toute une histoire. La connaissez-vous ? Les données de ce T.P.
sont célèbres. Elles ont été collectées par Edgar Anderson 1 . Vous auriez pu le deviner.
Pourquoi ? Le fichier donne les mesures en centimètres des variables suivantes :
(i) longueur du sépale (Sepal.Length),
(ii) largeur du sépale (Sepal.Width),
(iii) longueur du pétale (Petal.Length) et
(iv) largeur du pétale (Petal.Width) pour trois espèces d’iris :
(i) Iris setosa,
(ii) Iris versicolor et
(iii) Iris virginica.
Sir R.A. Fisher a utilisé ces données pour construire des combinaisons linéaires des va-
riables permettant de séparer au mieux les trois espèces d’iris.
2. Pour analyser le fichier iris, il faut le charger. Quelle est l’instruction qu’il faut taper
pour charger ce fichier ?
Taper une a‘ une chacune des instructions ci-dessous et noter le résultat obtenu si possible.
Attention, le logiciel R n’est pas indifféent aux majuscules et aux minuscules.
>iris
>dim(iris)
>names(iris)
>irisδSpecies
>iris ?Petal.Length
3. Quelle(s) différence(s) faites-vous avec la commande str(iris) ?
4. summary(iris ?Species)
Quel est le résultat qui s’affiche ?

Exercice 14

A propos de la base des données" mtacars" qui se trouve


dans R
Questions/ Examen : Préparer une étude descriptive complète de cette base.

Exercice 15
Nous vous demandons dans cet exercice de tracer une boîte à moustaches. Pour cela, il faut
que vous téléchargiez le fichier Lina.csv ( à me le demander ! ! !) de données source

6
correspondant, puis que vous tapiez les lignes de commande suivantes : Par exemple pour moi
c’est : > Chemin <-/Users/salah/Desktop/Cours de Statistique FST/DATA.
Lit le fichier. Vous déterminerez en particulier le ro ?le des options « dec », « sep »et « quote ».
> Lina <- read.table(paste(Chemin,"Lina.csv",sep=""),dec=".", +
sep=" ;",quote="¨ ",header=T)
• Vérification du bon déroulement de l’importation et statistiques descriptives.
> head(Lina)
> str(Lina)
> summary(Lina)
> range(Lina ?Durée.heures.)
> sd(Lina ?Durée.heures.)
• Quelques représentations graphiques
> plot(Lina)
> boxplot(Lina ?Durée.heures.,ylab="Durée (heures)")
> points(1,mean(Lina ?Durée.heures.),pch=2)
pch est une option graphique qui définit le symbole qui représente les observations.
• Sauvegarde de la boîte à moustaches au format .pdf
> pdf(file = paste(Chemin,"boxplot.pdf",sep=""),
+ width = 6, height = 6, onefile = TRUE, family = "Helvetica",
+ title = "Lina boxplot", paper = "special")
> boxplot(Lina ?Durée.heures.,ylab="Durée (heures)")
> points(1,mean(Lina ?Durée.heures.),pch=2)
> dev.off()
• Sauvegarde de la boîte à moustaches au format .ps
> postscript(file = paste(Chemin,"boxplot.eps",sep=""),
+ width = 6, height = 6, onefile = TRUE, family = "Helvetica",
+ title = "Lina boxplot", horizontal = FALSE, paper = "special") >
boxplot(Lina ?Durée.heures.,ylab="Durée (heures)")
> points(1,mean(Lina ?Durée.heures.),pch=2)
> dev.off()
Exercice 16

Sur la régression multiple

Nous allons dans cette partie étudier le jeu de données “ozone” (contenu dans le fichier
ozone.txt). Il s’agit de données concernant la pollution de l’air.
Les données contenues dans ce fichier concernent n = 112 relevés faits durant l’été 2001 à la
ville de Kef (Tunisie) .
Dans le fichier, la variable à expliquer est le maximum journalier de la concentration en ozone
(en µg/m3 ), variable max03, en fonction des autres variables quantitatives disponibles : des
variables de température T9, T12, T15, des variables de nébulosité Ne9, Ne12, Ne15, des
variables de vent Vx9, Vx12, Vx15, et aussi de la mesure du maximum de la concentration en
ozone de la veille max03v.

7
> ozone<-read.table("ozone.txt",header=T)
> colnames(ozone)
[1] "maxO3" "T9" "T12" "T15" "Ne9" "Ne12" "Ne15" "Vx9" "Vx12" "Vx15"
"maxO3v"
[12] "vent" "pluie"
> pairs(ozone)
>
res<-lm(maxO3 T9+T12+T15+Ne9+Ne12+Ne15+Vx9+Vx12+Vx15+maxO3v,
data=ozone)
> res
Call :
lm(formula = maxO3 T9 + T12 + T15 + Ne9 + Ne12 + Ne15 + Vx9 + Vx12 +
Vx15 + maxO3v, data = ozone)
Coefficients :
(Intercept) T9 T12 T15 Ne9
12.24442 -0.01901 2.22115 0.55853 -2.18909
Ne12 Ne15 Vx9
-0.42102 0.18373 0.94791
Vx12 Vx15 maxO3v
0.03120 0.41859 0.35198

Sur la régression simple

8
Exercice 17
Les données suivantes concernent un échantillon de 20 offres de vente d’appartements. On a
relevé pour chaque offre, le prix Y (en millions) et la surface X (en mètres carrés). Peut-on
utiliser un modèle de régression linéaire simple pour expliquer le prix d’un appartement en
fonction de sa surface ?

y 130 280 268 500 320 250 378 250 350 300
x 28 50 55 110 60 48 90 35 86 65
y 155 245 200 325 85 78 375 200 270 85
x 32 52 40 70 28 30 105 52 80 20

Prédire les prix d’appartements ayant respectivement pour surface


20m2 , 30m2 , . . ., 100m2 , 110m2 .
Indication : se rapprocher de ça ! ! !
Code ! ! !
plot(surface,prix)
abline(res)

Exercice 18

Linéarisation d’un modèle :


Une étude a été effectuée sur des bactéries marines soumises à un rayon X de 200 KiloVolts
pendant une période s’étalant de t = 1 à 16 intervalles de 6 minutes. Selon la théorie (en
Biologie cellulaire), le logarithme népérien du nombre nt de bactéries ayant survécu devrait être
une fonction linéaire de la durée d’exposition t au rayonnement, à savoir

nt = n0 exp(βt)

où n0 est le nombre de bactéries au départ de l’expérimentation et β est un paramètre de taux


de destruction.
Pour se ramener à un modèle de régression linéaire, il suffit de “linéariser" cette relation en
passant au logartihme népérien et d’introduire un terme d’erreur additif ut de loi N (0, σ 2 ) :

ln(nt ) = ln(no ) + βt + ut = a + bt + ut .

(Cette erreur additive correspond à un erreur multiplicative t dans le modèle initial.)


Les données sont fournies dans le tableau ci-après :
nt 355 211 197 166 142 106 104 60
t 1 2 3 4 5 6 7 8
nt 56 38 36 32 21 19 15 12
t 9 10 11 12 13 14 15 16

1. Faire la régression linéaire de nt sur t et constater que le modèle n’est pas bon.
2. Faire alors la régression linéaire de ln(nt ) sur t.

9
3. En déduire une estimation de n0 et de β.

Exercice 19

Jeux de données Réelles : Données smp : une étude de santé mentale en prison
(smp) :
1. 799 détenus tirés au sort
2. Age
3. Profession
4. Dépression, schizophrénie (diagnostic issu du consensus de deux cliniciens)
5. Gravité de la pathologie éventuelle
6. Nombre d’enfants

Variables évaluant la personnalité des détenus :


1. Recherche de sensation (rs) : curiosité, attrait pour le risque et la nouveauté
2. évitement du danger (ed) : timidité, précautionneux
3. Dépendance à la récompense (dr) : sensibilité aux relations sociales, influençable
— Importez le fichier csv :
> setwd("C:/Users/SAMSUNG/Desktop/FMM/R")
> smp <- read.csv2("smp1.csv")

Les données sont généralement représentées sous la forme d’un tableau rectangulaire dans
lequel les variables sont arrangées en colonnes, et les observations en lignes. Sous R, on parle
de data frame.
Vérifier le contenu du fichier avec la commande str()

10
................................
Exercice 20
Analyse en Composantes principales :

> notepeda<-read.table("note.txt", header=TRUE, row.names=1,sep=";")


> notepeda
francais lv1 maths physique art
jean 6.0 6.0 5.5 5.5 8
alain 8.0 8.0 8.0 8.0 9
anne 6.0 7.0 11.0 9.5 11
monique 14.5 14.5 15.5 15.0 8
didier 14.0 14.0 12.0 12.5 10
adrien 11.0 10.0 5.5 7.0 13
pierre 5.5 7.0 14.0 11.5 10
beatrice 13.0 12.5 8.5 9.5 12
eve 9.0 9.5 12.5 12.0 18

Ici n = 9 èlèves qui sont les "individus" (∈ Rp ),


et p = 5 notes qui sont les "variables" (∈ Rn ).
L’éude séparée de chacune des variables est une phase indispensable dans le processus de
dépouillement des données. Par exemple,

> round(apply(notepeda,2,mean),1)
francais lv1 maths physique art
9.7 9.8 10.3 10.1 11.0

> boxplot(notepeda)

Mais cette étude "univariée" est tout à fait insuffisante car elle ne tient pas compte des
liaisons qui peuvent exister entre les variables, liaisons qui sont souvent l’aspect le plus
important. Il est donc préfèrable d’analyser les données en tenant compte de leur caractère
multidimensionnel.
........................
Exercice 21
On considère le tableau de données suivant :
Nom de l’eau intensité d’émission de bulles saveur salée appréciation globale
St Yorre 3,9 6,4 2,9
Vichy 1,4 6,0 2,8
Quézac 5,1 4,7 3,5
Salvetat 2,9 4,1 3,4
Perrier 8,2 4,9 2,8

Ces données sont contenues dans le fichier "eaux.txt".

11
On désire faire une ACP de ce petit jeu de données avec le logiciel R. Pour cela, on va utiliser
la fonction PCA (pour “Principal Component Analysis”) d’un package dédié à l’analyse des
données, le package FactoMineR.
Correction exercice 23

eaux<-read.table("eaux.txt", header=TRUE, row.names=1,sep=";")


# importation du tableau des données

install.packages("FactoMineR") # installation du package "FactoMineR"


(dédié pour l’analyse des données) afin de pouvoir
l’utiliser par la suite

require(FactoMineR) # permet de charger le package "FactoMineR"


afin de pouvoir l’utiliser par la suite

?PCA # permet d’afficher la fenetre d’aide de la commande "

{\footnotesize
\begin{verbatim}
eaux<-read.table("eaux.txt", header=TRUE, row.names=1,sep=";")
# importation du tableau des donn\’ees

install.packages("FactoMineR") # installation du package "FactoMineR"


(dédi\’e pour l’analyse des donn$\’e$es) afin de pouvoir
l’utiliser par la suite

require(FactoMineR) # permet de charger le package "FactoMineR"


afin de pouvoir l’utiliser par la suite

?PCA # permet d’afficher la fenetre d’aide de la commande "PCA"

res<-PCA(eaux) # tous les calculs de l’ACP sont stockes dans l’objet "res"
# NB : par defaut les graphiques des plans factoriels 1-2
sont affiches a l’ecran

res # permet de voir l’ensemble des sorties numeriques disponibles

res$eig # permet d’afficher les valeurs propres et les pourcentages


de variances expliquees par chaque axe
barplot(res$eig[,1],main="Eigenvalues",names.arg=1:nrow(res$eig))
# permet d’obtenir l’ebouli des valeurs propres

12
> res$eig
eigenvalue percentage of variance cumulative percentage of variance
comp 1 1.7332693 57.775643 57.77564
comp 2 1.0635340 35.451135 93.22678
comp 3 0.2031967 6.773222 100.00000

> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02

> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02
> round(res$var$cos2,digit=2)
Dim.1 Dim.2 Dim.3
intensite.emission.de.bulles 0.07 0.91 0.02
saveur.salee 0.90 0.01 0.10
appreciation.globale 0.77 0.15 0.09

> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02

13
> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3
St Yorre 0.88 0.00 0.12
Vichy 0.71 0.25 0.04
Quezac 0.85 0.01 0.14
Salvetat 0.72 0.22 0.06
Perrier 0.00 0.98 0.02
> round(res$var$cos2,digit=2)
Dim.1 Dim.2 Dim.3
intensite.emission.de.bulles 0.07 0.91 0.02
saveur.salee 0.90 0.01 0.10
appreciation.globale 0.77 0.15 0.09

.........

Plan factoriel 1-2 des individus (notepeda)


Illustrons cela en reprenant les données de l’exemple des notes pédagogiques.
> res<-PCA(notepeda)

Cercle des corrélations (plan 1-2)(notepeda)

14
Cercle des corrélations (plan 1-3)(notepeda)

> plot.PCA(res,axes=c(1,3),choix="var")

Plan factoriel 1-3 des individus(notepeda)

> plot.PCA(res,axes=c(1,3),choix="ind")

> res$eig \’e


comp 1 2.8652527943 57.30505589 57.30506
comp 2 1.1411472351 22.82294470 80.12800
comp 3 0.9910493114 19.82098623 99.94899
comp 4 0.0019854075 0.03970815 99.98869
comp 5 0.0005652517 0.01130503 100.00000
\begin{tabular}{||}
\hline
% after \\ : \hline or \cline{col1-col2} \cline{col3-col4} ...
& & \\
& & \\
& & \\
\hline
\end{tabular}

> round(res$ind$cos2,digit=2)
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5

15
jean 0.88 0.04 0.08 0 0
alain 0.79 0.05 0.16 0 0
anne 0.50 0.48 0.02 0 0
monique 0.88 0.00 0.12 0 0
didier 0.88 0.11 0.01 0 0
adrien 0.25 0.45 0.30 0 0
pierre 0.03 0.81 0.16 0 0
beatrice 0.18 0.64 0.18 0 0
eve 0.05 0.29 0.66 0 0

> round(res$var$cos2,digit=2)
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
francais 0.66 0.33 0.01 0 0
lv1 0.81 0.18 0.00 0 0
maths 0.56 0.41 0.04 0 0
physique 0.84 0.15 0.01 0 0
art 0.00 0.07 0.93 0 0

Exercice 22
On considère le tableau R de notes sur 20 suivant (n=9 individus, p=5 variables) :
Math Science Français Latin Musique
Jean 6 6 5 5.5 8
Aline 8 8 8 8 9
Annie 6 7 11 9.5 11
Monique 14.5 14.5 15 15.5 8
Didier 14 14 12 12 10
André 11 10 5.5 7 13
Pierre 5.5 7 14 11.5 10
Brigide 13 12.5 8.5 9.5 12
Evelyne 9 9.5 12 12.5 180
Le tableau des moyennes par matière est :
Math Science Français Latin Musique
Moyenne 9.67 9.83 10.2 10.1 11
On désire soumettre le tableau à une ACP. Pour cela on est conduit à rechercher les vecteurs
propres de la matrice des covariances empiriques des cinq variables, qui est
 
M ath Science F ranais Latin M usique
 M ath 11.4 9.92 2.66 4.82 0.111 
 
 Science 8.94 4.12 5.48 0.056 
TX X 
 
 F ranais 12.1 9.29 0.389 

 Latin 0 0 0 7.91 0.667 
M usique 0 0 0 0 8.67
1. Indiquer la transformation qui permet de passer de la matrice R à la matrice X. Calculer
la première ligne de X.
2. Les trois plus grandes valeurs propres de la matrice des variances-covariances sont λ1 =
28.253, λ2 = 12.075, λ2 = 8.616
3. Quels sont les taux d’inertie expliquée par chacun des trois axes factoriels correspondants ?
En limitant la représentation à l’espace des 3 premiers facteurs, quel est le taux d’inertie
totale expliquée par cette représentation ? Que peut-on en conclure ?
4. Les trois premiers vecteurs propres normés de X T X sont donnés dans le tableau ci-
dessous :
1 2 3
Maths 0.515 -0.567 -0.051
Sciences 0.507 -0.372 -0.014
Français 0.492 0.650 0.108
Latin 0.485 0.323 0.023
Musique 0.031 0. 113 -0.992

16
5. Calculer les coordonnées de « Jean » sur les trois axes factoriels.
6. Calculer les coefficients de corrélation linéaire entre le premier facteur et les 5 variables.
7. Les corrélations entre les variables et les deux autres facteurs sont données ci-dessous :

Facteur 2 Facteur 3
Math -0.584 -0.045
Sciences -0.432 -0.014
Français 0,651 0,091
Latin 0,399 0,024
Musique 0,133 -0,990
8. Donner brièvement une interprétation possible pour les 3 facteurs.
9. En utilisant les résultats obtenus à la première et à la troisième question, calculer l’indice
ponctuel de qualité de la représentation de « Jean » sur le premier axe factoriel, puis sur
le plan des deux premiers facteurs, puis sur l’espace des trois premiers facteurs. Conclure.

17
Exercice 23
Le tableau suivant présente pour différentes villes, les précipitations P (en cm), les
températures maximales Tmax et minimales Tmin (en C’), mesurées en 2019 :

P Tmax Tmin
Ajaccio 12.04 23.7 5.9
Brest 17.18 15.5 -1.8
Dunkerque 11.83 13.1 2.8
Nancy 6.23 13.5 -2.4
Nice 16.99 21.1 7.2
Toulouse 38.7 20.30 -0.90
Moyenne 11.36 17.87 1.80
Ecart-type 4.98 4.04 3.76

1. Calculer les moyennes et les écarts-types de P, Tmax, et Tmin.


2. On remplace dans la matrice X des observations, chaque colonne par la variable centrée
réduite. On continuera à noter la matrice des données X.
3. Soit Σ la matrice de corrélation entre les observations. Donner sa définition en fonction
de la matrice X et les variables. On donne
 
1 0.09 0.49
Σ := 0.09 1 0.62
0.49 0.62 1

4. Calculer les valeurs propres et les vecteurs propres de Σ.


5. Déterminer les coordonnées du centre des gravités G du nuage des points.
6. Calculer l’inertie totale du nuage des points IG .
7. Calculer les composantes principales F1 , F2 et F3 dans l’espace des individus
8. Déterminer l’inertie expliquée par chacun des axes principaux
9. Afin de représenter les anciennes variables dans le nouveau système d’axes (cercle de
corrélation), Calculer Corr(F
ˆ k , vj )
10. Monter que le tableau des corrélations des variables avec les axes principaux est donné
par

G1 G2 G3
P 0.62 0.76 0.20
Tmax 0.76 -0.59 0.28
Tmin 0.93 -0.03 -0.36

18
11. Projeter les données sur le plan factoriel F1 , F2
12. Interpréter le plan factoriel c’est à dire les positions des villes dans ce dernier.
13. Représenter les résultats sur le cercle de corrélations.
14. Réaliser un tableau qui synthétise la qualité de représentation et la contribution des indi-
vidus aux axes factoriels et leurs contributions à l’inertie totale.
15. Rédiger un code R pour implémenter numériquement le maximum de ré-
ponses à ces questions

Exercice 24
On considère le tableau X de type (3,2) suivant :
 
2 3
 4 5 
6 1

1. Donner le tableau des données centrées et réduites (normées).


2. Détermner la matrice des corrélations Γ
3. Diagonaliser la matrice Γ. On note λ1 et λ1 ses valeurs propres avec λ1 > λ2 .
4. Détermner F1 les axes factoriels. Donner le vecteur unitaire ui de chaque axe Fi . Vérifier
que ces axes sont perpendiculaires.
5. Ecrire la matrice diagonale des valeurs propres ∆ et calculer sa trace tr(∆) et vérifier
que tr(Γ) = tr(∆).

Exercice 25
Au cours d’une enquête sur un échantillon de taille 60, on a obtenu le tableau de contingence
suivant :
Ensemble I (Individus) Ensemble J (Paramètres)
1 2
1 10 10
2 5 15
3 15 5

Réaliser une Analyse Factorielle des correspondances (AFC) sur ces données, en répondant aux
questions suivantes :
1. Donner le tableau des probabilités conjointes et marginales, associé au tableau précédent.
2. Dans l’espace R2 , on représente un nuage B(I) des points Mi avec i ∈ I de coordonnées
suivant des axes normalisées.
3. Donner tous les points Mi du nuage B(I) en explicitant leurs coordonnées.
4. Calculer la distance χ2 entre les différentes pairs des points de nuages B(I).
5. Déterminer la matrice des variances-covariances W du nuage B(I).
6. Déterminer les valeurs propres de la matrice W.
7. En déduire la variabilité totale du nuage B(I).
8. On projette, maintenant, le nuage B(I) orthogonalement sur un axe, et on note C(I) le
nuage projeté. Donner la variabité totale du nuage projeté. Donner la variabilté totale du
nuage projeté C(I).
9. Calculer la variabilité expliquée par la projection du nuage B(I).

Exercice 26
Données : n individus observés sur p variables quantitatives. Expliquer brièvement les étapes
pour faire une Analyse en composantes Principales (A.C.P. ) qui permet d’explorer les liaisons
entre variables et les ressemblances entre individus.
Exercice 27
Soit X une variable aléatoire discrète dont la loi de probabilité, donnée ci dessous, dépend d’un
paramètre θ ∈]0, 1[.

19
P (X = 0) = θ2 ; P (X = 1) = 2θ(1 − θ), P (X = 2) = (1 − θ)2

On extrait un échantillon de taille n = 3 de la population et on obtient :


x1 = 0, x2 = 1, x3 = 0
Calculer une estimation de θ en utilisant le principe du maximum de vraisemblance.
Exercice 28
Les salairs mensuels des employés d’une entreprise sont supposés suivre une loi normale de
paramètres µ et σ.
1. Pour un échantillon de taille n = 100, on obtient une moyenne m = 6500F et un écart-
type s = 900F . Donner un intervalle de confiance au niveau 0.95 pour µ.
2. Pour un échantillon de taille n = 100, on obtient une moyenne m = 6200F et un écart-
types = 850F . Donner un intervalle de confiance au niveau 0.95 pour µ.

Exercice 29
Un bureau de conseil en ressources humaines a effectué une étude sur le niveau d ?anxiété Y
mesuré sur une échelle de 1 à 50 de cadres d ?entreprises au cours d ?une période de deux
semaines. Nous voulons examiner si les facteurs suivants peuvent influencer sur le niveau
d ?anxiété des cadres :
— X1 : pression artérielle systolique
— X2 : test évaluant les capacités managériales
— X3 : niveau de satisfaction du poste occupé.
Le tableau d ?analyse de la variance indique l ?apport de chaque variable introduite dans
l ?ordre indiqué et ceci pour 22 cadres.

Source de variation Somme des carrées ddl


Régression due à X1 981,326 1
Régression due à X2 190,232 1
Régression due à X3 129,431 1
Résiduelle 442,292 18
Totale 1743, 281 21

1. Quelle est la somme des carrés due à la régression pour l’ensemble des trois variables
explicatives ?
2. Quelle proportion de la variation dans le niveau d’anxiété est expliquée par les trois va-
riables explicatives ?
3. Pouvons-nous conclure que dans l’ensemble les trois variables explicatives ont un effet
significatif sur le niveau d’anxiété ? Utiliser un seuil de signification α = 5%. Préciser les
hypothèses que nous souhaitons tester.
4. Si nous ne tenons compte que de la variable explicative X1, quel serait alors le tableau
d ?analyse de la variance correspondant ?

Source de variation Somme des carrées ddl


Régression due à X1 981,326
Résiduelle
Totale

5. Tester les hypothèses nulles suivantes, au seuil de signification α = 5% en utilisant un


rapport F approprié :
a) H0 : β1 = 0 dans le modèle Y = β0 + β1 X1 + ;
b) H0 : β2 = 0dans le modèle Y = β0 + β1 X1 + β2 X2 + ;
c) H0 : β3 = 0dans le modèle Y = β0 + β1 X1 + β2 X2 + β3 X3 + ;
6. Quelle est la valeur du coefficient de détermination R2 associé à l’estimation de chaque
modèle spécifié à la question 5. ?
7. Mequel des trois modèles semble le mieux approprié pour expliquer les fluctuations du
niveau d’anxiété des cadres d’entreprises ?

20
Exercice 30
On étudie l’influence des heures de travail et du capital utilisé sur la production industrielle.
Pour cela, on dispose des observations de 9 entreprises résumées dans le tableau ci-dessous :

Observation Travail (heures) Capital (machines/heures) Production(100 tonnes)


1 1100 300 60
2 1200 400 120
3 1430 420 190
4 1500 400 250
5 1520 510 300
6 1620 590 360
7 1800 600 380
8 1820 630 430
9 1800 610 440

On suppose que la production est expliquée par un modèle de régression linéaire multiple avec
deux variables explicatives, le capital et le travail.
1. Ecrire le modèle sous forme matricielle.
2. Estimer le vecteur β puis donner l’équation de l’hyperplan des moindres carrés. Pour cela,
on donne  
6.304777 −0.007800 0.011620
(X 0 X)−1 = −0.007800 0.000015 −0.000031
0.011620 −0.000031 0.000072

3. Calculer les estimations de σ 2 et var(β̂).


4. Calculer les intervalles de confiance à 95% pour βj , j = 0, 1, 2.
5. Calculer les intervalles de confiance simultanés pour βj , j = 0, 1, 2. au niveau de confiance
au moins 95%.
6. Donner l’expression de la région de confiance de β et calculer les régions de confiances
des couples (βi , βj ), i 6= j.
7. Tester l’hypothèse nulle H0 :?βj = 0” contre l’alternative H1 :?βj 6= 0? pour j = 0, 1, 2.
8. Construire le tableau d’analyse de variance et réaliser le test de Fisher global d’hypothèse
nulle H0 : ”β1 = β2 = 0” au risque α = 5%. Conclure.

 
6.304777 −0.007800 0.011620
(X 0 X)−1 = −0.007800 0.000015 −0.000031
0.011620 −0.000031 0.000072

Exercice 31
On considère le modèle de régression linéaire simple du Chapitre 1 où l’on dispose de n obser-
vations (xi , yi ) vérifiant

yi = β0 + β1 xi + i ,

où l’on suppose que les variables i , , i = 1, · · · ...n sont centrées, de variance σ 2 et


non-correlées. On veut retrouver les propriétés du Chapitre 1 à l’aide des notations matricielles
du Chapitre 2.
1. Ecrire le modèle sous la forme matricielle d’un modèle de régression linéaire multiple.
2. Calculer l’estimateur des moindres carrés β̂1 dans le modèle matriciel et retrouver les
estimateurs βˆ0 etβ̂ du modèle de régression simple.
3. A l’aide de la formule matricielle de var(β̂) , retrouver les variances de β̂0 et β̂1 , et la
covariance entre β̂0 et β̂1 . De même pour les résidus ˆ et les valeurs estimées Ŷ .
4. On suppose à présent que les i sont i.i.d. de loi normale N (0, σ 2 ), où σ 2 est inconnue. A
partir des lois des estimateurs du modèle matriciel, retrouver les intervalles de confiance
de β0 et β1

21
5. A partir de la région de confiance simultanée de β du modèle matriciel, retrouver l’ellipse
de confance de (β0 , β1 ) de la régression simple.
6. On observe un nouveau point x ∈ R . A partir des propriétés de Ŷ (x) du modèle matriciel,
retrouver l’intervalle de confiance de cet estimateur.

Un peu de Probabilités ! ! ! ! ! ! :
Exercice 32
Nous sommes dans un pays où il fait beau 5 jours sur 7.Deux stations méteo S1 et
S2 annoncent indépendamment l’une de l’autre le temps qu’il va faire.
La station S1 est fiable à 90%, la station S2 est fiable à 80% seulement. Lorsque
S1 annonce du mauvais temps et S2 annonce du beau temps, qui faut-il écouter ?
Exercice 33
Sur 1000 petites entreprises, 10 font faillite dans une année. Sur 1000 grandes
entreprises, 2 font faillite.Une entreprise fait faillite, calculer la probabilité que
ce soit une petite sachant qu’il ya 70% de petites dans l’ensemble des entreprises.
Exercice 34
Un marchand vend des articles dont 30% proviennent d’un fournisseur A et 70%
d’un autre fournisseur B.6% de la production de A est défectueuse, contre 3%
seulement de la population de B. Un client achète un article.
1. Quelle est la probabilité que cet article soit défectueux ?
2. Sachant que cet article est défectueux, quelle est la probabilité qu’il pro-
viennent de B ?

Exercice 35
Une ville comporte 30,000 habitants dont 40% des femmes. De plus, 30% des
hommes et 25% des femmes parlant une langue étrangère. On interroge une
personne au hasard.
1. Quelle est la probabilité pour que cette personne :
(a) Soit une femme qui parle une langue étrangère.
(b) Soit une femme qui ne parle aucune une langue étrangère.
(c) Soit un homme qui parle une langue étrangère.
2. Sachant que la personne interrogée parle l’Anglais, quelle est la probabilité
que se soit une femme.

Exercice 36
Une maladie rare touche 1 personne sur 1000 dans la population Tunisienne.
Quand cette maladie est présente, un test sanguin permet de la détecter dans
99% des cas. En revanche, ce test produit des faux positifs dans 1 cas sur 1000.
Le test d’une personnes est positif. Quelle est la probabilité qu’elle soit vraiment
atteinte de la maladie ? Que pensez-vous de la qualité de ce test sanguin ?
NB : La qualité de la rédaction, la clarté et la précision des raisonnements
entreront pour une part importante dans l’appréciation des copies.
Questions de cours
1. Enoncer le théorème de Gauss-Markov ?
2. Expliquer l’utilisation d’une modélisation par le biais d’une ANOVA à 1
facteur ?
3. Expliquer l’utilisation d’une modélisation par le biais d’une ANOVA à 2
facteurs ?

22
Exercice 37
Nous considérons le modèle de régression linéaire

Y = Xβ + ,

avec Y ∈ Rn , X est une matrice de taille n × p de rang p, β ∈ Rp ,  ∼ N (0, σ 2 In )


1. Qu’appelle-t-on estimateur des moindres carrés β̂ de β ? Rappeler sa for-
mule.
2. Quelle est l’interprétation géométrique de Ŷ = X β̂ (faites un dessin) ?
3. Rappeler espérances et matrices de covariance de β, Y et .
2. Nous considérons dorénavant un modèle avec 4 variables explicatives (la
première variable étant la constante). Nous avons observé :
   
1 −1 0 0 −60
1 
−1 5 0 0  , X 0 Y =  20  , Y 0 Y = 159
(X 0 X)−1 =
  
80  0 0 8 0  10 
0 0 0 80 1

1. Donner la formule de β et σ 2 pour le modèle précédent en utilisant un MCO..


2. Estimer (calcul) β et σ 2
3. Donner un estimateur de la variance de β̂.
4. Donner un intervalle de confiance pour β2 , au niveau 95%
5. Calculer un intervalle de prévision de yn+1 au niveau 95% connaissant :
xn+1,2 = 3, xn+1,3 = 0.5 et xn+1,4 = 2.

23
Exercice 38
Nous avons ajusté un modèle de régression linéaire simple pour expliquer le prix
en fonction de la surface.

Coefficients :
Estimate Std. Error t -value Pr(>|t|)
(Intercept) -29.466 41.245 -0.714 0.481
surface 5.353 0.414 12.931 7.86e-13

Residual standard error : 122.9 on 26 degrees of freedom


Multiple R-squared : 0.8654,Adjusted R-squared : 0.8603
F-statistic : 167.2 on 1 and 26 DF, p-value : 7.862e-13

1. Quelle est la variable à expliquer ? Quelle est la variable explicative ?


2. Donner les estimations des coefficients de la régression et préciser leur in-
terprétation.
3. Donner l’équation de la droite ajustée.
4. Relever la valeur observée du coefficient de détermination R2 et l’interpréter.

( Bon Travail)
Exercice 39
On dispose du classement de 11 individus sur 3 matières : math, musique et
français. Le classement en math revient à numéroter les individus. Le tableau des
classements selon les trois matières est le suivant :

Math 1 2 3 4 5 6 7 8 9 10 11
Musique 6 1 4 5 3 2 9 7 8 10 11
Français 2 6 5 3 4 1 8 9 7 10 11

Chaque individu est affecté du même poids. Pour les calculs, vous pouvez utiliser
les valeurs arrondies au millième.
1. Calculer le centre de gravité GI du nuage des individus.
2. Calculer le tableau centré Y (centré en lignes).
3. Calculer la matrice de covariance V du nuage des individus N (I).
4. Que représente cette matrice ?
5. Quelle est l’inertie du nuage ?
Les trois valeurs propres de V sont : 25,090 ; 2.455 ; 2.455.
6. Vérifier votre réponse d’une question précédente.

24
7. Quelle est la contribution absolue de l’axe Z1 à l’inertie du nuage ? calculer
son taux d’inertie ?
8. Quelle est la meilleure représentation plane ?
Sur les Statistiques non paramétriques
Exercice 40
Considérons X1 , , Xn , n variables aléatoires i.i.d. de densité fX . On cherche à
estimer fX à partir des observations X1, , Xn .
1. Donner la définition d ?un estimateur à noyau de fX , en précisant toutes les
quantités qui interviennent.
2. Donner des exemples de noyaux
3. Montrer que le risque quadratique ponctuel de cet estimateur s’écrit comme
la somme d’un biais et d ?une variance que l ?on définira.
4. Calculer la variance de cet estimateur à noyau. En déduire une majoration
de cette variance, ainsi que les conditions requises pour le noyau et pour fX ,
permettant d’établir cette majoraion.
5. Calculer le biais de cet estimateur à noyau. En déduire une majoration de ce
biais, ainsi que les conditions requises pour le noyau et pour fX , permettant
d’établir cette majoration.
6. En déduire une majoration du risque quadratique ponctuel de cet estimateur
à noyau.
7. Commenter
Exercice 41
Le but de cet exercice est de proposer une méthode d’estimation non
paramétrique de la densité d’un échantillon aléatoire. Soit X1 , ..., Xn une suite de
variables aléatoires indépendantes identiquement distribuées de loi absolument
continue de densité f supposée de classe C 2 . On pose
1. Calculer E[fn,h ], que peut-on dire de la convergence de fn,h ?
R
2. On note µ2 (K) = R x2 K(x)dx. Estimer en fonction de µ2 (K) le biais de
l’estimateur fn,hR de f .
1
3. Soit h = np , montrer que fn,h converge vers f en norme in ?nie presque
surement.
4. Estimer la variance de cet estimateur. En déduire l’erreur asymptotique qua-
dratique intégrée (AMISE) :
Z
kfn,h (x) − f (x)k2 dµ(x)
R
pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.
Exercice 42
Le but de cet exercice est de proposer une méthode d’estimation non
paramétrique de la densité d’un échantillon aléatoire. Soit X1 , · · · , Xn une suite
de variables aléatoires indépendantes identiquement distribuées de loi absolument
continue de densité f supposée de classe C 2 . On pose
n  
3 2 1 X x − Xi
K(x) = (1 − x )1[−1,1] , fn,hn (x) = K , hn → 0,
4 nhn i=1 hn

25
1. Calculer E[fn,hn ] , que peut- on dire de la convergence de fn,hn .
R
2. On note µ2 (K) = R x2 K 2 (x)dx. Estimer en fonction de µ2 (K) le biais de
l’estimateur fn,hn de f .
3. Montrer que fn,hn converge vers f en norme infinie presque surement.
4. Estimer la variance de cet estimateur. En déduire l’erreur asymptotique qua-
dratique intégrée (AMISE) :
Z 
2
|(fn,hn − f )(x)| dx
R

pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.

Exercice 43
Le but de cet exercice est de proposer une méthode d’estimation non
paramétrique de la densité d’un échantillon aléatoire. Soit X1 , · · · , Xn une suite
de variables aléatoires indépendantes identiquement distribuées de loi absolument
continue de densité f supposée de classe C 2 . On pose
n  
3 2 1 X x − Xi
K(x) = (1 − x )1[−1,1] , fn,hn (x) = K , hn → 0,
4 nhn i=1 hn

1. Calculer E[fn,hn ] , que peut- on dire de la convergence de fn,hn .


R
2. On note µ2 (K) = R x2 K 2 (x)dx. Estimer en fonction de µ2 (K) le biais de
l’estimateur fn,hn de f .
3. Montrer que fn,hn converge vers f en norme infinie presque surement.
4. Estimer la variance de cet estimateur. En déduire l’erreur asymptotique qua-
dratique intégrée (AMISE) :
Z 
2
|(fn,hn − f )(x)| dx
R

pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.

Exercice 44
Soit X1 , · · · , Xn un échantillon i.i.d. de variables alétoires réelles de densité f .
Un estimateur fˆh à noyau de f s’écrit sous la forme
n  
ˆ 1 X x − Xi
∀x ∈ R, fh (x) = K (1)
nh i=1 h

où h est le paramètre de fenêtre, et K : R → R+ un noyau.


1. Écrire une fonction KG qui prend en paramètre u ∈ R,√et renvoie KG(u)
où KG est le noyau gaussien centré réduit. Donner KG( 2 ∗ π).
u ∈ R et renvoie KE(u)
2. Écrire une fonction KE qui prend en paramètreq
1
où KE est le noyau d’Epanechnikov. Donner KE π
.

26
3. Écrire une fonction fchapG qui prend en paramètres un vecteur X, x ∈
R, h > 0, et renvoie la valeur de l’estimateur (1) au point x de l’échantillon
X muni du noyau gaussien et de la fenêtre h. Détailler cette fonction sur la
feuille d’examen.
4. Même question avec fchapE pour le noyau d’Epanechnikov. Détailler cette
fonction sur la feuille d’examen.

Exercice 45
Soit X1 , · · · , Xn un échantillon i.i.d. de variables alétoires réelles de densité f .
Un estimateur fˆh à noyau de f s’écrit sous la forme
n  
ˆ 1 X x − Xi
∀x ∈ R, fh (x) = K
nh i=1 h

où h est le paramètre fenêtre, et K : R → R+ un noyau.


1. On suppose que K est positif et R K(x)dx = 1. Montrer que fˆh est une
R
densité de probabilité ?
R suppose que K Rvérifie les conditions
On R suivantes
2
: R 2
R
K(x)dx = 1, R
xK(x)dx = 0, R
K (x)dx < ∞, R
x |K(x)|dx <
∞.
2. Montrer que kBiais(fˆh )(x)k 6 C1 ×h2 avec, C1 = 12 supz∈R |f 00 (z)| R u2 |K(u)|du.
R

3. Montrer que V ar(fˆh )(x) 6 Cnh2 . avec, C2 = supz∈R f (z) R K(u)2 du.
R

4. Déduire que M SE(fˆh )(x) 6 C12 × h4 + Cnh2 .


Trouver la valeur hoptimale qui minimise le MSE.

Exercice 46
Supposons que la fonction densité f vérifie f (x) 6 fmax < ∞, pour tout x ∈ R,
et que K est un noyau tel que
Z Z
K(u)du = 1, K 2 (u)du < ∞.

Montrer que ∀x0 ∈ R, h > 0, et n > 1,


C1
Var(fˆn (x0 )) 6
nhn
avec C1 une constante à déterminer en fonction de f et K.
Exercice 47
Soit On définit la valeur du biais de l’estimateur fˆn de f par la quantité
 

Z
1 x 0 z
b(x0 ) = Ep [fˆn (x0 ) − fn (x0 )] = K f (z)dz − f (x0 )
h hn
Définition 1 : Soit T un intervalle de R et soient β > 0, L > 0. La classe de
Hölder Σ(β, L) sur T est définie comme l’ensemble de toutes les fonctions
f : T → R telles que la dérivée f ` , ` = ⊥β⊥, existe et vérifie
|f ` (x) − f ` (y)| 6 L|x − y|β−` , ∀x, y ∈ T
Définition 1 : Soit ` > 1 un entier. On dit que K : R → R est un noyau d’ordre
` si les fonctions u → uj K(u), j = 0, 1, · · · , `, sont intégrables et vérifient
Z Z
K(u)du = 1, uj K(u)du = 0, j = 1, · · · `

27
On définit l’ensemble des fonctions suivant
Z
P (β, L) = {f telle que f > 0, f = 1 et f ∈ Σ(β, L) sur R}

Σ(β, L) est la classe de Hölder .


Soit f ∈ P (β, L) et soit K un noyau d’ordre ` = ⊥β⊥ tel que
Z
kukβ K(u)du < ∞.

Montrer ∀x0 ∈ R, h > 0 et n > 1,


kb(x0 )| 6 C2 hβ

avec
Z
L
C2 = |u|β K(u)du
`!
Exercice 48
P`
Soit K` : u → m=0 φm (0)φm (u)1|u|61 est intégrable sur R. Montrer que K` est
un noyau d’ordre `.
avec (φm )m∈N la base orthonormé des polynomes de Legendre dans L2 ([−1, 1])
définie par
1
φ0 = √
2
et pour tout m > 1

r
2m + 1 1 dm
φm (x) = [(x2 − 1)m ]
2 2m m! dxm
Soit K` : u → uj K(u) est intégrable sur R. De plus ∀j ∈ N , ∃(αq )q > 0 telle que
∀u ∈ [−1, 1],

j
X X
j
u = αq φq (u) = αq φq (u)
q>0 q=0

Exercice 49

Considérons X1 , · · · , Xn , nvariables aléatoires i.i.d. de densité fX ∈ L([0, 1]). On


cherche à estimer fX à partir des observations X1 , · · · , Xn . Considérons la base
d’histogrammes définie par

ϕK (x) = D1[ k−1 , k ] , D > 0, k = 1, · · · , D
D D

Soit SD = vect{ϕk , k = 1, · · · , D}. On note kf k∞ = supx∈[0,1] |f (x)| et


R1
kf k2 = 0 f 2 (x)dx
1. Montrer que pour toute g ∈ SD , on a
D
X
kgk2∞ 6 Dkgk , 2
et k ϕ2k k∞ 6 D
k=1

28
2. Donner l’expression de la projection orthogonale de fX sur SD notée πSD (fX ).
3. En déduire un estimateur sans biais de πS (fX ) , noté fˆD .
D

4. Montrer que le risque quadratique intégré de fˆD s’écrit

EkfˆD − fX k2 = kπSD (fX ) − fX k2 + EkfˆD − πSD (fX )k2

5. Montrer que
EkfˆD − πSD (fX )k2 6 D/n
6. Montrer que si fX est telle que |fX (x) − fY (y)| 6 |x − y|α pour α ∈]0, 1[
alors
kfˆD − fX k2 6 C 2 D−2α
7. En déduire une majoration du risque quadratique intégré de fˆD .
8. Trouver Dopt qui minimise cette majoration du risque quadratique intégré.
9. En déduire la majoration du risque quadratique intégré pour ce Dopt .
10. Commenter

Exercice 50
Soit X1 , · · · , Xn une suite de variables aléatoires indépendantes identiquement
distribuées de loi absolument continue de densité f supposée de classe C 2 . On
pose
n  
3 2 1 X x − Xi
K(x) = (1 − x )1[−1,1] , fn,hn (x) = K , hn → 0,
4 nhn i=1 hn

1. Calculer E[fn,hn ] , que peut- on dire de la convergence de fn,hn .


R
2. On note µ2 (K) = R x2 K 2 (x)dx. Estimer en fonction de µ2 (K) le biais de
l’estimateur fn,hn de f .
3. Montrer que fn,hn converge vers f en norme infinie presque surement.
4. Estimer la variance de cet estimateur. En déduire l’erreur asymptotique qua-
dratique intégrée (AMISE) :
Z 
2
|(fn,hn − f )(x)| dx
R

pour le noyau K. En optimisant sur les deux premiers termes de cette quan-
tité, en déduire le pas optimal et la valeur correspondante de l’AMISE. Faire
de meme pour un noyau quelconque. En déduire une propriété particulière
de ce noyau.

Exercice 51
Soient X1 , · · · , Xn des variables aléatoires i.i.d. de densité f (·) sur R. On
suppose que f est bornée et régulière d’ordre 3, c’est-à-dire que f est 2 fois
dérivable et sa dérivée seconde est Lipshitzienne :
00 00
|f (x) − f (y)| 6 L|x − y|, ∀x, y ∈ R
Le but de cet exercice est de proposer un estimateur de f dont le risque
quadratique décroît vers 0 comme n−6/7 , lorsque n → 0.
1. Rappeler la défition de l’estimateur à noyau et la majoration de son risque
obtenue en cours pour les densités deux fois continûment différentiables.

29
2. Soit K une fonction (noyau) paire continue vérifiant
Z Z Z
K(u)du = 1, u K(u)du = 0, CK = |u|3 |K(u)|du < ∞.
2

Démontrer que le biais (en un point x donné) de l’estimateur à noyau fˆK,h


basé sur cette fonction K et une fenêtre h > 0 est majoré par Ch3 , où C
est une constante ne dépendant que de L et de CK .
3. Montrer que la variance de fˆK,h (x) vérifie
c1 C1
6 Var(fˆK,h (x)) 6
nhn nhn
4. Déduire des questions précédentes que la fenêtre h minimisant le majorant
du risque de fˆK,h (x) est donnée par hopt = const.n−1/7 . A quelle vitesse
décroît le risque de l’estimateur fˆK,h (x) basé sur cette fenêtre optimale.
5. Maintenant qu’on a vu que les noyaux vérifiant les propriétés énoncées dans
la question 2 conduisent vers de bons estimateurs de f, nous devons prouver
que de tels noyaux existent. Pour cela, soit α, α0 deux réels positifs et soit
Kα la fonction :
α α0
Kα (u) = 1[−1,1] (u) + 1[−2,2] (u) u∈R
2 2
Déterminer (α, α0 ) tels que Kα vérifie les propriétés requises dans la ques-
tion 2.
6. Soit fˆα l’estimateur à noyau basé sur le noyau défini dans la question précé-
dente. Trouver une fonction Ψ : R → R telle que l’estimateur Ψ(fˆα (x)) est
meilleur que fˆα .
7. On considère l’estimateur fˆα et on suppose maintenant que f est deux-fois
continûment différentiable avec une dérivée seconde Hölderienne d’ordre β :
00 00
|f (a) − f (b)| 6 L|a − b|β , ∀a, b ∈ R

où β ∈]0, 1]. Posons γ = 2 + β. Quelle est la fenêtre optimale en fonction de


γ et quelle est la vitesse de convergence du risque de l’estimateur à noyau
construit à l’aide de la fenêtre optimale ?

30

Vous aimerez peut-être aussi