Cours Stat

Méthodes d’estimation et modélisation
en santé
prof. armel yodé

Table des matières
1 Estimation 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Population, échantillon . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Echantillonnage aléatoire . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Echantillonnage aléatoire simple . . . . . . . . . . . . . . 6
1.3.2 Echantillonnage systématique . . . . . . . . . . . . . . . . 6
1.3.3 Echantillonnage stratifié . . . . . . . . . . . . . . . . . . . 7
1.3.4 Echantillonnage par grappes . . . . . . . . . . . . . . . . . 8
1.4 Quelques lois de probabilité classiques en statistique . . . . . . . 9
1.4.1 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2 Loi de Khi-deux . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.3 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Distribution d’échantillonnage . . . . . . . . . . . . . . . . . . . . 11
1.6 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.2 Propriétés non asymptotiques . . . . . . . . . . . . . . . . 12
1.6.3 Propriétés asymptotiques. . . . . . . . . . . . . . . . . . . 13
1.6.4 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . 13
1.7 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . 13
1.7.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . 13
1.8 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . 16
1.9 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . 17
1.9.2 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . 18
1.10 Données manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.10.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.10.2 Type de données manquantes . . . . . . . . . . . . . . . . 19
1.10.3 Données manquantes et imputation . . . . . . . . . . . . 20
1.10.3.1 Imputation par la moyenne . . . . . . . . . . . . 20
2
TABLE DES MATIÈRES 3
1.10.3.2 Imputation par tirage conditionnel . . . . . . . 20
1.10.3.3 Iputation par analyse factorielle . . . . . . . . . 20
2 Analyse d’une série chronologique 21

2.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Les composantes d’une série chronologique . . . . . . . . 23
2.1.3 Représentations graphiques . . . . . . . . . . . . . . . . . 24
2.1.4 Modélisation d’une série chronologique . . . . . . . . . . . 25
2.1.5 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.5.1 Méthode de la bande . . . . . . . . . . . . . . . . 26
2.1.5.2 Méthode du profil . . . . . . . . . . . . . . . . . 27
2.1.5.3 Méthode du tableau de Buys et Ballot . . . . . 27
2.2 Estimation de la tendance . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Méthode de Mayer . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Méthode des moindres carrés . . . . . . . . . . . . . . . . 29
2.2.3.1 Tendance linéaire . . . . . . . . . . . . . . . . . . 29
2.2.3.2 Tendance polynomiale . . . . . . . . . . . . . . . 29
2.3 Variations saisonnières . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Estimation des coefficients saisonniers du modèle additif 30
2.3.2 Estimation des coefficients saisonniers du modèle multi-
plicatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Désaisonnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5 Prévisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6 Approche générale de la modélisation d’une série chronologique 31
2.7 Exemple : Modèle additif . . . . . . . . . . . . . . . . . . . . . . . 31
2.8 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . 38
2.8.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . 40
2.8.3 Méthodes de Holt-Winters . . . . . . . . . . . . . . . . . . 40
2.8.3.1 Méthode non saisonnière ou méthode de Holt . 40
2.8.3.2 Méthode saisonnière additive . . . . . . . . . . . 41
2.8.3.3 Méthode saisonnière multiplicative . . . . . . . 41
2.8.4 Mise en oeuvre sous R . . . . . . . . . . . . . . . . . . . . 42
Chapitre
1 Estimation
1.1 Introduction
Objectif : On dispose d’un ensemble de données. Il ságit ici de déduire les
propriétés de la distribution de probabilité ayant généré ces données.
Exemple 1.1.1. Supposons que l’on s’intéresse à la pression artérielle systolique

d’un groupe de patients et que nous pensons que la distribution sous-jacente
est normale. Comment peut-on estimer les paramètres de cette distribution de
probabilité (µ, σ2 ) ? Quelle est la précision de nos estimations ? Ici, µ est la
moyenne et σ2 est la variance de la population.
Exemple 1.1.2. Supposons que l’on s’intéresse aux personnes vivant dans une
zone urbaine et que nous souhaitons estimer la prévalence du virus de l’im-
munodéficience humaine (VIH) dans cette zone. La prévalence est le nombre
de cas enregistré dans une population. Nous supposons que le nombre de cas
parmi n personnes échantillonnées est distribué de manière binomiale, avec
un certain paramètre p. Comment le paramètre p est-il estimé ? Quelle est la
précision de cette estimation ? Ici p représente la proportion des personnes
infestées dans la population.
1.2 Population, échantillon

Exemple 1.2.1. Supposons que nous voulions caractériser la distribution des
poids de naissance de tous les enfants nés vivants en Côte d’Ivoire en 2021.
Supposons que cette distribution du poids de naissance a une moyenne µ et
une variance σ2 . Idéalement, nous souhaitons estimer µ et σ2 exactement, sur
la base de l’ensemble de la population des enfants nés vivants en Côte d’Ivoire
en 2021. Cependant, cette tâche est difficile avec un groupe aussi important.
4
1.2. POPULATION, ÉCHANTILLON 5
Au lieu de cela, nous décidons de sélectionner un échantillon aléatoire de n
nourrissons qui sont représentatifs de ce grand groupe et d’utiliser les poids de
naissance x1 , . . . , xn de cet échantillon pour nous aider à estimer µ et σ2 .
Figure 1.1 –
Qu’est-ce qu’un échantillon aléatoire ?

La population est l’ensemble sur lequel porte l’étude statistique. Un élément
de la population est appelé individu. Le terme individu est à prendre au sens
large : il peut s’agir d’une personne physique mais aussi d’un logement, d’une
entreprise, d’un mouton, etc. La définition précise de la population constitue
une tâche préalable nécessaire et plutôt difficile. Formellement, deux possibi-
lités permettent de décrire une population :
— en extension prenant la forme d’une liste complète d’individus
— en compréhension obtenue par une phrase descriptive.
Définition 1.2.1. Un échantillon aléatoire est une sélection de certains membres
de la population de telle sorte que chaque membre est choisi indépendamment
et a une probabilité connue non nulle d’être sélectionné.
Il n’y a pas d’intervention du chercheur. Seul le hasard regit l’inclusion ou non
d’un individu dans l’échantillon. Les informations recueillies sur l’échantillon
peuvent être inférées à la population.
Définition 1.2.2. Un échantillon aléatoire simple est un échantillon aléatoire
dans lequel chaque membre du groupe a la même probabilité d’être sélectionné.
Comment selectionne-t-on un échantillon aléatoire ?

6 CHAPITRE 1. ESTIMATION
1.3 Echantillonnage aléatoire
L’échantillon doit être représentatif de la population. Il doit donc présenter,
pour les caractéristiques qui sont importantes pour l’étude, des propriétés qui
soient le plus proche possible de celles de la population dont il est extrait.
Dans le cas contraire, l’échantillon est biaisé et les résultats de l’étude seront
faussés.
1.3.1 Echantillonnage aléatoire simple

Cette méthode est appropriée lorsque la population est nombreuse et rela-
tivement homogène. Ce choix peut se faire avec remise ou sans remise :
- avec remise, un individu peut être choisi plusieurs fois
- sans remise, un individu déjà choisi ne peut l’être de nouveau.
En pratique, lorsque la population a un effectif très elevé, on tire seulement
un faible nombre d’éléments et l’on assimile un tirage sans remise à un tirage
avec remise.
Procédure à suivre pour l’échantillonnage aléatoire simple
1. Définir clairement la nature de la population.
2. Assigner un numéro à chaque individu de la population (1 à N ).
3. Sélectionner l’échantillon en choisissant n’importe quelle méthode qui
donne une chance égale à tous les numéros d’être tirés.
Exemple 1.3.1. On veut sélectionner n = 5 personnes dans une population de
N = 30 personnes par échantillonnage aléatoire simple. La fonction sample
dans le logiciel R permet de choisir au hasard 5 individus par 30.
> sample(1:5,5) # sans remise
[1] 1 5 2 4 3
> sample(1:5,5,replace=T) # avec remise
[1] 4 3 3 3 4
1.3.2 Echantillonnage systématique

L’échantillonnage systématique est une méthode qui exige aussi l’existence
d’une liste de la population où chaque individu est numéroté de 1 jusqu’à N.
Notons n, la taille de l’échantillon. L’entier voisin de N / n sera noté r et appelé
pas de sondage. Pour constituer l’échantillon il faut :
1.3. ECHANTILLONNAGE ALÉATOIRE 7
Procédure à suivre pour l’échantillonnage systématique
1. Numéroter de 1 à N les individus.

2. Déterminer le pas de sondage en divisant N par la taille de l’échantillon
n : r = N / n (prendre l’entier le plus proche).
3. Sélectionner un entier naturel d au hasard entre 1 et r . Ce nombre s’ap-
pelle l’origine. L’individu dont le numéro correspond à d est le premier
individu ;
4. pour sélectionner les autres, il suffit d’ajouter à d le pas de sondage r .

N = 30 personnes par échantillonnage aléatoire systématique. Le pas de son-
dage est r = 30/5 = 6. On selectionne au hasard entre 1 et 6. C’est le premier
individu de l’échantillon, par exemple 5 :
5 11 17 23 29
1.3.3 Echantillonnage stratifié

Cette méthode permet de représenter les sous-groupes d’une population
hétérogène. Cette façon un peu plus complexe d’échantillonner garantit que
chaque sous-groupe de la population est représenté d’une certaine manière dans
l’échantillon. On subdivise la population en strates (sous-groupes relativement
homogènes). Proportionnellement à son importance dans la population, on cal-
cule combien il faut d’individus au sein de l’échantillon pour représenter chaque
strate. On peut utiliser n’importe quelle des méthodes d’échantillonnage men-
tionnées ci-dessus pour selectionner l’échantillon à l’interieur de chaque strate.
La stratification est des plus utiles lorsque les variables de stratification sont :
— simples à utiliser ;
— faciles à observer ;
— étroitement reliées au thème de l’enquête.
Procédure à suivre pour l’échantillonnage stratifié proportionnel à la taille

des sous-groupes dans la populations
1. Définir clairement la nature de la population.

2. Déterminer les strates à représenter dans l’échantillon.
3. Assigner un numéro à chaque individu de chaque strate.
4. Déterminer le pourcentage que représente chaque strate dans la popu-
lation.
5. Sélectionner l’échantillon en choisissant n’importe quelle méthode qui
donne une chance égale à tous les numéros d’être tirés à l’intérieur
d’une strate. Du coup il faut s’assurer que chaque strate est représentée
proportionnellement à sa représentation dans la population.
N = 30 personnes par échantillonnage aléatoire stratifié. On suppose que la
population est composée de n1 = 18 filles et n2 = 12 garçons.
1. La proportion de filles est : p 1 = 18/30 = 0.6
2. La proportion de garçons est : p 2 = 12/30 = 0.4
3. Dans l’échantillon de taille n = 5, nous aurons 5 × 0.6 = 3 filles et 5 ×
0.4 = 2 garçons.
4. On obtient l’échantillon en selectionnant 3 filles parmi 18 et 2 garçons
parmi 12 par échantillonnage alátoire simple ou par échantillonnage
systématique.
> sample(1:18,3) # pour les filles
[1] 16 3 18
> sample(1:12,2) # pour les garcons
[1] 11 8
1.3.4 Echantillonnage par grappes

Dans chacune des méthodes précédents, l’individu était choisi individuelle-
ment. L’échantillonnage par grappes consiste plutôt à choisir plusieurs indivi-
dus en même temps. On choisit au hasard le nombre de grappes suffisant pour
construire l’échantillon. On sélectionne tous les individus des grappes choisies.
• Les avantages
- Echantillonnage aléatoire malgré l’absence de liste exhaustive
- Réduction des coûts par concentration.
• Les inconvénients :
- Les grappes : risque de ne pas représenter correctement la variabilité
- Les grappes utilisées doivent être de tailles à peu près équivalentes
Exemple 1.3.4. On suppose que les 30 étudiants sont divisés en 15 grappes
contenant chacune 2 individus. Il suffit de sélectionner par échantillonnage alá-
toire simple ou échantillonnage systématique 3 grappes parmi 15 pour consti-
tuer un échantillon de 6 individus.
Cette methode permet d’obtenir un échantillon represntatif de la population si
les grappes sont semblables et dans une grappe, les individus sont hétérogènes.
1.4. QUELQUES LOIS DE PROBABILITÉ CLASSIQUES EN STATISTIQUE9
Figure 1.2 –
1.4 Quelques lois de probabilité classiques en statis-

tique
1.4.1 Loi normale
On dit qu’une variable aléatoire X suit une loi normale ou gaussienne si sa

densité de probabilité est
2
1 − ( x− m)
f ( x) = p e 2σ 2 .
2πσ
On note N (m, σ2 ) la loi normale de moyenne m et de variance σ2 . La loi

normale est dite centrée-réduite si m = 0 et σ2 = 1. Voici la courbe de la densité
de la loi normale centrée-réduite.
> curve(dnorm,-5,5)
0.4
0.3
dnorm(x)
0.2
0.1
0.0
−4 −2 0 2 4
X −µ
Proposition 1.4.1. Si X suit une loi normale N (µ, σ2 ) avec σ2 > 0 alors σ
suit la loi normale centrée-réduite N (0, 1)
1.4.2 Loi de Khi-deux

Soient X 1 , . . . , X n des variables aléatoires indépendantes de même loi nor-
male N (0, 1). Posons χ2 = ni=1 X i2 . Par définition, χ2 est une variable aléatoire
P
qui suit une loi de khi-deux à n degrés de liberté et on note χ2 (n).

Propriété 1.4.1. — La de khi-deux n’est pas symétrique.
— E(χ2 ) = n et V ar (χ2 ) = 2n.
1.4.3 Loi de Student

On suppose que X suit une loi normale centrée-réduite N (0, 1) Y suit une
loi de khi-deux χ2 (n). De plus, on suppose que X et Y sont indépendantes.
Posons
X
T=p ;
Y /n
T suit une loi de probabilité appelée loi de student à n degrés de liberté. On
note T (n).
1.5. DISTRIBUTION D’ÉCHANTILLONNAGE 11
Propriété 1.4.2. T (n) est une loi symétrique ; pous n > 30 la loi de Student
peut être approchée par la loi normale centrée-réduite.
1.5 Distribution d’échantillonnage

Dans toute la suite du cours, on se place dans le cadre d’un échantillonnage
aléatoire simple sauf mention contraire. On considère un échantillon aléatoire
de taille n tiré de la population. On observe X sur cet échantillon. A chaque
individu i , on associe la variable aléatoire X i de même loi de probabilité que X .
Evidemment, les variables aléatoires X 1 , . . . , X n sont indépendantes. La théorie
de l’échantillonnage consiste à déterminer des propriétés sur des échantillons
tirés aléatoirement (au hasard) parmi une population dont on connaı̂t les pro-
priétés.
Définition 1.5.1. Un échantillon aléatoire de taille n est un n-uplet ( X 1 , . . . , X n )
où les X i sont des variables aléatoires indépendantes et identiquement distri-
buées.
Remarque 1.5.1. Nous utiliserons régulièrement le terme échantillon à la fois
pour ( x1 , . . . , xn ) et pour le n-uplet aléatoire ( X 1 , . . . , X n ).
Définition 1.5.2. On appelle statistique toute variable aléatoire dépendant uni-
quement de ( X 1 , . . . , X n ).
1X n 1X n
La moyenne empirique X n = X i et la variance empirique Vn2 = ( X i − X n )2
n i=1 n i=1
sont des exemples de statistique. Les mesures que l’on utilise pour décrire un
échantillon sont appelées des statistiques. Une statistique est donc une caracté-
ristique de l’échantillon. C’est aussi un résumé de l’échantillon de ( X 1 , . . . , X n ).
Une distribution d’échantillonnage d’une statistique est l’ensemble des valeurs
prises par cette statistique sur chaque échantillon issu d’une même population.
1.6 Estimateurs
1.6.1 Définition
On considère un échantillon aléatoire ( X 1 , . . . , X n ) issu d’une loi de proba-
bilité Pθ avec θ ∈ Θ ⊆ R un paramètre inconnu.
Exemple 1.6.1. — Si Pθ = N (µ, σ2 ) alors θ = (µ, σ2 )
— Si Pθ = B (1, p) alors θ = p.
Définition 1.6.1. On appelle estimateur de θ toute statistique θbn à valeurs dans
un ensemble acceptable pour θ .
— Un estimateur d’une proportion est une statistique à à valeurs dans
[0, 1].
— Un estimateur d’une variance est une statistique à valeurs dans R+ .
1.6.2 Propriétés non asymptotiques

Définition 1.6.2. Soit θbn un estimateur de θ . On appelle biais de θbn la quantité
b n (θ ) = E(θbn ) − θ , pour tout θ ∈ Θ.
Le biais est la moyenne des erreurs systématiques. Il est soit négatif, positif
ou nul.
Définition 1.6.3. Un estimateur θbn de θ est dit sans biais si
b n (θ ) = 0 i.e E(θbn ) = θ pour tout θ ∈ Θ.
Le critère sans biais n’est pas suffisant. En effet, il existe de nombreux

estimateurs de θ qui sont sans biais. Le critère de comparaison des estimateurs
est le risque quadratique. Le risque quadratique est la moyenne des pertes
d’estimation.
Définition 1.6.4. Le risque quadratique d’un estimateur θbn de θ est défini par
R (θbn , θ ) = E(θbn − θ )2 .
Le risque quadratique est la moyenne des pertes encourues lorsque l’on estime
θ par θbn .
Nous avons la proposition suivante.
Proposition 1.6.1.
R (θbn , θ ) = Var(θbn ) + (E(θbn ) − θ )2

= Variance + (Biais)2
Définition 1.6.5. Critère de comparaison. θb1,n est préférable à θb2,n si
R (θb1,n , θ ) ≤ R (θb2,n , θ ) pour tout θ ∈ Θ.
On choisit l’estimateur pour lequel l’encourt le plus petit risque possible.

Lorsque θbn est un estimateur sans biais de θ , alors le risque quadratique est
égale à la variance. Ainsi, on voudrait qu’un estimateur en plus d’être sans
biais ait une variance assez petite.
1.7. ESTIMATION D’UNE MOYENNE 13
1.6.3 Propriétés asymptotiques.
Une propriété est dite asymptotique lorsqu’elle est valable pour de grandes
tailles d’échantillons. Plus la taille n est grande, plus l’on a de l’information
disponible.
Convergence ou consistance. L’une des propriétés que l’on peut attendre d’un
estimateur θbn est qu’il soit proche de θ lorsque la taille n de l’échantillon
augmente. Cette propriété est appelée consistance ou convergence. La pro-
priété
¡ de¢ convergence est obtenue pour l’estimateur θn lorsque E(θn ) −→ θ et
b b
Var θn → 0, lorsque n tend vers l’infini.
b
Normalité asymptotique. Une autre propriété que l’on désire approcher la

σ2 ´
loi de probabilité de θbn par une loi normale N θ , θ
³
lorsque la taille de
n
l’échantillon augmente.
1.6.4 Intervalles de confiance

On appelle intervalle de niveau 1 − α avec α ∈]0, 1[, un intervalle IC dé-
pendant uniquement de l’échantillon ( X 1 , . . . , X n ) tel que la probabilité que IC
”recouvre” θ est égale à 1 − α :
P( IC ∋ θ ) = 1 − α.
Nous distinguons trois types d’intervalles de confiance :

— bilatéral : IC = [T1 , T2 ]
— unilateral à droite : IC = [T, +∞[
— unilateral à gauche : IC =] − ∞, T ]
où T , T1 et T2 sont des statistiques.
1.7 Estimation d’une moyenne

On considère une population dont les éléments possèdent un caractère me-
surable qui est la réalisation d’une variable aléatoire X qui suit une loi de
probabilité d’espérance µ et de variance σ2 .
1.7.1 Estimation ponctuelle

On prélève un échantillon de n individus et on mesure les valeurs de X sur
chaque élément de l’échantillon. On obtient une suite de valeurs x1 , . . . , xn . Un
estimateur naturel utilisé pour estimer la moyenne m d’une distribution est la
moyenne empirique
1X n
X= X i.
n i=1
Quelles sont les propriétés de X n qui en font un ”bon” estimateur de m ?
Proposition 1.7.1. Nous avons E( X n ) = µ.
Alors, on en déduit que X n est un estimateur sans biais de µ.
Proposition 1.7.2. La variance de X n est :
σ2
Var( X n ) = .
n
Cette proposition garantit que pour n assez grand, la moyenne empirique X n

est assez proche de µ. En effet, à mesure que la taille n de l’échantillon aug-
mente, la variance de l’estimateur converge vers 0. C’est la loi des grands
nombres.
Cas d’unéchantillon gaussien. Lorsque l’échantillon ( X 1 , . . . , X n ) est issu d’une

loi normale N (µ, σ2 ), parmi les estimateur sans biais de µ, la moyenne empi-
rique est celui qui a la plus petite variance. De plus la moyenne empirique X n
2
suit une loi normale N (µ, σn ).
Cas d’un échantillon quelconque. Lorsque l’échantillon ( X 1 , . . . , X n ) est issu

d’une loi de probabilité autre que loi normale, la loi de probabilité de X n n’est
pas une loi normale pour chaque valeur de n. Cependant, pour n > 30, on
peut approximer la loi de X n par une loi normale grâce au Thórème ci-dessous
appelé Théorème Central Limite.
Proposition 1.7.3. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de

probabilité de moyenne µ et de variance σ2 > 0. Alors, si n > 30, X n suit une
2
loi normale N (µ, σn ).
Le résultat ci-dessus est très puissant car il n’impose aucune restriction sur la
distribution de X dans la population.
1.7. ESTIMATION D’UNE MOYENNE 15
Echantillon ( X 1 , . . . , X n ) issu d’une loi normale avec variance connue
L’intervalle de confiance de niveau 1 − α pour la moyenne µ d’un échantillon

issu de la loi normale N (µ, σ2 ) lorsque σ2 est connue est :
σ σ
· ¸
Xn − z1− α2 p , Xn + z1− α2 p
n n
où z1− α2 est le quantile d’ordre 1 − α2 de la loi normale centrée réduite N (0, 1).
Définition 1.7.1. On appelle marge d’erreur la quantité

σ
ME = z1− α2 p .
n
Taille d’échantillon. Fixons ε > 0. Nous cherchons à choisir une taille d’échan-
tillon telle que ME ≤ ε. Ainsi, on cherche la taille n d’échantillon tel que
σ
|µ − X̄ n | ≤ z1− α p ≤ ε
2 n
c’est à dire
σ2 z12− α
2
n≥ .
ε2
Echantillon ( X 1 , . . . , X n ) issu d’une loi normale avec variance inconnue
L’intervalle de confiance de niveau 1 − α pour la moyenne µ d’un échantillon

issu d’une loi normale N (µ, σ2 ) lorsque σ2 est inconnue est
h S S i
X n − t 1− α2 p , X n + t 1− α2 p
n n
où z1− α2 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de

liberté T (n − 1)
Ici, S est appelée variance empirique modifiée :

1 X n
S= ( X i − X n )2 ;
n − 1 i=1
S est un estimateur sans biais de la variance σ2 .

Définition 1.7.2. On appelle marge d’erreur la quantité
S
ME = t 1− α2 p .
n
Taille d’échantillon. Fixons ε > 0. Nous cherchons à choisir une taille d’échan-
tillon telle que ME ≤ ε. Ainsi, on cherche la taille n d’échantillon tel que
S
|µ − X̄ n | ≤ t 1− α p ≤ ε
2 n
c’est à dire
S 2 t21− α
2
n≥ .
ε2
Echantillon ( X 1 , . . . , X n ) issu d’une loi quelconque
L’intervalle de confiance pour µ de niveau asymptotique 1 − α est donné par

S S
· ¸
X n − z1− α2 p , X n + z1− α2 p
n n
où z1− α2 est le quantile d’ordre 1 − α2 de N (0, 1). Les approximations ci-dessus
sont valables si la taille de l’échantillon est suffisamment grande (n > 30)
1.8 Estimation d’une variance

Un estimateur naturelle de la variance σ2 est la variance empirique définie
par
1X n
V2 = ( X i − X n )2 .
n i=1
Nous avons le résultat suivant qui montre que V 2 est un estimateur biaisé de
σ2 .
Proposition 1.8.1. E(V 2 ) = n−n 1 σ2 .
A partir de V 2 , on peut déduire la variance empirique corrigée.
Définition 1.8.1. On appelle variance empirique corrigée la statistique
1 X n
S2 = ( X i − X n )2 .
n − 1 i=1
S 2 est un estimateur sans biais de σ2 , c’est à dire E(S 2 ) = σ2 ; c’est le meilleur
estimateur de σ2 .
1.9. ESTIMATION D’UNE PROPORTION 17
Echantillon ( X 1 , . . . , X n ) issu d’une loi normale avec moyenne connue
L’intervalle de confiance de niveau 1 − α pour la variance σ2 d’un échantillon

( X 1 , . . . , X n ) issu de la loi normale N (µ, σ2 ) lorsque la moyenne µ est connue
est : " #
nV 2 nV 2
,
χ(n) χαn/2
1−α/2
où V 2 est la variance empirique et χαn/2 , χ1n−α/2 sont les quantiles d’ordre α/2
et 1 − α/2 de la loi de Khi-deux à n degrés de liberté.
Echantillon ( X 1 , . . . , X n ) issu d’une loi normale avec moyenne inconnue
L’intervalle de confiance de niveau 1 − α pour la variance σ2 d’un échantillon

( X 1 , . . . , X n ) issu de la loi normale N (µ, σ2 ) lorsque la moyenne µ est inconnue
est :
h ( n − 1)S 2 ( n − 1)S 2 i
,
χ(n −1)
1−α/2
χ(n
α/2
−1)
où S 2 est la variance empirique modifiée et χαn−/21 , χ1n−−α1/2 sont les quantiles
d’ordre α/2 et 1 − α/2 de la loi de Khi-deux à n − 1 degrés de liberté.
1.9 Estimation d’une proportion

Il arrive que nous ayions à estimer dans une population une proportion θ
d’individus possédant un caractère qualitatif donné. On dispose d’un échan-
tillon de taille n et on observe le caractère X sur cet échantillon. Soit F la
fréquence d’apparition du caractère. Nous avons F = Z / n où Z est le nombre
de fois où le caractère apparaı̂t dans l’échantillon. Par définition, Z suit la loi
binomiale B (n, θ ). Ainsi,
θ (1 − θ )
E(F ) = θ Var(F ) = .
n
Lorsque n augmente, c’est à dire, plus on a d’informations, plus il est probable
que la proportion observée dans l’échantillon soit proche de la proportion de
la population.
Si n ≥ 30, nθ ≥ 15 et n(1−θ ) ≥ 15, on peut approcher la loi binomiale B (n, θ )
par la loi normale N (θ , θ(1n−θ) ) et la variable T = qFθ−(1−θθ) suit approximativement
n
la loi normale N (0, 1).
1.9.2 Intervalle de confiance
L’intervalle de confiance pour la proportion θ de niveau de confiance 1 − α est :

s s
h F (1 − F ) F (1 − F ) i
F − z1− α2 , F + z1− α2
n n
La marge d’erreur est donc

s
F (1 − F ) 1
ME = z1− α2 ≤ z 1− α p
n 2 2 n
car pour tout x ∈ [0, 1], on a

p 1
x(1 − x) ≤ .
2
Pour déterminer la taille n telle que ME ≤ ε, il suffit donc de résoudre
1
z1− α2 p ≤ ε.
2 n
Ce qui nous donne alors
³ z1− α ´2
2
n≥ .
2ε
Exercice 1.9.1. Une compagnie prélève un échantillon de 50 chèques parmi les
2 500 reçus en une journée donnée. On suit le parcours des chèques jusqu’au
moment de leur dépôt dans le compte de la compagnie. On constate que 18 des
50 chèques ont mis plus de 5 jours à être déposés.
1. Déterminer un intervalle de confiance à 95% pour la proportion p de
chèques dont le délai (entre la réception et le dépôt) excède 5 jours.
2. Déterminez un intervalle de confiance à 95% pour le nombre de chèques
dont le délai excède 5 jours.
3. Supposons qu’on veuille faire un échantillonnage sur les chèques de l’an-
née entière (au nombre de 650000). A un niveau de 95%, quelle est
la taille de l’échantillon qu’il faudrait prélever dans les conditions sui-
vantes (vous prendrez pour p l’éstimation que vous obtenez avec l’échan-
tillon que vous venez de prélever) ?
1.10. DONNÉES MANQUANTES 19
(a) si on accepte une marge de 2% dans l’estimation de la proportion ;
(b) si on accepte une marge d’erreur relative (voir le numéro précédent)
de 5% de la proportion réelle ;
(c) si on accepte une marge d’erreur de 10000 chèques dans l’estimation
du nombre de chèques qui accusent un délai de plus de 5 jours.
1.10 Données manquantes

1.10.1 Introduction
Dans la phase de préparation des données, on doit considérer le problème de
nettoyage de la base de données. En statistique, on parle de valeur manquante
lorsqu’on n’a pas d’observations pour une variable donnée pour un individu
donné. Les données manquantes ne peuvent pas être ignorées lors d’une ana-
lyse statistique. On pourra soit retirer les variables ou les individus présentant
des données manquantes ou imputer des valeurs aux données manquantes ou
encore developper des méthodes qui permettent de mener les analyses en pré-
sence de données manquantes.
1.10.2 Type de données manquantes

— MCAR (missing completely at random). Une donnée est MCAR , c’est
à dire manquante de façon complètement aléatoire si la probabilité d’ab-
sence est la même pour toutes les observations. Cette probabilité ne dé-
pend donc que de paramètres exterieurs indépendants de cette variable.
Si la quantité de données MCAR n’est pas trop importante, ignorer les
cas avec des données manquantes ne biaisera pas l’analyse. Un perte de
précision dans les résultats est toutefois à prévoir.
— MAR (Missing at Random). Une donnée est MAR si la probabilité
d’absene est liée à une ou plusieurs autres variables observées.
— MNAR (Missing not at random). La donnée est manquante de façon
non aléatoire si la probabilité d’absence dépend de la variable en ques-
tion. Les données MNAR induisent une perte de précision mais aussi
un biais qui nécessite le recours à une analyse de sensibilité.
Exemple 1.10.1. — Un exemple répandu est le cas où des personnes
avec un revenu important refusent de le dévoiler.
— Un adolescent qui sort, de lui même, d’un essai longitudinal sur
l’obésité parce qu’il constate qu’ila grossit.
Malheureusement, on ne peut pas généralement pas dire à partir des données
, quel est le mécanisme de manque (MCAR, NMAR ou MAR).
1.10.3 Données manquantes et imputation
L’imputation regroupe les méthodes utilisées pour remplacer les données
manquantes.
1.10.3.1 Imputation par la moyenne

Les méthodes d’imputation les plus simple consistent à remplacer les don-
nées manquantes par leur moyenne ou leur médiane.
1.10.3.2 Imputation par tirage conditionnel

On peut améliorer l’idée de l’imputation par la moyenne en réalisant de
l’imputation conditionnel. Le principe est d’utiliser l’infromation apportée par
les variables renseignés. (Méthode des plus proches voisins, classification, ré-
gression).
1.10.3.3 Iputation par analyse factorielle

L’analyse factorielle permet de “reconstruire “ des données par projection
dans un espace de dimension réduit.
Chapitre
Analyse d’une série chronolo-

2 gique
2.1 Présentation
2.1.1 Définitions
On s’intéresse à l’évolution au cours du temps d’un phénomène, dans le but
de décrire, expliquer puis prévoir ce phénomène. On dispose ainsi d’observa-
tions à des dates différentes, c’est à dire d’une suite de valeurs numériques indi-
cées par le temps appelée série chronologique (chronique ou série temporelle).
Les séries chronologiques sont présentes dans de nombreux domaines d’appli-
cation (démographie,économie, écologie, finance, médecine, informatique. . . )
Exemple 2.1.1. • Température maximale journalière

• Chiffre d’affaire trimestriel d’une entreprise
• Indice mensuel des prix à la consommation
• Consommation mensuelle d’électicité.
Soit ( X t , t ∈ T) une série chronologique ; l’ensemble T est appelé espace des

temps. Nous avons en général T ⊆ N ou T ⊆ Z.
On donne deux dimensions au temps :
- le mois, unité de référence correspondant aux dates d’observation ; le
mois peut être le mois véritable mais également le trimestre, le semestre,
etc.
- l’année composée d’un nombre p de mois ; le nombre p est appelé pé-
riode ; par exemple, p = 4 pour les observations trimestrielles, p = 12
pour les observations mensuelles.
21
22 CHAPITRE 2. ANALYSE D’UNE SÉRIE CHRONOLOGIQUE
Soit X t l’observation d’une grandeur X à la date t. Si les observations sont
faites sur n années, et chaque année contenant p mois, on notera X i j l’obser-
vation du mois j de l’année i . Nous avons
Xi j = Xt avec t = ( i − 1) p + j.
Le mois t est le j -ème mois de la i -ème année. Si T = {1, . . . , T } alors le nombre

total d’observations est T = np. Nous avons donc deux façons de présenter
unesérie chronologique sous forme de tableau :
t 1 2 ... T
Xt X1 X2 ... XT
PP
PP Mois
P mois 1 mois 2 ... mois j ... mois p
Années PP PP
année 1 X 11 X 12 ... X1 j ... X 1p
année 2 X 21 X 22 ... Xij ... X 2p
..
.
année i X i1 X i2 ... Xij ... Xip
..
.
année n X n1 X n2 ... Xnj ... X np
Exemple 2.1.2. Chiffre d’affaires trimestriel d’une entreprise (en millions de

francs)
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Xt 2 8 6 12,5 5 10.5 9 15 7 12 10,5 17 8.5 14.5 12 19
PP
PP Mois
P Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Années PP
PP
1976 2 8 6 12.5
1977 5 10.5 9 15
1978 7 12 10.5 17
1979 8.5 14.5 12 19
Exemple 2.1.3. Chiffre d’affaires trimestriel d’une entreprise (en millions de

francs)
2.1. PRÉSENTATION 23
PP
PP Mois
Années PP
PP
2000 5,5 6,3 16,9 32,4
2001 23,1 17,5 37,8 62,7
2002 40,6 28,7 58,7 93,3
2003 58,5 39,9 79,5 123,1
2.1.2 Les composantes d’une série chronologique
Soit ( X t , t ∈ T) une série chronologique. On distingue différentes compo-

santes fondamentales dans une série chronologique :
- la tendance ou trend ou composante tendancielle T t indiquant l’évolu-

tion à long terme du phénomène. Elle traduit le comportement ”moyen”
de la série.
- Le cycle (ou composante cyclique). Il s’agit d’un phénomène se répé-

tant sur des durées qui ne sont pas fixes et généralement longues. Sans
informations spécifiques, il est généralement très difficile de dissocier
tendance et cycle.
- la composante saisonnière ou saisonnalité S t correspond à un com-

portement qui se répète avec une certaine périodicité p ( p = 12 pour
des données mensuelles, p = 4 pour des données trimestrielles. . . ). Ce
sont des fluctuations s’inscrivant dans le cadre de l’année et qui se re-
produisent de façon plus ou moins identiques d’une année à l’autre ; la
période notée p des variations saisonnières est la longueur exprimée
en unité de temps séparant deux variations saisonnières dues à un
même phénomène.
- la composante résiduelle εt représentant des fluctuations irrégulières

et imprévisibles ; ces fluctuations supposées en général de faible ampli-
tude ; elles traduisent l’effet des facteurs perturbateurs non permanents
(grèves, guerre, intempéries,...)
Remarque 2.1.1. Ces trois composantes ne sont pas toujours simultanément

présentes dans une série chronologique. Certaines séries n’ont pas de tendance,
d’autres n’ont aucune composante saisonnière. D’autres n’ont pas de compo-
santes résiduelle.
Nous supposons que :
- le mouvement saisonnier est périodique de période p :
S t = S t+ p = S t+2p = . . . ;
le mouvement saisonnier relatif au mois j est S i j = S j quelque soit l’année i.

- Principe de conservation des aires : sur une année, l’influence des va-
riations saisonnières est nulle.
Le traitement des séries chronologiques peut avoir pour objectifs d’isoler et
estimer une tendance, isoler et estimer une composante saisonnière, et désai-
sonnaliser la série, de réaliser une prévision, de construire un modèle explicatif
en terme de causalité.
2.1.3 Représentations graphiques

Les deux représentations de la série temporelle conduisent à deux types de
représentations graphiques :
− Le chronogramme : on représente dans un repère orthonormé les points
( t, X t ) que l’on relie par des segments de droite ; ce graphique permet
une analyse sur l’ensemble des n années. l’étude d’une série chronolo-
gique commence par l’examen de son chronogramme ; Il en donne une
vue d’ensemble, montre certains aspects, comme des valeurs atypiques,
d’éventuelles ruptures, un changement dans la dynamique de la série.
− On représente les points ( j, Yi j ) que l’on relie par des segments de
droites, ceci pour chacune des années i ; ce graphique permet une ana-
lyse année par année et une comparaison entre les différentes années
2.1.4 Modélisation d’une série chronologique

Un modèle est une image simplifiée de la réalité qui vise à traduire les
mécanismes de fonctionnement du phénomène étudié et permet de mieux les
comprendre.On distingue deux types de modèles : les modèles déterministes
et les modèles stochastiques. Dans ce cours, nous nous limitons aux modèles
déterministes. Les deux modèles déterministes les plus utilisés sont :
1. le modèle additif correspondant à des variations saisonnières dont la
composition avec la tendance conduit à une modulation d’amplitude
constante :
X t = T t + S t + εt .
Principe de conservation des aires :
p
X
S j = 0.
j =1
2. le modèle multiplicatif correspondant à une modulation d’amplitude

variable croissante avec la tendance :
X t = T t × (1 + S t ) × (1 + ε t ).
p
X
S j = 0.
j =1
X t = T t × S t + εt .
p
X
S j = p.
j =1
X t = T t × S t × εt .
p
X
S j = p.
j =1
Dans la suite, lorsque nous parlerons de modèle multiplicatif nous considé-

rons la forme :
X t = T t × (1 + S t ) × (1 + ε t ).
2.1.5 Choix du modèle

2.1.5.1 Méthode de la bande
On utilise le graphe de la série et la droite passant par les minima et

celle passant par les maxima. Si ces deux droites sont parallèles, le modèle est
additif. Si les deux droites ne sont pas parallèles, le modèle est multiplicatif.
2.1.5.2 Méthode du profil
On utilise le graphique des courbes superposées. Si les différentes courbes

sont parallèles, le modèle est additif. Sinon le modèle est multiplicatif.
2.1.5.3 Méthode du tableau de Buys et Ballot
On calcule les moyennes et écarts-types pour chacune des périodes consi-

dérées et on calcule la droite des moindres carrés σ = a x̄ + b. Si a est nul, c’est
un modèle additif, sinon , le modèle est multiplicatif.
Exemple 2.1.4. Nous allons une application de la méthode de Buys-Ballot avec

le tableau suivant :
PP
PP Mois
Années PP
PP
1976 2 8 6 12.5
1977 5 10.5 9 15
1978 7 12 10.5 17
1979 8.5 14.5 12 19
Moyenne x 5.625 11.25 9.375 15.875
Ecart-type σ 2.43349 2.358495 2.21853 2.40767
2.2 Estimation de la tendance
2.2.1 Moyennes mobiles
Le principe de cette technique est de construire une nouvelle série en cal-
culant des moyennes arithmétiques successives de longueur p fixée à partir
des données originales. Les moyennes mobiles de longueur égale à la période p
permettent d’éliminer ou d’amortir les composantes saisonnière et résiduelle.
On procède ainsi au lissage de la courbe pour mettre en évidence la tendance
générale.
• On appelle moyenne mobile centrée de longueur impaire p = 2 k + 1 à
l’instant t la valeur moyenne des observations
X t−k + X t−k+1 + . . . + X t−1 + X t + X t+1 + . . . + X t+k
Mt =
p
• On appelle moyenne mobile centrée de longueur paire p = 2 k à l’instant

t la valeur moyenne
0.5 X t−k + X t−k+1 + . . . + X t−1 + X t + X t+1 + . . . + 0.5 X t+k

Mt =
p
Remarque 2.2.1. La tendance à la date t peut être estimée par la moyenne

mobile centrée à la date t de longueur la période p si
- la tendance présente une faible courbure
- les variations saisonnières sont périodiques de période p et ont une
influence nulle sur l’année
2.2. ESTIMATION DE LA TENDANCE 29
- les variations résiduelles sont de faible amplitude.
Remarque 2.2.2. Les moyennes mobiles peuvent être influencées par les va-
leurs extrêmes. Dans ce cas, on pourrait calculer les médianes mobiles de
même ordre. Les moyennes mobiles donnent une meilleure estimation que les
moindres carrés.
2.2.2 Méthode de Mayer

On ajuste le nuage de points ( t, X t ) à une droite passant par les deux points
( t̄ 1 , X̄ 1 ) et ( t̄ 2 , X̄ 2 ) calculés de la manière suivante :
- on découpe la série en deux parties de même effectif
- pour chacune des deux parties, on calcule la moyenne des t et celle des
X t : ( t̄ 1 , X̄ 1 ) et ( t̄ 2 , X̄ 2 ) ; on peut calculer les points médians au lieu des
moyennes ; cela permet de limiter l’influence des valeurs extrêmes.
- il reste à tracer la droite passant par les deux points.
2.2.3 Méthode des moindres carrés

2.2.3.1 Tendance linéaire
On ajuste le nuage de points ( t, X t ) à une droite d’équation at + b où le
couple (a, b) minimise la distance
T
( X t − (at + b))2 .
X
t=1
Nous obtenons
cov( t, X )
a= b = X̄ − a t̄
var ( t)
où
1 XT 1 XT
cov( t, X ) = tX t − t̄ X̄ var ( t) = t2 − t̄2
T t=1 T t=1
1 XT 1 XT
X̄ = Xt t̄ = t.
T t=1 T t=1
Remarque 2.2.3. La droite des moindres carrés ajuste au mieux au sens des
moindres carrés (c’est celle qui passe le plus près de l’ensemble des points),
mais elle ne modélise pas toujours bien la tendance.
2.2.3.2 Tendance polynomiale

On peut utiliser la méthode des moindres carrés afin d’ajuster le nuage de
points ( t, X t ) à un polynôme de degré choisi. L’observation du graphe de la
série donne une idée du degré du polynôme (selon la forme de la courbe).
2.3 Variations saisonnières
2.3.1 Estimation des coefficients saisonniers du modèle additif
1. Calculer les moyennes mobiles : M i j
2. Calculer les différences entre les observations et les moyennes mobiles :
X i j − Mi j.
′
3. Calculer la moyenne S j des X i j − M i j
4. Calculer la moyenne
p
′ 1X ′
M = Sj
p j=1
′ ′
5. Estimer S j par Se j = S j − M pour respecter le principe de conservation
des aires.
2.3.2 Estimation des coefficients saisonniers du modèle multi-

plicatif
1. Calculer les moyennes mobiles : M i j
Xij
2. Calculer les rapports des observations aux moyennes mobiles : .
Mi j
′ Xij
3. Calculer les moyennes des rapports S j des pour j = 1, . . . , p.
Mi j
4. Calculer la moyenne des moyennes
p
′ 1X ′
M = S j.
p j=1
′
Sj
5. Estimer S j par Se j = ′ − 1.
M
2.4 Désaisonnalisation
Désaisonnaliser une série chronologique, c’est éliminer la composante sai-
sonnière sans modifier les autres composantes. On appelle observation corrigée
des variations saisonnières ou observation désaisonnalisés, la valeur X i∗j cdob-
tenue en éliminant l’effet saisonnier sur la valeur X i j . On la notera X t∗ . La
désaisonnalisation permet de comparer des observations dont les variations
saisonnières sont différentes.
• Modèle additif : X i∗j = X i j − Se j
2.5. PRÉVISIONS 31
Xij
• Modèle multiplicatif : X i∗j =
1 + Se j
Remarque 2.4.1. - Les données X t∗ sont directement comparables car dé-

barrassées de l’effet des saisons et donc du caractère propre de chaque
mois. On peut donc comparer par exemple les données du mois de jan-
vier à celles du mois d’aoùt.
- On peut avoir une meilleure estimation de la tendance à partir de la
série désaisonnalisée.
2.5 Prévisions
• Modèle additif : la prévision est :
h i
p
X i j = a ( i − 1) p + j + b + Se j .
• Modèle multiplicatif : la prévision est :

³ h i ´
p
Xij = a ( i − 1) p + j + b (1 + Se j ).
2.6 Approche générale de la modélisation d’une sé-

rie chronologique
1. Tracer la série des données et on repère ses principales caractéristiques
(tendance, composante saisonnière, observations aberrantes, . . . ).
2. Estimer la tendance, la composante saisonnière et la composnte rési-
duelle.
3. Choisir un modèle de série stationnaire pour les variations résiduelles
(Chapitres suivants).
4. Prévisions.
2.7 Exemple : Modèle additif

Nous revenons sur le tableau concernant le chiffre d’affaire trimestriel d’une
entreprise de 1976 à 1978.
Nous avions montré par les méthodes précédentes que le modèle est additif.
1. Tableau des moyennes mobiles. Nous utilisons la formule suivante :
2. Tableau des différences bservations ( X i j ) et moyennes mobiles ( M i j )
X i j − Mi j
2.7. EXEMPLE : MODÈLE ADDITIF 33
′ 1³ ´
S1 = − 3.875 − 3.9375 − 4.3125 = −4.042
3
′ 1³ ´
S 2 = 0.9375 + 0.625 + 1.25 = 0.935
3
′ 1³ ´
S 3 = − 1.5 − 1.125 − 1.3125 = −1.3125
3
′ 1³ ´
S 4 = 4.3125 + 4.4375 + 4.6875 = 4.479
3
Comme
′ ′ ′ ′
S 1 + S 2 + S 3 + S 4 = 0.0595 ̸= 0,
le principe de conservation des aires n’est pas respectée. Nous passons

à l’étape suivante.
3. Principe de conservation des aires. Posons

′ ′ ′ ′
Les coefficients Se1 , Se2 , Se3 et Se4 respectent leprincipe de conservation
des aires.
′
Interprétation des coefficients saisonniers : Se1 = −4.057335 signifie
qu’en moyenne on a une baisse de 4.042 millions au trimestre 1 par
′
rapport à l’ensemble de l’année ; S4 = 4.479 signifie qu’en moyenne on a
une hausse de 4.463625 millions au trimestre 4 par rapport à l’ensemble
de l’année.
4. Séries désaisonnalisée :
′
X i∗j = X i j − Se j .
5. Estimation de la composante résiduelle
6. Cas d’un modèle multiplicatif : A la main !

• Tableau des données
PP
PP Mois
Années PP
PP
2000 5,5 6,3 16,9 32,4
2001 23,1 17,5 37,8 62,7
2002 40,6 28,7 58,7 93,3
2003 58,5 39,9 79,5 123,1
• Tableau des moyennes mobiles M i j

Xij
• Tableau des Mi j
PP
PP Mois
Années PP
PP
2000 17.475 21.075
2001 25.0875 31.4875 37.4625 41.05
2002 45.0625 51.5 57.5625 61.2
2003 65.2 71.525
PP
PP Mois
Années PP PP
2000 0.96709585 1.53736655
2001 0.92077728 0.5557761 1.00900901 1.5274056
2002 0.90097087 0.55728155 1.01976113 1.5245098
2003 0.89723926 0.55784691
S ′j 0.9063291367 0.5569681867 0.9986219967 1.52976065
• Moyenne des S ′j
0.9063291367 + 0.5569681867 + 0.9986219967 + 1.52976065

M′ =
4
= 0.99792
• Estimation des coefficients saisonniers

S 1′
S1 = − 1 = −0.09178176
M′
S 2′
S2 = − 1 = −0.4418709
M′
S 3′
S3 = − 1 = 0.0007034674
M′
S 4′
S4 = − 1 = 0.5329492
M′
(a) Avec le logiciel R.

> A=c(5.5,6.3,16.9,32.4,23.1,17.5,37.8,62.7,40.6,28.7,58.7,93.3,58.5,39.9
> Chiffre_affaire=ts(A,frequency=4,start=c(2000,1))
> C=decompose(Chiffre_affaire,type = "multiplicative")
> C
$x
Qtr1 Qtr2 Qtr3 Qtr4
2000 5.5 6.3 16.9 32.4
2001 23.1 17.5 37.8 62.7
2002 40.6 28.7 58.7 93.3
2003 58.5 39.9 79.5 123.1
$seasonal
Qtr1 Qtr2 Qtr3 Qtr4
2000 0.9082182 0.5581291 1.0007035 1.5329492
2001 0.9082182 0.5581291 1.0007035 1.5329492
2002 0.9082182 0.5581291 1.0007035 1.5329492
2003 0.9082182 0.5581291 1.0007035 1.5329492
$trend
Qtr1 Qtr2 Qtr3 Qtr4
2000 NA NA 17.4750 21.0750
2001 25.0875 31.4875 37.4625 41.0500
2002 45.0625 51.5000 57.5625 61.2000
2003 65.2000 71.5250 NA NA
$random
Qtr1 Qtr2 Qtr3 Qtr4
2000 NA NA 0.9664160 1.0028816
2001 1.0138282 0.9957841 1.0082997 0.9963837
2002 0.9920202 0.9984815 1.0190443 0.9944947
2003 0.9879115 0.9994944 NA NA
$figure
[1] 0.9082182 0.5581291 1.0007035 1.5329492
$type
[1] "multiplicative"
attr(,"class")
[1] "decomposed.ts"
> C$figure-1
[1] -0.0917817612 -0.4418709007 0.0007034661 0.5329491958
S 1 = −0.0917817612 signifie que le chiffre d’affaire du trimestre 1

baisse de 9.18% par rapport à l’ensemble de l’année ; S 4 = 0.5329491958
signifie que le chiffre d’affaire du trimestre 4 connaı̂t une hausse de
53.29% par rapport à l’ensemble de l’année.
> plot(C)
Decomposition of multiplicative time series
100
observed
60
20
60
trend
40
20
1.4
seasonal
1.0
0.6
1.01
random
0.99
0.97
2000 2001 2002 2003
Time
2.8 Lissage exponentiel

Soit une série chronologique X 1 , . . . , X T . Nous sommes à la période T et
nous voulons prédire à l’horizon h i.e à la date T + h où h > 0. Les méthodes de
lissage exponentiel consiste à extrapoler une série en vue de faire des prévisions.
2.8.1 Lissage exponentiel simple

La prévision à la date T + h par la méthode de lissage exponentiel simple
est donnée par la formule :
TX
−1
X̂ T ( h) = (1 − α) α j X T− j 0 < α < 1.
j =0
Cette prévision ne dépend de h qu’à travers α. Si α ne dépend pas de h, la

prévision à l’horizon h sera égale à la prévision à l’horizon 1. Lorsque α est
proche de 1, la prévision tient compte d’un grand nombre de valeurs passées.
Lorsque α est proche de zéro, seules les valeurs récentes de la série ont une
importance.
2.8. LISSAGE EXPONENTIEL 39
Remarque 2.8.1. Pour certains logiciels permettant de faire du lissage expo-
nentiel, la constante de lissage n’est pas α mais β = 1 − α.
Nous avons le résultat suivant :

TX
−1
X̂ T = (1 − α) X T + (1 − α) α j X T− j
j =1
T−1−1
αl +1 X T −1−l
X
= (1 − α) X T + (1 − α) (poser le changement de variables l = j − 1)
l =0
= (1 − α) X T + α X̂ T −1
où X̂ T −1 est la prévision à la date T − 1. Nous avons encore
X̂ T = X̂ T −1 + (1 − α)( X T − X̂ T −1 ) (2.8.1)
La formule (2.8.1) montre que la prévision X̂ T s’interprète comme la prévision

faite à l’instant précédent corrigée par un terme proportionnel à l’erreur de
prévision correspondante. On obtient aussi une formule de mise à jour, que
l’on peut initialiser par exemple par X̂ 1 = X 1 (noter que comme 0 < α < 1, le
valeur initiale aura peu d’influence lorsque T est grand). Pour utiliser cette
équation de récurrence, on peut prendre X̂ 1 = X 1 ou la moyenne de la série.
X 1 a moins d’influence sur la prévision lorsque la série est longue. Considérons
le problème suivant :
TX
−1
min α j ( X T − j − C )2 .
C j =0
La solution est
TX
b = 1−α
−1
C α j X t− j .
1 − α j=0
T
La valeur Cb correpond à peu près à X

b T lorsque T est grand. Elle s’interprète
comme la constante qui approxime le mieux la série au voisinage de T (les
α j pondèrent l’importance de la T − j -ième observation). Il est donc préfé-
rable de ne pas appliquer cette méthode lorsque la série présente une tendance
non constante ou d’importantes fluctuations (de sorte qu’une approximation
localement constante soit peu réaliste).
Choix de la constante α :
TX
−1 h tX
−1 i2
j
α
b = arg min X t+1 − (1 − α) α X t− j .
α
t=1 j =0
2.8.2 Lissage exponentiel double
Une façon de généraliser le lissage exponentiel simple est de supposer que
la série s’approche localement par une fonction affine du temps (au lieu d’une
fonction constante). On suppose alors que X T +h ≈ A + Bh pour h petit. Pour
une constante de lissage α, il s’agit alors de résoudre le problème :
TX
−1
min α j ( X T − j − ( A j + B))2 .
A,B j =0
Par approximation, on obtient les solutions suivantes
B
b(T ) = 2S 1 (T ) − S 2 (T )
b(T ) = 1 − α (S 1 (T ) − S 2 (T ))
A
α
avec
TX
−1
S 1 (T ) = (1 − α) α j X T− j
j =0
TX
−1
S 2 (T ) = (1 − α) α j S 1 (T − j )
j =0
La prévision à l’horizon h est donnée par :
X
b T ( h) = A
b (T ) h + B
b(T ).
Nous avons les formules de mise à jour suivantes

(
B
b(T ) =B
b(T − 1) + Ab(T − 1) + (1 − α2 )( X T − X
b T −1 (1))
(2.8.2)
A
b (T ) b(T − 1) + (1 − α)2 [ X T − X
=A b T −1 (1)]
avec les valeurs initiales Bb(2) = X 2 et Ab(2) = X 2 − X 1 .
2.8.3 Méthodes de Holt-Winters

2.8.3.1 Méthode non saisonnière ou méthode de Holt
La méthode de lissage exponentiel de Holt s’applique aux séries sans com-
posante saisonnière et pouvant être ajustées à une droite au voisinage de T + h.
Dans les formules de mise à jour (2.8.2)
La prévision à l’horizon h est donnée par :
X
b T ( h) = A
b (T ) h + B
b(T ).
2.8. LISSAGE EXPONENTIEL 41
Les formules de mise à jour sont :
niveau B̂(T ) = (1 − α) X T + α[B̂(T − 1) + Â (T − 1)]

pente Â (T ) = (1 − γ)[B̂(T ) − B̂(T − 1)] + γ Â (T − 1)
avec 0 < α < 1 et 0 < γ < 1. Les valeurs initiales Â (2) = X 2 et B̂(2) = X 2 −
X 1 . L’introduction de deux constantes rend la méthode plus souple que le
lissage exponentiel double. Les deux paramètres α et γ peuvent être choisis
en minimisant la somme des carrés des erreurs de prévision, comme pour le
lissage exponentiel simple ou double. L’initialisation des formules récursives de
mise à jour est identique à celle pour le lissage exponentiel double.
2.8.3.2 Méthode saisonnière additive

On suppose que X t+h ≈ B + Ah + S t+h où S t est un facteur saisonnier de
période p. Les formules de mise à jour sont les suivantes et dépendent de trois
paramètres 0 < α, γ, δ < 1.
Les formules de mise à jour sont :
niveau b(T ) = (1 − α)( X T − SbT − p ) + α[ A

A b(T − 1) + B
b(T − 1)]
pente b(T ) = (1 − γ)[B̂(T ) − B̂(T − 1)] + γ A
A b(T − 1)
saisonnalité Ŝ T = (1 − δ)[ X T − Bb(T )] + δSbT − p
avec 0 < α < 1, 0 < γ < 1 et 0 < δ < 1. Les prévisions à l’horizon h sont données
par :
X̂ T ( h) = Â (T ) h + B̂(T ) + Ŝ T +h− p 1≤h≤ p

X̂ T ( h) = Â (T ) h + B̂(T ) + Ŝ T +h−2p p < h ≤ 2p ainsi de suite
TX
−1 h i2
Le choix des trois paramètres α, γ, δ se fait en général en minimisant b t ( h) .
X t+1 − X
t=1
2.8.3.3 Méthode saisonnière multiplicative

On suppose que X t+h ≈ (B + Ah)S t+h au voisinage de t + h ; S t est un facteur
saisonnier et p représente la période. Les formules de mise à jour sont :
XT
niveau B̂(T ) = (1 − α) + α[ Â (T − 1) + B̂(T − 1)]
Ŝ T − p
pente Â (T ) = (1 − γ)[B̂(T ) − B̂(T − 1)] + γ Â (T − 1)
XT
saisonnalité Ŝ T = (1 − δ) + δŜ T − p
B̂(T )
avec 0 < α < 1, 0 < γ < 1 et 0 < δ < 1.
Les prévisions à l’horizon h sont données par :
X̂ T ( h) = ( Â (T ) + hB̂(T ))Ŝ T +h−P 1≤h≤ p

X̂ T ( h) = ( Â (T ) + hB̂(T ))Ŝ T +h−2P p < h ≤ 2p ainsi de suite
2.8.4 Mise en oeuvre sous R

La fonction HoltWinters() permet d’appliquer les lissages exponentiels sous
R. Soit x un objet de type série temporelle obtenu par la fonction ts().
- lissage exponentiel simple
xlisse=HoltWinters(x,alpha=a,beta=0,gamma=0)
- un lissage de Holt-Winters sans composante saisonniere
xlisse=HoltWinters(x,alpha=a,beta=b,gamma=0),
- un lissage Holt-Winters additif
xlisse=HoltWinters(x,alpha=a,beta=b,gamma=c,seasonal="add")
- un lissage Holt-Winters multiplicatif :
xlisse=HoltWinters(x,alpha=a,beta=b,gamma=c,seasonal="mul")

Cours Stat

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Stat

Transféré par

Droits d'auteur :

Formats disponibles

Méthodes d’estimation et modélisation

prof. armel yodé

2 Analyse d’une série chronologique 21

Exemple 1.1.1. Supposons que l’on s’intéresse à la pression artérielle systolique

1.2 Population, échantillon

Qu’est-ce qu’un échantillon aléatoire ?

Comment selectionne-t-on un échantillon aléatoire ?

1.3.1 Echantillonnage aléatoire simple

> sample(1:5,5,replace=T) # avec remise

1.3.2 Echantillonnage systématique

1. Numéroter de 1 à N les individus.

Exemple 1.3.2. On veut sélectionner n = 5 personnes dans une population de

1.3.3 Echantillonnage stratifié

Procédure à suivre pour l’échantillonnage stratifié proportionnel à la taille

1. Définir clairement la nature de la population.

1.3.4 Echantillonnage par grappes

1.4 Quelques lois de probabilité classiques en statis-

1.4.1 Loi normale

On dit qu’une variable aléatoire X suit une loi normale ou gaussienne si sa

On note N (m, σ2 ) la loi normale de moyenne m et de variance σ2 . La loi

1.4.2 Loi de Khi-deux

qui suit une loi de khi-deux à n degrés de liberté et on note χ2 (n).

1.4.3 Loi de Student

1.5 Distribution d’échantillonnage

1.6.2 Propriétés non asymptotiques

b n (θ ) = E(θbn ) − θ , pour tout θ ∈ Θ.

Définition 1.6.3. Un estimateur θbn de θ est dit sans biais si

b n (θ ) = 0 i.e E(θbn ) = θ pour tout θ ∈ Θ.

Le critère sans biais n’est pas suffisant. En effet, il existe de nombreux

Nous avons la proposition suivante.

R (θbn , θ ) = Var(θbn ) + (E(θbn ) − θ )2

Définition 1.6.5. Critère de comparaison. θb1,n est préférable à θb2,n si

R (θb1,n , θ ) ≤ R (θb2,n , θ ) pour tout θ ∈ Θ.

On choisit l’estimateur pour lequel l’encourt le plus petit risque possible.

Normalité asymptotique. Une autre propriété que l’on désire approcher la

1.6.4 Intervalles de confiance

Nous distinguons trois types d’intervalles de confiance :

1.7 Estimation d’une moyenne

1.7.1 Estimation ponctuelle

Quelles sont les propriétés de X n qui en font un ”bon” estimateur de m ?

Proposition 1.7.1. Nous avons E( X n ) = µ.

Alors, on en déduit que X n est un estimateur sans biais de µ.

Proposition 1.7.2. La variance de X n est :

Cette proposition garantit que pour n assez grand, la moyenne empirique X n

Cas d’unéchantillon gaussien. Lorsque l’échantillon ( X 1 , . . . , X n ) est issu d’une

Cas d’un échantillon quelconque. Lorsque l’échantillon ( X 1 , . . . , X n ) est issu

Proposition 1.7.3. On considère un échantillon ( X 1 , . . . , X n ) issu d’une loi de

L’intervalle de confiance de niveau 1 − α pour la moyenne µ d’un échantillon

Définition 1.7.1. On appelle marge d’erreur la quantité

Echantillon ( X 1 , . . . , X n ) issu d’une loi normale avec variance inconnue

L’intervalle de confiance de niveau 1 − α pour la moyenne µ d’un échantillon

où z1− α2 est le quantile d’ordre 1 − α2 de la loi de Student à n − 1 degrés de

Ici, S est appelée variance empirique modifiée :

S est un estimateur sans biais de la variance σ2 .

Echantillon ( X 1 , . . . , X n ) issu d’une loi quelconque

L’intervalle de confiance pour µ de niveau asymptotique 1 − α est donné par

1.8 Estimation d’une variance

L’intervalle de confiance de niveau 1 − α pour la variance σ2 d’un échantillon

Echantillon ( X 1 , . . . , X n ) issu d’une loi normale avec moyenne inconnue

L’intervalle de confiance de niveau 1 − α pour la variance σ2 d’un échantillon

1.9 Estimation d’une proportion

1.9.2 Intervalle de confiance

L’intervalle de confiance pour la proportion θ de niveau de confiance 1 − α est :

La marge d’erreur est donc