Analyse Et Collecte Des Donnees

Analyse et collecte des données
Modélisation des éléments

aléatoires d’un système
La cueillette et l'analyse de données est une étape cruciale dans la construction d'un
modèle de simulation.
À partir des données recueillies, nous devons caractériser les éléments aléatoires d'un
système (lois de probabilité, paramètres de ces lois).
Jusqu'à maintenant, ces lois étaient supposées connues. En pratique, il faut les estimer
à partir de données statistiques.
Deux types d'estimation :

A) Paramétrique
On choisit une famille de lois de probabilité

et
on estime les paramètres de cette loi.
Analyse et collecte des données 2
Modélisation des éléments
aléatoires d’un système
B) Non-paramétrique
On utilise les données pour construire une fonction de répartition

empirique :
^
F (x) = Proportion des valeurs qui sont x.
C'est cette fonction qui est utilisée directement.

Avantages de l’approche
paramétrique
Les fonctions de densité et de répartition s'expriment souvent sous forme
analytique.
On dispose de fonctions analytiques pour caractériser les paramètres de ces

lois de probabilité.
On dispose de procédures toutes faites pour générer des valeurs aléatoires

selon ces lois.
On peut avoir des raisons théoriques (physiques) de croire qu'une v.a. devrait
suivre une loi spécifique.

Inconvénients de l’approche
paramétrique
Il est très difficile, souvent impossible, de choisir le bon type de loi.
Rien ne nous garantit que le choix que l'on a fait est le bon.
Lors de l'ajustement de la courbe, il y a souvent perte ou distorsion d'informations.
L'estimation des paramètres n'est pas toujours facile et robuste.
La génération de valeurs pseudo-aléatoires à partir d'une loi théorique n'est pas

toujours facile.

Familles de lois de probabilité
Une famille de lois est définie par un type de fonction de masse ou de densité,
dans lequel il y a des paramètres.
2 2
Exemple : X ~ N (µ, 2) fX(x) = 1 e -(x-µ) /


µ et , on a une loi normale particulière.
On distingue 3 types de paramètres :
A) Paramètre de localisation
correspond à déplacer l'origine sur l'axe des x.
B) Paramètre d'échelle
correspond à changer l'échelle sur l'axe des x sans modifier la courbe.
C) Paramètre de forme
détermine la forme de la fonction changement plus profond.
Familles de lois de probabilité
2 v.a. X et Y se distinguent seulement par leurs paramètres de localisation et d'échelle


l'une est fonction affine de l'autre: Y =  +  X où ,  sont des constantes.
En ayant 2 lois de forme équivalente, on peut facilement passer de l'une à l'autre.
Exemple : X  N (µ , 2)

paramètre de localisation paramètre d'échelle

Y = X - µ : N (0,1)

Lorsque X et Y ont des paramètres de forme différents, leur différence est plus
fondamentale.  On ne peut plus passer de l'une à l'autre par une simple
transformation affine.
Exemple : Loi de WEIBULL

f (x) = xe-(x/) x > 0
0 sinon
 : paramètre de forme
=3  : paramètre d'échelle
=2
 loi exponentielle (c.v. = 1)
taux de panne  (c.v.  1)
 taux de panne  (c.v.  1)
=1
 = 1/2

Exemple : Loi de WEIBULL
Note :
On peut ajouter un paramètre de localisation.

Il suffit de remplacer x par x- dans f(x) :

f (x) =   (x - ) e-((x - ) / ) , x  

Choix d’une loi
Exploration graphique
Visualiser les données graphiquement pour tenter d'inférer subjectivement la loi suivie.
Diagramme à bandes (cas discret)
Pour chaque valeur xi, on donne le nombre de fois qu'on a obtenu xi.
0 1 2 3 4 5 6 7 8 9 10

Choix d’une loi
Histogramme :
- Estimation graphique de la fonction de densité.
- Peut permettre de reconnaître une loi.
On divise les données en un nombre fini de classes

(divise l'abscisse en segments).
Au dessus de chaque segment, on trace un rectangle dont la surface

est proportionnelle à la fréquence de la classe.
Choix des classes : très subjectif.

Choix d’une loi
Histogramme :
Histogrammes
(pour des temps inter-arrivées)
voir sur acétate

Choix d’une loi
Graphiques de probabilité
On peut tracer la fonction de répartition empirique
^
F(x) = proportion des valeurs qui sont x
et comparer son allure avec celle de lois standard.

^
F(x)
1
+
1/2
+
+
+
x
x1 x2 x3 x4
Choix d’une loi
Graphiques de probabilité

On peut aussi ne tracer que des points (+): (xi, F(xi)) aux endroits de sauts.
xi = iième valeur observée (la iième plus petite)

F(xi) = (i - 1/2)/n où n = nombre de valeurs.
Pour faciliter les comparaisons, on peut transformer l'échelle sur l'axe des Y.
 
Pour comparer F avec une fonction de répartition F, on trace les points (xi, F-1(F(xi)))
et on regarde si les points sont alignés.
En effet, si F équivaut à F, ces points devraient se situer sur la droite Y = X.
De plus, si les deux fonctions de répartition ne diffèrent que par leurs paramètres de
localisation et d'échelle, on devrait aussi obtenir des points à peu près alignés.

F(x)  F ((x-a)/b)
 
 F-1 (F(x))  (x-a)/b  (xi, F-1(F(xi)))  (xi, (xi-a)/b)
Exemple
Pour voir si des valeurs suivent à peu près une loi normale quelconque, on trace les
points :
(xi, -1( (i - 0.5)/n))
où  est la fonction de répartition d'une N(0,1).

Il se vend même du papier spécial qui fait automatiquement la transformation.
Il suffit de placer les points (i, xi).
 "Normal Probability Paper".
Voir acétate

Tests d’hypothèse
A) test d’indépendance entre 2 mesures
But: Tester des hypothèses concernant les propriétés statistiques d'un phénomène.
Ces tests sont non-paramétriques puisqu'aucune hypothèse n'est faite sur la loi de
probabilité.
A) Test d'indépendance entre 2 mesures.
- Lorsqu'on construit un modèle de simulation, plusieurs données sont recueillies
- Considérons 2 mesures A et B, l'hypothèse d'indépendance est :
H0 : la mesure A est indépendante de celle de B.
H1 : les mesures A et B ne sont pas indépendantes.
Ex : Dans un modèle d'inventaire, nous voulons savoir si le nombre
quotidien de commandes est indépendant de la journée de la semaine.

Nous considérons un test “Chi carré” basé sur une table de contingence:
Mesure B
1 2 . . . nB
où
1 N1. Oij =  d'éléments observés avec A dans i et
2 N2. B dans l'intervalle j.
Mesure A
.
. nA intervalles pour la mesure A,
. . nB intervalles pour la mesure B,
. . Ni. = somme des éléments de la ligne i,
N.j = somme des éléments de la colonne j,
nA
Nn
A. N = Total des observations.
N.1 N .2 . . . N. n
B

Sachant que Ni. / N est un estimateur de P(Ai)
= Prob (une observation soit faite dans la catégorie
Ai),
N.j / N est un estimateur de P(Bj)
= Prob (une observation soit faite dans la catégorie Bj),
A et B sont indépendantes  P (Ai Bj) = P(Ai) P(Bj)

lequel peut être estimé par (Ni. / N) (N.j /
N ) .
eij = nombre moyen d'éléments se trouvant dans Ai et Bj.
Si Ho est vrai,
eij = P (Ai Bj) N = Ni. N.j / N, eij > 5
et
i=1, 2, …, nA j=1, 2, …, nB(0ij - eij)2/eij  Chi carré avec (nA -1) (nB - 1) degrés de liberté.
Par exemple,
si i=1, 2, …, n j=1, 2, …, n (0ij - eij)2/eij 2.05,d.l. alors on rejette H0.

>
A B

B) test d’indépendance à l ’intérieur de v. a.
Soit une suite de v.a. x1, x2, ..., xn indépendantes, alors
f (xixj) = f (xi) i  j.
L'hypothèse est la suivante :
Ho : f (xixj) = f (xi) i  j
H1 : f (xixj)  f (xi), i  j
En simulation, il est souvent important de vérifier qu'une suite de v.a. sont indépen-
dantes, qu'il n'existe pas de dépendance entre des éléments successifs.

1°) Run test
On suppose qu'une v.a. peut prendre 2 valeurs possibles, A et B.
Soit n1 # d'éléments A dans l'échantillon,
n2  # d'éléments B dans l'échantillon,
R = la somme des sous-suites de A et de B.
si Ho est vraie, E (R) = 2 n1 n2 + 1
n1 + n 2
Var (R) = 2 n1 n2(2 n1 n2 - n1 - n2)
(n1 + n2)2 (n1 + n2 - 1)
si n1 n2 > 10, alors R  N (µ, ).
Exemple : AABAAABBAB  R = 6.
2°) Généralisation du test précédent
Lorsque les valeurs possibles des v.a. ne se ramènent pas à 2 valeurs A et B, mais plutôt
à un continuum de valeurs, le test devient :
R = # sous-suites croissantes ou décroissantes.
Exemple : 10.1, 12.2, 9.7, 6.1, 4.2, 5.9, 6.8, 5.5


+---++-

R=4
Si Ho est vrai, E [R] = (2 n - 1)/3 et Var [R] = (16 n - 29)/90
Si n croît, R suit une loi normale.

Tests d’homogénéité
Il s'agit de vérifier si des fichiers différents de données peuvent être considérés
comme provenant de populations identiques.
Certains tests sont spécifiques à une distribution;

d'autres sont indépendants de la distribution en jeu.

A) Test de Kolmogorov-Smirnov (2 échantillons)
Soit G (x) et H (x) les fonctions de répartition empiriques de 2 populations,

Test: H0 : G (x) = H (x)
H1 : G (x)  H (x)
Soit D = sup |G(x) - H(x)|,

x
si D > D0.05 = 1.36 ( n1 + n2) / n1 n2
alors on rejette Ho, (n1, n2 > 15).
Les échantillons ne proviennent pas de distribution identique.

B) Test du Chi carré
H0 : F1(x) = F2(x) = ... = FK(x)
H1 : Fi  Fj pour une paire i, j.
Une table de contingence est construite (N x K) :
Oij : l'élément en position (i, j) de cette table désignant le nombre de
données de la ie distribution appartenant au je intervalle.
i = 1, 2, ..., K; j = 1, 2, ..., N
eij = nombre moyen d'éléments dans la catégorie i, j.
Si i=1, 2, …, K j=1, 2, …, N(Oij - eij)2/eij > 2.05, d.l. alors on rejette H0.
Cette statistique 2 possède (K-1)

Analyse(N-1) degrés
et collecte de liberté.
des données 25
Tests d’ajustement
Après avoir choisi une loi et estimé ses paramètres, on doit se demander :
“Est-ce que la loi choisie est vraiment en accord avec les données observées?”
On veut tester l'hypothèse :
Ho : les données ont été générées selon la loi de probabilité retenue.
On essaiera de trouver des indices pouvant nous faire douter de H o.

A) Test du Chi-deux
Oi : nombre d'observations dans l'intervalle i, i = 1, 2, ..., k
ei : nombre moyen d'observations dans l'intervalle i, lorsque H0 est vraie,

i.
Le test statistique est basé sur
i=1, 2, …, k(Oi - ei) 2/ei  2k-1 - nb. paramètres estimés

Si i=1, 2, …, k(Oi - ei) 2/ei  20.05, d.l. alors on rejette Ho.

B) Test de Kolmogorov-Smirnov
Semblable au test K.-S. d'homogénéité.
D+ = Max {i/n - F*(xi)}
xi
D- = Max {F*(xi) - (i-1)/n}
xi
D = max {D+, D-},
où F* est la distribution théorique,
{xi} l'ensemble des observations,
n : nombre de données.
n , si D > D0.05 alors rejet de Ho, où la valeur critique est D0.05 = 1.36/n
Choix d’une loi en l’absence
de données
Certaines procédures heuristiques subjectives sont utilisées en pratique.
Ça vaut ce que ça vaut ...
Mieux que rien lorsqu'il n'y a rien d'autre à faire, i.e. lorsqu'il est impossible de
recueillir des données pertinentes.
Soit X une v.a. de loi inconnue,
pour tenter d'identifier la loi de X, on demande à des " experts " leur avis
on choisit en général la forme de la distribution (à priori) et on tente

d'identifier (subjectivement) les paramètres.
Loi uniforme U (a,b)
On demande la valeur la plus pessimiste (a)
et la plus optimiste (b).
a b
Choix d’une loi en l’absence
de données
Loi triangulaire
Minimum = a
Maximum = b
a m b
Mode = m
Loi normale
Moyenne =    
Rayon d ’un intervalle de probabilité .95 = 2

Loi Bêta
Offre beaucoup de flexibilité.
Minimum = a, maximum = b,
mode = m et moyenne = .
a  m b
Difficultés rencontrées
couramment
- Peu ou pas de données
- Petit échantillon
- Données agrégées ou résumés statistiques
- Information subjective seulement
- Données provenant d'une loi autre (mais reliée à ) que celle qui nous
intéresse.
- Données sur un autre système
- Données censurées (E.G. les ventes au lieu des demandes)
- Données pour une autre période dans le temps - etc.
IMPORTANT : ÉTUDE DE SENSIBILITÉ.

Estimation des paramètres
Étant donné un ensemble de données, une distribution de probabilités,
f (x 1,2, ..., k)
déterminer les valeurs des paramètres i.

A) Méthode des moments
On pose E [Xi] = mi , i = 1, 2, ..., k
où mi est un estimé du ie moment obtenu à partir des données
échantillonnées.
E [Xi] est une fonction des k paramètres {j}, i = 1, 2, ..., k.
Il s'agit de résoudre ce système de k équations à k inconnues.

A) Méthode des moments
Exemple
Estimation des paramètres  et  de la distribution gamma.
On sait que E (x) =   et Var (x) =  2.
On pose :
=x où x = i=1, 2, …, n xi / n
  = s 2 où s2 = i=1, 2, …, n (xi - x)2/ (n - 1)
^ = x 2 / s2


^ 2/x
s

B) Méthode des moindres
carrés
Il s’agit de résoudre le problème d’optimisation suivant :
Min i=1, 2, …, n (xi - E(xi | ))2



C) Méthode du maximum de
vraisemblance
Il s’agit de résoudre le problème d’optimisation suivant :
Max L  f(x1, x2, …, xn | 1, 2, …, k)



C) Méthode du maximum de vraisemblance
Exemple
Distribution normale µ
[- (x - )2 / 22]
i=1, 2, …, n i
L= 1 e
n (2)n /2
 ln L = - 0.5 n (ln 2 + ln 2) - i=1, 2, …, n (xi - )2/ 22
 ln L /  = 0 = i=1, 2, …, n (xi - ) / 2

ln L /  2 = 0 = (-1 / 22) (n + i=1, 2, …, n (xi - )2 / 2)
^
 ^ = i=1, 2, …, n xi / n
µ (identique à la méthode des moments)
2 = i=1, 2, …, n (xAnalyse
i - x) et
2
/ ncollecte
(ledes
facteur n est remplacé par n-1avec 37
données la
méthode des moments
C) Méthode du maximum de vraisemblance
Propriétés
Les EMV sont habituellement :
- assymptotiquement sans biais :
n 
^
E [ ] 
- convergents :
n 
^
P ( 
- invariants :
^ ^
 = h ()   = h ()
- suivent assymptotiquement la loi normale :
^ n 
(-) N (0,1) (permet de calculer des intervalles de confiance)
^
Var() Analyse et collecte des données 38
Introduction à la théorie de
l’échantillonnage
Étapes du processus d'échantillonnage

(planification & déroulement d'une enquête)
1o) Définition du domaine
a) Population (d'une ville, d'un pays, du monde, ...)
- biens et services
 
nourriture, loisirs,
vêtements, soins médicaux,
logements, hôpitaux,
voitures, enseignement
téléviseurs

1o) Définition du domaine (suite)

b) travail et production
- nombre d'heures de travail
- population active
- nombre de chômeurs
- production nationale brute
- salaires
c) Industries (primaire, secondaire, tertiaire)
- nombre d'employés/industrie
- productivité d'une entreprise
d) Agriculture et ressources naturelles
e) Commerce (échange de biens & services, volume des ventes, stocks)
f) etc. Analyse et collecte des données 40
2o) Fixer les objectifs à atteindre

les principaux paramètres ou indicateurs sont :
- la population totale (ex : nombre total de chômeurs)
- la moyenne (ex : rendement moyen d'un champs de maïs)
- la proportion
dans la population totale, quelle est la proportion de personnes actives
- rapport
ex : de 1960 à 1990, on fait les rapports suivants :
# personnes à Los Angeles en 19xx
# personnes à Washington en 19xx
3o) Population sur laquelle portera l'enquête
4o) La représentation de la population

ex : listes, cartes, etc.
5o) Unité d'observation
ex : ville, famille, personne, ...
6o) Choix de l'échantillon
- taille de l'échantillon (précision des résultats)
- procédures de sélection
- caractéristiques à estimer
7o) L'information à recueillir (questions à poser)
ex : salaire d'un ouvrier

8o) Cueillette de l'information
ex : - correspondance
- téléphone
- porte-à-porte
9o) Période de référence
Périodicité du phénomène (saisonnier)
10o) Questionnaire
- présentation claire, précise
- questions claires et précises, concises
- absence d'éléments de réponse dans les questions
- l'ordre des questions
11o) Entraînement et surveillance des enquêteurs
12o) Examen des réponses (les réponses sont bien répondues)
13o) Les non-réponses

14o) Analyse des données
réduire le plus possible les sources d'erreurs
15o) Résultats de l'enquête et conclusions

Échantillonnage aléatoire simple
Soit une population de N individus (U1, U2, ..., UN),

n la taille de l'échantillon,
à chaque tirage, on suppose que pour chaque individu, la probabilité d'être
“échantillonné ” est la même que pour tous les autres.
a.r. avec remise (Nn chemins possibles)
s.r. sans remise (N(N-1) ... (N-n+1) chemins possibles).
Note :
- différents chemins peuvent représenter le même échantillon.
- e.a.s.a.r.
Prob. (l'unité Uk est observée au ie tirage) 

Échantillonnage aléatoire simple
- e.a.s.s.r.
Prob. (l'unité Ui soit observée au 1er tirage) 
Prob. (l'unité Ui soit observée au 2e tirage) =

Prob. (l'unité Ui n'est pas choisie au 1er tirage) x
Prob. (l'unité Ui est choisie au 2e tirage |
l'unité Ui n'est pas choisie au 1er tirage)
= (N-1 / N) ( - 1)  ( )
Prob. (l'unité Ui soit observée au ke tirage) =
N-1 N-2 …… N-k+1 1  1
N N-1 N-k+2 N-k+1 N

Estimation d ’une moyenne dans un e.a.s.s.r.
soit y : le caractère étudié

Y : v.a. représentant la valeur du caractère y associé aux unités
U1, U2, ..., UN.

Y1, Y2, ... YN
y1,y2, ..., yn: valeur de l'observation du caractère y aux n tirages.
yi  Y1, Y2, ..., YN
1 …... 1
N N
Un estimateur sans biais de la moyenne Y = i=1, 2, …, N Yi / N de la population est donné

par y = i=1, 2, …, n yi / n.
Estimation d ’une moyenne dans un e.a.s.s.r.
E [y] = i=1, 2, …, n E[yi] / n

= Y1 + Y2 + ... + YN = Y  sans biais
N N N
y est un estimateur sans biais de la moyenne
Var [y] = 2 [1 - (n-1)/(N-1)] / n *** à démontrer ***

 2 / n
ou encore,
Var [y] = S2y [1 - n / N] / n avec S2y = i=1, 2, …, N (Yi - Y)2/ (N- 1)
Estimation de S2y : posons s2y = i=1, 2, …, n (yi - y)2/ (n- 1)  E[s2y ] = S2y
 (1 - n / N) s2y / n est un estimateur sans biais de Var(y).
Estimation d ’une moyenne dans un
e.a.s.a.r.
E [yi] = µ i et Cov (yi, yj) = 0 (indépendance entre les tirages)

Var [yi] =  i

E [y] = µ et Var [y] = 2 / n
i=1, 2, …, n (yi - y)2/ (n- 1) est un estimateur sans biais de 2.

Comparaison de la variance de l ’estimateur
de la moyenne avec ou sans remise
Var [y] = S2y [1 - n / N] / n Var [y] = S2y [1 - 1 / N] / n

s.r. a.r.
s.r.
a.r.

Estimation d’une proportion
Une population est composée d'individus appartenant à la classe C et à la classe C.

NC = # individus de la population de la classe C.
Ui possède la valeur Yi : 1 Ui  C i
0 autrement
soit P = NC / N: proportion des unités de la population appartenant à C.
nc : # unités d'un échantillon de taille n appartenant à C.
yi : valeurs observées de Yi.
i=1, 2, …, N Yi = NC = NP = i=1, 2, …, N Yi2 P = i=1, 2, …, N Yi / N
i=1, 2, …, n yi = nC = np = i=1, 2, …, N yi2

Estimation d’une proportion
Cas sans remise
p = y = i=1, 2, …, n yi / n est un estimateur sans biais de P.
Var (p) = (1 - n / N) NP (1 - P) ** décevant car on ne connaît pas P. **

n(N-1)
Un estimateur de Var (p) est (1 - n / N) p (1 - p)
n -1
Cas avec remise

Un estimateur sans biais de Var(p) est p(1 - p) / (n - 1).

Échantillonnage périodique
Procédure d'échantillonnage
- N = nk, k  N
- On tire au hasard un nombre entier i entre 1 et k, 1 i k
- Vous choisissez dans la population Ui, Ui+k, ..., Ui+(n-1)k comme éléments.
L'échantillon est obtenue.
- Ui  U j  i  j mod k
- Soit Y : total de la population pour le caractère étudié i=1, 2, …, k j=0,1, …, n-1 Yij
^
Y : estimateur de Y k j=0,1, …, n-1 yij
Échantillonnage périodique
^ = k E [
E [Y] j=0,1, …, n-1 yij ]
total des observations du caractère y pour le ie échantillon.

peut prendre les valeurs j Y1j, j Y2j, ..., j Ykj
avec les probabilités 1/k 1/k ... 1/k

^
E [Y] = k [i=1,2, …, k j=0,1, …, n-1 Yij / k] = Y
^
Y est un estimateur sans biais de Y
ou
j=0,1, …, n-1 yij / n est un estimateur sans biais de Y = Y / N.
^
Var (Y) = k2 Var (yi.)Analyseà estimer.
et collecte des données 54
Échantillonnage avec probabilités
proportionnelles aux tailles
Soit x: superficie X1, X2, ..., XN

y: caractère étudié Y1, Y2, ..., YN (production de blé)
Y: i=1, 2, …, N Yi total de la production
X: i=1, 2, …, N Xi superficie totale
U1  [1, 2, ..., X1]

U2 [X1 + 1, X1 + 2, ..., X1 + X2]
.
.
.
UN [X1 + X2 + ... + XN-1 + 1, ..., X]
Pour sélectionner une unité, on choisit un nombre au hasard entre 1 et X.

Échantillonnage avec probabilités
proportionnelles aux tailles
e.a.p.a.r.
n : taille de l'échantillon y1, y2, ..., yn
Yi est observé avec la probabilité pi = Xi / X
yi : ie valeur observée qui peut prendre les valeurs

Y1, Y2, ..., YN avec les probabilités p1, p2, ..., pN.
yi : Y1, Y2, ..., YN avec les probabilités p1, p2, ..., pN.
p i p1 p2 pN
[ ]
E yi = i=1, …, N pi * Yi =Analyse
Y (sans biais)
et collecte des données 56
pi pi
Échantillonnage stratifié
Objectifs : améliorer les estimateurs existants

Questions :
- Comment stratifier? (Déterminer les critères de stratification)
- Combien de strates ?
- Comment distribuer la population totale dans l'ensemble des
strates ?
Soit U1, U2, ..., UN les N unités de la population,
S1, S2, ..., SL les L strates,
S1 S2 ........ S L-1 SL
y : le caractère étudié
Nh : taille de la population de la strate Sh
Th : total de la strate Sh relatif au caractère étudié
Échantillonnage stratifié
nh : taille de l'échantillon tiré de la strate Sh h=1, …, L nh = n

^ ^
Yh : estimateur sans biais du total de la strate Sh E [Yh] = Th.
^ ^
Y = h=1, …, L Yh et E [Y] = h=1, …, L Th = Y
^
 Y est un estimateur sans biais du total Y de la population.
^ ^
Note : Var (Y) = h=1, …, L Var(Yh ),
les Yh sont indépendants car les strates sont déterminées avant

d'échantillonner.
Il reste à déterminer la taille n de l’échantillon et à répartir cet échantillon à
travers les strates. voir l’exercice à résoudre à ce
sujet.
Échantillonnage par grappes
Nous avons N communes (découpage géographique par exemple).

Procédures utilisées :
A) - On prend un échantillon de n communes : 1 grappe

- On observe toutes les unités de chacune des communes.
1 phase
B) - On prend un échantillon de n communes : une grappe

- On observe un échantillon dans chaque commune.
2 phases

Échantillonnage par grappes
C) - On suppose que les communes peuvent être découpées en quartiers ou en

districts :
- On prend un échantillon de n communes.
- On prend un échantillon de districts/commune.
- On prend un échantillon par district.
3 phases
FIN

Analyse Et Collecte Des Donnees

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Et Collecte Des Donnees

Transféré par

Droits d'auteur :

Formats disponibles

Analyse et collecte des données

Modélisation des éléments

Deux types d'estimation :

On choisit une famille de lois de probabilité

On utilise les données pour construire une fonction de répartition

C'est cette fonction qui est utilisée directement.

Analyse et collecte des données 3

On dispose de fonctions analytiques pour caractériser les paramètres de ces

On dispose de procédures toutes faites pour générer des valeurs aléatoires

Analyse et collecte des données 4

Lors de l'ajustement de la courbe, il y a souvent perte ou distorsion d'informations.

L'estimation des paramètres n'est pas toujours facile et robuste.

La génération de valeurs pseudo-aléatoires à partir d'une loi théorique n'est pas

Analyse et collecte des données 5

2 v.a. X et Y se distinguent seulement par leurs paramètres de localisation et d'échelle

Analyse et collecte des données 8

Analyse et collecte des données 9

Analyse et collecte des données 10

On divise les données en un nombre fini de classes

Au dessus de chaque segment, on trace un rectangle dont la surface

Choix des classes : très subjectif.

Analyse et collecte des données 11

voir sur acétate

Analyse et collecte des données 12

et comparer son allure avec celle de lois standard.

où  est la fonction de répartition d'une N(0,1).

Analyse et collecte des données 15

Analyse et collecte des données 16

Analyse et collecte des données 17

A et B sont indépendantes  P (Ai Bj) = P(Ai) P(Bj)

si i=1, 2, …, n j=1, 2, …, n (0ij - eij)2/eij 2.05,d.l. alors on rejette H0.

Analyse et collecte des données 19

Analyse et collecte des données 20

Exemple : 10.1, 12.2, 9.7, 6.1, 4.2, 5.9, 6.8, 5.5

Si n croît, R suit une loi normale.

Certains tests sont spécifiques à une distribution;

Analyse et collecte des données 23

Soit G (x) et H (x) les fonctions de répartition empiriques de 2 populations,

Soit D = sup |G(x) - H(x)|,

Les échantillons ne proviennent pas de distribution identique.

Si i=1, 2, …, K j=1, 2, …, N(Oij - eij)2/eij > 2.05, d.l. alors on rejette H0.

Cette statistique 2 possède (K-1)

On veut tester l'hypothèse :

Ho : les données ont été générées selon la loi de probabilité retenue.

On essaiera de trouver des indices pouvant nous faire douter de H o.

Analyse et collecte des données 26

ei : nombre moyen d'observations dans l'intervalle i, lorsque H0 est vraie,

Le test statistique est basé sur

i=1, 2, …, k(Oi - ei) 2/ei  2k-1 - nb. paramètres estimés

Analyse et collecte des données 27

on choisit en général la forme de la distribution (à priori) et on tente

Rayon d ’un intervalle de probabilité .95 = 2

Analyse et collecte des données 31

déterminer les valeurs des paramètres i.

Analyse et collecte des données 32

E [Xi] est une fonction des k paramètres {j}, i = 1, 2, ..., k.

Il s'agit de résoudre ce système de k équations à k inconnues.

Analyse et collecte des données 33

  = s 2 où s2 = i=1, 2, …, n (xi - x)2/ (n - 1)

Analyse et collecte des données 34

Min i=1, 2, …, n (xi - E(xi | ))2

Analyse et collecte des données 35

Max L  f(x1, x2, …, xn | 1, 2, …, k)

Analyse et collecte des données 36

Var [y] = 2 [1 - (n-1)/(N-1)] / n * à démontrer *

Var (p) = (1 - n / N) NP (1 - P) décevant car on ne connaît pas P.