Académique Documents
Professionnel Documents
Culture Documents
Logiciel R .........................................................
Exemples .........................................................
Page 1 sur 37
Ingénieur a-t-il besoin de méthodes probabilistes
et méthodes statistiques ?
Accréditation des programmes en génie : BCAPG
critères
Page 2 sur 37
David Spiegelhalter
Sur YouTube
https://www.youtube.com/watch?v
=_DhOMdcbjuU
Page 6 sur 37
DONNÉES d’expérimentation
FACTEURS
RÉPONSES
essai x1 x2 x3 x4 Y1 Y2 Y3
1
Exemple fabrication tige 2
3
plastique extrudée
4
FACTEURS 5
2 Analyse de données
- extraire relations - associations ………. entre variables
- classifier - caractériser – visualiser ….. ensembles données
- détecter des changements ……….……. systèmes et processus
en présence incertitudes
- identifier- isoler- quantifier ……………. sources variabilité
systèmes et processus
- modéliser - simuler ……………………… systèmes complexes
Page 8 sur 37
Un ingénieur a -t-il besoin des méthodes statistiques?
COLLECTE et ANALYSE données pour prendre DÉCISION
Méthodes d’analyse
– tests d’hypothèses
– intervalles de confiance
– régression
– analyse de la variance
– fiabilité
– planification et analyse d’expériences
– contrôle statistique des processus
– …
Page 9 sur 37
Un ingénieur a -t-il besoin des méthodes statistiques?
COLLECTE et ANALYSE données pour prendre DÉCISION
analyse de tolérances
Page 10 sur 37
LES MÉTHODES DE L’ANALYSE STATISTIQUE DES DONNÉES
Page 11 sur 37
Que voulez vous faire?
1. Décrire / Résumer / Tabuler / Visualiser des données
a. Résumer numériquement et graphiquement la forme d’une distribution
d’une ou plusieurs variables continues et leurs mesures
b. Tabuler et tracer les graphiques associés à une ou plusieurs variables
catégoriques (qualitatives) et calculer les effectifs, pourcentages, etc.,
c. Explorer et résumer des données chronologiques
Page 12 sur 37
Que voulez vous faire?
4. Recueillir des données pour le contrôle de la qualité des produits
et des services (statistiques industrielles)
a. Le contrôle statistique des processus (SPC)
b. Plan d’échantillonnage pour le contrôle de la qualité des lots
c. L’analyse de la capabilité (aptitude) d’un processus (Cp, Cpk)
d. Planification et analyse d’expériences (DOE)
e. L’analyse d’un processus de mesure (Gauge R&R)
f. L’analyse des données censurées, des données de survie
g. L’analyse de la fiabilité
Page 17 sur 37
Logiciel R
Page 18 sur 37
Exemple Thème Fichier Probléma- Analyse
No Type données données (*) tique statistique
procédé Machine.sta comparaison description
1
E fabrication
données
Machine.xls
Cars1993.sta
stabilité
modélisation
carte contrôle
description
2
X historiques
données
Cars1993.xls prix = … régression
TestsVoitures.sta modélisation description
E 3 tests
TestsVoitures.xls blessures = … Régression - ANOVA
M 4
données Papier.sta blanchiment régression
P
expérience Papier.xls papier multiple
Vitre.sta
5
L données test
Vitre.xls
prédiction fiabilité
données Ventes.sta prédiction
E
impat
6 Ventes.xls politique vente régression
historiques
S 7
données
d’expérience
WEBdesign.sta
WEBdesign.xls
Identification
facteurs critiques
ANOVA
Page 19 sur 37
heure pièce MACH_1 MACH_2 MACH_3
Exemple 1 mesures longueur de 1 1 -0,352 -0,067 -0,013
1 2 -0,609 -0,175 0,160
échantillon de 5 pièces 2
2
6
7
-0,105
0,099
0,039
-0,288
-0,022
-0,737
2 8 0,566 0,059 0,267
objectifs / questions 6
6
26
27
0,685
0,463
-0,197
-0,221
-0,248
-0,184
6 28 -0,286 -0,149 0,120
6 29 -0,609 -0,220 -0,360
20
machine: 1
18
machine: 2
16 machine: 3
14
No of obs
12
10
....................................... 4
0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8
écart
Page 21 sur 37
Exemple 1
X-bar and R Chart; variable: MACH_1 X-bar and R Chart; variable: MACH_2
Histogram of Means X-bar: ,08389 (,08389); Sigma: ,45605 (,45605); n: 5, Histogram of Means X-bar: -,28957 (-,28957); Sigma: ,20445 (,20445); n: 5,
1,0 0,1
machine 2
0,8
0,6 machine 1 ,69575
0,0
-0,1
-,01526
0,4 -0,2
0,2 -,28957
,08389 -0,3
0,0
-0,4
-0,2
-0,5
-0,4 -,56387
-,52796 -0,6
-0,6
-0,8 -0,7
0 1 2 3 4 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10
Histogram of Ranges Range: 1,0607 (1,0607); Sigma: ,39406 (,39406); n: 5, Histogram of Ranges Range: ,47555 (,47555); Sigma: ,17667 (,17667); n: 5,
2,5 1,2
2,2429 1,0 1,0055
2,0
0,8
1,5
0,6
1,0 1,0607 ,47555
0,4
0,5 0,2
réponse …… OUI
-0,2
-0,4
-0,6 -,63896
-0,8
0 1 2 3 4 1 2 3 4 5 6 7 8 9 10
0,0 0,0000
-0,5
0 1 2 3 4 1 2 3 4 5 6 7 8 9 10 Page 22 sur 37
Categ. Box & Whisker Plot: écart
Exemple 1 : analyse comparaison 0,3
Mean
0,2
Mean±SE
Mean±1,96*SE
0,1
0,0
écart
-0,1
-0,2
-0,3
-0,4
différences significatives entre les machines? 1 2
machine
3
réponse = OUI
car moyennes sont statistiquement différentes
Page 23 sur 37
Exemple 2 caractéristiques de voitures (1993)
27 variables 93 voitures
id
Manufac
turer
Model
Cate
gory Price
City Highway Engine Horse
MPG MPG Size Power
Fuel
Tank
Passen
gers
Weight .
.
Acura_in Acura Integra Small 15,9 25 31 1,8 140 13,2 5 2705
.
Acura_le Acura Legend Midsize 33,9 18 25 3,2 200 18,0 5 3560
.
Audi_90 Audi 90 Compa 29,1 20 26 2,8 172 16,9 5 3375
ct
.
Audi_100 Audi 100 Midsize 37,7 19 26 2,8 172 21,1 6 3405
.
BMW_535 BMW 535i Midsize 30,0 22 30 3,5 208 21,1 4 3640
.
Buick_ce Buick Century Midsize 15,7 22 31 2,2 110 16,4 6 2880
. . . . . . . . . . . . .
.
Volvo_850 Volvo 850 Midsize 26,7 20 28 2,4 168 19,3 5 3245
1,0
Passengers
0,5
projection
Factor 2 : 15,63%
27 variables
ength (inches) plan optimal
Weight Engine Revs Per Mile (h
0,0
ngineSize en 2 dimensions
ber of Cylinders (Factor 1, Factor 2)
*Price
expliquant
-0,5 HorsePower
65,6% +15,6%
RPM at Max Horsepower = 81,2 %
variation globale
-1,0
Page 25 sur 37
Exemple 3 tests voitures avec mannequins
n = 351 tests 6 variables explicatves (X) 4 variables réponse (Y)
USA National Transportation Safety Board study: how the crash affected the dummies.
Stock automobiles containing dummies in the driver and front passenger seats crashed into a wall at 35 miles per hour.
The injury variables describe the extent of head injuries, chest deceleration, and left and right femur load.
The data file also contains information on the type and safety features of each crashed car.
AIM : evaluate the relationship between car features variables (factors) and crash injuries variables (dependent variable).
Variables explicatives
carID: combination of make and model Year: year of the car
Size: a categorical variable to classify the cars to a type = inter, medium, compact, heavvy, van, mpv, mini
Doors: number of doors on the car Weight: weight in pounds of the car
Dummy: whether the dummy is in the Driver or Passenger seat
Protection: kind of protection = manual belts, motorized belts, driver airbag, passenger belt, driver & passenger airbag.
4 variables de réponse
Y1 = CD = Chest_decel: chest deceleration Y2 = LL = Left_Leg: Left femur load
Y3 = RL = Right_Leg: Right femur load Y4 = HIC = Head Injury Criterion
variables de réponse sur l'échelle logarithmique.
c
a Y1 Y2 Y3 Y4
r 1 2 3 4 5 6 7 8
Chest Left Right Head Injury
N carID Year Size Doors Weight Dummy Protection cat (v7&v8)
u Decel Leg Leg Criterion
m
manual D manuel
1Acura Integra 87 lnt 2 2350 Driver belts belt 35 791 262 599
Acura Integra Motorized
2 RS 90 lnt 4 2490 Driver belts D mot belt 1545 1301 585
Acura
3 Legend LS 88 med 4 3280 Driver d airbag D d airbag 50 926 708 435
manual D manuel
4 Audi 80 89 comp 4 2790 Driver belts belt 49 168 1871 600
. . . . . . . . . . . . .
Y a t-il un lien entre les caractéristiques
des voitures et la sévérité des blessures?
Page 26 sur 37
Exemple 4 expérience blanchiment papier
Description du problème
L’industrie papetière produit de nombreuses variétés de papier plus ou moins blancs.
Un processus chimique est utilisé pour blanchir le papier.
Objectif
• Etudier l’effet des différents facteurs de blanchiment sur la blancheur d’une pâte.
• Trouver une formule de blanchiment de pâte pour obtenir 77.5 °ISO.
Facteurs X
• X1 = H2O2 : Quantité de H2O2 : 0.4% à 1.6% ……………. facteur continu
• X2 = Alca : Quantité d’alcali : 0.6% à 1.4% …………… facteur continu
• X3 = TypAlca : Type d’alcali : CaO MgO NaOH ….. facteur catégorique
Réponse Y : blancheur en °ISO
analyse
et
interprétation?
Page 27 sur 37
Exemple 4 expérience blanchiment papier
Analyse Pareto
Pareto Chart of t-Values for Coefficients; df=28
Variable: Y_blan-ISO
%H2O2 2,610246
TypAlca 1,457998
TypAlca 1,310353
%Alca ,6940369
p=,05
t-Value (for Coefficient;Absolute Value)
Page 28 sur 37
Exemple 5 fiabilité
Contexte
Les données proviennent d’une série de tests réalisés en 1993 par un laboratoire
gouvernemental de certification.
La variable de réponse mesurée est le temps (en heures) pour obtenir la rupture
d’une vitre soumise à un test de stress.
Données Les données (en ordre croissant) des tests réalisés sont (n = 31)
18.830 20.800 21.657 23.030 23.230 24.050 24.321 25.500 25.520
25.800 26.690 26.770 26.780 27.050 27.670 29.900 31.110 33.200
33.730 33.760 33.890 34.760 35.750 35.910 36.980 37.080 37.090
39.580 44.045 45.290 45.381
But de l’analyse
L’objectif est de déterminer une « bonne » distribution pour modéliser les
données. À l’aide du “meilleur” modèle obtenu, on pourra alors calculer
différents points de pourcentage (percentiles) de la distribution ce qui permettra
de mesurer la performance (facteur de sécurité) de la vitre employée.
Cela permet de répondre à des questions comme
Page 29 sur 37
Exemple 6 processus de vente
ÉTUDE – analyse des données de vente
Une entreprise spécialisée dans la vente de systèmes de chauffage a comptabilisé le nombre
de systèmes vendus à chaque mois, depuis janvier 1997. L’entreprise a emmagasiné aussi des
informations qu’elle juge importantes pour ses activités:
► le nombre de nouvelles maisons construites chaque mois dans le secteur
► l’écart entre la température moyenne observée pendant le mois et la moyenne des 30 années
L’entreprise offre certains mois un rabais aux acheteurs de ses systèmes de chauffage, et a noté
si un tel rabais était en vigueur chaque mois depuis 1997. La direction des ventes a décidé que les
clients de l’entreprise bénéficieraient d’un rabais à certains mois dans l’année.
7 VARIABLES - 110 OBSERVATIONS
v1 identification v2 = nombre nouvelles maisons
v3 rabais variable indicatrice (oui / non) oui = 1 = rabais non = 0 = pas de rabais
v4 écart température entre la température moyenne pour le mois et la moyenne de 30 ans
v5 = année v6 = mois v7 = nombre ventes
nombre
nouvelles écart Nombre
no maisons rabais température année mois ventes
1 68 0 0,29 1997 janv 56
2 64 0 0,58 1997 fev 56
3 65 0 0,08 1997 mars 56
. . . . . . .
Prédiction du volume de ventes = ?
Influence du rabais? température?
Influence nombre de nouvelles maisons?
Page 30 sur 37
Exemple 7 conception site WEB
taille orient average average stdev cust
Essai couleur graphic graph menu police load cust rank rank
1 A constant large horiz Sans-Serif 20 2,0 0,6
2 A constant large vert Serif 10 7,3 2,3
3 A constant small horiz Serif 10 7,3 1,2
4 A constant small vert Sans-Serif 20 15,2 0,8
5 A rotate large horiz Serif 20 2,8 1,2
6 A rotate large vert Sans-Serif 10 9,0 3,5
7 A rotate small horiz Sans-Serif 10 9,2 1,8
8 A rotate small vert Serif 20 15,3 0,8
9 B constant large horiz Sans-Serif 10 3,2 1,2
10 B constant large vert Serif 20 7,8 3,1
11 B constant small horiz Serif 20 13,7 0,8
12 B constant small vert Sans-Serif 10 8,8 1,9
13 B rotate large horiz Serif 10 2,0 1,3
14 B rotate large vert Sans-Serif 20 8,8 2,9
15 B rotate small horiz Sans-Serif 10 13,8 1,2
16 B rotate small vert Serif 10 9,0 1,1
(5)police -,610396
(2)graphic ,593218
(1)couleur ,1122464
p=,05
Standardized Effect Estimate (Absolute Value)
Page 32 sur 37
Exemple 8 drainage urbain - génie civil
J.W.Knapp, W.J. Rawls, Prediction Models for Investment in Urban Drainage System
Virginia Polytechnic Institute and State University, 1969
X1_rec : période de récurrence (an)
X2_pente: pente du bassin (%)
X3_coRuis: coefficient de ruissellement (-)
X4_nbSour: nombre de source
X5_diaMin: plus petit diamètre du système (po)
X6_diaMax: plus grand diamètre du système (po) variables X:
X7_debit: débit de sortie (picu/sec) explicatives
X8_longTuyau: longueur totale tuyaux (pi)
X9_airePrj: aire du projet (acres)
X10_aireDev: aire développée (acres)
Y_cout: coût du projet ($1963) réponse Y
Bernard Clément, PhD - Méthodes statistiques - problème 2.8
J.W.Knapp, W.J. Rawls, Prediction Models for Investment in Urban Drainage System
Virginia Polytechnic Institute and State University, 1969
X1_rec : péridode de récurrence (an) X2_pente: pente du bassin (%) X3_coRuis: coefficient de ruissellement (-)
X4_nbSour: nombre de source X5_diaMin: plus petit diamètre du système (po) X6_diaMax: plus grand diamètre du système (
X7_debit: débit de sortie (picu/sec) X8_longTuyau: longueur totale tuyaux (pi) X9_airePrj: aire du projet (acres)
X10_aireDev: aire développée (acres Y_cout: cout du projet ($1963)
1 2 3 4 5 6 7 8 9 10 11
X1_rec X2_pente X3_coRuis X4_nbSour X5_diaMin X6_diaMax X7_débit X8_longTuyaux X9_airePrj X10_aireDev Y_cout
1 10 0,01 0,50 20 30 39 70 2963 52 52 103996
2 10 0,10 0,70 32 36 51 136 7100 134 164 191311
. . . . . . . . . . .
5 1,00 0,45 9 30 48 47 1190 47 19 12997
5 0,40 0,45 7 18 30 23 1600 16 16 29336
Page 33 sur 37
1 2 3 4 5 6 7 8 9 10 11
X1_rec X2_pente X3_coRui s X4_nbSour X5_di aMi n X6_di aMax X7_débi t X8_l ongTuyaux X9_ai rePrj X10_ai reDev Y_cout
Exemple 8 1
2
3
10
10
10
0,01
0,10
2,00
0,50
0,70
0,50
20
32
29
30
36
27
39
51
48
70
136
153
2963
7100
3400
52
134
120
52
164
89
103996
191311
151499
drainage urbain
5 10 0,30 0,50 19 24 45 57 2600 51 26 96291
n = 70 obs.
14 5 1,20 0,50 12 24 108 1270 4440 867 254 271064
p = 11 variables
19 10 2,20 0,50 160 12 27 90 7360 30 24 179454
10 variables X
23 5 1,60 0,60 35 15 36 64 4020 39 39 82347
1 variable Y
28 1 0,30 0,45 31 15 30 12 1704 20 20 11759
visualiser les
37 15 4,50 0,55 33 15 24 60 2465 11 11 58885
données?
40 2 2,50 0,50 12 15 27 53 1371 40 36 24250
relation entre
44 5 1,40 0,35 19 18 54 214 2900 52 52 79339
Y et les X?
49 5 2,10 0,50 13 21 24 45 1779 40 40 28092
50 5 2,20 0,50 23 21 54 186 2600 101 61 47961
Page 36 sur 37
PROCESSUS ou SYTÈME
X1 PROCESSUS
réponse Y = φ (X)
X2 SYSTÈME sortie mesurée
...
Xk ε
erreur expérimentale:
sources inconnues de variabilité
ε ∼ N(0, σ2)
Y = φ (X1, X2 , … , Xk ; β 0 , β 1 , β 2 ,… ) + ε
φ : fonction inconnue approximation polynôme
β 0 , β 1 , β 2 , … : paramètres statistiques inconnus Page 37 sur 37