MTH2302 Chap00 Introduction Pour ETUDIANT

INGÉNIERIE – PROBABILITÉS - STATISTIQUES
 Ingénieur a-t-il besoin de méthodes

probabilistes et méthodes statistiques ?.....
 Que voulez-vous faire ? ................................
 Processus / procédés ....................................
 Variables : type et rôle ...................................
 Concepts statistiques ...................................
 Logiciel R .........................................................
 Exemples .........................................................
Page 1 sur 37
Ingénieur a-t-il besoin de méthodes probabilistes
et méthodes statistiques ?
Accréditation des programmes en génie : BCAPG
critères
le cours de proba - stat satisfait 8 des 12 critères
Page 2 sur 37
David Spiegelhalter
Sur YouTube
https://www.youtube.com/watch?v
=_DhOMdcbjuU
méthodes statistiques : utilise des outils math et informatique

mais ce n’est PAS des math et inform
Page 3 sur 37
Cycle PPDAC
Problem
Plan
Data
Analysis
Conclusion
Page 4 sur 37
Un ingénieur a -t-il besoin des méthodes statistiques?
COLLECTE et ANALYSE données pour prendre DÉCISION
1 collecte de données : - conception de plans d’expérience (tests)

- conception de plans d’échantillonnage
avec efficacité : atteindre le but
efficience : contrôler coûts
confiance et qualité des données
contrôler incertitudes et sources de variabilité
minimiser risques mauvaises décisions
Méthodes : - plans d’expériences (DOE = Design Of Experiments)

- plan d’échantillonnage :
exemple : contrôle qualité fabrication
Page 6 sur 37
DONNÉES d’expérimentation
FACTEURS
RÉPONSES
essai x1 x2 x3 x4 Y1 Y2 Y3
1
Exemple fabrication tige 2
3
plastique extrudée
4
FACTEURS 5
X1 : vitesse (rpm) 100 – 200

6 budget de 20 essais
7
X2 : température (C) 250 – 300 8 quels essais faire?
X3 : durée ( min) 5 – 10 9
10
X4 : pression (psi) 15 - 30
11
RÉPONSES objectif 12
13
Y1 : productivité ( pi/hr) MAXiMUM
14
Y2 : diamètre (cm) 15
cible : 2.54 ± 0.03 NOMiNAL 16
17
Y3 : nombre fissures MiNiMUM
18
cible : < 10 / hr 19
Page 7 sur 37
20 7
2 Analyse de données
- extraire relations - associations ………. entre variables
- classifier - caractériser – visualiser ….. ensembles données
- détecter des changements ……….……. systèmes et processus
en présence incertitudes
- identifier- isoler- quantifier ……………. sources variabilité
systèmes et processus
- modéliser - simuler ……………………… systèmes complexes
Méthodes : statistique descriptive – classification

contrôle statistique des processus (SPC)
régression – propagation d’incertitudes / variabilité
Page 8 sur 37
3 prise de décisions basées sur des données

contexte inférence statistique
échantillon population
Méthodes d’analyse
– tests d’hypothèses
– intervalles de confiance
– régression
– analyse de la variance
– fiabilité
– planification et analyse d’expériences
– contrôle statistique des processus
– …
Page 9 sur 37
4 contrôle de la qualité des produits / procédés

méthodes statistiques de la qualité
OU ? QUOI: méthodes
réception /expédition ……………. plans d’échantillonnage
production et assemblage ……… cartes de contrôle (SPC)
analyse de capabilité
optimisation produits/procédés …. planification d’expériences
tests et essais .……………………. études de fiabilité
suivi qualité produits en service …. analyse statistique
design de produits /procédés ……. planification d’expériences
analyse de tolérances
Page 10 sur 37
LES MÉTHODES DE L’ANALYSE STATISTIQUE DES DONNÉES
Que voulez vous faire?

1. Décrire numériquement et graphiquement des données
résumer / tabuler / visualiser des données, (statistique descriptive)
2. Tester des hypothèses (prédictions) à propos des données (inférence statistique)
3. Explorer les données en vue de rechercher des structures / facteurs

/ groupes / relations entre les variables, (modélisation statistique)
4. Recueillir des données pour le contrôle de la qualité des produits et des

services (statistiques industrielles)
5. Explorer des grandes quantités de données (typiquement reliées au

monde des affaires et des marchés économiques) afin de déterminer des
relations systémiques entre des variables lesquelles pourront être
exploités à des fins commerciales ou scientifiques. (Data Mining)
Page 11 sur 37
1. Décrire / Résumer / Tabuler / Visualiser des données
a. Résumer numériquement et graphiquement la forme d’une distribution
d’une ou plusieurs variables continues et leurs mesures
b. Tabuler et tracer les graphiques associés à une ou plusieurs variables
catégoriques (qualitatives) et calculer les effectifs, pourcentages, etc.,
c. Explorer et résumer des données chronologiques
2. Tester des hypothèses (prédictions) à propos des données

a. Forme de la distribution des variables de réponse
b. Différences entre des groupes / échantillons
c. Relations entre des variables
d. Différences dans différents groupes
3. Explorer les données en vue de rechercher des structures ou
des facteurs ou des groupes (clusters) ou des relations,
a. Facteurs ou dimensions sous jacentes d’un groupe de variables continues,
b. Groupes naturels (classification) dans les observations ou les variables,
c. Patrons ou tendances dans des observations chronologiques (temporelles),
d. Relations dans des tableaux croisés multidimensionnels.
e. Relations entre des variables prédicatrices et des variables de réponse.
Page 12 sur 37
4. Recueillir des données pour le contrôle de la qualité des produits
et des services (statistiques industrielles)
a. Le contrôle statistique des processus (SPC)
b. Plan d’échantillonnage pour le contrôle de la qualité des lots
c. L’analyse de la capabilité (aptitude) d’un processus (Cp, Cpk)
d. Planification et analyse d’expériences (DOE)
e. L’analyse d’un processus de mesure (Gauge R&R)
f. L’analyse des données censurées, des données de survie
g. L’analyse de la fiabilité
5. Data Mining (forage des données) (Big Data)

Processus d’analyse exploratoire sur de vastes ensembles de
données (milliers de variables / millions d’observations) afin de
rechercher des relations systématiques entre les variables en
vue de leur exploitation à des fins d’affaires, commerciales ou
scientifiques
Page 13 sur 37
PROCESSUS ou SYTÈME
Toute analyse statistique repose sur un MODÈLE qu’il faut spécifier
- fonction φ pour représenter une relation entre input X et output Y
- hypothèse distributionnelle pour le terme d’erreur ε
- connaissance de la structure des données:
plan collecte données / nature variables / rôle variables / unités statistiques
X 1 , X2 , …, Xk : variables contrôlées en expérimentation (mode actif)

variables observées/mesurées (données observationnelles)
X1 PROCESSUS réponse Y = φ (X)

X2 SYSTÈME sortie mesurée
...
ε
Xk erreur expérimentale:
sources inconnues de variabilité + data
ε ∼ dist (0, σ2)
Y = φ (X1, X2 , … , Xk ; β 0 , β 1 , β 2 ,… ) + ε
φ : fonction inconnue approximation polynôme
β 0 , β 1 , β 2 , … : paramètres statistiques inconnus
Page 14 sur 37
Types d’échelle de mesure (variable)
Échelle NOMINALE = variable classification qualitative
TYPE
Exemple: genre, race, couleur, ville,…
Échelle ORDINALE = échelle NOMINALE avec ordonnancement catégori-

que
Exemple : niveau socio-économique, échelle dans les
questionnaires,…
Échelle INTERVALLE = on peut quantifier les différences
Exemple : température mesurée sur échelle Celsius continue

Échelle RATIO = échelle INTERVALLE avec un zéro absolu
Exemple : mesures de temps ou d’espace, poids, taille, …
Choix d’une analyse statistique dépend:
TYPE de variable et RÔLE des variables

Page 15 sur 37
CONCEPTS
 variables aléatoires
 statistiques descriptives: moyenne, écart type, etc
 graphiques statistiques: histogramme, boxplot, etc
 coefficient de corrélation entre des variables
 équation de régression entre des variables
 variables dépendantes (réponse, à expliquer)
vs variables indépendantes (explicatives)
 les différences sont-elles statistiquement significatives ?
 test statistique
 distribution d’échantillonnage : concept clé
 distribution normale (gaussienne)
 estimation des paramètres (moindres carrés, vraisemblance maximale)
 intervalle de confiance
 niveau de signification
 p-value / seuil test / nombre d’observations = n = ?
 Analyse de la variance
 Modèle de régression
Page 16 sur 37
Logi R
R est un logiciel gratuit et 'a code source ouvert (opensource). Il fonctionne

sous UNIX (et Linux), Windows et Macintosh. C’est donc un logiciel multi-
plates-formes. Il est développé dans la mouvance des logiciels libres par
une communauté sans cesse plus vaste de bénévoles motivés. http://
cran.r-project.org
Le logiciel R est particulièrement performant pour la manipulation de données, le calcul et l’affichage de graphiques. Il possède,
entre autres choses :
– un système de documentation intégré très bien con¸cu (en anglais) ;
– des procédures efficaces de traitement des données et des capacités de stockage de ces données ;
– une suite d’opérateurs pour des calculs sur des tableaux et en particulier sur des matrices ;
– une vaste et cohérente collection de procédures statistiques pour l’analyse de données ;
– des capacités graphiques évoluées ;
– un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité, et des possibilités d’entrée-
sortie.
Page 17 sur 37
Logiciel R
Page 18 sur 37
Exemple Thème Fichier Probléma- Analyse
No Type données données (*) tique statistique
procédé Machine.sta comparaison description
1
E fabrication
données
Machine.xls
Cars1993.sta
stabilité
modélisation
carte contrôle
description
2
X historiques
données
Cars1993.xls prix = … régression
TestsVoitures.sta modélisation description
E 3 tests
TestsVoitures.xls blessures = … Régression - ANOVA
M 4
données Papier.sta blanchiment régression
P
expérience Papier.xls papier multiple
Vitre.sta
5
L données test
Vitre.xls
prédiction fiabilité
données Ventes.sta prédiction
E
impat
6 Ventes.xls politique vente régression
historiques
S 7
données
d’expérience
WEBdesign.sta
WEBdesign.xls
Identification
facteurs critiques
ANOVA
données Drainage Prédiction coût

8 historiques urbain avec 10 facteurs
régression
ancien travail
données conception simulation
9 session
simulées MTH2302B
produit analyse système
ancien travail machine
modélisation Calcul de
10 probabiliste
session distributrice
MTH2302B
probabilités
(ATM)
Page 19 sur 37
heure pièce MACH_1 MACH_2 MACH_3
Exemple 1 mesures longueur de 1 1 -0,352 -0,067 -0,013
1 2 -0,609 -0,175 0,160
pièces provenant de 3 machines

1 3 0,338 -0,285 0,049
1 4 0,339 -0,230 0,997
1 5 0,722 -0,439 0,254
échantillon de 5 pièces 2
2
6
7
-0,105
0,099
0,039
-0,288
-0,022
-0,737
2 8 0,566 0,059 0,267
à chaque heure 1, 2,.., 10

2 9 -0,628 -0,247 -0,523
2 10 -0,600 -0,126 -0,740
3 11 0,115 -0,589 -0,862
3 12 0,327 -0,440 -0,657
Y = écart = longueur – 50 3
3
13
14
-0,668
-0,105
-0,051
-0,428
-0,219
0,225
3 15 -0,580 -0,185 -0,755
MACH_1 : données sur machine 1 4

4
16
17
-0,054
0,350
-0,372
-0,327
0,030
0,241
MACH_2 : données sur machine 2 4

4
18
19
0,203
0,716
-0,570
-0,554
0,091
1,523
MACH_3 : données sur machine 3

4 20 0,589 -0,103 -0,210
5 21 0,110 -0,309 1,284
5 22 -0,542 -0,460 1,347
5 23 0,301 -0,453 -0,546
5 24 -0,056 -0,128 -0,388
5 25 0,372 -0,311 0,519
objectifs / questions 6
6
26
27
0,685
0,463
-0,197
-0,221
-0,248
-0,184
6 28 -0,286 -0,149 0,120
6 29 -0,609 -0,220 -0,360
1 : visualiser les données 6

7
7
30
31
32
0,424
-0,188
0,269
-0,568
-0,225
-0,075
-0,419
-0,246
-0,431
2 : stabilité statistique procédés?

7 33 0,455 -0,154 -0,244
7 34 0,807 -0,775 -0,568
7 35 -0,132 -0,355 -0,335
8 36 -0,309 -0,365 0,050
3 : différences significatives? 8
8
37
38
0,794
0,404
-0,236
-0,402
-0,032
0,393
8 39 0,450 -0,300 -0,298
8 40 0,297 0,021 -0,164
9 41 -0,571 -0,130 -0,029
9 42 0,267 -0,246 -0,410
9 43 0,647 -0,485 -0,250
9 44 -0,271 -0,314 -0,212
9 45 -0,025 -0,270 -0,523
10 46 0,470 -0,411 -0,354
10 47 0,037 -0,367 -0,395
10 48 -0,323 -0,217 Page 0,142
20 sur 37
10 49 -0,268 0,012 0,707
10 50 -0,141 -0,789 -0,417
Exemple 1 Histogram of écart; categorized by machine
graphique des données Machines.sta in MTH2302-ExemplesCours-analyse.stw 10v*150c

machine: 1 écart = 50*0,2*Normal(Location=0,0839; Scale=0,4346)
HISTOGRAMME machine: 2 écart = 50*0,2*Normal(Location=-0,2896; Scale=0,1915)

machine: 3 écart = 50*0,2*Normal(Location=-0,0678; Scale=0,5288)
22
20
machine: 1
18
machine: 2
16 machine: 3
14
No of obs
12
10
....................................... 4
0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8
écart
procédés sont-ils statistiquement stables?

Réponse = OUI
car
variabilité des moyennes et écarts-types par heure
sont en contrôle statistique voir page suivante
Page 21 sur 37
Exemple 1
X-bar and R Chart; variable: MACH_1 X-bar and R Chart; variable: MACH_2
Histogram of Means X-bar: ,08389 (,08389); Sigma: ,45605 (,45605); n: 5, Histogram of Means X-bar: -,28957 (-,28957); Sigma: ,20445 (,20445); n: 5,
1,0 0,1
machine 2
0,8
0,6 machine 1 ,69575
0,0
-0,1
-,01526
0,4 -0,2
0,2 -,28957
,08389 -0,3
0,0
-0,4
-0,2
-0,5
-0,4 -,56387
-,52796 -0,6
-0,6
-0,8 -0,7
0 1 2 3 4 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10
Histogram of Ranges Range: 1,0607 (1,0607); Sigma: ,39406 (,39406); n: 5, Histogram of Ranges Range: ,47555 (,47555); Sigma: ,17667 (,17667); n: 5,
2,5 1,2
2,2429 1,0 1,0055
2,0
0,8
1,5
0,6
1,0 1,0607 ,47555
0,4
0,5 0,2
0,0 0,0000 0,0 0,0000

-0,2
-0,5 0 1 2 3 4 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10
X-bar and R Chart; variable: MACH_3
Les procédés (machines) sont-ils

Histogram of Means X-bar: -,06777 (-,06777); Sigma: ,42574 (,42574); n: 5,
0,8
0,6 machine 3
statistiquement stables?
,50341
0,4
0,2
0,0
-,06777
réponse …… OUI
-0,2
-0,4
-0,6 -,63896
-0,8
0 1 2 3 4 1 2 3 4 5 6 7 8 9 10
Histogram of Ranges Range: ,99023 (,99023); Sigma: ,36787 (,36787); n: 5,

2,5
2,0 Contrôle Statistique des Procédés (SPC) = ?

1,5 2,0938
1,0 Information détaillée : consulter

0,5
0,0 0,0000
-0,5
0 1 2 3 4 1 2 3 4 5 6 7 8 9 10 Page 22 sur 37
Categ. Box & Whisker Plot: écart
Exemple 1 : analyse comparaison 0,3
Mean
0,2
Mean±SE
Mean±1,96*SE
0,1
0,0
écart
-0,1
-0,2
-0,3
-0,4
différences significatives entre les machines? 1 2
machine
3
réponse = OUI
car moyennes sont statistiquement différentes
Analyse statistique : méthode ANOVA très faible

probabilité
(56 /1 000 000)
que moyennes
des machines
soient égales
Page 23 sur 37
Exemple 2 caractéristiques de voitures (1993)
27 variables 93 voitures
id
Manufac
turer
Model
Cate
gory Price
City Highway Engine Horse
MPG MPG Size Power
Fuel
Tank
Passen
gers
Weight .
.
Acura_in Acura Integra Small 15,9 25 31 1,8 140 13,2 5 2705
.
Acura_le Acura Legend Midsize 33,9 18 25 3,2 200 18,0 5 3560
.
Audi_90 Audi 90 Compa 29,1 20 26 2,8 172 16,9 5 3375
ct
.
Audi_100 Audi 100 Midsize 37,7 19 26 2,8 172 21,1 6 3405
.
BMW_535 BMW 535i Midsize 30,0 22 30 3,5 208 21,1 4 3640
.
Buick_ce Buick Century Midsize 15,7 22 31 2,2 110 16,4 6 2880
. . . . . . . . . . . . .
.
Volvo_850 Volvo 850 Midsize 26,7 20 28 2,4 168 19,3 5 3245
visualiser toutes les données

prix relié aux caractéristiques? lesquelles? comment?
Page 24 sur 37
Exemple 2 caractéristiques de voitures (1993)
27 variables 93 voitures
Projection of the variables on the factor-plane ( 1 x 2)
Active and Supplementary variables
*Supplementary variable
1,0
Passengers
0,5
projection
Factor 2 : 15,63%
27 variables
ength (inches) plan optimal
Weight Engine Revs Per Mile (h
0,0
ngineSize en 2 dimensions
ber of Cylinders (Factor 1, Factor 2)
*Price
expliquant
-0,5 HorsePower
65,6% +15,6%
RPM at Max Horsepower = 81,2 %
variation globale
-1,0
-1,0 -0,5 0,0 0,5 1,0 Active

Factor 1 : 65,62% Suppl.
Page 25 sur 37
Exemple 3 tests voitures avec mannequins
n = 351 tests 6 variables explicatves (X) 4 variables réponse (Y)
USA National Transportation Safety Board study: how the crash affected the dummies.
Stock automobiles containing dummies in the driver and front passenger seats crashed into a wall at 35 miles per hour.
The injury variables describe the extent of head injuries, chest deceleration, and left and right femur load.
The data file also contains information on the type and safety features of each crashed car.
AIM : evaluate the relationship between car features variables (factors) and crash injuries variables (dependent variable).
Variables explicatives
carID: combination of make and model Year: year of the car
Size: a categorical variable to classify the cars to a type = inter, medium, compact, heavvy, van, mpv, mini
Doors: number of doors on the car Weight: weight in pounds of the car
Dummy: whether the dummy is in the Driver or Passenger seat
Protection: kind of protection = manual belts, motorized belts, driver airbag, passenger belt, driver & passenger airbag.
4 variables de réponse
Y1 = CD = Chest_decel: chest deceleration Y2 = LL = Left_Leg: Left femur load
Y3 = RL = Right_Leg: Right femur load Y4 = HIC = Head Injury Criterion
variables de réponse sur l'échelle logarithmique.
c
a Y1 Y2 Y3 Y4
r 1 2 3 4 5 6 7 8
Chest Left Right Head Injury
N carID Year Size Doors Weight Dummy Protection cat (v7&v8)
u Decel Leg Leg Criterion
m
manual D manuel
1Acura Integra 87 lnt 2 2350 Driver belts belt 35 791 262 599
Acura Integra Motorized
2 RS 90 lnt 4 2490 Driver belts D mot belt 1545 1301 585
Acura
3 Legend LS 88 med 4 3280 Driver d airbag D d airbag 50 926 708 435
manual D manuel
4 Audi 80 89 comp 4 2790 Driver belts belt 49 168 1871 600
. . . . . . . . . . . . .
Y a t-il un lien entre les caractéristiques
des voitures et la sévérité des blessures?
Page 26 sur 37
Exemple 4 expérience blanchiment papier
Description du problème
L’industrie papetière produit de nombreuses variétés de papier plus ou moins blancs.
Un processus chimique est utilisé pour blanchir le papier.
Objectif
• Etudier l’effet des différents facteurs de blanchiment sur la blancheur d’une pâte.
• Trouver une formule de blanchiment de pâte pour obtenir 77.5 °ISO.
Facteurs X
• X1 = H2O2 : Quantité de H2O2 : 0.4% à 1.6% ……………. facteur continu
• X2 = Alca : Quantité d’alcali : 0.6% à 1.4% …………… facteur continu
• X3 = TypAlca : Type d’alcali : CaO MgO NaOH ….. facteur catégorique
Réponse Y : blancheur en °ISO
Expérimentation: plan de 33 essais – 3 séries de 11 tests

Valeurs
de Y
analyse
et
interprétation?
Page 27 sur 37
Exemple 4 expérience blanchiment papier
Analyse Pareto
Pareto Chart of t-Values for Coefficients; df=28
Variable: Y_blan-ISO
%H2O2 2,610246
TypAlca 1,457998
TypAlca 1,310353
%Alca ,6940369
p=,05
t-Value (for Coefficient;Absolute Value)
Page 28 sur 37
Exemple 5 fiabilité
Contexte
Les données proviennent d’une série de tests réalisés en 1993 par un laboratoire
gouvernemental de certification.
La variable de réponse mesurée est le temps (en heures) pour obtenir la rupture
d’une vitre soumise à un test de stress.
Données Les données (en ordre croissant) des tests réalisés sont (n = 31)
18.830 20.800 21.657 23.030 23.230 24.050 24.321 25.500 25.520
25.800 26.690 26.770 26.780 27.050 27.670 29.900 31.110 33.200
33.730 33.760 33.890 34.760 35.750 35.910 36.980 37.080 37.090
39.580 44.045 45.290 45.381
But de l’analyse
L’objectif est de déterminer une « bonne » distribution pour modéliser les
données. À l’aide du “meilleur” modèle obtenu, on pourra alors calculer
différents points de pourcentage (percentiles) de la distribution ce qui permettra
de mesurer la performance (facteur de sécurité) de la vitre employée.
Cela permet de répondre à des questions comme
« à quel temps(durée) peut-on s’attendre à ce que la vitre

tombe en panne avec une probabilité de 0,99? »
Page 29 sur 37
Exemple 6 processus de vente
ÉTUDE – analyse des données de vente
Une entreprise spécialisée dans la vente de systèmes de chauffage a comptabilisé le nombre
de systèmes vendus à chaque mois, depuis janvier 1997. L’entreprise a emmagasiné aussi des
informations qu’elle juge importantes pour ses activités:
► le nombre de nouvelles maisons construites chaque mois dans le secteur
► l’écart entre la température moyenne observée pendant le mois et la moyenne des 30 années
L’entreprise offre certains mois un rabais aux acheteurs de ses systèmes de chauffage, et a noté
si un tel rabais était en vigueur chaque mois depuis 1997. La direction des ventes a décidé que les
clients de l’entreprise bénéficieraient d’un rabais à certains mois dans l’année.
7 VARIABLES - 110 OBSERVATIONS
v1 identification v2 = nombre nouvelles maisons
v3 rabais variable indicatrice (oui / non) oui = 1 = rabais non = 0 = pas de rabais
v4 écart température entre la température moyenne pour le mois et la moyenne de 30 ans
v5 = année v6 = mois v7 = nombre ventes
nombre
nouvelles écart Nombre
no maisons rabais température année mois ventes
1 68 0 0,29 1997 janv 56
2 64 0 0,58 1997 fev 56
3 65 0 0,08 1997 mars 56
. . . . . . .
Prédiction du volume de ventes = ?
Influence du rabais? température?
Influence nombre de nouvelles maisons?
Page 30 sur 37
Exemple 7 conception site WEB
taille orient average average stdev cust
Essai couleur graphic graph menu police load cust rank rank
1 A constant large horiz Sans-Serif 20 2,0 0,6
2 A constant large vert Serif 10 7,3 2,3
3 A constant small horiz Serif 10 7,3 1,2
4 A constant small vert Sans-Serif 20 15,2 0,8
5 A rotate large horiz Serif 20 2,8 1,2
6 A rotate large vert Sans-Serif 10 9,0 3,5
7 A rotate small horiz Sans-Serif 10 9,2 1,8
8 A rotate small vert Serif 20 15,3 0,8
9 B constant large horiz Sans-Serif 10 3,2 1,2
10 B constant large vert Serif 20 7,8 3,1
11 B constant small horiz Serif 20 13,7 0,8
12 B constant small vert Sans-Serif 10 8,8 1,9
13 B rotate large horiz Serif 10 2,0 1,3
14 B rotate large vert Sans-Serif 20 8,8 2,9
15 B rotate small horiz Sans-Serif 10 13,8 1,2
16 B rotate small vert Serif 10 9,0 1,1
5 facteurs (X) à 2 modalités 2 réponses Y

Plan 16 essais
Comment concevoir un bon site Web?
Quels sont les facteurs critiques? Page 31 sur 37
Exemple 7 conception site WEB
Comment concevoir un bon site Web?

Quels sont les facteurs critiques?
Pareto Chart of Standardized Effects; Variable: average cust rank
6 factors at two levels; MS Residual=8,329009
DV: average cust rank
(3)taille graph 4,44099
(4)orient menu 2,138013
(6)average load 1,521898
(5)police -,610396
(2)graphic ,593218
(1)couleur ,1122464
p=,05
Standardized Effect Estimate (Absolute Value)
Page 32 sur 37
Exemple 8 drainage urbain - génie civil
J.W.Knapp, W.J. Rawls, Prediction Models for Investment in Urban Drainage System
Virginia Polytechnic Institute and State University, 1969
X1_rec : période de récurrence (an)
X2_pente: pente du bassin (%)
X3_coRuis: coefficient de ruissellement (-)
X4_nbSour: nombre de source
X5_diaMin: plus petit diamètre du système (po)
X6_diaMax: plus grand diamètre du système (po) variables X:
X7_debit: débit de sortie (picu/sec) explicatives
X8_longTuyau: longueur totale tuyaux (pi)
X9_airePrj: aire du projet (acres)
X10_aireDev: aire développée (acres)
Y_cout: coût du projet ($1963) réponse Y
Bernard Clément, PhD - Méthodes statistiques - problème 2.8
J.W.Knapp, W.J. Rawls, Prediction Models for Investment in Urban Drainage System
Virginia Polytechnic Institute and State University, 1969
X1_rec : péridode de récurrence (an) X2_pente: pente du bassin (%) X3_coRuis: coefficient de ruissellement (-)
X4_nbSour: nombre de source X5_diaMin: plus petit diamètre du système (po) X6_diaMax: plus grand diamètre du système (
X7_debit: débit de sortie (picu/sec) X8_longTuyau: longueur totale tuyaux (pi) X9_airePrj: aire du projet (acres)
X10_aireDev: aire développée (acres Y_cout: cout du projet ($1963)
1 2 3 4 5 6 7 8 9 10 11
X1_rec X2_pente X3_coRuis X4_nbSour X5_diaMin X6_diaMax X7_débit X8_longTuyaux X9_airePrj X10_aireDev Y_cout
1 10 0,01 0,50 20 30 39 70 2963 52 52 103996
2 10 0,10 0,70 32 36 51 136 7100 134 164 191311
3 10 2,00 0,50 29 27 48 153 3400 120 89 151499
. . . . . . . . . . .
5 1,00 0,45 9 30 48 47 1190 47 19 12997
5 0,40 0,45 7 18 30 23 1600 16 16 29336
Page 33 sur 37
1 2 3 4 5 6 7 8 9 10 11
X1_rec X2_pente X3_coRui s X4_nbSour X5_di aMi n X6_di aMax X7_débi t X8_l ongTuyaux X9_ai rePrj X10_ai reDev Y_cout
Exemple 8 1
2
3
10
10
10
0,01
0,10
2,00
0,50
0,70
0,50
20
32
29
30
36
27
39
51
48
70
136
153
2963
7100
3400
52
134
120
52
164
89
103996
191311
151499
4 10 0,30 0,50 18 36 45 85 2200 52 35 90341
drainage urbain
5 10 0,30 0,50 19 24 45 57 2600 51 26 96291
6 10 0,90 0,40 17 15 60 270 1900 133 133 84576
7 5 1,10 0,30 41 15 60 329 6040 276 296 156546
8 5 1,40 0,30 23 15 60 278 3410 250 250 82947
9 3 0,80 0,55 55 15 36 502 5630 174 122 125063
10 3 0,10 0,50 100 24 96 560 9999 503 503 841601
11 3 0,10 0,50 14 24 66 109 2450 90 90 141600
12 5 2,10 0,50 24 18 66 370 4092 210 105 131931
13 5 0,50 0,50 19 18 84 270 4415 245 245 236006
n = 70 obs.
14 5 1,20 0,50 12 24 108 1270 4440 867 254 271064
15 5 3,40 0,50 39 21 60 267 4152 147 147 82055
16 5 1,00 0,50 35 24 84 520 3738 307 61 126308
17 15 0,30 0,51 32 12 48 169 7552 116 116 166532

18 5 2,00 0,40 125 12 66 258 7931 217 217 349543
p = 11 variables
19 10 2,20 0,50 160 12 27 90 7360 30 24 179454
20 15 1,10 0,50 25 12 108 1940 2786 1435 891 341758
21 5 1,50 0,45 16 15 36 70 2643 48 48 81140
22 15 3,20 0,70 40 15 30 81 5180 20 20 89013
10 variables X
23 5 1,60 0,60 35 15 36 64 4020 39 39 82347
24 5 1,10 0,45 44 15 54 145 7255 37 87 98684
25 5 0,60 0,45 36 15 54 105 5388 80 56 124142
26 10 1,60 0,60 30 15 96 410 2225 181 181 63980
27 1 0,25 0,45 31 15 30 42 3382 70 70 26585
1 variable Y
28 1 0,30 0,45 31 15 30 12 1704 20 20 11759
29 1 0,25 0,46 29 15 36 18 3294 30 30 29918
30 10 1,90 0,38 18 15 48 148 1653 79 28 34462
31 10 0,90 0,40 18 15 54 171 1965 92 50 47029
32 10 1,00 0,38 15 15 24 77 1285 38 38 56644
33 10 1,90 0,35 15 15 48 136 2637 76 76 39049
34 5 4,80 0,60 30 15 36 50 1160 44 44 53811
35 5 2,50 0,60 15 15 18 23 1300 18 18 25636
36 10 1,50 0,40 24 48 66 334 2029 144 144 55540
visualiser les
37 15 4,50 0,55 33 15 24 60 2465 11 11 58885
38 15 5,00 0,55 21 15 24 188 2830 14 14 61884
39 5 2,30 0,45 17 15 36 85 2050 21 21 51807
données?
40 2 2,50 0,50 12 15 27 53 1371 40 36 24250
41 2 1,80 0,50 33 15 36 77 4441 96 96 51116
42 10 2,00 0,20 23 12 27 48 3400 93 56 34067
43 10 3,60 0,50 8 12 27 55 640 19 19 13348
relation entre
44 5 1,40 0,35 19 18 54 214 2900 52 52 79339
45 5 0,90 0,50 20 15 54 142 2781 48 48 59610
46 5 0,80 0,50 17 15 43 100 3169 59 59 39330
47 5 1,70 0,50 8 18 24 53 1641 31 31 18307
48 5 1,10 0,50 23 18 54 163 4778 111 111 70742
Y et les X?
49 5 2,10 0,50 13 21 24 45 1779 40 40 28092
50 5 2,20 0,50 23 21 54 186 2600 101 61 47961
51 3 0,40 0,51 27 15 42 53 2720 70 33 58991
52 3 1,50 0,50 19 15 30 46 1570 90 90 30901
53 5 2,10 0,50 25 18 27 56 2823 85 85 46448
54 3 1,50 0,65 27 24 30 33 1760 34 34 43109
55 5 0,30 0,50 30 12 36 28 2755 33 33 34433
56 5 1,50 0,50 31 12 18 15 2392 30 30 14844
57 5 0,50 0,50 17 12 27 15 1608 19 19 8169
58 5 0,40 0,50 16 12 21 7 1695 12 12 11788
59 5 1,00 0,40 36 15 54 172 2730 39 69 43130
60 10 2,00 0,50 9 30 45 122 1295 56 18 47740
61 50 0,70 0,50 10 15 24 21 900 23 13 2541
62 10 0,01 0,50 16 15 45 38 2300 57 57 63937
63 10 0,01 0,50 14 15 39 87 3940 37 37 69180
64 10 0,15 0,50 12 12 142 31 2115 111 44 35822
65 10 0,20 0,50 12 18 42 67 1992 109 31 49492
66 10 1,00 0,50 4 18 33 60 1054 38 4 14653
67 10 0,01 0,45 9 21 36 34 1330 19 19 37378
68 10 2,40 0,70 10 36 48 200 882 96 Page

73 34 sur 37
23778
69 5 1,00 0,45 9 30 48 47 1190 47 19 12997
70 5 0,40 0,45 7 18 30 23 1600 16 16 29336

Exemple 9 : conception pompe remplissage (ancien travail de session)
D : débit du fluide (ml / sec)

R : rayon du piston (mm)
L : longueur du bras (mm)
V : vitesse du moteur (rpm)
B : refoulement (« backflow ») (ml)
EC1 : débit de remplissage D (en ml / sec) valeur cible de 250
EC2 : limite inférieure de spécification (LSL) de D est 240
EC3 : limite supérieure de spécification (USL) de D est 260
PARAMÈTRE DÉFINITION VALEURS POTENTIELLES NOMBRE

muR moyenne de R 20 25 30 35 40 45 50 7
muL moyenne de L 20 30 40 50 60 70 80 7
muV moyenne de V 30 31 32 33 34 35 36 37 38 39 40 11
muB moyenne de B 1 5 2
sigR écart-type de R 0,1 0,3 2
sigL écart-type de L 0,1 0,3 2 8624 cas !
sigV écart-type de V 0,1 0,3 2
sigB écart-type de B 0,05 1
OBJECTIF : identifier les meilleurs designs

a) satisfaire les exigences EC1, EC2, EC3 avec probabilité d’au moins 0,99
b) coût total le plus petit
Page 35 sur 37
Exemple 10 : modélisation machine distributrice d’argent (ATM) (ancien travail session)
Page 36 sur 37
PROCESSUS ou SYTÈME
Toute analyse statistique repose sur un MODÈLE qu’il faut spécifier

- fonction φ pour représenter une relation entre input X et output Y
- hypothèse distributionnelle pour le terme d’erreur ε
- connaissance de la structure des données:
plan collecte données / nature variables / rôle variables / unités statistiques
X 1 , X2 , …, Xk : variables contrôlées en expérimentation (mode actif)

variables observées/mesurées (données observationnelles)
X1 PROCESSUS
réponse Y = φ (X)
X2 SYSTÈME sortie mesurée
...
Xk ε
erreur expérimentale:
sources inconnues de variabilité
ε ∼ N(0, σ2)
Y = φ (X1, X2 , … , Xk ; β 0 , β 1 , β 2 ,… ) + ε
φ : fonction inconnue approximation polynôme
β 0 , β 1 , β 2 , … : paramètres statistiques inconnus Page 37 sur 37

MTH2302 Chap00 Introduction Pour ETUDIANT

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

MTH2302 Chap00 Introduction Pour ETUDIANT

Transféré par

Droits d'auteur :

Formats disponibles

INGÉNIERIE – PROBABILITÉS - STATISTIQUES

 Ingénieur a-t-il besoin de méthodes

 Processus / procédés ....................................

 Variables : type et rôle ...................................

 Concepts statistiques ...................................

le cours de proba - stat satisfait 8 des 12 critères

méthodes statistiques : utilise des outils math et informatique

1 collecte de données : - conception de plans d’expérience (tests)

Méthodes : - plans d’expériences (DOE = Design Of Experiments)

exemple : contrôle qualité fabrication

X1 : vitesse (rpm) 100 – 200

Méthodes : statistique descriptive – classification

3 prise de décisions basées sur des données

4 contrôle de la qualité des produits / procédés

Que voulez vous faire?

2. Tester des hypothèses (prédictions) à propos des données (inférence statistique)

3. Explorer les données en vue de rechercher des structures / facteurs

4. Recueillir des données pour le contrôle de la qualité des produits et des

5. Explorer des grandes quantités de données (typiquement reliées au

2. Tester des hypothèses (prédictions) à propos des données

5. Data Mining (forage des données) (Big Data)

X 1 , X2 , …, Xk : variables contrôlées en expérimentation (mode actif)

X1 PROCESSUS réponse Y = φ (X)

Échelle ORDINALE = échelle NOMINALE avec ordonnancement catégori-

Échelle INTERVALLE = on peut quantifier les différences

Exemple : température mesurée sur échelle Celsius continue

Exemple : mesures de temps ou d’espace, poids, taille, …

Choix d’une analyse statistique dépend:

TYPE de variable et RÔLE des variables

R est un logiciel gratuit et 'a code source ouvert (opensource). Il fonctionne

données Drainage Prédiction coût

pièces provenant de 3 machines

à chaque heure 1, 2,.., 10

MACH_1 : données sur machine 1 4

MACH_2 : données sur machine 2 4

MACH_3 : données sur machine 3

1 : visualiser les données 6

2 : stabilité statistique procédés?

graphique des données Machines.sta in MTH2302-ExemplesCours-analyse.stw 10v*150c

HISTOGRAMME machine: 2 écart = 50*0,2*Normal(Location=-0,2896; Scale=0,1915)

procédés sont-ils statistiquement stables?

0,0 0,0000 0,0 0,0000

X-bar and R Chart; variable: MACH_3

Les procédés (machines) sont-ils

Histogram of Ranges Range: ,99023 (,99023); Sigma: ,36787 (,36787); n: 5,

2,0 Contrôle Statistique des Procédés (SPC) = ?

1,0 Information détaillée : consulter

Analyse statistique : méthode ANOVA très faible

visualiser toutes les données

-1,0 -0,5 0,0 0,5 1,0 Active

Expérimentation: plan de 33 essais – 3 séries de 11 tests

« à quel temps(durée) peut-on s’attendre à ce que la vitre

5 facteurs (X) à 2 modalités 2 réponses Y

Comment concevoir un bon site Web?

(3)taille graph 4,44099

(4)orient menu 2,138013

(6)average load 1,521898

3 10 2,00 0,50 29 27 48 153 3400 120 89 151499

4 10 0,30 0,50 18 36 45 85 2200 52 35 90341

6 10 0,90 0,40 17 15 60 270 1900 133 133 84576

7 5 1,10 0,30 41 15 60 329 6040 276 296 156546

8 5 1,40 0,30 23 15 60 278 3410 250 250 82947

9 3 0,80 0,55 55 15 36 502 5630 174 122 125063

10 3 0,10 0,50 100 24 96 560 9999 503 503 841601

HISTOGRAMME machine: 2 écart = 500,2Normal(Location=-0,2896; Scale=0,1915)