ADAPI - StL
ADAPI
1 Analyse de Données pour l’Amélioration des
Processus Industriels
CONTEXTE : STATISTIQUES POUR LE CONTRÔLE
INDUSTRIEL
ADAPI - StL
Optimisation de processus
Réduction de coûts, énergie, matière, consommables
Amélioration des performances
« Faire le mieux avec ce que nous avons »
Réduction de la variabilité de la « Qualité »
ADAPI - StL
Modélisation - Prédiction
Détection de changements et de nouveautés
Fouille de données (Data Mining)
Détection de règles, d’associations, d’organisation
Aide à la décision
Règles d’exploitation automatisées
Analyse de bases de données
Knowledge Management
Statistical Process Control
Cartes de contrôle, plans d’expérience
3
OUTILS EXPLORÉS DANS LE COURS ADAPI
ADAPI - StL
Identification de systèmes
Classification, Régression de données
Filtrage de kalman
Mesures statistiques
Régulation
ADAPI - StL
Identification de systèmes
Commande prédictive
Statistiques bayésiennes Asservissement
SPC
Réseaux bayésiens
FDI
HMM
SVM
Reconnaissance de Apprentissage
formes
Classification Extraction de
connaissance
Classification
automatique
5
PRINCIPAUX DOMAINES DE L’ADD - 1
Biostatistique
Séquençage
Modèles épidémiologiques
Domaine – généralement – caractérisé par peu
ADAPI - StL
d’échantillons et de (très) grande dimension
Santé
Aide au diagnostic
Dosimétrie
Domaine caractérisé par des échantillons faibles
Marketing
CRM
Gestion des stocks
Prospection et veille technologique
Webmining et comportement d’internautes
Domaine caractérisé par très grand nombre
d’échantillons 6
PRINCIPAUX DOMAINES DE L’ADD - 2
Environnement
Classification des usines à risques
Prédiction des pics d’ozone
Gestion des crues et des inondations
Domaine caractérisé par des procédés souvent
ADAPI - StL
chaotiques et très complexes
Banque
Prédiction des risques / crédit
Appétence des clients vers les différents produits financiers
Attrition de leurs clients …
Domaine caractérisé par très grand nombre
d’échantillons et des modèles évolutifs
Et enfin la Finance
Modèles économétriques pour prédire les crises !!!
Sans avis sur ce Domaine …
7
ADAPI - StL
http://www.kdnuggets.com
ADAPI - StL
statistiques usuelles
Développer une connaissance autour de la
modélisation de processus industriels et de
l’extraction de règles d’exploitation automatisés
Initier une démarche de construction de modèles
adaptés aux problèmes identifiés
Formalisation du problème, sélection des données,
choix de la structure du modèle, définition et
validation du modèle
10
MOTIVATIONS ET BESOINS
ADAPI - StL
Improve
User DEFINE
RIGHT THINGS
Benchmarks Six Sigma
MEASURE
DMAIC
Process
IMPROVE
Industry
ANALYZE WELL Best
Practices
11
DÉMARCHE 6-SIGMA
ADAPI - StL
Enjeu : Mise au point de procédés plus rapide
Adapter rapidement les réglages pour obtenir des
points de fonctionnement idéaux selon la qualité des
produits à réaliser
Réduire les délais de pré-réglage
Supprimer le prototypage…
12
OBJECTIFS DES OUTILS D’ADAPI
ADAPI - StL
Accommoder les dérives
Améliorer la qualité de la production
Construire de la connaissance
ADAPI - StL
Comprendre et agir
Compréhension
Connaissance
ABSTRACTION
ADAPI - StL
le problème le problème les défauts une solution la solution
15
ETAPES GÉNÉRALES D’UN PROJET ADAPI
Extraction Déploiement
Définition Preparation Validation
Modélisation de la d’actions
du problème des données du modèle
connaissance correctrices
ADAPI - StL
Choix de la structure du problème
Sélection de variables (voire transformation)
Choix de la méthode de modélisation
Réglages de paramètres
Validation
Généralisation du modèle
16
LES OUTILS LOGICIELS STATISTIQUES DÉDIÉS
SAS
Le plus répandu dans le monde industriel
http://www.sas.com/
SPSS
ADAPI - StL
http://www.spss.com
Existe PSPP (look-like freeware)
The R Project for Statistical Computing
Freeware
http://www.r-project.org/
Python Anaconda
Numpy, Scikit learn
scikit-learn.org
Csense
Très orienté Suivi de production
Utilisé pour les TP 17
DES ENVIRONNEMENTS DÉDIES BIG DATA
ADAPI - StL
HDFS, GoogleFS, Amazon S3
Base de données
NoSQL, Hbase, Hive, MongoDB
18
CONTENU SCIENTIFIQUE DU COURS
ADAPI - StL
Pour la détection de changements
Les techniques de modélisation utilisées
Descriptives vs Prédictives
Classification vs Régression
19
ORGANISATION
ADAPI - StL
Selon la nature du problème
Prédiction, Description
20
P5 2020
ADAPI - StL
PARTIE I
21 Préparation des données
QU’EST CE QU’UNE « DONNÉE » ??
ADAPI - StL
quantitative) pour 1 individu
Donnée = vecteur composée de plusieurs attributs ou
variables
Base de données
Ensemble des mesures pour l’ensemble des individus
Analyse de données
Etudes des propriétés communes par population ou
groupe d’individus 22
PARTIE I : LA PRÉPARATION DES DONNÉES
ADAPI - StL
HDFS, FTP …
…
23
EXTRACTION DE DONNÉES “INTÈGRES”
ADAPI - StL
24
www.csensesystems.com
FORMATS DE DONNÉES
Quantitatives
Continues
Discrètes
ADAPI - StL
Qualitatives
Numériques (note)
Alphanumériques (label)
Ordonnées (ordinales) ou non (nominales)
Froid, Tiède, Chaud
Sport, Confort, Classique, Senior
Textuelles
Etiquette, Mode de fonctionnement
25
PRÉPARATION DES DONNÉES
ADAPI - StL
d’appartenance à un modèle générateur
Objectifs
Elimination des données bruitées
Neutralisation des valeurs extrêmes
Suppression des données manquantes ou incomplètes
Détection de rupture dans les données
26
ANALYSE EXPLORATOIRE DES DONNÉES
Objectif :
ADAPI - StL
(fonctions de répartition et de densité)
en utilisant les
27
OUTILS DE STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
Mesure mathématique
Médiane, quartile, moyenne, fréquence, variance,
écart-type
ADAPI - StL
Représentation graphique associée
Diagramme en bâton, histogramme, diagramme-boîte,
graphiques cummulatifs, diagrammes en colonnes en barres
en secteurs
28
REPRÉSENTATION GRAPHIQUE - 1
Diagramme boîte
Limite haute = Q3+1.5(Q3-Q1)
Q3
ADAPI - StL
Médiane
Q1
Moyenne
Outlier
29
MÉTHODES STATISTIQUES
1 n
Moyenne µ E(x) E(X) XdP
µ · xi
n i1
1 1
Médiane
m
d F(x) and d F(x )
ADAPI - StL
2 m 2
1 3
Quartile
m
d F(x)
4
and m
d F(x )
4
Ecart-type 1 N
N i1
pi (xi x)2 ,
30
RÉPARTITION STATISTIQUE DES DONNÉES DISCRÈTES
ADAPI - StL
Probabilité d’avoir k événements en n tirages
Peu de chance de ne jamais avoir aucun « pile » en 10 lancers
de pièces
Peu de chance de ne jamais avoir 10 « piles » en 10 lancers
de pièces
Plus forte probabilité d’avoir 5 « piles » en 10 lancers de
pièces
Distribution (hyper)géométrique
Modélisation du nombre de succès (ou de défauts) selon le
nombre de tirages (de cycles) – tirage exhaustif
Distribution de Poisson
Comptage du nombre de fois qu’un événement se produit dans
un période donnée, une surface donnée.
31
RÉPARTITION STATISTIQUE DES DONNÉES CONTINUES
ADAPI - StL
Distribution centrée
Loi de Pareto
Importance des valeurs cruciales
Loi de Student
Comparaison de 2 échantillons
Loi du Chi2
Loi théorique pour des échantillons multivariés, basée sur le
respect d’un ensemble de lois normales
Loi de Fisher,
Comparaison de deux variances
Distribution de Weibul
Exprime une Durée de vie
32
LOI NORMALE 0.18
(, 2 )
0.16
2
1 x 0.14
1
2
f(x) e 0.12
2 0.1
0.08
0.06
0.04
ADAPI - StL
0.02
0
0 5 10 15 20
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14 16 18 20
33
LOI NORMALE 0.18
(, 2 )
0.16
2
1 x 0.14
1
2
f(x) e 0.12
2 0.1
0.08
0.06
0.04
ADAPI - StL
0.02
0
0 5 10 15 20
µ=10; 2
E(( x )3 )
Coefficient d’asymétrie (skewness) sk
3
=0 symétrique
> 0 allongé vers la droite; <0 allongé vers la gauche
LCI LCS
ADAPI - StL
Process
Width
Target
Cp = =
Spec Larg
Denotes
Process Larg Variation
Pp =(LCS-LCI)/6 35
APPLICATION DE LA LOI NORMALE :
CAPACITÉS D’UN PROCESSUS
<3
Cp<1 MAUVAISE CAPACITE
Out of
Specs
ADAPI - StL
LCI Target LCS =3 Cp=1
All in
Specs
6 Cp=2 Only
50% of
tol. used LCI Target LCS
BONNE CAPACITE
Hypothèse de normalité
13
ADAPI - StL
12
11
10
7
0 5 10 15 20 25 30 35
37
TEST DE NORMALITÉ - EXEMPLE
Spent Electrolyte
Matte DIC
Tank
Water Ball Mill Tank
2100
2102
Tank FC
Air
FIC LIC pumps
2107
pH pH
ADAPI - StL
Oxygen Autoclave 2110C/D Tank
Steam
#1 #2 #3 #4 2116
38
TEST D’HYPOTHÈSE SIMPLE
Pour réaliser un test par intervalle de confiance ou test d’hypothèse sur un
paramètre d’un procédé, on considère deux cas :
On suppose que l’estimation du paramètre du procédé est égale à une valeur théorique
que l’on spécifie (centre). Cette hypothèse est appelée hypothèse nulle H0
(fonctionnement normal).
L’autre alternative notée H1 est valide lorsque l’estimation s’éloigne et est différente
de la valeur théorique (mauvais fonctionnement)
En choisissant un seuil délimitant les deux hypothèses, on peut assigner une
ADAPI - StL
observation Xi au mode de bon fonctionnement (hypothèse H0) si elle est
inférieure au seuil et de la juger nuisible (H1)si elle est supérieure au seuil
On peut cependant rejeter l’hypothèse nulle H0 alors qu’elle est vraie. La
probabilité de faire cette erreur, si le seuil est trop petit, est aussi appelée
risque ou risque fournisseur ou risque de 1ère espèce (fausse alarme).
On peut de même accepter l’hypothèse nulle H0 alors qu’elle est fausse si le
seuil est pris assez grand. La probabilité de faire cette erreur, est aussi appelée
risque ou risque client ou risque de 2nde espèce (non détection).
Densité de
Causes
probabilité
spéciales
M1 M2
H0 H1
Xi
39
Causes communes
PRINCIPE DES TESTS STATISTIQUES1
ADAPI - StL
des moyennes mesurées dans 2 échantillons sont
significativement différentes
une variable ne suit pas une loi théorique donnée
deux variables sont significativement différentes
un échantillon n’est pas homogène mais est composé de
plusieurs sous-populations
on soumet l’hypothèse nulle H0 à un test T qui doit être
satisfait si H0 est vraie
puis on montre que T n’est pas satisfait ⇒ H0 est faux
Vocab. : H0 : hypothèse nulle – H1 : hypothèse
alternative
40
1 : Source internet
PRINCIPE SUITE1 - 1
Fixer le niveau du test (généralement petit 5%; 1%; 0.1%)
risque de 1re espèce, c-à-d la probabilité de rejeter à tort H0, c-à-d
de choisir H1 alors qu'elle est fausse.
Définir la statistique du test :
quantifier l'écart à H0 observé sur l'échantillon. Par exemple la loi
ADAPI - StL
de l’écart entre les moyennes population A et population B
Déterminer la zone de rejet du test :
RA : contient les valeurs de la statistique que l'on s'attend à
observer quand H0 est vraie ; valeurs conformes à H0.
RJ : contient les valeurs qu'il est rare d'observer quand H0 est
vraie
(rares et donc suspectes)
0.6
Densité de probabilité
0.4
zone d'acceptation de H0
0.2
zone de rejet de H0
0.0
0 2 4 6 8 10 41
Quantiles
PRINCIPE SUITE1 - 2
Alternativement au calcul de la RJ, calculer la p-valeur (ou niveau de
signification) obs
probabilité quand H0 est vraie d'observer une valeur de la statistique
au moins aussi extrême, dans le sens indiqué par H1, que la valeur
effectivement observée.
On utilise la distribution sous H0 de la statistique pour la calculer.
Plus la valeur observée est extrême et plus la p-valeur est petite.
ADAPI - StL
Règle de décision basée sur la p-valeur
Pour un test au niveau a donné :
Si obs =< : on rejette H0 et on accepte H1, au risque d'erreur .
Si obs > : on conserve H0 et on n'accepte pas H1, avec un risque d'erreur
inconnu.
Risques d'erreur et puissance d'un test
Risque d'erreur de 1re espèce :
risque de rejeter à tort H0 (d'accepter H1 quand H1 est fausse).
Risque d'erreur de 2e espèce :
risque de conserver à tort H0 (de ne pas accepter H1 quand H1 est vraie). En
général, il n'est pas calculable.
Puissance du test = 1- : probabilité d'accepter H1 quand H1 est vraie.
42
EXEMPLE 1 80
Sans additif
762
Additif 1
734
Additif 2
888
(750, ) 821 819 771
12 735 859 645
H0 x 0 733
680
866
842
705
680
H1 x 782
793
599
734
953
715
1
H0 vrai avec a=5% 761
721
852
811
824
749
X suit une loi normale
ADAPI - StL
754 780 836
767 814 703
638 870 652
Test
k µ0 k 0 *1.64
P(x k µ0 ) P(U ) n
/ n
Décision
x k; obs 5% rejet de H0 et acceptation de H1
acceptation de H0
x k; obs 5%
µi
Risque P(U )
/ n
43
EXEMPLE 2 – TEST DE STUDENT
H0 x 0 x 0
T suit une loi de student
H1 x 0 s n
I.C. 95%
ADAPI - StL
0
x t *
0.025 , n 1 s n x x t0*.025 ,n 1 s n
*
t 0.025,n 1 Quantile d’ordre 1-0.025 à n-1 degrés de libertés
1
f(t)
ADAPI - StL
1 n t 2 ( n21)
n.B( , ).(1 )
2 2 n
45
PLÉTHORE DE TESTS STATISTIQUES…
Test de Kolmogorov-Smirnov
écart entre courbes de répartition théorique et observée
Test d’Anderson-Darling
modifie Kolmogorov-Smirnov en donnant plus de poids aux queues de
distribution
ADAPI - StL
Test de Lilliefors
perfectionne K-S quand on ne connaît pas la moyenne et la variance de la
var.
car dans ce cas le test de K-S est conservateur si calculé avec la moyenne et
la variance estimées sur l’échantillon
Test de Shapiro-Wilk
mesure l’alignement sur la droite ci-contre correspondant à une distribution
normale
le meilleur test sur de petits échantillons <50
Test de Jarque Bera
teste si les résidus d'une régression linéaire suivent une distribution
normale.
5 alpha 0,05
4
3 Interprétation du test :
2 H0 : L'échantillon suit une loi Normale.
1 Ha : L'échantillon ne suit pas une loi Normale.
0 Etant donné que la p-value calculée est supérieure au niveau de signification seuil
1 2 3 4 5 6 7 8 9 10 alpha=0,05, on peut valider l'hypothèse nulle H0.
Classe Le risque de rejeter l'hypothèse nulle H0 alors qu'elle est vraie est de 69,33%.
ADAPI - StL
Test de Lilliefors (Echantillon1) : 0,9
0,8
D 0,100
D 0,7
(normalisé) 0,632 0,6
p-value 0,401
0,5
alpha 0,05
0,4
N 0 i 1
des limites de contrôle LCS (supérieure) et
ADAPI - StL
LCI (inférieure), définies par la variabilité du processus sous
contrôle et par la probabilité de fausse alerte
Plus l (paramètre de contrôle) augmente, plus diminue
=4.5 % pour un diagramme 4
=0.27 %. pour un diagramme 6
1 N0 LC S (l )
( X i )2
N0 i 1 LC I (l )
S i LC I X i LC S alors H 0
48
Sinon H 1
TEST DU CUSUM
ADAPI - StL
être à l’origine des fausses alarmes.
g 0 0
g i max(0 , g i 1 X i 0 K )
1 0
K
2
Si g i h alors H 0
Sinon H 1 Alarme 49
TEST EWMA (MOYENNE GLISSANTE PONDÉRÉE)
M 0 X 0 l l
EWMA 1 (1 l )2i
M i (1 l ) M i 1 l X i 2l 2l
ADAPI - StL
LCSEWMA = EWMA + k * EWMA
LCI EWMA = EWMA - k * EWMA
50
HTTP://FR.WIKIPEDIA.ORG/WIKI/TEST_(STATISTIQUE)
ADAPI - StL
51