Vous êtes sur la page 1sur 42

Filière: Génie industrielle

Niveau : 2ème année cycle ingénieur


Année universitaire : 2016/2017
Professeur: A. EL-ABIDI

Principes et Méthodes
Statistiques

ENSAS 2018/2019 1
Plan du cours

Introduction générale
Chapitre 1 : Statistique descriptive
Chapitre 2 : Variable aléatoire
Chapitre 3 : Échantillonnage -Estimation
Chapitre 4 : Test d’hypothèses
Chapitre 5 : Régression linéaire simple
Chapitre 6: Régression linéaire multiple

ENSAS 2018/2019 2
INTRODUCTION GÉNÉRALE

Définition:
La statistique est la science dont l'objet est de
réunir, d'analyser, de commenter et critiquer des données
issues de l'observation de phénomènes aléatoires.
Dans la statistique il y a intervention du hasard et
des probabilités. L'objectif essentiel de la statistique est
de maîtriser au mieux cette incertitude.
L'analyse des données est utilisée pour décrire les
phénomènes étudiés, faire des prévisions et prendre des
décisions à leur sujet. En cela, la statistique est un outil
essentiel pour la compréhension et la gestion des
phénomènes complexes.

ENSAS 2018/2019 3
Exemples de Domaines d'application de la statistique:

• Sciences de l'ingénieur : contrôle de qualité, maîtrise


statistique des procédés (méthode six-sigma), sûreté de
fonctionnement (habilité, disponibilité, sécurité,...),
maîtrise des risques industriels, évaluation des
performances des systèmes complexes,…
• Physique : physique statistique, théorie cinétique des
gaz, ...
• Economie, assurance, nuance : prévisions
économétriques, analyse de la consommation des
ménages,…
• Sciences de l'information et de la communication
• Biologie, médecine
• Sciences de la terre
• Sciences humaines
• Etc…

ENSAS 2018/2019 4
Méthodes statistiques:
Les méthodes statistiques se repartissent en deux classes :
A- La statistique descriptive:
• Elle a pour but de résumer l'information contenue dans les données de façon
synthétique et efficace. Elle utilise pour cela des représentations de données sous
forme de graphiques (histogrammes, polygones, diagramme en boîte …), de tableaux
et d'indicateurs numériques (moyenne, écart-type, médiane…).
• Les probabilités n'ont qu'un rôle mineur dans la statistique descriptive.

B- La statistique inférentielle:
• La statistique inférentielle permet d’utiliser les données relatives à un échantillon
pour tirer des conclusions sur l'ensemble de la population.
• Elle a pour but de faire des prévisions et de prendre des décisions au vu des
observations:
Estimation de paramètres
Tests d'hypothèse
• En général, il faut pour cela proposer des modèles probabilistes du phénomène
aléatoire étudié et savoir gérer les risques d'erreurs. Les probabilités jouent ici un
rôle fondamental.

ENSAS 2018/2019 5
Chapitre 1: STATISTIQUE DESCRIPTIVE

La Statistique Descriptive est l'ensemble des méthodes et techniques permettant


de présenter, de décrire, de résumer, des données nombreuses et variées.

1- Terminologie

• Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique,
dont les éléments sont des individus ou unités statistiques. Chaque individu est
décrit par une ou plusieurs variables, ou caractères statistiques.

ENSAS 2018/2019 6
Exemple :
Si l’échantillon est un groupe de TD à l'ENSAS, un individu est un
étudiant, la population peut être l'ensemble des étudiants de
l'ENSAS, des élèves ingénieur du Maroc, des habitants de Safi,
etc...les variables étudiées peuvent être la taille, la filière choisie, la
moyenne d'année, la couleur des yeux, la catégorie socio-
professionnelle des parents,...
• Chaque variable peut être, selon le cas :
Quantitative : ses valeurs sont des nombres exprimant une quantité, sur
lesquels les opérations arithmétiques (somme, etc...) ont un sens.
La variable peut alors être discrète ou continue selon la nature de
l'ensemble des valeurs qu'elle est susceptible de prendre (valeurs isolées
ou intervalle).
Qualitative : ses valeurs sont des modalités, ou catégories, exprimées
sous forme littérale ou par un codage numérique sur lequel des opérations
arithmétiques n'ont aucun sens.
On distingue des variables qualitatives ordinales ou nominales, selon que
les modalités peuvent être naturellement ordonnées ou pas.

ENSAS 2018/2019 7
ENSAS 2018/2019 8
Exemple 1:
• un contrôleur doit vérifier le bon fonctionnement d'une chaîne d'embouteillage
d'une cave coopérative.
Il note exactement le contenu de 100 bouteilles testées (en cl) :
74,3 75,2 73 75 75,6 ....
Il s'agit d'une série statistique brute résultant de la mesure de la variable (ou
caractère): « contenu » sur les individus (ou unités statistiques) : Bouteilles,
L’échantillon étudié comporte 100 individus. Le caractère étudié est quantitatif
et continu.

Exemple 2:

La population est constituée des 432 000 UV de produit des quatre secteurs
considérés, Le caractère est le secteur productif d’origine ce qui est une qualité. Le
caractère est donc qualitatif. Les Modalités sont au nombre de 4 : Marbre, Peaux,
chimie, tourisme…
ENSAS 2018/2019 9
Diagramme sectoriel

Category
Chimie
Marbre
Peaux
Tourisme

Diagramme en bâtons

120000

100000

80000

Effectif
60000

40000

20000

0
Chimie Marbre Peaux Tourisme

ENSAS 2018/2019 10
2.2.1- Cas d’une Variable quantitative discrète:

Valeurs de la
variable Effectifs Fréquences %

= × 100
Il existe un ordre naturel sur
… … … … les modalités:
< <⋯<
= × 100

… … … …

= × 100

Total 1 100

Graphique :
diagrammes en bâtons (en effectifs, fréquences, ou %) pour visualiser l'allure de
la distribution statistique.
Courbe cumulative des fréquences.

ENSAS 2018/2019 11
• Les représentations graphiques effectuées permettent de guider le
statisticien dans le choix d'un modèle probabiliste adapté aux données.
En effet, la fréquence = pourcentage d'observation de la modalité
dans l‘échantillon, est une estimation naturelle de la probabilité que la
variable prenne la valeur de la modalité , ( = ). Une loi de
probabilité vraisemblable pour est une loi telle que le diagramme des
( = ) soit proche, en un certain sens, du diagramme en bâtons.
ENSAS 2018/2019 12
Courbe cumulative:

• On définit la fonction qui à tout réel associe : =nombre


d'observations ≤ .
.
• On peut aussi tracer la courbe cumulative croissante des fréquence qui est le
( )
tracé de la fonction: = proportion d'observations = ≤ (est
appelée fonction de répartition empirique).

• La courbe cumulative croissante est une fonction en escalier et croissante

• Généralement Le traçage de la courbes cumulative croissante des fréquences


sert à comparer une distribution observée à une distribution "théorique" , et aide
au choix d’un modèle probabiliste vraisemblable.

ENSAS 2018/2019 13
Exemple: Les performances en jet de javelot de 100 joueurs sont présentés
dans le tableau suivant:

Longueur (m) 71 74 77 80 83 Total

Effectifs 6 17 41 27 9 100

Effectifs
cumulés 6 23 64 91 100
croissants

Fréquences 0,06 0,17 0,41 0,27 0,09 1

Fréquences
cumulées 0,06 0,23 0,64 0,91 1
croissantes

ENSAS 2018/2019 14
ENSAS 2018/2019 15
2.2- Cas d’une Variable quantitative continue

Dans ce cas les représentations du type diagramme en bâtons sont sans intérêt et
On considèrera deux types de représentations graphiques :
• L'histogramme
• La fonction de répartition empirique
A- l'histogramme:
Le principe de cette représentation est de regrouper les observations « proches » en
classes. Pour cela:
On commence par ordonner les données. Si l‘échantillon initial est noté:
, … , l‘échantillon ordonné sera noté: ∗ , … , ∗
La règle de Herbert Sturges suggère un nombre de classes égal à :
ln( )
! ≈1+
l n(2)
On se fixe une borne inferieure de l‘échantillon '( < ∗ et une borne
supérieure ' > ∗ avec:

∗ ∗ - ∗) ∗ ∗ - ∗)
'( = − 0,025( et ' = + 0,025(

ENSAS 2018/2019 16
• L’histogramme des effectifs de la distribution statistique: ,([. , . / [ /1 ≤ ≤
! 1 s’obtient en traçant pour tout ∈ 1, … , ! le rectangle de largeur L = . / - .
(amplitude d’une classe) , et d’aire ∝ et de hauteur ∝
4 5 −4

• Si l’histogramme est à pas égaux, la largeur de chaque rectangle est:


7 879
L = . / −. = = :;

• Dans le cas d’un histogramme des fréquences l’aire d’un rectangle est ∝ et la
hauteur: H∝
(4 5 −4 )

• Dans la pratique deux cas peuvent se présenter. Le cas où les classes sont d’égales
amplitudes et le cas où les amplitudes sont inégales.

ENSAS 2018/2019 17
Exemple 1: cas où les classes sont d’égales amplitudes
• Lors d’une course de vitesse, les 40 participants ont mis les temps (voir Tableau)
pour effectuer le parcours :
50.0 52.0 55.0 48.5
50.0 52.0 55.0 48.0
50.0 52.5 56.5 48.5
48.5 50.0 52.5 43.0
49.5 51.5 54.0 46.5
49.5 51.0 53.5 46.5
49.0 50.5 53.0 45.0
48.5 50.5 53.0 44.0
50.0 51.5 54.0 47.0
50.0 52.0 54.5 48.0

• Si on ordonne cette série on trouve: ∗ =43 et ∗


=> = 56,5
@A =(
• Le nombre de classes est : ! ≈ 1 + ≈7
@A ( )
• '( = ∗ − 0,025( =( ∗
- ∗ ) ≈ 43
∗ ∗
• 'E = =( + 0,025( =( - ∗ )≈ 57
7 87
• l'histogramme est à pas fixe, donc les classes sont de même largeur: F = G 9 = 2
E

ENSAS 2018/2019 18
• On obtient le tableau des classes suivant:
Temps en
mn [43;45[ [45;47[ [47;49[ [49;51[ [51;53[ [53;55[ [55;57[
(classes)
Effectifs 2 3 7 11 8 6 3
Hauteurs ∝ 1 1,5 3,5 5,5 4 3 1,5

• On représente ces données par un histogramme comme suit:

ENSAS 2018/2019 19
Exemple 2: Cas où les classes sont d’inégales amplitudes
On a recours à ce genre d’histogramme lorsque les données sont peu
denses dans certaines régions comme dans les queues de distribution.
Un groupe financier dispose de 250 agences bancaires réparties dans
l’ensemble du territoire nationale, enregistre le temps en heures de pannes
de ses guichets automatiques au cours de l’année 2011, Les résultats sont
inscrits dans le tableau ci-dessous.

Temps de
panne en [8 ; 8,4[ [8,4 ; 8,8[ [8,8 ;9,0[ [9 ; 9,2[ [9,2 ; 9,6[ [9,6 ; 10,2[ [10,2 ;
heures 10,9[
Nombre de 10 30 60 72 40 24 14
guichet
amplitudes 0,4 0,4 0,2 0,2 0,4 0,6 0,7
Hauteurs ∝ 25 75 300 360 100 40 20

ENSAS 2018/2019 20
• On obtient l’histogramme suivant:

ENSAS 2018/2019 21
C- courbe cumulative
• La courbe cumulative des fréquences de la distribution statistique:
KL
([. , . / [ /1 ≤ ≤ ! s’obtient en joignant les points H (. / ; ∑KL K )pour
variant de 1 à !
Exemple 3: considérons le tableau des classes vu dans un exemple précédent:

Temps en
mn [43 ; 45[ [45 ; 47[ [47 ; 49[ [49 ; 51[ [51 ; 53[ [53 ; 55[ [55 ; 57[
(classes)
Effectifs 2 3 7 11 8 6 3
Fréquence 0,050 0,075 0,175 0,275 0,200 0,150 0,075
Fréquence 0,050 0,125 0,300 0,575 0,775 0,925 1
cumulée

ENSAS 2018/2019 22
On obtient la courbe cumulative de fréquence ci-dessous:

Comme vu précédemment, Cette courbe est appelée aussi la fonction de


répartition empirique, elle aide à choisir le modèle probabiliste théorique
vraisemblable en déterminant un graphe qui ressemble a celui de la fonction
de répartition d'une loi théorique connue.
ENSAS 2018/2019 23
3- Indicateurs statistiques
3.1- Indicateurs de tendance centrale
A- Moyenne empirique:
• La moyenne empirique ou arithmétique d’une série statistique , , … , est
égale à la somme des valeurs observées, divisée par le nombre d’observations .
∑NO
On la note : ̅ =
• Si la série est pondérée, on écrit:
P P
∑O ∑O Q Q
=∑L =∑ L

̅= P
∑O
=

Q
Avec : = ∑ L et , , … , Q sont respectivement les effectifs des
observations , , … , Q et , , … , Q sont leurs fréquences.

ENSAS 2018/2019 24
Exemple 1:
Les performances en jet de javelot de 100 joueurs sont présentées dans le tableau
suivant:
Longueur 71 74 77 80 83
(m)
Effectifs 6 17 41 27 9
71 × 6 + 74 × 17 + 77 × 41 + 80 × 27 + 83 × 9
̅= = 77,48
6 + 17 + 41 + 27 + 9
• Si les observations sont groupées sous formes de classes la moyenne se calcule
4 /4 5
comme précédemment, en remplaçant par le centre : = de la
classe[. ; . / [.
Exemple 2:
Soit le tableau donnant les salaires en dirhams des cadres d’une entreprise et leur
fréquence:
_` a` b` a`
[5000 ; 7000[ 0,21 6000 0,21 d
[7000 ; 9000[ 0,34 8000 0,34 ̅ = c : = 10655
[9000 ; 14000[ 0,25 11500 0,25 L
[14000 ; 20000[ 0,15 17000 0,15
[20000 ; 30000[ 0,05 25000 0,05
25
ENSAS 2018/2019
B- Médiane empirique:

• Si est une variable discrète prenant valeurs ≤ ≤⋯≤ , on


appelle médiane un nombre réel ef tel qu’il y ait autant de valeurs
inférieurs ou égales à ef que de valeurs supérieures ou égales à ef .
Si: n= 2! + 1, c’est-à-dire n est impair ef = /
/
Si: n= 2!, c’est à dire n est pair par convention ef = 5

• Si est une variable continue, on appelle médiane le nombre réel ef abscisse


du point d’ordonnée de la courbe cumulative des fréquences, c’est-à-dire le
nombre réel solution de l’équation g ; =
• ef Appartient à la première classe [. ; . / [ (dont la fréquence cumulée
h est supérieure ou égale à 0,5(on a donc :h 8 < 0,5 et h ≥ 0,5 )
jk 84 (,d8Q l
• La valeur de ef s’obtient en résolvant: =
4 5 84 Q 8Q l
(,d8Q l
Donc : ef = . + (. / − . )
Q 8Q l
• La courbe cumulative des fréquences fournit graphiquement une valeur
approchée de ef
ENSAS 2018/2019 26
Exemple 1: considérons le tableau des effectifs suivant:
_` (m) 71 74 77 80 83

Effectifs 6 17 41 27 9

On a: = 6 + 17 + 41 + 27 + 9 = 100
= 2! = 100 h' m
EE/EE
Donc :ef = d( = = 77
Exemple 2: considérons une classe de 60 élèves qui ont eu les notes
suivantes dans un examen de statistique:
Notes 4 5 5,5 7 8,5 9 10 12 13
_`
Effectif 5 6 3 8 10 12 10 4 2
n`
Effectif 5 11 14 22 32 44 54 58 60
cumulé
ef = 8,5

ENSAS 2018/2019 27
Exemple 3:
Considérons le tableau suivant donnant la superficie de 100 parcelles de
terrains agricoles en hectares:

Superficie x en [20 ; 40[ [40 ; 60[ [60 ; 80[ [80 ; 100[ [100 ; 120[
ha
Effectif 12 31 32 15 10

Effectif cumulé 12 43 75 90 100

e o [60 ; 80[

ef − 60 50 − 43
=
80 − 60 75 − 43

⟺ e = 64,375

ENSAS 2018/2019 28
3.2- Indicateurs de position
A- Le Mode:
• Si est une variable discrète , on appelle mode qu’on note eq
toute valeur dont l’effectif (ou la fréquence) est maximum,
• Si X est une variable continue, on appelle classe modale toute
r
classe pour laquelle ou est maximum.
4 5 84 4 5 84
• Le mode eq permet de connaître la valeur la plus probable du
caractère.
• Le mode eq de l'histogramme est le milieu de la classe
correspondant au rectangle le plus haut.

ENSAS 2018/2019 29
Exemple : Considérons les deux séries statistiques vues précédemment et
représentées par les diagrammes suivants:

Cas d’une série à caractère discret Cas d’une série à caractère continue

eq ≈ 50
st =77 Classe Modale =[49 ; 51[
ENSAS 2018/2019 30
Remarque: La comparaison des trois paramètres ̅ , eu et ef donne
des indications sur la symétrie de la distribution.

ENSAS 2018/2019 31
B- les fractiles ou quantiles empiriques:
• Les Fractiles ou quantiles empiriques sont des valeurs qui partagent
l’échantillon ordonné en un certain nombre de parties de même effectif.
• s'il y a 2 parties, on retrouve la médiane empirique ef
• s'il y a 4 parties, on parle de quartiles, notés v ⁄w ; v ⁄y = ef ; vz⁄w
• s'il y a 10 parties, on parle de déciles, notés { ⁄ 9 ; … ; {|⁄ 9
• s'il y a 100 parties, on parle de centiles, notés } ⁄ 99 ; … ; }|⁄ 99
• Etc…

Remarque: Les déciles, et surtout les centiles, n'ont de sens que si n est
suffisamment grand (plusieurs centaines au moins pour des centiles).

ENSAS 2018/2019 32
2.3.3- Indicateurs de dispersion ou de variabilité
A- l ’étendue:
• L’étendue R est la mesure la plus simple de la dispersion, c’est l’intervalle
complet de la distribution. Elle exprime la distance entre la borne inférieure
(valeur minimale) et la borne supérieure de la distribution (valeur maximale).
Plus l’intervalle est grand, plus les valeurs sont dispersées autour de la
moyenne..
Exemple:
Considérons la série statistique suivante:
6,1 2,3 8,3 5,0 9,1 2,1 5,9 5,4 8,9 7,9
Min=2,1
Max= 9,1
R = Max-Min =9,1- 2,1 = 7,0

ENSAS 2018/2019 33
B- Les écarts inter-quantiles:

• Ecart inter-quartile: ~• = vz⁄w − v ⁄w


• Ecart inter-décile: ~€ = { ⁄|9 − {|⁄ 9
• Ecart inter-centile: ~• = } ⁄|| − } ⁄ 99

Remarque :
Tous ces écarts permettent de mesurer la dispersion autour de la médiane.

ENSAS 2018/2019 34
Diagramme en boîte (ou " boîte à moustaches"):

• Le diagramme en boîte permet de résumer la série statistique : on y trouve les


valeurs de la médiane, des quartiles, ainsi que les valeurs extrêmes de la série (la
plus grande et la plus petite)
• La « boîte » contient la moitié de la population.

ENSAS 2018/2019 35
D- Ecart absolu moyen
• L’écart absolue moyen par rapport à la moyenne noté ̅ , encore appelé écart
arithmétique, est la moyenne arithmétique des valeurs absolues des écarts de
tous les termes de la série à leur moyenne arithmétique.
• Si nous disposons d’une série statistique: , ,…,

∑ L − ̅
̅ =
• Si la série est pondérée, on écrit: Q
∑QL − ̅ ∑QL − ̅
̅ = = =c − ̅
∑QL
L
Q
Avec : = ∑ L et , , … , Q sont respectivement les effectifs des
observations , , … , Q et , , … , Q sont leurs fréquences.

ENSAS 2018/2019 36
E- Variance et écart type:
• La variance empirique est la mesure de dispersion la plus utilisée. Elle est basée
sur la distance au carré entre la valeur d’un cas et la moyenne de l’échantillon.
• La variance (notée ‚ ²) est la somme de toutes les distances au carré divisée par
le nombre de cas.
∑L − ̅ ²
„ =
∑NO ²
Il est facile de vérifier : „ = − ̅²
P
∑O 8 ̅ ² Q
• Si la série statistique est pondérée on écrit: „ = =∑ L − ̅ ²
∑NO ²
Il est facile de vérifier : „ = − ̅ ² = ∑ L ² − ̅²

• Si les variables de la série sont regroupées en classes on remplace les par les
P
∑O …8 ̅ ² Q
centres de classes : : „ = =∑L : − ̅ ²

ENSAS 2018/2019 37
• Il est possible d’obtenir un résultat dans la même échelle que la mesure
originale. Il suffit de prendre la racine carrée de la variance. On obtient
alors l’écart-type qui indique si la moyenne représente bien les données.


„ = „
• Si l'écart-type est petit, les différentes observations sont situées près de la
moyenne. Dans le cas contraire, les observations s'éloignent de la
moyenne
• Un écart-type nul signifie que toutes les observations ont la même valeur.

Remarque:
Minitab donnent la valeur de s² au lieu de „ ∶

∑L − ̅
„² =
−1
On va voir l’explication dans le chapitre suivant (Estimation)
ENSAS 2018/2019 38
F- Coefficient de variation:
• La magnitude d’un écart-type dépend de l’unité de mesure. L’écart-type calculé
à partir d’une donnée mesurée en jours est beaucoup plus grand qu’avec une
donnée mesurée en années. De la même manière, l’écart-type de la variable «
salaire » en dollars sera beaucoup plus grand que celui de la variable « âge » en
années.

• Le coefficient de variation noté }ˆ exprime l’écart-type en termes de


pourcentage par rapport à la moyenne. Ceci permet de comparer plusieurs
variables entre elles, même si l’unité de mesure est différente pour chaque
variable.

}ˆ = × 100
̅

• Si le coefficient de variation égale 100 %, c’est que l’écart-type égale la


moyenne.

ENSAS 2018/2019 39
Exemple:
Considérons les deux séries statistiques suivantes concernant les notes
obtenues par deux groupes de 60 d’élèves ingénieurs à l’épreuve X :

Groupe A Groupe B
Note Effectif Note Effectif
4.0 1.0 4.0 4.0
5.0 1.0 5.0 4.0
6.0 3.0 6.0 4.0
7.0 4.0 7.0 4.0
8.0 8.0 8.0 7.0
9.0 12.0 9.0 4.0
10.0 8.0 10.0 5.0
11.0 6.0 11.0 6.0
12.0 5.0 12.0 5.0
13.0 4.0 13.0 4.0
14.0 3.0 14.0 3.0
15.0 2.0 15.0 4.0
16.0 2.0 16.0 4.0
17.0 1.0 17.0 2.0
ENSAS 2018/2019 40
Résultat d’analyse descriptive trouvé par Minitab:

ef (‰) ≈ ef (H)

Š ‰ = Š(H)

~• (‰) < ~• (H)

Diagrammes en boîte des séries des notes des groupes A et B

ENSAS 2018/2019 41
Les deux groupes A et B ont pratiquement la même moyenne , la même
médiane et même Etendues mais les notes du groupe B sont fortement
dispersées que celles du groupe A car l’écart-interquartile et l’écart-type
de B sont plus grand que ceux de A

ENSAS 2018/2019 42

Vous aimerez peut-être aussi