Vous êtes sur la page 1sur 83

Statistiques et Probabilités

Introduction
• Exemple typique de situation à laquelle est
confrontée le chercheur ou l’ingénieur
On veut connaître un paramètre à partir d’une mesure

Exemple on souhaite connaître la conductivité thermique d’un matériau.

Banc de conductivité thermique


Que vaut son  (W/m.K) ?
Résultats des mesures
On réalise donc une mesure :  = 0.188 W/m.K

On répète l’expérience 10 fois pour « vérifier » le résultat

expérience 1 0.188 Pourquoi n’ai-je pas


expérience 2 0.177 toujours la même valeur ?
expérience 3 0.189
expérience 4 0.178
expérience 5 0.178
Je fais quoi de tout ça ?
expérience 6 0.176
expérience 7 0.174
expérience 8 0.19
expérience 9 0.187
expérience 10 0.183
Quelle est la bonne valeur ?
Pourquoi n’ai-je pas toujours la même valeur ?
• L’opérateur replace l’échantillon de façon un peu différente

• L’opérateur lit les différentes valeurs avec une erreur

• On utilise des échantillons différents

• Les appareils de mesure restitue la grandeur physique avec une erreur

• Etc.
Il y a tout un tas de
paramètres que je ne peux
pas maîtriser ou prendre en
compte. Mon résultat contient
une part d’aléa !
Pourquoi n’ai-je pas toujours la même valeur ?
Les données comportent des incertitudes et présentent des variations
pour plusieurs raisons :
• le déroulement des phénomènes observés n’est pas prévisible à l’avance
avec certitude
• toute mesure est entachée d’erreur
• seuls quelques individus sont observés
• ...

 données issues de phénomènes aléatoires


 intervention du hasard et des probabilités
Je fais quoi de tout ça ?
Pour régler ça, je vais calculer
la valeur moyenne !

• Etc.

0.188 + 0.177 + 0.189 + 0.178 + 0.178 + 0.176 + 0.174 + 0.19 + 0.187 + 0.183
= 0.182
10
Je refais cette série d’essai
Ça ressemble, mais on a
encore des valeurs différentes! expérience 1 0.188
expérience 2 0.188
expérience 3 0.175
expérience 4 0.171
expérience 5 0.183
expérience 6 0.175
expérience 7 0.184
La valeur moyenne a changé
expérience 8 0.178
aussi. Est-ce qu’elle ne risque
expérience 9 0.174
pas de trop bouger si je fais
encore des essais ? expérience 10 0.184

0.188 + 0.188 + 0.175 + 0.171 + 0.183 + 0.175 + 0.184 + 0.178 + 0.174 + 0.184
= 0.180
10
J’ai besoin d’outils pour maîtriser au
mieux cette incertitude pour extraire des
informations utiles des données, par
l’intermédiaire de l’analyse des
variations dans les observations.

Je vais devoir m’appuyer sur la théorie


des probabilités
1 Statistiques descriptives
1 Statistiques descriptives
2 Introduction àà la
2 Introduction lathéorie
théoriedesdes
probabilités
probabilités
3 Estimation
3 Estimationparamétrique
paramétrique

4 Introduction aux
4 Introduction auxtests
testsd’hypothèse
d’hypothèse
Plan du cours
• Introduction
– Bases de la statistique descriptive
– Vocabulaire
– Tableaux statistiques
• Représentations graphiques
– Histogrammes
– Fonction de répartition empirique
• Indicateurs statistiques
– Indicateurs de localisation ou de tendance centrale
– Indicateurs de dispersion ou de variabilité
• Corrélation et causalité
– Régression linéaire
– Exemples de corrélations
Terminologie
• On étudie un caractère X prenant ses valeurs dans
Ω, sur une population P.
• Exemple : si l’échantillon est un groupe de TD de la
FSA
– un individu est un étudiant
– la population peut être l’ensemble des étudiants de la
FSA (ou du pôle Béthunois, ou de l’université d’Artois, ou
…)
– les variables étudiées peuvent être le sexe, la taille, l’âge,
le nombre de frères et sœurs, la moyenne aux examens,
le nombre de kilomètres effectués pour venir en cours,
….
Terminologie et objectifs
• Il n’est souvent pas possible d’étudier ce caractère sur tous les
individus d’une population P (population trop grande,
opération trop coûteuse, trop longue) , mais seulement sur
une sous-population de P de taille n.
• On notera alors :
– la sous population : {i1,…, ij,…,in} un ensemble de n individus
choisis au hasard dans P.
– l’échantillon de données : {x1,…, xj,…,xn} les n valeurs observées du
caractère X sur les individus de la sous-population.

• Deux problèmes se posent alors :


– 1 Quelles informations sur le caractère X peut-on tirer de
l’échantillon ?
– 2 Quelle prévision pourrait on faire sur un individu non observé de
P à partir des données observées x1,…, xj,…,xn?
Terminologie
• Chaque individu est décrit par un ensemble de
variables X.
• Ces variables peuvent être classées selon leur nature :
– variable qualitative s’exprimant par l’appartenance à une
modalité. Ω={Homme, Femme} ; Ω ={yeux noirs, yerts
marrons, yeux verts, yeux bleus}
– variable quantitative, s’exprimant par des nombres réels, par
exemple la taille des individus ou les résultats d’un examen.
• variables quantitatives discrètes lorsque est une suite finie ou infinie
d’éléments de N (ex Ω={0,1,2,3} ; Ω= N)
• variables quantitatives continues si toutes les valeurs d’un intervalle
de R sont acceptables.
Tableaux statistiques - variables discrètes ou quantitatives

• n la taille de l’échantillon
• k le nombre de modalités.
• mi ; 𝑖 ∈ [1; 𝑘] les modalités
• ni le nombre d’occurences (l’effectif) de mi dans l’échantillon
• fi la fréquence correspondante.

• on a
▪ 𝑛 = σ𝑘𝑖=1 𝑛𝑖
▪ 𝑓𝑖 = 𝑛𝑖Τ𝑛
▪ 1 = σ𝑘𝑖=1 𝑓𝑖
Tableaux statistiques – 1er exemple
• Exemple : nombre de pièces des logements :
• n=35672000 la taille de l’échantillon Variables quantitatives discrètes
• k=6 le nombre de modalités.
• mi ; 𝑖 ∈ [1; 6] les modalités
• ni le nombre d’occurences (l’effectif) de mi dans l’échantillon
• fi la fréquence correspondante.

mi 1 2 3 4 5 6

ni 2283008 5101096 8703968 10166520 6099912 3281824

fi (%) 6.4 14.3 24.4 28.5 17.1 9.2


• on a

– 𝑛 = σ𝑘𝑖=1 𝑛𝑖 = 2283008 +….+3281824= 35 672 000


– k=6
– 𝑓𝑖 = 𝑛𝑖 Τ𝑛
– 1 = σ𝑘𝑖=1 𝑓𝑖 = 0.064 + 0.143 + 0.244 + 0.285 + 0.171 + 0.092
Données brutes : étude de DPE
10404 valeurs !
consommation classe classe estimation deperdition deperdition
estimation ges annee construction surface habitable besoin chauffage
énergie consommation ges enveloppe renouvellement air
345 F 19 C 1989 27.5 46.57 64.56 12.61
213.1 D 8.75 B 2006 43 45.91 71.28 26.89
286 E 10 B 2006 99.85 197.56 257.8 67.88
260 E 16 C 1978 329.19 676.03 887.33 211.4
231 E 13 C 1975 120 260.06 338.11 98.11
429 F 22 D 1982 33.58 63.48 78 22.29
308 E 18 C 1948 66.12 194.04 248.02 56.38
166 D 7 B 1948 89 90.3 139.7 70.1
365.4 F 109.62 G 1973 72 201.74 232.61 63.5
80.92 B 18.93 C 1994 100 107.92 193.65 60.49
96 C 4 A 2009 121.8 141.57 247.62 76.99
168.31 D 39.38 E 1903 120 16.81 48.96 48.96
118.26 C 35.48 D 1997 127.7 138.45 209.52 59.84
227 D 9 B 1983 23.44 33 52.59 13.87
221 D 10 B 2004 152 307.71 394.47 75.47
461 G 22 D 1983 16.26 34.59 44.33 10
131.87 C 30.64 D 2003 132.5 182.62 273.75 85.57
On dispose ici de 10404 lignes qui correspondent chacune à un bâtiment analysé
177.12 D 5.62 A 1995 44.09 41.77 69.12 26.12
La taille de l’échantillon est n=10404
184.8 D 43.24 E 1960 52 84.23 115.83 34.13

Chaque bâtiment est un individu i de l’échantillon.


Chaque individu fait l’objet de plusieurs observations (caractères) rangées en
colonnes :
Ex : consommation d’énergie : variable quantitative continue
Classe de consommation : variable qualitative (catégorielle)

Données brutes : étude de DPE
Caractère X étudié

consommation classe classe estimation deperdition


estimation ges annee construction surface habitable besoin chauffage
énergie consommation ges enveloppe
1 345 F 19 C 1989 27.5 46.57 64.56
2 213.1 D 8.75 B 2006 43 45.91 71.28
3 286 E 10 B 2006 99.85 197.56 257.8
4 260 E 16Ex : x =308
7 C 1978 329.19 676.03 887.33
5 231 E 13 C 1975 120 260.06 338.11
6 429 F 22 D 1982 33.58 63.48 78
7 308 E 18 C 1948 66.12 194.04 248.02
8 166 D 7 B 1948 89 90.3 139.7
9 365.4 F 109.62 G 1973 72 201.74 232.61
10 80.92 B 18.93 C 1994 100 107.92 193.65
11 96 C 4 A 2009 121.8 141.57 247.62
12 168.31 D 39.38 E 1903 120 16.81 48.96
13 118.26 C 35.48 D 1997 127.7 138.45 209.52
14 227 D 9 B 1983 23.44 33 52.59
15 221 D 10 B 2004 152 307.71 394.47

10404 valeurs !
Variables quantitatives continues
On peut trouver toutes les valeurs réelles possibles

On s’intéresse ici à un unique caractère : la consommation d’énergie


Répartition par classes
La plus grande des valeurs : xmax
maximum 1187
minimum 32 La plus petite des valeurs : xmin
amplitude 1155
n 10404 L’écart plus grande – plus petite : xmax-xmin

Ici 12 classes (k)


classes
lim basse lim haute effectifs = ni fréquence =fi fréquence en %
[0;100[ 0 0 0.0000 0
0 100 301 0.0289 2.89
100 200 3221 0.3096 30.96
200 300 3925 0.3773 37.73
300 400 1894 0.1820 18.20
𝑛 = σ𝑘𝑖=1 𝑛𝑖 = 10404
400 500 686 0.0659 6.59 𝑘
500 600 212 0.0204 2.04
1 = ෍ 𝑓𝑖
600 700 98 0.0094 0.94
𝑖=1
700 800 39 0.0037 0.37
800 900 14 0.0013 0.13
900 1000 7 0.0007 0.07
1000 1100 4 0.0004 0.04
1100 1200 3 0.0003 0.03
Données brutes : étude de DPE
Extrait..
consommation classe classe estimation deperdition deperdition
estimation ges annee construction surface habitable besoin chauffage
énergie consommation ges enveloppe renouvellement air
345 F 19 C 1989 27.5 46.57 64.56 12.61
213.1 D 8.75 B 2006 43 45.91 71.28 26.89
286 E 10 B 2006 99.85 197.56 257.8 67.88
260 E 16 C 1978 329.19 676.03 887.33 211.4
231 E 13 C 1975 120 260.06 338.11 98.11
429 F 22 D 1982 33.58 63.48 78 22.29
308 E 18 C 1948 66.12 194.04 248.02 56.38
166 D 7 B 1948 89 90.3 139.7 70.1
365.4 F 109.62 G 1973 72 201.74 232.61 63.5
80.92 B 18.93 C 1994 100 107.92 193.65 60.49
96 C 4 A 2009 121.8 141.57 247.62 76.99
168.31 D 39.38 E 1903 120 16.81 48.96 48.96
118.26 C 35.48 D 1997 127.7 138.45 209.52 59.84
227 D 9 B 1983 23.44 33 52.59 13.87
221 D 10 B 2004 152 307.71 394.47 75.47
461 G 22 D 1983 16.26 34.59 44.33 10
131.87 C 30.64 D 2003 132.5 182.62 273.75 85.57
177.12 D 5.62 A 1995 44.09 41.77 69.12 26.12
184.8 D 43.24 E 1960 52 84.23 115.83 34.13

10404 valeurs !
Variables catégorielles
Répartition par classe

Classe =mi effectif =ni fréquence=fi


A 12 0.001
B 171 0.016 𝑛 = σ𝑘𝑖=1 𝑛𝑖 = 10404
𝑘
C 1387 0.133
D 3593 0.345 1 = ෍ 𝑓𝑖
𝑖=1
E 3240 0.311
F 1440 0.138
G 561 0.054
Représentations graphiques
• IL existe un grand nombre de types de
représentations graphiques.
• Les principales :
– Diagramme en bâtons
– Diagrammes sectoriels (camembert)
– Histogramme des fréquences
– Graphique des fréquences cumulées (= fonction de
répartition)
– Boite à moustache – Boxplot (on verra plus tard..)
• ...
Représentations graphiques
Variables discrètes – Diagrammes en bâtons
mi 1 2 3 4 5 6

ni 2283008 5101096 8703968 10166520 6099912 3281824

fi (%) 6.4 14.3 24.4 28.5 17.1 9.2

Diagrammes en bâtons :
à chaque modalité
correspond un rectangle
vertical dont la hauteur
est proportionnelle à la
fréquence relative de la
modalité.
Représentations graphiques
Variables discrètes – Diagrammes en bâtons
mi 1 2 3 4 5 6

ni 2283008 5101096 8703968 10166520 6099912 3281824

fi (%) 6.4 14.3 24.4 28.5 17.1 9.2

Diagrammes en bâtons :
à chaque modalité
correspond un rectangle
vertical dont la hauteur
est proportionnelle à la
fréquence relative de la
modalité.
Représentations graphiques
Variables discrètes – Diagrammes sectoriels

Diagrammes sectoriels (ou en


camemberts) : à chaque
modalité
correspond un secteur de
disque dont l’aire est
proportionnelle à la
fréquence relative de la
modalité ou un secteur dont
l’angle au centre vaut :
𝛼𝑖 = 𝑓𝑖. 360°
mi 1 2 3 4 5 6

ni 2283008 5101096 8703968 10166520 6099912 3281824

fi 6.4 14.3 24.4 28.5 17.1 9.2

alpha i 23 51 88 103 62 33
Représentations graphiques
Variables continues – Histogramme des effectifs
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et les hauteurs sont les effectifs.

classes effectifs
[0;100[ 301
[100;200[ 3221
[200;300[ 3925
[300;400[ 1894
[400;500[ 686
[500;600[ 212
[600;700[ 98
[700;800[ 39
[800;900[ 14
[900;1000[ 7
[1000;1100[ 4
[1100;1200[ 3
Représentations graphiques
Variables continues – Histogramme des fréquences
L’histogramme est la figure constituée de rectangles dont les bases sont
les classes et dont les aires sont égales aux fréquences de ces classes.
Autrement dit, la hauteur hi du ième rectangle est ni=n.ampi.
ampi est la largeur (amplitude) de la classe i (souvent constante)

hauteurs
classes fréquences histogramme
[0;100[ 0.02893118 0.000289
[100;200[ 0.30959246 0.003096
[200;300[ 0.37725875 0.003773
[300;400[ 0.18204537 0.001820
[400;500[ 0.06593618 0.000659
[500;600[ 0.02037678 0.000204
[600;700[ 0.00941945 0.000094
[700;800[ 0.00374856 0.000037
[800;900[ 0.00134564 0.000013
[900;1000[ 0.00067282 0.000007
[1000;1100[ 0.00038447 0.000004
[1100;1200[ 0.00028835 0.000003

Ici ampi = 100 quelque soit i

La surface totale des rectangles vaut 1


Fonction de répartition empirique
• Elle permet de répondre à la question suivante : « Quel est
le pourcentage de valeurs inférieures à une valeur
particulière x ? »
• Exemple : on considère la série des consommations
d’énergie de l’échantillon de n individus. On classe les
observations par ordre croissant.
• La fonction de répartition empirique Fn associée à un
échantillon x1, …,xn (ordonné) est la fonction définie par :
Fonction de répartition empirique Fn
• La fonction Fn permet de répondre à la question suivante : « Quel est
le pourcentage de valeurs inférieures à une valeur particulière x ? »
• Exemple : on considère la série des consommations d’énergie de
l’échantillon de n individus. On classe les observations par ordre
croissant. On les note maintenant x* (série ordonnée)
consommation classe
x*1=32
estimation ges
énergie consommation
1 32 A 2
2 39.45 A 1.88
3 40 A x*5=40.48
3
4 40 A 10
5 40.48 A 2.42
6 43.66 A 2.06
7 44 A 10
8 46 A 10
9 46.12 A 10.79
10 47 A 1
x*1<x*2<x*3<x*4<…<x*i<……<x*10404
Fonction de répartition empirique Fn
• La fonction Fn permet de répondre à la question suivante : « Quel est
le pourcentage de valeurs inférieures à une valeur particulière x ? »
• Cas 1 : x<x*1 ici x<32 donc il n’y a aucune valeur inférieure à x
Fn(x)=0

consommation classe
x*1=32
estimation ges
énergie consommation
1 32 A 2
2 39.45 A 1.88
3 40 A x*5=40.48
3
4 40 A 10
5 40.48 A 2.42
6 43.66 A 2.06
7 44 A 10
8 46 A 10
9 46.12 A 10.79
10 47 A 1
x*1<x*2<x*3<x*4<…<x*i<……<x*10404
Fonction de répartition empirique Fn
• La fonction Fn permet de répondre à la question suivante : « Quel est
le pourcentage de valeurs inférieures à une valeur particulière x ? »
• Cas 2 : x*i<x<x*i+1 exemple x=225.38 on constate que x*4748<x<x*4749
dans la série il y a donc 4748 valeurs inférieures à x soit
1 10404 4748 45.6 % des
Fn (225.38) = 
10404 i =1
1xi  225.38 =
10404
= 0.456 valeurs sont
inférieures à
4743 225.16 225.38
4744 225.18
On compte toutes les valeurs inférieures à 225.38 c’est-à-dire 4745 225.23 x*4748=225.35
qu’on ajoute 1 pour chaque valeur inférieure trouvée
4746 225.31
4747 225.33
Donc pour toute valeur x 4748 225.35
1 n i
Fn ( x) = 1xi  x =
4749 225.4
xi*  x  xi*+1 4750 225.52
n i =1 n 4751 225.54 x*4749=225.4
4752 225.56
4753 225.65
<x*4<…<x*
x*1<x*2<x*34754 i<……<x*10404
225.68
4755 225.68
Fonction de répartition empirique Fn
• La fonction Fn permet de répondre à la question suivante : « Quel est
le pourcentage de valeurs inférieures à une valeur particulière x ? »
• Cas 3 : x>x*10404 ici si x>1187 toutes les valeurs sont inférieures donc
à x Fn(x)=1 (100%)
x*10404=1187
10402 1122
10403 1133
10404 1187

x*1<x*2<x*3<x*4<…<x*i<……<x*10404

Donc pour toute valeur x


1 n i
x xx
*
i
*
i +1 Fn ( x) = 1xi  x = Ici toutes les valeurs xi sont
n i =1 n inférieures à x on trouve bien
1 n 10404
Fn ( x) = 1xi  x = =1
n i =1 10404
Fonction de répartition empirique Fn
Courbe obtenue à partir des 10404 valeurs

Si x>1187 Fn(x)=1

L’essentiel de l’accroissement se produit dans cette


zone. C’est la zone qui concentre l’essentiel des
valeurs

Si x<32 Fn(x)=0
Fonction de répartition empirique Fn
Autre utilisation de Fn…

80% des valeurs sont inférieures à x0

x0
Fonction de répartition empirique
• Qu’est ce que cela donne avec des données réparties dans
k classes (modalités) ?

Fréquences
classes effectifs fréquences cumulées
[0;100[ 301 0.029 0.029
[100;200[ 3221 0.310 0.339
[200;300[ 3925 0.377 0.716
[300;400[ 1894 0.182 0.898
[400;500[ 686 0.066 0.964
[500;600[ 212 0.020 0.984
[600;700[ 98 0.009 0.994
[700;800[ 39 0.004 0.997
[800;900[ 14 0.001 0.999
[900;1000[ 7 0.001 0.999
[1000;1100[ 4 0.000 1.000
[1100;1200[ 3 0.000 1.000

Si x  classe c
k
Fn ( x) =  f i classe i c
i =1
En superposant les 2 approches

Fréquences cumulées
1.000

0.900

0.800

0.700

0.600

0.500

0.400

0.300

0.200

0.100

0.000

Fréquences cumulées
1.000
0.800
0.600
0.400
On constate que le regroupement en classes
0.200 modifie l’information.
0.000
[0;100[
[100;200[
[200;300[
[300;400[
[400;500[
[500;600[
[600;700[
[700;800[
[800;900[
[900;1000[
[1000;1100[
[1100;1200[
Indicateurs statistiques
• Indicateurs de localisation ou de tendance centrale
• Indicateurs de dispersion ou de variabilité
La médiane
La médiane partage la série en 2 sous-ensembles de même effectif donc
50% - 50%. Médiane
50% 50%

x*1 x*n

 x(*n +1) / 2 si n impair



xméd =  xn* / 2 + xn* / 2+1
 2
si n pair

Ex : n=10404 pair 10404/2=5202 10404/2+1=5203


5201 232.56
5202 232.65
5203 232.76
Limite de 50%
5204 232.81
x50%=232.705
*
x5202 + x5203
*
232.65 + 232.76
= = 232.705
2 2
Médiane
𝑛 10404 5201 232.56
= = 5202
2 2 5202 232.65
Limite de 50%
5203 232.76
5204 232.81 x50%=232.705

Fn(x)
1

0.9

0.8

0.7 Graphiquement, sur la


0.6 fonction de répartition
0.5 0.5

0.4

0.3

50 % des
0.2 valeurs 50 % des valeurs
0.1

0
0 200 400 600 800 1000 1200 1400

232.705
Les quantiles empiriques
La médiane partage la série en 2 sous-ensembles de même effectif donc
50%-50%. Médiane
50% 50%

x*1 x*n

On peut imaginer tout autre découpage :

Exemple : Le 1er quartile partage la série en 2 sous-ensembles suivant la répartition


25%-75%.

1er quartile
25% 75%

x*1 x*n
1er quartile limite des 25%
1er quartile
25% 75%

x*1 x*n
2600 178.72
n 10404
= = 2601 2601
2602
178.75
178.76
Limite de 25%
4 4 2603 178.78
x25%=178.755
Fn(x)
1

0.9

0.8

0.7

0.6

0.5

0.4

0.3
0.25 0.2

25 % des0.1valeurs 75 % des valeurs


0
0 200 400 600 800 1000 1200 1400

178.755
3ème quartile limite des 75%
3ème quartile
75% 25%

x*1 x*n
7802 312.05
3 3
n = .10404 = 7803 7803
7804
312.12
312.16 Limite des 75%
4 4 7805 312.17
x75%=312.14
Fn(x)
1

0.9

0.8
0.75 0.7

0.6

0.5

0.4

0.3

0.2
75 % des valeurs 25 % des valeurs
0.1

0
0 200 400 600 800 1000 1200 1400

312.14
Autres quantiles : les déciles
Fn(x)
1

0.90 0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.10 0.1

0
0 200 400 600 800 1000 1200 1400

1er décile = x10% 9ème décile = x90%


Etc.
Indicateurs statistiques
• Indicateurs de localisation ou de tendance centrale
• Indicateurs de dispersion ou de variabilité
Comparaison de 2 séries de mesures

Ces 2 séries ont exactement


la même valeur moyenne !

Série de mesures
x = 0.180
0.3
La tendance centrale (ici la
0.25 moyenne) ne suffit pas
pour décrire la série.
valeurs

0.2

0.15

0.1
0 2 4 6 8 10 12
numéro de la mesure
Mesures de la dispersion
Idée : étudier les écarts (distances) de chaque valeur par rapport à la
moyenne.
Série de mesures
0.3

(x − x )
0.25

i
valeurs

0.2

x = 0.180
0.15

0.1
0 2 4 6 8 10 12
numéro de la mesure

On étudie alors le comportement « moyen » de ces écarts.


Ecart moyen par rapport à la moyenne
Série de mesures
0.3

(x − x )
0.25

valeurs i
x = 0.180
0.2

0.15

0.1
0 2 4 6 8 10 12
numéro de la mesure

moyenne des écarts =


(x − x ) + (x ) (
− x + x3 − x + .... + xi − x + ... + xn − x
1 2 ) ( ) ( )
n
x1 + x2 + ... + xn − x − x − ... − x
moyenne des écarts =
n
x1 + x2 + ... + xn − n.x x1 + x2 + ... + xn
moyenne des écarts = = −x = x−x =0
n n
Les écarts positifs ou négatifs s’annulent. Ça ne marche pas !
Dispersion
2 possibilités pour éviter que les écarts s’annulent :
• On utilise les valeurs absolues : Ecart moyen
• On utilise les valeurs au carré : Ecart type

x1 − x + x2 − x + ... + xi − x + ... + xn − x
Ecart moyen = EM =
n
1 i =n
EM =  xi − x
n i =1
Ecart moyen

1 i =n
EM =  xi − x = 0.0012
n i =1

Série de mesures
0.3

0.25

1 i =n
EM =  xi − x = 0.0539
valeurs

0.2

0.15
n i =1
0.1
0 2 4 6 8 10 12
numéro de la mesure
Ecart type empirique et variance empirique

Variance =
(x − x )² + (x
1 ) ( ) (
− x ² + .... + xi − x ² + ... + xn − x ²
2 )= s²
n
1 i =n
s² =  xi − x ²
n i =1
( )
« L’écart type est la racine carrée de la variance »

Ecart type =
(x − x )² + (x
1 2 ) ( ) ( )
− x ² + .... + xi − x ² + ... + xn − x ²
= s² = s
n

s=
1 i =n

n i =1
xi − x ² ( )
Ecarts types et variances (empiriques)
Variance
( )
2
1 i =n
s² =  xi − x = 1,76.10 −6
n i =1
Ecart type
( )
2
1 i =n
s= 
n i =1
xi − x = 1,16.10 −6 = 0.0013

Coefficient de variation Cv
s 0.0013
= = 0.0073 = 0.73%
x 0.18

Série de mesures
0.3
Variance
( )
2
1 i =n
s² =  xi − x = 3,41.10 −3
0.25 n i =1
Ecart type
valeurs

( )
0.2 2
1 i =n
0.15
s= 
n i =1
xi − x = 3,41.10 −3 = 0.058

Coefficient de variation Cv
0.1
s 0.058
= = 0.325 = 32.5%
0 2 4 6 8 10 12
numéro de la mesure
x 0.18
Etendue interquartile
Amplitude de la plage des 50% des valeurs situées au centre des observations.
Fn(x)
1

0.9

0.8

0.7
0.75 Les 50% des valeurs situées au centre des
0.6 observations sont situées dans cet intervalle.
0.5
Q3-Q1=312.14-178.755=133.385

0.4

0.3

0.25
0.2

0.1

0
0 200 400 600 800 1000 1200 1400
1er quartile= x25% 3ème quartile = x75%
Q1 Q3
Etc.
Exercice
• Soit l’ensemble de valeurs suivant de taille N = 5
2, 7, 3, 12, 9

σ𝑁
𝑖=1 𝑥𝑖 2+7+3+12+9
• La moyenne 𝑥ҧ = = = 6.6
𝑁 5

2 σ𝑁
𝑖=1 𝑥𝑖 −𝑥ҧ
2
• La variance 𝜎 = =
𝑁
(2−6.6)2 + (7−6.6)2 + (3−6.6)2 + (12−6.6)2 + (9−6.6)2
= 13.84
5

• L’ecart-type 𝜎 = 𝑉 = 13.84 = 3.72


Rappel
• La fonction Fn permet de répondre à la question suivante :
« Quel est le pourcentage de valeurs inférieures à une
valeur particulière x ? »
• La médiane partage la série en 2 sous-ensembles de même
effectif donc 50% - 50%

Variance =
(x − x )² + (x
1 2 ) ( ) ( )
− x ² + .... + xi − x ² + ... + xn − x ²
= s²
n
1 i =n
(
s² =  xi − x ²
n i =1
)

s=
1 i =n

n i =1
(
xi − x ² )
Remarque sur le calcul de la variance empirique
1 i =n
n i =1
( )
1 i =n
s² =  xi − x ² =  ( x ² i − 2.xi x + x ² )
n i =1
1 i =n 1 i =n 1 i =n
s² =  ( x ² i ) − 2  ( xi x ) +  ( x ² )
n i =1 n i =1 n i =1
1 i =n 1 i =n 1 i =n
s² =  ( x ² i ) − 2 x  ( xi ) + x ² 1
n i =1 n i =1 n i =1

s² = x ² − 2 x.x + x 2 = x ² − 2 x 2 + x 2

s² = x ² − x 2

La variance est égale à la moyenne des carrés moins le carré de la moyenne


Indicateur de tendance centrale
Définir une valeur autour de laquelle se repartissent les observations
Si on ne devait retenir qu’une seule valeur !

• La moyenne empirique Ici les xi sont


les centres de
1 k
x =  ni .xi
n classe
1
x= 
n i =1
xi
n i =1

x = 257.25 x = 258.24

Remarque : Impact des valeurs aberrantes


Des valeurs exagérément grandes ou petites par rapport aux autres
valeurs de l’échantillon peuvent fortement influer sur la moyenne qui
est sensibles aux extrêmes.
Cas des erreurs de mesure, problème de capteur, erreur de calcul
Boîte à moustaches – Boxplot
Il s’agit d’une représentation graphique qui synthétise
les différents indicateurs

Valeur Max

3ème quartile (Q3)

Médiane (Q2)

1er quartile (Q1)

Valeur Min
Valeur Moyenne
Boîte à moustache – Boxplot

Série de mesures
0.3

0.25
valeurs

0.2

0.15

0.1
0 2 4 6 8 10 12
numéro de la mesure
Boîte à moustache - Boxplot

Valeurs considérées
comme aberrantes

3ème quartile (Q3)

Médiane (Q2)
1er quartile (Q1)

Valeur Moyenne Valeur Min


Discrétisation des variables quantitatives
Comment choisir le nombre de classe k?
Deux options possibles:
Statistique à 2 variables
• Il est courant de vouloir mettre en évidence le lien
qui peut exister entre 2 caractères d’une
population.
– Le poids et la taille
– la température extérieure et la consommation d’énergie
d’un bâtiment
– ...
• On est alors amené à définir une série statistique à
2 variables x et y, prenant des valeurs x1,…,xn et
y1,…,yn.
Exemple
On étudie différentes épaisseurs d’un même matériau et on mesure pour chaque
épaisseur (x) la valeur de la résistance thermique (y)

x (mm) y (K.m²/W)
2 0.83
4 1.34
6 1.63
8 2.29
10 2.44
12 2.93
15 4.06
20 4.48
Nuage de points
Le plan P étant muni d’un repère orthogonal, on peut associer au couple (xi ; yi)
de la série statistique double, le point Mi de coordonnées xi et yi.
L’ensemble des points Mi obtenus constitue le nuage de points représentant la
série statistique.

Mi(xi,yi)

Le nuage de points semble indiquer qu’il existe une


relation linéaire entre les 2 caractères.
Droite de régression linéaire
On va essayer de trouver la droite qui passe « au mieux » dans le nuage de points.

Il y a plusieurs façons de considérer le « au mieux »


Droite de régression des y en fonction de x

Soit D la droite d’équation y = ax + b.

On peut viser à minimiser la somme


Mi(xi,yi) des distances verticales entre les
points Pi sur la droite et les points Mi
Pi(xi,axi+b) pour chaque abscisse xi

i =n
Somme des distances au carré =  ( yi − (a.xi + b) ) = E (a, b)
2

i =1
Droite de régression des y en fonction de x
Chercher les valeurs a et b qui rendent E la plus petite possible. On aura un minima
pour :
E (a, b) E (a, b)
= 0 et =0 2 calculs à faire….
a b

 (y ² )
i =n

i − 2 y i (a. xi . + b ) + a ². x ² i + 2 a. xi .b + b 2
= E ( a, b)
i =1

E (a, b) i = n
=  (− 2 yi + 2a.xi + 2b ) = 0
b i =1
i =n i =n i =n i =n i =n
−  ( yi ) +  (a.xi ) +  (b ) = 0   ( yi ) = a. xi + n.b
i =1 i =1 i =1 i =1 i =1
i =n i =n

 (y ) i x i
i =1
= a. i =1
+ b  y = ax + b
n n
La droite passe par le centre de gravité du nuage de points G( x , y )
Droite de régression des y en fonction de x
2ème étape

 (y ² )
i =n

i − 2 y i (a. xi . + b ) + a ². x ² i + 2 a. xi .b + b 2
= E ( a, b)
i =1

E (a, b) i = n
=  (− 2 yi .xi + 2a.x ² i + 2.xi .b ) = 0 on sait que y = ax + b
a i =1
i =n

 (− 2 y .x + 2a.x²
i =1
i i i + 2.xi .( y − ax ) ) = 0
i =n i =n

 (− 2 y .x + 2.x y ) =  (− 2a.x²
i =1
i i i
i =1
i + 2a.xi x ) )
i =n i =n i =n i =n
− 2 ( yi .xi ) + 2 y  ( xi ) = −2a  ( x ² i ) + 2ax  ( xi ) )
i =1 i =1 i =1 i =1
i =n i =n i =n i =n
−  ( yi .xi ) + y  ( xi ) = −a  ( x ² i ) + ax  ( xi ) )
i =1 i =1 i =1 i =1

− xy + y.x = −a x ² + ax.x
xy − y.x cov( x, y )
a= =
x ² + x .x var( x)
Calcul de la droite de régression
x (mm) y (K.m²/W) x² y² x.y
2 0.83 4 0.6889 1.66 G ( x , y )  G (9.625,2.5)
4 1.34 16 1.7956 5.36
1 n
cov( x, y ) =  ( xi − x )( yi − y ) = xy − y.x
6 1.63 36 2.6569 9.78
8 2.29 64 5.2441 18.32
10 2.44 100 5.9536 24.4
n i =1
12 2.93 144 8.5849 35.16 cov( x, y ) = 30.6475 − 9.625 * 2.5 = 6.585
15 4.06 225 16.4836 60.9
20 4.48 400 20.0704 89.6
1 n
var( x) = s ² =  ( xi − x )² = x ² − x ²
moyennes 9.625 2.5 123.625 7.68475 30.6475 n i =1
var( x) = 123.625 − 9.625² = 30.984
xy − y.x cov( x, y ) 6.585
a= = = = 0.2125
x ² +- x.x var( x) 30.984

y = ax + b  b = y − ax y = 0.2125.x + 0.454
b = 2.5 − 0.2125 * 9.625 = 0.454
Droite de régression des x par rapport aux y
y = 0.2125.x + 0.454

4.5
x (mm) y (K.m²/W) D(x)
4
2 0.83 0.88
3.5
4 1.34 1.30
3 6 1.63 1.73
2.5 8 2.29 2.15
2
10 2.44 2.58
12 2.93 3.00
1.5
15 4.06 3.64
1
20 4.48 4.70
0.5

0
0 5 10 15 20 25
Droite de régression des x en fonction de y

Soit D’ la droite d’équation x = a’y + b’

On peut viser à minimiser la somme


Mi(xi,yi) des distances horizontales entre les
points Qi sur la droite D’ et les points
Qi(a’yi+b’,yi)
Mi pour chaque ordonnée yi

i =n 2

Somme des distances au carré =  (xi − (a'.yi + b' ) ) = E ' (a, b)


i =1
Calcul de la droite de régression
x (mm) y (K.m²/W) x² y² x.y
2 0.83 4 0.6889 1.66 G ( x , y )  G (9.625,2.5)
4 1.34 16 1.7956 5.36
1 n
cov( x, y ) =  ( xi − x )( yi − y ) = xy − y.x
6 1.63 36 2.6569 9.78
8 2.29 64 5.2441 18.32
10 2.44 100 5.9536 24.4
n i =1
12 2.93 144 8.5849 35.16 cov( x, y ) = 30.6475 − 9.625 * 2.5 = 6.585
15 4.06 225 16.4836 60.9
20 4.48 400 20.0704 89.6
1 n
var( y ) = s ² =  ( yi − y )² = y ² − y ²
moyennes 9.625 2.5 123.625 7.68475 30.6475 n i =1
var( y ) = 7.68475 − 2.5² = 1.43475
cov( x, y ) 6.585
a' = = = 4.58965
var( y ) 1.43475

x = a ' y + b'  b' = x − a ' y


x = 4.58965. y − 1.84912
b' = 9.625 − 4.58965 * 2.5 = −1.84912
Droite de régression des x en fonction de y
x = 4.58965. y − 1.84912
x (mm) y (K.m²/W) D'(y)
2 0.83 1.96
4 1.34 4.30
6 1.63 5.63
8 2.29 8.66
10 2.44 9.35
12 2.93 11.60
15 4.06 16.78
20 4.48 18.71
Superposition des 2 droites
5
y = 0.2125.x + 0.454
4.5

3.5

3 x = 4.58965. y − 1.84912
2.5

1.5

1
Les 2 droites sont « presque » superposées
0.5

0
0 5 10 15 20 25

Elles seraient superposées si les points Mi étaient parfaitement alignés.


Les 2 droites auraient notamment la même pente.
Cas où les droites sont superposées
Soit D la droite d’équation y = ax + b
Soit D’ la droite d’équation x = a’y + b’
Les 2 droites sont superposées à la
condition que :
1 b' 1
x = a '.y + b'  y = x − = ax + b x = 2y  y = x
a' a' 2
1
= a  a.a ' = 1
a'
cov( x, y ) cov( x, y ) cov ²( x, y )
aa' = . = = r² = 1
var( x) var( y ) var( x). var( y )

Les points sont parfaitement alignés quand r²=1


r² est appelé coefficient de corrélation linéaire
Coefficient de corrélation linéaire
Le coefficient de corrélation linéaire est utilisé pour
discuter de la justification de l’ajustement par une
droite
– si 0,7 >=| r | <1 on considère que l’ajustement affine est
justifié.
– si | r | <0,7 on considère que l’ajustement affine n’est
pas justifié

Attention : on s’intéresse bien ici à une ajustement par une droite. Il faut faire
attention aux conclusions que l’on tire d’une valeur de r.
Ajustements d’autres formes
• Des considérations pratiques (lois physiques connues ou
répartitions des points) permettent d’estimer la forme de la
fonction d’approximation. Dans notre cas, on savait que la
résistance variait linéairement avec l’épaisseur.
• Par exemple :
– Ajustement linéaire : y=a x+b
– Ajustement puissance : y=a.xb
– Ajustement exponentiel : y=a.eb.x
– Ajustement logarithmique : y=a.ln(x)+b
– Ajustement parabolique : y=a+ b.x+c.x2
– Ajustement cubique : y=a+b.x+c.x2+d.x3
– Etc.

• Des algorithmes (itératifs) peuvent permettre d’estimer les


paramètres inconnus de ces différentes expression (a,b,c,d)
Notion d’anamorphose
L’anamorphose est une transformation mathématique
d’un nuage de points quelconques pour le ramener à un
nuage de points répartis sur une droite.

• Exemple : nuage de points de la forme y=Aeax.


– On peut transformer le nuage en droite en écrivant :
• ln(y)=a x+ln(A)
– On pose : Y=ln(y); α=a; β=ln(A)
– On a transformé l’expression en équation de droite : Y=α x+β
– Il suffit
• de transformer les valeurs y en Y
• De déterminer les paramètres α, β de la régression linéaire (vue
précédemment)
• De revenir aux paramètres a et A de l’expression initiale avec A = e β
Et les probabilités dans tout ça ?
• Chaque fois que je réalise une expérience (mesurer
une conductivité thermique, mesurer une longueur,
mesurer une tension, compter un nombre de
véhicules pendant heure,…), je ne sais pas
exactement le résultat que je vais obtenir.
• J’ai une connaissance a priori (estimation) de ce que
je suis susceptible d’obtenir mais avec une part
d’incertitude. Je sais que certains résultats ont plus
de « chance » de survenir que d’autres.
• Les probabilités pourraient contribuer à chiffrer
cette incertitude et m’aider à améliorer la précision
Expérience : pile ou face ?
• On a une chance sur deux d’obtenir pile (ou face).
• Si je lance 100 fois la pièce, est-ce que j’aurai 50
piles et 50 faces ? Pas sûr…
• On peut répéter l’expérience un grand nombre de
fois pour voir le comportement quand le nombre N
d’épreuves augmente
• A chaque fois que la pièce est lancée je réalise une
épreuve aléatoire. Le résultat est incertain, il peut
prendre 2 valeurs : pile ou face.
Je lance 10 fois
Pour faciliter les choses, j’affecte le résultat 1 à pile et 0 à face :

1 0
2 0
3 1
4 0
5 0
6 1
4 piles sur 10 soit 40% des réalisations
7 1
8 0
9 0
10 1
Je lance 200 fois
numéro lancer pile ou face nombre piles fréquence pile
1 0 0 0.00 109 piles sur 200 soit 55% des réalisations
2 0 0 0.00
3 1 1 0.33
4 0 1 0.25
5 0 1 0.20
6 1 2 0.33
7 1 3 0.43
8 0 3 0.38
9 0 3 0.33
10 1 4 0.40

191 0 105 0.55


192 0 105 0.55
193 0 105 0.54 Il faudrait des moyens de décider si
194 0 105 0.54
cette situation est normale ou non
195 1 106 0.54
196 0 106 0.54
197 1 107 0.54
198 0 107 0.54
199 1 108 0.54
200 1 109 0.55

On s’attend à ce que la fréquence tende progressivement


vers une valeur que l’on suppose être ½.
Statistiques et probabilités
• Des expériences simples (pièces, dés, cartes…)
montrent que derrière des expériences aléatoires se
manifestent des lois.
• On arrive à faire converger les fréquences des
observations , des phénomènes vers des valeurs
limites que l’on appelle probabilités.
• Grâce au calcul des probabilités, l’étude par les
statistiques de phénomènes analogues dans
lesquels ces lois se manifestent va permettre de les
expliquer, de faire des prévoir et de chiffrer
l’incertitude sur les résultats.
10000 !

Vous aimerez peut-être aussi