Vous êtes sur la page 1sur 42

Analyse des données

Plan
• Lien entre les statistiques et l’analyse des
données
• Propagation des erreurs
• Ajustement de fonctions
Échantillon vs population
• Une mesure échantillonne une population
• La distribution de l’échantillon approxime
celle de la population
• La précision sur les estimations augmente
avec la taille de l’échantillon N
Exemple de comptage
n = 100
n  100
µ  0,07
  0,92
 / n  0,09
n = 1000

n  1000
µ  0,03
  1,01
 / n  0,03
n = 1 000 000
n  1000000
µ  0,00076
  1,0003
 / n  0,001
Précision sur la moyenne
• L’estimation de la moyenne s’affine avec N
1
µ   xi
N
1
   xi  µ2
2
Population
N
1
2
    xi  µ 2
Échantillon
N 1
µ  
N
Erreur sur une variable dépendante

y  x/3
x  10
y  3,3
Erreur sur une variable dépendante

y  3x
x  5
y  15
Erreur sur une variable dépendante

y
y  x
x
Propagation d’erreurs

f  f ( x, y )
x  x1  x
y  y1  y
f  ?
Propagation d’erreurs
Propagation d’erreurs
• x et y sont des variables indépendantes
• Et x et y sont des erreurs indépendantes
• Leurs effets s’additionnent quadratiquement
Propagation d’erreur
2 2
 f   f 
f 
2
  x    y   ...
 x   y 

pour des incertitudes indépendantes


Propagation d’erreurs
(sans corrélations)
2 2 2 2 2
f  ax  by  f  a x b y
2 2 2
f x y
f   axy 2
 2  2
f x y
bx f
f  ae  bx
f
Moyenne pondérée
• Plusieurs mesures de x (x1, x2, ... xi,, ... xn)
• Différentes précisions (1, 2, ... i,, ... n)
• On cherche la meilleure évaluation de la
moyenne µ
• Les mesures précises doivent contribuer
davantage
Moyenne pondérée
xi
 2 1
2
µ i
µ 
 1 2  1 2
i
i

Si tous les i sont égaux,


2
µ  xi
µ 2

i
N N
Ajustement de courbes
• Soit f(x) une fonction physique
• On fait une mesure de f(x) en x = x1
• On cherche la probabilité que la mesure soit
bonne
2
1  y  y1 
  
1 2 1 
P e
2  1
2
1  f ( xi )  yi 
  
1 2 i 
Pi  e
2  i
• La probabilité totale est
 1  f ( xi )  y i  2 
 1    2   i  
P   Pi      e
  
 2  i  
 
 2
 1   1  f ( xi )  yi  
    exp   
 
2   2     
 i  i

 1   1 2
    exp   

 2  i  2 
2 2
2  f ( xi )  yi   yi 
        
 i   i 
• La valeur de P ou de 2 nous dit si les
mesures représentent bien la théorie
Ajustement
• En général, la situation est inversée
• On ne connaît pas f(x)
• Mais on connaît (ou on essaye) une forme
– droite
– polynôme
– fonction arbitraire
Ajustement

f ( x)  f ( x, a, b, c,...)  f ( x, ai )

• On cherche les ai qui maximisent P


– Vraisemblance maximale
– Maximum likelihood
• Ou qui minimisent 2
– Moindres carrés
Régression linéaire

• On veut passer la meilleure droite à travers


n points expérimentaux

f ( x)  a  bx
Régression linéaire

• On cherche a et b qui minimisent 2

2 2
 
0 0
a b

• 2 équations, 2 inconnus (a et b)
Régression linéaire
2 2
 f ( xi )  y i   a  bxi  yi 
   
2
    
 i   i 
 2 a  bxi  yi 
 2 2
0
a i
 2
xi a  bxi  yi 
 2 2
0
b i
a  bxi  yi   a 1 xi yi
 2  2
 b 2
 2
0
i i i i
2 2
axi  bxi  xi yi xi xi xi y i
 2
 a 2
 b 2
 2
0
i i i i

2 2
1 xi  x 
 2     2 
i
i  i2  i 
2

1  xi yi xi xi yi 
a   2  2   2  2 
 i i i i 
1  1 xi y i xi yi 
b   2  2   2  2 
 i i i i 
Incertitudes égales
(votre calculatrice)
i 
  N  xi   xi 
2 2

1
 2
a   xi  y i   x i  xi y i


1
b  N  xi yi   xi  yi 

Régression linéaire
• 5 mesures

• f(x) = 3x + 7
• a=7 b=3
2 = 10,1

• a = 5,9 b = 2,9
2min = 5,9
Contours du 2
Incertitude sur les paramètres
• a et b dépendent des yi
• a et b dépendent des i
• On applique la règle de propagation
2 2
2  a  1 x  2 2
a     i     i    xi (  i égaux)
 yi   i  
2
2  b  1 1 2
b     i    2 N (  i égaux)
 yi   i 
2 2
1  xi   xi 
   N  xi   xi 
2 2

   2       2  (  i égaux)
i i   i 
Incertitude sur les paramètres
2 2

a 2  a 
    i 
1  xi 
   
 i 
a  5,9
 yi 
2  b 
2
1 1 b  2,92
b     i   
 yi    i2
2 2
 a  1,4
 xi  
1 x 
   2       2 
i
i i   i   b  0 ,17
Incertitude et 2

2
 min  5,87
2
 min  1  6,87
Incertitude et 2
• La régression linéaire trouve le minimum du
2

• Un écart-type sur les paramètres correspond à


une augmentation de 1 du 2. Pourquoi ?

• Les courbes de niveau indiquent la corrélation


entre les paramètres
Incertitude et 2
2 2
 f ( xi )  yi   yi 
   
2
    
 i   i 
 1   1 2
P     exp   

 2  i   2 

Gaussienne d’écart-type = 1
L’incertitude représente une variation de 1 du 2
Corrélation linéaire
• On peut toujours passer une droite par des
points
• Mais ces points peuvent-ils être décrits par
une droite ?
• Le coefficient de corrélation linéaire r nous
donne la réponse
Corrélation linéaire

• b = 2,7 b’ = 0,33 • b = 0,29 b’ = 0,33


• r = sqrt(bb’) = 0,95 • r = sqrt(bb’) = 0,31
Élimination de données suspectes
Critère de Chauvenet (pp. 154-156)
• Soit 5 mesures : 38 35 39 39 34 18
• Faut-il rejeter la dernière valeur ?
• Si on peut expliquer notre erreur, oui.
• Sinon, il faut réfléchir
• <x> = 34 =8
• Si on enlève, on a <x> = 37
• La valeur de 18 s’écarte de 2 de la moyenne
• Ceci n’est jamais impossible et devrait se produire
~ 1 fois sur 20
• Mais on n’a que 6 données
• On attend donc ~ 0,3 données de ce type et on
l’écarte
• Critère de Chauvenet
• On écarte si
n  NP  0,5
Attention à l’auto-censure
• Expérience de Millikan
• e = 1,592 × 10-19 C
• e = 1,602 × 10-19 C

• Temps de vie du muon

Vous aimerez peut-être aussi