Vous êtes sur la page 1sur 17

Tests d’hypothèses

Laurent Eyer
23 novembre 2005, observatoire de Genève
Le problème
Gaia
Hipparcos: photométrie bande large Hp
- Séries temporelles k= 1, …, 22 (22 bandes)
k
étoile j: Temps i , Mag i , Err i
j= 1, …, 1’000’000’000 i=1, …, 85 (50-200)
j= 1, …, 118’204 i=1, …, 110 (20-300)

Comment détecter une étoile dont la luminosité change?


Question non triviale!
Pourquoi si compliqué?
• Nombre de mesures est différent d’une étoile à l’autre
• Précision dépend de la magnitude
• Précision des mesures est différente (données
“heteroskedastic”)
• Signaux non constants (étoile ou instrument) sont de
nature très différente
• Grand nombre d’objets à traiter
Comparaison entre les séries temporelles est difficile
Test d’hypothèses est une solution
définitions et terminologie
Définition 1: Variable aléatoire: nombre réel dépendant
d’une expérience aléatoire
b

Définition 2: Densité f(x) Prob {a< X <b} = ∫ f(x) dx


a

Définition 3: Fonction de répartition F(x) = Prob {X < x}

Achtung: Distribution est définie comme densité ou


fonction de répartition
Test d’hypothèses
On étudie les densités d’une variable aléatoire choisie,
selon des hypothèses différentes. On choisit une valeur de
seuil pour laquelle on accepte ou rejette une hypothèse
Exemple:
• H0: Hypothèse nulle
Exemple: étoile a une magnitude constante
p-valeur: Probabilité que la valeur soit
Définition 4: plus grande que celle observée sous H0

• H1: Hypothèse alternative


Exemple: étoile est variable
Dessin au tableau I
H0

H1

beta alpha
>
zone d'acceptation de H0 zone de rejet de H0
x_seuil x_obs X

inf

p-val= ! fH0(x) dx
x_obs
inf

alpha= ! fH0(x) dx
x_seuil

x_seuil

beta= ! fH1 (x) dx


- inf
Les erreurs
false alarm
Erreur de type I false negatives in terms of H0

Erreur de type II
Définition 5:
H0 vraie H0 fausse niveau du test
Erreur alpha
H0
rejetée Type I Correct Définition 6:
Prob=alpha puissance 1-beta
Erreur
H0 Dessin
Correct Type II
Acceptée au tableau II
Prob=beta
Le seuil alpha

Hipparcos ~120’000 étoiles, si toutes


constantes et si alpha=0.005, alors 600
étoiles seraient déclarées variables alors
qu’elle sont constantes

On a ~12’000 étoiles déclarées variables


Comment procéder

1. Définir les hypothèses


2. Choisir un test statistique
3. Choisir un alpha (Erreur Type I)!
4. Calculer la valeur du test, et sa p-valeur sous H0
5. Accepter (p-val > alpha ) ou rejeter l’hypothèse
nulle
Détection de Dérives Linéaires
Test de Chi-2 versus test sur la pente
Séries temporelles de 100 mesures sur 3 ans
H0: Données Gaussiennes (erreur 0.01 mag)
H1: Dérive linéaire avec pente 0.00001 mag/jour

H0 Il est parfois nécessaire


H1
d’avoir plusieurs tests

Indépendance des
H0 H1 tests n’est pas très
étudiée!
Distribution des p-valeurs

Si l’hypothèse H0 est correct alors la distribution des


p-valeur est uniforme (distribution plate)!
• permet de déterminer si le modèle des erreurs (ou
la loi statistique) est cohérent
• permet de fixer le bruit de mesure! (coravel:
Duquennoy, Mayor, Halbwachs 1991)
Un exemple d’histogramme de
p-valeurs
Série temporelle
Test de Chi-2
n=10
P-valeur
Trait plein:
Modèle
magnitude
constante +
Erreur
(10 mmag)

Trait pointillé:
Erreur surestimée
de 5%
10.5 mmag
Autre application

• Observation d’étoiles
autour du trou noir
du centre Galactique
• Modèle (M.Freitag)
p-valeur de Super-Mongo
pour le test de Kolmogorov

Problème!
Tests

z,
Chi-2,
t-Student,
Fisher,
Kolmogorov (Kuiper),
Wilcoxon,
Spearman,
Shapiro-Wilk,
....
Simulations

Simulations Monte-Carlo: On peut construire ses


propres tests et ses propres lois de probabilité!
Quelques Références
générales
• Morgenthaler: Introduction à la statistique
• Saporta: Probabilité, analyse des données et
statistique
• Kendall & Stuart: The Advanced Theory of
Statistics
• Lupton: Statistics in theory and practice
• Lehmann: Testing statistical hypotheses

Vous aimerez peut-être aussi