Académique Documents
Professionnel Documents
Culture Documents
Éléments du Module:
1 - Optimisation numérique
4 - Détection et estimation
Une salle de gym voudrait étudier le nombre d′ heures que consacre cette population pour le sport
le plus logique dans son étude serait de considérer la moyenne des heures
1 𝑛
on dit alors que 𝑥 = 𝑖=1 𝑥𝑖 est une estimaation approximation de 𝜃.
𝑛
L′ échantillon 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 , 𝑥9 nous donne une deuxième estimation de 𝜃.
Une nouvelle salle de Gym est en phase d’étude pour démarrer. Elle a besoin d’une information à partir de cet échantillon.
• Le coefficient de corrélation nous informe sur le degré de dépendance entre les 2 critères?
Schéma explicatif
1. Espérance
L'espérance d'une variable aléatoire 𝑿 est la moyenne des valeurs prises par la variable,
pondérées par leurs probabilités.
𝟓 𝟏 𝟓 𝟏 −𝟏
𝑮 ∈ −𝟐; 𝟖 𝑷 𝑮 = −𝟐 = 𝑷 𝑮=𝟖 = 𝑬 𝑮 = −𝟐 . + 𝟖. =
𝟔 𝟔 𝟔 𝟔 𝟑
Schéma explicatif
2. Variance
2
La variance d'une variable aléatoire 𝑿 est 𝑽 𝑿 =𝑬 𝑿−𝑬 𝑿 = 𝑬 𝑿² − (𝑬 𝑿 )²
On a : E(E(X)) = E(X)
Une variance nulle signifie que toutes les valeurs sont identiques.
Une petite variance est signifie que les valeurs sont proches les unes des autres alors qu'une variance
élevée signifie qu’elles sont trop écartées.
Schéma explicatif
À partir d’un ensemble d’expériences, nous donne la Étude de la tendance centrale d’un échantillon
probabilité (ou chance) qu’un événement soit réalisé (dispersion, valeurs modales, moyennes…)
Schéma explicatif
Exemple:
Fonction de répartition de la loi Normale centrée réduite
𝒛
𝟏 𝒖𝟐
𝝓 𝒛 = 𝒆𝒙𝒑 − 𝒅𝒖 (On a: 𝝓 𝒛 = 𝟏 − 𝝓 −𝒛 )
𝟐𝝅 −∞ 𝟐
Schéma explicatif
𝑃 { 𝑍 ≥ 𝑧1−𝛼/2 } = 𝛼
Valeurs de :
𝟏 𝒕 𝒙𝟐
𝜫 𝒕 = 𝒆𝒙𝒑 − 𝒅𝒙
𝟐𝝅 −∞ 𝟐
en fonction de 𝒕.
Loi de Student :
Valeurs de :
𝒕𝜶 tq: 𝑷 𝑻 > 𝒕𝜶 = 𝜶
en fonction de 𝜶 et du
degré de liberté 𝜈.
Loi de Poisson :
Valeurs de : 𝑷 𝑿 = 𝒌 .
Loi de χ² :
Soit un échantillon de 10000 personnes sur une population, on sait que le taux moyen de personnes à
soigner pour un problème de cholestérol élevé est de 7.5%. Donner un intervalle dans lequel on soit sûr à
95%, de trouver le nombre exact de personnes à soigner sur les 10000.
𝑋𝑛 1−𝑋𝑛 𝑋𝑛 1−𝑋𝑛
6. Finalement, l’IC est: 𝑋𝑛 − 𝑧1−𝛼 , 𝑋𝑛 + 𝑧1−𝛼 = [698; 802]
2 𝑛 2 𝑛
On cherche à doser la glycémie: on dispose d’un échantillon de sang. Et on cherche la concentration en glucose.
Si on fait plusieurs dosages, on va obtenir plusieurs résultats. Cela est dû, non à la variabilité de la glycémie, mais
aux erreurs analytiques.
On assimile la glycémie « vraie » à la moyenne « vraie » de la variable aléatoire « résultat du dosage ».
Supposons que l’on connaisse la variance des résultats, car on connaît bien la technique analytique.
Par exemple, σ = 10 mg/l.
On suppose que les résultats expérimentaux sont distribués normalement.
𝜎 𝜎
Il s’agit d’un intervalle de confiance loi normale (estimer µ pour σ connu) 𝐼𝐶1−𝛼 𝜇 = [𝑥𝑛 − 𝑧1− . 𝛼 , 𝑥𝑛 + 𝑧1− . ]
𝛼
2 𝑛 2 𝑛
Si on effectue un dosage donnant 90 mg/l, on a pour intervalle de confiance:
IC0,95 = [90 - 2σ ; 90 + 2σ] = [70 ; 110] soit un intervalle de longueur 40.
Si on effectue deux dosages donnant 90 et 96 mg/l, on a:
𝜎 𝜎
IC0,95 = [93 - 2 ; 93 + 2 ] = [78,9 ; 107,1] soit un intervalle de longueur 28,2.
2 2
Si l’on effectue trois dosages donnant 90, 96 et 93 mg/l, on a:
𝜎 𝜎
IC0,95 = [93 - 2 ; 93 + 2 ] = [81,5 ; 104,5] soit un intervalle de longueur 23.
3 3
Variables quantitatives
On étudie plusieurs variables sur les individus concernés.
1 𝑗 𝑝
Données: 1
les écart-types: 𝑛
1
𝑠𝑗 = (𝑥𝑖𝑗 − 𝑥𝑗 )²
𝑛
𝑖=1
On s’intéresse maintenant à une étude multidimensionnelle: la variation mensuelles des poids des individus
Janvier Février Mars Avril Mai Juin Juillet Aout Septembre Octobre Novembre Décembre
Individu 1 79 77 75.5 78 74 76 76 77 78 76 79 77
Individu 2 77.5 76 75 74 72 79 72 77 77 80 77.5 76
Individu 3 77 79 73 75 70 80 74 78 76 82 77 79
Individu 4 82 82 76 82 86 84 81.5 77 80 79 82 82
Individu 5 78 78 70 76 79 86 83.5 76 74 82 78 78
Individu 6 81 81 78.5 80 76 85 86 74 79 88 81 81
Individu 7 87 83 74 85 73 83 89 73 86 91 87 83
Individu 8 86 85 79 85 79 80 87 75 87 89 86 85
Individu 9 88.5 83.5 78 84 77 78 85 77 89 85 88.5 83.5
Individu 10 83 80 76 79 76 77 82 77 83 80 83 80
Chaque individu représente une personne caractérisée par 12 valeurs qui correspondent aux observations de leurs
poids chaque mois.
La matrice 𝑋 peut être analysée à travers ses lignes (les individus) ou à travers ses colonnes (les poids)
𝑑2 𝑖, 𝑘 = (𝑥𝑖𝑗 − 𝑥𝑘𝑗 )²
𝑗=1
Exemple: 𝑑 𝑥1 , 𝑥5 = 16,45
le poids de l’individu 𝑥1 est plus proche de 𝑥5 que de 𝑥9 .
𝑑 𝑥1 , 𝑥9 = 21,7
𝑑2 𝑖, 𝑘 = (𝑥𝑖𝑗 − 𝑥𝑘𝑗 )²
𝑖 𝑘 𝑖 𝑘 𝑗
𝐺 = (𝑥1 , … 𝑥𝑗 , … 𝑥12 ).
81,9 80,45 75,5 79,8 76,2 80,8 81,6 76,1 80,9 83,2 81,9 80,45
Pour 2 variables: 𝑥𝑖 et 𝑥𝑘
12
1 𝑥𝑗𝑖 − 𝑥𝑖 𝑥𝑗𝑘 − 𝑥𝑘
𝑟𝑖,𝑘 = ( )( )
12 𝑠𝑖 𝑠𝑘
𝑗=1
𝑟𝑖,𝑘 correspond au cosinus de l'angle formé par les deux vecteurs colonnes et 𝑥𝑖 et 𝑥𝑘 .
𝑥𝑖 = 𝑛 𝑥𝑖 , 𝑥𝑘 = 𝑥𝑖 . 𝑥𝑘 . cos 𝑖 , 𝑘
= 𝑛. cos(𝑖 , 𝑘)
La matrice des corrélations : matrice carrée de taille 𝑝 𝑥 𝑝 regroupant les coefficients de corrélation de toutes les
variables prises deux à deux. Janvier Février Mars Avril Mai Juin Juillet Août Septembre Octobre Novembre Décembre
Février 1
Mars 1
Avril 1
Mai 1
Juin 1
Juillet 1
Août 1
Septembre 1
Décembre 1
L'inertie
𝑛 𝑝
1 𝑥𝑖𝑗 − 𝑥𝑗
𝐼= ( )² c'est une mesure de l'information portée par les données.
𝑛 𝑠𝑗
𝑖=1 𝑗=1
Interprétation duale
Interprétation duale
Exemple 01 :
Donner:
1- Estimateurs:
1.1. Un estimateur de la moyenne
1.2. Un estimateur de la variance
2- Estimations ponctuelles
2.1. Une estimation de la moyenne
2.2. Une estimation de la variance
2.3. Une estimation de l’écart type
3- Intervalle de confiance de la moyenne μ
Contrôle 2013
Exemple 01 :
Exemple 01 :
Exemple 01 :
Les individus d'une population possèdent un caractère 𝑋 qui suit une loi de densité :
2
𝜃 −𝜃𝑥
𝑓𝜃 𝑥 = 𝑒 2 (𝜃 > 0).
2𝜋
Pour étudier 𝜃, on a effectué une suite de 𝑛 expériences indépendantes qui ont donné les réalisations 𝑥1 , … 𝑥𝑛 de 𝑛
variables aléatoires 𝑋1 , … 𝑋𝑛 i. i. d. de même loi que 𝑋.
1. Déterminer un estimateur 𝜃0 du paramètre 𝜃 par la méthode du maximum de vraisemblance.
2. 𝜃0 est-il exhaustif ? Justifier.
3. Calculer la moyenne et la variance de 𝜃0 .
4. En déduire un estimateur 𝜃1 de 𝜃 non biaisé.
5. Donner la variance de 𝜃1 . Est-il convergent ?
6. La loi de 𝑋 appartient-elle à la famille exponentielle ? Si oui, quelle fonction de 𝜃 peut être estimée efficacement ?
Soit 𝐵 𝑛 𝜃 la borne de Cramer-Rao pour l'estimation de 𝜃. Dans l'ensemble des estimateurs non biaisés de 𝜃, on
𝐵𝑛 𝜃
définit l’efficacité relative de 𝜃1 comme étant 𝑒 𝜃1 =
𝑣𝑎𝑟 𝜃1
7. Calculer 𝑒(𝜃1 ). Commenter.
1 𝑛
Soit : 𝑠² = (𝑋 − 𝑋)².
𝑛 𝑖=1 𝑖
8. Donnez un estimateur 𝜃2 non biaisé de 𝜃, qui soit lié simplement à 𝑠², et donner son efficacité relative.
9. Entre 𝜃1 et 𝜃2 , lequel choisiriez-vous pour vos estimations ?
Données :
1 𝑥−𝜇
1 − ²
Loi densité de probabilité de la loi normale 𝑁(𝜇, 𝜎) est : 𝑓 𝑥 = 𝑒 2 𝜎
𝜎 2𝜋
La loi Chi-deux : 𝜒²𝑛 a pour espérance : 𝑛 et variance : 2𝑛
𝑛 1 1 1 1
Si : 𝜃 𝑖=1 𝑋𝑖 ² ~ 𝜒²𝑛 alors : 𝐸 = 𝐸 =
𝑧 𝑛−2 𝑧² (𝑛−2)(𝑛−4)
𝑛𝑠²
𝑋 et 𝑠² sont indépendants, et ~ 𝜒²𝑛−1
𝜎²
Algorithme d'apprentissage
Entrée : échantillon S
début
Initialiser l'arbre vide ; la racine est le noeud courant
répéter
Décider si le noeud courant est terminal
Si le noeud est terminal alors
Affecter une classe
sinon
Sélectionner un test et créer le sous-arbre
FinSi
Passer au noeud suivant non exploré s'il en existe
Jusqu'à obtenir un arbre de décision
fin
Arbres de décision
Révision Sommeil Jeu Sortie Age Taille Stylos Cahiers Moyenne Position Label
12 6 9 4 19 1,83 2 2 13 5
Axes de révision
p01