Académique Documents
Professionnel Documents
Culture Documents
Da ns notre exemple cela pourra it s ignifier de bien fa ire a ttention à prélever des fruits
de tous les oliviers , ou du moins de bien répa rtir les prélèvements a u s ein de cha cune
des olivera ies .
Qu’es t ce qui s e pa s s e s i l’écha ntillon n’es t pa s représ enta tif de la popula tion ?
Ima ginons , pour le ra is onnement, que les olives Agla nda u ont une teneur en huile
plus élevée que celle des olives Picholines . Ima ginons encore que, da ns la cadre de
notre étude, nous nous s ommes contentés de prélever 500 olives d’un même a rbre
pour cons tituer notre écha ntillon d’Agla nda u, et que pa r ma lcha nce l’a rbre chois i a
s ouffert de la s écheres s e l’été dernier, et qu’il a produit des fruits pa rticulièrement
petits et pa rticulièrement fa ibles en huile. La moyenne obs ervée de la teneur en huile
des olives s era donc bia is ée. Cela a ura une cons équence s ur le tes t s ta tis tique, qui
pourra it a lors ne pa s mettre en évidence de différence s ignifica tive entre les deux
moyennes des teneurs en huiles , et a u fina l s ur la généra lis a tion de ce rés ulta t : “les
olives Aglanda u ne contiennent pa s plus d’huile que les olives Picholine”.
Pour revenir à la définition des s ta tis tiques inférentielles , on peut dire, de ma nière un
peu moins formelle, qu’elles corres pondent à la réa lis a tion de tes ts s ta tis tiques , ou à
la compa rais on d’interva lles de confia nce, avec pour but ultime de tirer une
conclus ion (qui s ’a ppliquera à l’échelle des popula tions ).
Ains i, les tes ts d’hypothès es employés pour compa rer des moyennes , des média nes ,
ou encore des pourcenta ges , s ont des s ta tis tiques inférentielles . De même que les
ANOVA (permettent de compa rer plus de deux moyennes ), les régres s ions , etc…
Pour revenir à l’étudiant en médecine, on lui dema nda it s implement de compa rer, pa r
un tes t s ta tis tique, les moyennes des fréquences obs ervées a u s ein de ces deux
groupes a fin de conclure ou non à l’a ugmenta tion de la fréquence da ns le groupe des
s ujets s tim ulés .
Les a na lys es s ta tis tiques prédictives peuvent être employées pour prédire des
données de type num érique (comme la cons omma tion en électricité) ou des
données de type ca tégoriel (comme le fait qu’un ma il s oit cons idéré comme un
“s pa m“ ou un courrier “norma l”). Selon le type de données à prédire, les a lgorithmes
utilis és s ont différents et font a ppel à des méthodes de régres s ion ou de
cla s s ifica tion.
Pour réa lis er des a na lys es prédictives il es t néces s a ire de dis pos er, a u préa la ble, d’un jeu de
données contena nt :
• les va ria bles prédictives (pa r exem ple le jour de la s em a ine, la tem péra ture, le
vent, la pres s ion a tm os phérique, et la qua ntité de pluie des 5 jours précédents )
• la va ria ble que l’on cherche à prédire. On l’a ppelle la répons e ; il s ’a git ici de la
cons om m a tion en électricité.
• une pa rtie dite “tra ining” cons tituée d’environ 70% des données
• une pa rtie dite “tes ting” cons titué de 30% res ta nte.
Il es t utilis é pour :
L’entra înement du m odèle es t un proces s us itéra tif qui vis e à es timer les pa ra mètres
du modèle (pa r exemple la pente et l’ordonnée à l’origine da ns le ca s d’un modèle
linéa ire s imple), de telle s orte qu’ils conduis ent à la plus petite erreur de prédiction
globa le pos s ible. Autrement dit, à la plus petite différence entre les répons es
obs ervées et les prédictions . Ici l’erreur de prédiction n’es t qu’un critère que l’on
cherche à minimis er.
Un fois les modèles entra inés , une vra ie mes ure de l’erreur de prédiction es t réa lis ée
pour cha cun d’eux. Cette mes ure es t “vra ie” ca r elle es t fa ite s ur des données qui
n’ont pa s été utilis ées da ns la phas e d’entra inement. Elle va s ervir à éva luer les
modèles et à les cla s s er du plus performa nt (plus fa ible erreur de prédiction) a u
moins performa nt (plus gra nde erreur).
Les prédictions
Le modèle le plus performa nt es t a lors utilis é en conditions réelles pour prédire des
répons es .
Les proces s us utilis és da ns les ana lys es s ta tis tiques prédictives relèvent du ma chine
lea rning.
Satisfait 40 80,0%
La différence avec la répartition de référence est très significative. chi2 = 18,00, ddl = 1, 1-p =
>99,99%.
Durée totale du trajet
80,0%
20,0%
• Confort du véhicules
Inconfortable 7 14,0%
Confortable 37 74,0%
La différence avec la répartition de référence est très significative. chi2 = 65,52, ddl = 3, 1-p =
>99,99%.
Confort du véhicules
74,0%
14,0%
10,0%
2,0%
• itinéraire emprunté
Satisfait 40 80,0%
La différence avec la répartition de référence est très significative. chi2 = 18,00, ddl = 1, 1-p =
>99,99%.
• Sécurité du trajet
La différence avec la répartition de référence est très significative. chi2 = 20,48, ddl = 1, 1-p =
>99,99%.
Sécurité du trajet
82,0%
18,0%
Satisfait 40 80,0%
La différence avec la répartition de référence est très significative. chi2 = 18,00, ddl = 1, 1-p =
>99,99%.
80,0%
20,0%
Pas s Satisf
atisfai ait
t
Satisfait 39 78,0%
78,0%
22,0%
Pas s Satisf
atisfai ait
t
• Quantité plat