Vous êtes sur la page 1sur 8

1.

Les a na lys es s ta tis tiques inférentielles


Les s ta tis tiques inférentielles s ont s ouvent définies comme un ens emble de
méthodes permetta nt de généra lis er, à l’échelle de la popula tion, des conclus ions
tirées à pa rtir des données d’un écha ntillon. On a affaire ici à l’un des gra nds
concepts des s ta tis tiques : puis qu’on ne peut pa s obs erver l’ens emble de la
popula tion qui nous intéres s e (les olives de toute l’olivera ie), alors on cons titue un
écha ntillon a vec une petite pa rtie. Ma is on ne va pa s cons tituer l’écha ntillon
n’importe comment. On va faire en s orte qu’il s oit représ enta tif de la popula tion ca r
ce n’es t que s ous cette hypothès e que l’on va pouvoir généra lis er les conclus ions .

Da ns notre exemple cela pourra it s ignifier de bien fa ire a ttention à prélever des fruits
de tous les oliviers , ou du moins de bien répa rtir les prélèvements a u s ein de cha cune
des olivera ies .

Qu’es t ce qui s e pa s s e s i l’écha ntillon n’es t pa s représ enta tif de la popula tion ?

Ima ginons , pour le ra is onnement, que les olives Agla nda u ont une teneur en huile
plus élevée que celle des olives Picholines . Ima ginons encore que, da ns la cadre de
notre étude, nous nous s ommes contentés de prélever 500 olives d’un même a rbre
pour cons tituer notre écha ntillon d’Agla nda u, et que pa r ma lcha nce l’a rbre chois i a
s ouffert de la s écheres s e l’été dernier, et qu’il a produit des fruits pa rticulièrement
petits et pa rticulièrement fa ibles en huile. La moyenne obs ervée de la teneur en huile
des olives s era donc bia is ée. Cela a ura une cons équence s ur le tes t s ta tis tique, qui
pourra it a lors ne pa s mettre en évidence de différence s ignifica tive entre les deux
moyennes des teneurs en huiles , et a u fina l s ur la généra lis a tion de ce rés ulta t : “les
olives Aglanda u ne contiennent pa s plus d’huile que les olives Picholine”.

Pour revenir à la définition des s ta tis tiques inférentielles , on peut dire, de ma nière un
peu moins formelle, qu’elles corres pondent à la réa lis a tion de tes ts s ta tis tiques , ou à
la compa rais on d’interva lles de confia nce, avec pour but ultime de tirer une
conclus ion (qui s ’a ppliquera à l’échelle des popula tions ).

Ains i, les tes ts d’hypothès es employés pour compa rer des moyennes , des média nes ,
ou encore des pourcenta ges , s ont des s ta tis tiques inférentielles . De même que les
ANOVA (permettent de compa rer plus de deux moyennes ), les régres s ions , etc…

Pour revenir à l’étudiant en médecine, on lui dema nda it s implement de compa rer, pa r
un tes t s ta tis tique, les moyennes des fréquences obs ervées a u s ein de ces deux
groupes a fin de conclure ou non à l’a ugmenta tion de la fréquence da ns le groupe des
s ujets s tim ulés .

Les a na lys es s ta tis tiques prédictives

La non plus pa s de s urpris es , les a na lys es prédictives s ervent à …. prédire !


Néa nmoins , on rentre ici da ns une a utre dimens ion des s ta tis tiques , plus complexe,
ma is pa s s ionna nte.
Il s ’a git, pa r exemple, de prédire la cons omm a tion en électricité d’une fa mille en
fonction du jour de la s ema ine, de la tempéra ture, du vent, de la pres s ion
a tmos phérique, et de la qua ntité de pluie des 5 jours précédents .

Les a na lys es s ta tis tiques prédictives peuvent être employées pour prédire des
données de type num érique (comme la cons omma tion en électricité) ou des
données de type ca tégoriel (comme le fait qu’un ma il s oit cons idéré comme un
“s pa m“ ou un courrier “norma l”). Selon le type de données à prédire, les a lgorithmes
utilis és s ont différents et font a ppel à des méthodes de régres s ion ou de
cla s s ifica tion.

Pour réa lis er des a na lys es prédictives il es t néces s a ire de dis pos er, a u préa la ble, d’un jeu de
données contena nt :

• les va ria bles prédictives (pa r exem ple le jour de la s em a ine, la tem péra ture, le
vent, la pres s ion a tm os phérique, et la qua ntité de pluie des 5 jours précédents )
• la va ria ble que l’on cherche à prédire. On l’a ppelle la répons e ; il s ’a git ici de la
cons om m a tion en électricité.

Le principe es t de découper ce jeu de données en deux pa rties :

• une pa rtie dite “tra ining” cons tituée d’environ 70% des données
• une pa rtie dite “tes ting” cons titué de 30% res ta nte.

Ce ra tio es t a pproxim a tif et peut va rier s elon les études .


Le jeu de données “training”

Il es t utilis é pour :

• identifier les va ria bles néces s a ires à la prédiction,


• cons truire les m odèles de prédiction
• entra îner ces m odèles

L’entra înement du m odèle es t un proces s us itéra tif qui vis e à es timer les pa ra mètres
du modèle (pa r exemple la pente et l’ordonnée à l’origine da ns le ca s d’un modèle
linéa ire s imple), de telle s orte qu’ils conduis ent à la plus petite erreur de prédiction
globa le pos s ible. Autrement dit, à la plus petite différence entre les répons es
obs ervées et les prédictions . Ici l’erreur de prédiction n’es t qu’un critère que l’on
cherche à minimis er.

Le jeu de données “tes ting”

Un fois les modèles entra inés , une vra ie mes ure de l’erreur de prédiction es t réa lis ée
pour cha cun d’eux. Cette mes ure es t “vra ie” ca r elle es t fa ite s ur des données qui
n’ont pa s été utilis ées da ns la phas e d’entra inement. Elle va s ervir à éva luer les
modèles et à les cla s s er du plus performa nt (plus fa ible erreur de prédiction) a u
moins performa nt (plus gra nde erreur).
Les prédictions

Le modèle le plus performa nt es t a lors utilis é en conditions réelles pour prédire des
répons es .

Les proces s us utilis és da ns les ana lys es s ta tis tiques prédictives relèvent du ma chine
lea rning.

Des compétitions d’analys es prédictives

Il exis te des compétitions de da ta s cience dédiées à la prédiction. Les plus connues


s ont celle du s ite Ka ggle (https :/ / www.ka ggle.com/ competitions ). Des entrepris es ,
et même des ins tituts de recherche, offrent des récompens es (s ouvent monéta ires ) à
l’équipe qui obtient la plus fa ible erreur de prédiction, en écha nge du modèle
développé.

• Durée totale du trajet

Durée totale du trajet Nb. cit. Fréq.

Pas satisfait 10 20,0%

Satisfait 40 80,0%

TOTAL OBS. 50 100%

Moyenne = 3,00 Ecart-type = 0,64

La différence avec la répartition de référence est très significative. chi2 = 18,00, ddl = 1, 1-p =
>99,99%.
Durée totale du trajet

80,0%

20,0%

Pas satisfait Satisfait

• Confort du véhicules

Confort du véhicules Nb. cit. Fréq.

Très inconfortable 1 2,0%

Inconfortable 7 14,0%

Confortable 37 74,0%

Très confortable 5 10,0%

TOTAL OBS. 50 100%

Moyenne = 2,92 Ecart-type = 0,57

La différence avec la répartition de référence est très significative. chi2 = 65,52, ddl = 3, 1-p =
>99,99%.
Confort du véhicules

74,0%

14,0%
10,0%
2,0%

Trèsinconfort Inconfortable Confortable Très


able confortable

• itinéraire emprunté

itinéraire emprunté Nb. cit. Fréq.

Pas satisfait 10 20,0%

Satisfait 40 80,0%

TOTAL OBS. 50 100%

Moyenne = 2,94 Ecart-type = 0,65

La différence avec la répartition de référence est très significative. chi2 = 18,00, ddl = 1, 1-p =
>99,99%.

• Sécurité du trajet

Sécurité du trajet Nb. cit. Fréq.

Pas satisfait 9 18,0%


Satisfait 41 82,0%

TOTAL OBS. 50 100%

Moyenne = 2,92 Ecart-type = 0,60

La différence avec la répartition de référence est très significative. chi2 = 20,48, ddl = 1, 1-p =
>99,99%.
Sécurité du trajet

82,0%

18,0%

Pas satisfait Satisfait


I. SATISFACTION et Impact CANTINE

• Variété des plats

Variété des plats Nb. cit. Fréq.

Pas satisfait 10 20,0%

Satisfait 40 80,0%

TOTAL OBS. 50 100%

Moyenne = 2,86 Ecart-type = 0,50

La différence avec la répartition de référence est très significative. chi2 = 18,00, ddl = 1, 1-p =
>99,99%.

Variété des plats

80,0%

20,0%

Pas s Satisf
atisfai ait
t

• Qualité des plats

Qualité des plats Nb. cit. Fréq.

Pas satisfait 11 22,0%

Satisfait 39 78,0%

TOTAL OBS. 50 100%

Moyenne = 2,80 Ecart-type = 0,53


La différence avec la répartition de référence est très significative. chi2 = 15,68, ddl = 1, 1-p = 99,99%.
Qualité des plats

78,0%

22,0%

Pas s Satisf
atisfai ait
t

• Quantité plat

Quantité plats Nb. cit. Fréq.

Vous aimerez peut-être aussi