Académique Documents
Professionnel Documents
Culture Documents
3 activités :
- collecter
Exemple
Hypothèse de recherche : « les humoristes ont une tendance à la dépression clinique « .
On veut démontrer que les humoristes ont une tendance à la dépression clinique.
Echelle BDI
Statistiques descriptives
/!\ le choix du graphique et du( ou des) indicateur(s) chi rés dépendront de l’échelle de mesure
Statistiques inférentielles
/!\
1 sur 59
fi
ffi
fi
ff
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
1.2. A quoi bon faire de l’expérimentation ?
-> abolir la croyance
+ échelle de mesure
Chap 3 Proba
Diapo
Usage de l’UV
Quiz
Forum
Attention : ne sera pris en charge que sur le forum (PAS par email !)
1.6.Contacts supplémentaires
aude.fenaux@ulb.be ( coordinatrice administrative)
1.7. Wooclap
- Question de ré exion
- Entraînement
2 sur 59
fi
fi
fl
fi
ffi
Elyas Stangier Analyse de 2022-2023
données scienti ques
OBJECTIF :
2.1.1. Variables
* « informations » dont on dispose pour chaque sujet, qui s’in uencent éventuellement entre elles
* Plusieurs modalités
* choix des variables : déterminer les variables les plus pertinentes, qui in uencent le plus le
concept
exemple : La prise ( ou non) d’anti-dépresseur, le fait de suivre (ou pas) une thérapie etc
NB: il est impossible d’identi er toutes les VIs. Sélection des plus pertinentes.
2.1.2. Hypothèse VI et VD
Hypothèse : prédiction de l’in uence d’une (ou plusieurs) variable indépendante.s (Vi’s) sur une
variable dépendante (VD)
Dans le contexte d’études sur le partage sociale des émotions, on souhaite tester l’impact du type
de réaction de l’auditeur sur la préception du locuteur ( = la personne qui parle). On suspecte,
notamment que les réactions de l’auditeur centrées sur lui-même sont perçues négativement par
le locuteur, alors que celles centrées sur le locuteur sont perçues positivement par le locuteur
Dans une clinique de r habilitation on veut v ri er si la condition physique avant une intervention
chirurgicale a un e et sur le nombre de jours de kin sith rapie n cessaire pour r habilitation
3 sur 59
fi
ffi
ffi
é
fi
ff
é
é
fi
fi
fl
è
é
fl
é
fl
é
fi
é
é
fi
fi
fl
fi
é
à
fl
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
compl te. La condition physique est valu e selon un bar me qui donne : condition moyenne
sous la moyenne ou sup rieur la
moyenne.
VD
Le temps d’étude consacré au cours de STAT-E110 va in uencer la note des étudiants à l’examen
de ce cours
Vs
VI
La motivation d’un étudiant va in uencer le temps qu’il consacre à étudier le cours de STAT-E110
hypothèse
Prédictions a priori
-> ≠ croyance
⚠
« Hypothèse vs croyance « ≠ « Vrai vs Faux »
VD = note à l’examen
Hypothèse 1
Ex : « les étudiants les plus motivés réussiront mieux le cours de statistiques parce que leur
motivation les poussera à étudier plus »
Hypothèse 2
2.1.5. Hypothèse théorique vs opérationnelle
Hypothèse théorique = description général de l’e et attendu d’une VI sur une VD
Exemple 1: en présence d’un obstacles sur un parcours plus le dosage d’alcool dans le sang est
élevé plis le temps qui s’écoulera ente elle moment où l’individus détecte l’obstacle et celui où il
appuie sur le frein sera long
4 sur 59
è
ffi
fi
fi
é
à
fl
fi
é
é
ff
fl
fl
fi
è
Elyas Stangier Analyse de 2022-2023
données scienti ques
Exemple 2 : en présence d’un obstacle sur un parcours les sujets ont bu 3 verres de bière
freineront avec un temps de réaction plus long que les sujets sobres
2.2 Modélisation
Simpli er la réalité au point d’ignorer complètement l’in nité des autres variables est de leurs
interactions
Avec l’exemple 1 :
2.3. historique
Les première commentes de données, il y a 4000 ans en Chine en l’an 2 de la dynastie des Han,
recenser la population, les revenus et le nombre de soldats.
Plus en avance dans l’Histoire, plus ces recensements sont fréquents et précis
La certitude a une longue histoire, elle est accessible à l’Homme par sa croyance en DI
( prophète Isaïe), avec l’héliocentrisme ( >< égocentrisme) ( Nicolas Copernic). C’est en n pascal
et Fermat qui énoncent le concept de probabilité sous la forme de degré d’incertitude.
2.4. Logique
* Logique = raisonnement, argumentation
Un raisonnement correcte = ne pas inférer une conclusion fausse à partie de prémisses vraies
Universelle = toute la population Tous les humoriste sont Aucun humoriste n’est dépressif
dépressifs
5 sur 59
ffi
fi
fi
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Particulière = une partie de la Certains/quelques humoristes Certains/quelques humoristes ne
Carré logique
d’Aristote
Singulière = un et un seul Gaspard Proust est dépressif Gaspard Proust n’est pas
individus dépressif
1
____________________________________________
D’un point de vue qualitatif , une proposition peut être vrai ou fausse
D’un point de vue quantitatif, une proposition peut concerner tous les cas, certains cas ou un seul
cas.
La logique déductive ne peut pas conduire à une erreur pour peu que les prémices soient vraies
et l’argumentation soit valide.
ensembles particuliers :
ensembe vide (ø) (ensemble qui ne contient aucun élément, sous éléments contenu
dans n’importe quel ensemble, utile pour dé nir la notion d’ensemble disjoint)
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
2.4.5. Ensembles complémentaires
~G ( ou G)
Intersection (‘et’) :
Di érence
Union inclusive :
Union exclusive :
2.4.9. Synthèse
Probabilité = chances d’obtention d’un évènement donné, séparer ensembles ayant une propriété
spéci que ainsi que des ensembles pouvant regrouper plusieurs propriétés décryptent
graphiquement ou algébriquement.
Mortels Mortels
Hommes Hommes
Grecs
Grecs
7 sur 59
CERTAINs
TOUS
fi
fi
ff
ff
fi
3 possibilités
2.5.4. Remarques
* Les prémisses sont intrinsèquement VRAIES ou FAUSSES
* Les prémisses sont toutes probabilistes : « plus un phénomène est observé plus il y a de
chances qu’il se produise à nouveau
* Les diagrammes de Venn sont des représentations de propriétés ( de prédicats) supposé vraies
pour tous les éléments constituant l’extension des ensembles
= raisonnement nécessaire incertain ! Dont le principe est de découvrir des lois générales
à partir d’observation de faits. Plus un phénomène donné est observé, plus il y a de chances qu’il
se produise à nouveau.
8 sur 59
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Une mauvais utilisation de la logique inductive est souvent à la base des stéréotypes à propos
des groupes sociaux.
Notre cerveau fonctionne sur base d’une logique inductive, de stéréotype -> l’essentiel de notre
connaissance se base sur une logique inductive.
ex : l’ivresse
=> le choix de la mesure est capital. Les analyses qui suivront dépendront de ce choix !
Les échelles nominales regroupent les mesures qualitatives, les autres des mesures quantitatives.
Ils ont une relation d’inclusion.(toutes être considérée comme nominale
échelle ordinale ; plus informait que les échelles nominales: l’ordination des chi res import,
la qualité qui sépare le 1 et le 2 n’est pas forcément la même que celle entre le 2 et le 3
9 sur 59
ff
fi
fi
fi
fi
fi
ffi
ff
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
4.1.1. Echelle absolue
- ex : la taille n’est pas mesuré sur une échelle absolue ( 30.48cm = un pied,
2.54cm = un pouce)
=> le choix de la mesure est capital. Les analyses qui suivront dépendront de ce choix !
4.1.2. Remarque
Ou exclusif, quand ?
exemples:
Risque d’e et secondaire indésirable ( ex . Prise de deux molécules somilatné »es)
Etude de famille monoparentale hétérosexuelle : in uence du fait de vivre abbé son père ou sa
mère uniquement ? Etc.
Objectifs :
Dé nir les notions de probabilité, expérience et évènement aléatoires et la loi des grands
nombres
exemple : « je trouve un verre cassé dans la cuisine, qui est coupable ? »
* Expérience aléatoire
« action qui va engendrer à chaque répétition un (et un seul) des évènements élémentaires
possibles » - peut se réaliser ou ne pas se réaliser lors de chaque essai
exemple : lancer un dé
* Evénement aléatoire
fi
fi
fi
fi
fl
Elyas Stangier Analyse de 2022-2023
données scienti ques
Espace-échantillon : ensemble des événements élémentaires possibles auxquels on s’intéresse
—> les événements aléatoires se produisent avec des fréquences relatives qui se stabilisent au l
des répétitions d’une expérience aléatoire
Ex soit un dé à 6 face
12 323222143462 1/12
50 244342166126637476367463743 6/50=1/8.33
6743 »
« Re et de la tendance de certains dispositifs aléatoires à produire des événments avec des
fréquences relatives qui tendent à se stabiliser au fur et à mesure qio’on augmente le nombre de
répétitions de l’expérience aléatoire »
Analytiquement
Empiriquement
A posteriori
A priori
* n(A) = 3
* N=6
11 sur 59
fl
fi
fi
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
* N = nombre de cas possible
conditions
Remarques :
Condition d’équiprobabilité
1) dé nition analytique ( méthode analytique, a priori) = « nombre de cas favorable divisé par le
nombre de cas possibles »
Situation fréquentante pure : peut être véri ée empiriquement. Grâce à cette possibilité » de
véri cation empirique, la probabilité au sens féquentiste a souvent été quali ée d’objective
Situation épidémique pure : une proposition exprimée en degré de con ance qu’une personne
accorde aux di érents arguments qui appuient cette thèse. Comme le degré de con ance
accord »é à une proposition varie d’une personne à l’autre, la probabilité au sens épistémique a
sauver été quali ée de subjective.
<=> la probabilité que la fréquence relative d’apparition de X di ère de P(X ) qui tend vers 0
/!\ indépendance des répétitions de l’expérience aléatoire => Les probabilités n’ont pas de
mémoire ! /!\
/!\ d’illusion/sophisme du jouer » = croit que la loi des grands nombres implique une sorte de
compensation de la part de la nature : tout se passerait cille si la nature s’arrangeait pour que les
fréquences absolues des di érents événements possibles s’équilibrent après un grand nombre
d’essais /!\
Autrement dit : plus le nombre de jets augmente, plus la di érence entre la fréquence relative de
l’événement critique et sa fréquence relative théorique (50%) devient petite.
12 sur 59
fi
fi
fi
fi
ff
fi
fi
fi
fi
ff
fi
fi
ff
ff
fi
fi
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
La di érence entre la fréquence relative observée et la fréquence relative théorique (= la
probabilité) tend vers 0 quand N tend vers l’in ni
3.2.1.Axiomes de Kolmogorov
P(V ∪ O ∪ R ∪ B) = P(Ω)
4le principe d’une axiomatisation est que tous les théorèmes de la théorie axiomatisée peuvent
être dérivés à partir des axiomes.
13 sur 59
ff
fi
é
é
é
é
fi
fi
fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
2 évènements qui s’oppose, la somme de la probabilité de chacun de ses
évènements vaut 1
Je lance une pièce de monnaie 2 fois. Quelle est la probabilité d’obtenir 2 fois « pile »
( 1∩ 2) = P(Pile1) × ( 2) = .25
On lance une pièce 3 fois d’a lée. Quelle est la probabilité d’obtenir « face » 3 fois d’a lé ?
Note : la pièce est légèrement déséquilibrée, si bien que la probabilité d’obtenir « pile » vaut 0,6
au lieu du traditionnel 0, 5
Je lance une pièce de monnaie 3 fois. Quelle est la probabilité d’obtenir au moins 1 fois Pile ?
A A inter B A inter ~ B P (A )
B ~B P marginale
A .3 .4 .7
~A .2 .1 .3
P marginale .5 .5 1
14 sur 59
𝑃
𝑃
𝑖
𝑙
𝑒
𝑃
𝑖
𝑙
𝑒
fi
𝑉
𝑉
𝑃
ffi
𝑃
𝑖
𝑙
𝑒
𝑉
𝑉
ffi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Règle générale d’addition des probabilités de deux événements
Parce que
Ex : quelle est la probabilité de réussir l’examen de statistiques sachant qu’on a lu les lectures
conseillée ? -> 70/90
Les fréquences relatives : ƒ= n/N, nombre de sujets d’une case, divisé par le nombre total de
sujets.
-> Importance de cette notion pour tester l’indépendance entre deux variables
Ré exion 1 :
Parmi un ensemble de 120 étudiants seulement 20 ont simultanément lu les lectures conseillées
et réussi l’examen . Peut-on en conclure que la lecture est inutile ?
NON, tout dépend combien de personne on raté l’examen et qui ont lu.
Ré exion 2 :
Pour être capable de répondre il faut prendre en compte la proba de réussir sachant qu’on a pas
lu
* étudier le lien entre deux variables implique de comparer les probabilités conditionnelle et les
probabilités marginales
15 sur 59
ffi
fl
fl
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Règle des produits des probabilités qui est applicable au cas des événements compatibles et
indépendants
16 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Nécessité dans le calcul de probabilité de dénombrer l’inventaire des dispositions d’un certain
nombre d’objet parmi un ensemble d’objet avec ou sans remise. / Counting rules : dénombrement
du nombre de dispositions d’un certain nombre d’objet parmi un ensemble d’objets avec ou sans
remise Il est nécessaire sue s’intéresser à la remise ou à la non remise des éléments avant chaque
tirage (càd à l’indépendance ou là la dépendance des tirrges successifs) et à l’importance ou non
de l’ordre de tirage
P(bille bleue au troisième tirage | billes bleus aux premier et deuxième tirages) = 5/9
4 x 4 x 4 = 4^3 = 64
17 sur 59
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
SI K1, K2,… KN sont les nombres d ‘évnemtns distinctes et indépendants qui peuvent se produire
au cours des essais 1, 2, …N dans une série, le nombre de séquences di érentes de N
événements est donné par le produit K1 x K2x..x KN
P(billa bleu au deuxième tirage |bille bleue au premier tirage) = 4/8 = 1/2
P (bille bleue au troisième tirage|billes bleus aux premier et deuxième tirage) = 3/6
OUI NON
ensemble iu seulement P = N!
une partie ?
3.9.3. Synthèse
18 sur 59
fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
Objectifs :
Cr er, lire et interpr ter des graphiques bas s sur les fr quences
Cr er, lire et interpreter des graphiques bases sur les quantiles (bo tes moustaches)
5.1. Introduction
On demande à 200 étudiants s’ils fument ou pas. La réponse à cette question a 2 modalités :
« oui » et « non ». Voici le résultat obtenus
Plus mon échantillon est grand , plus je serai précis dans mes estimations? Il est nécessaire que
l’échantillon représente un prélèvement d’une toute petite partie de la population, prélever u sujet
n’in uence que de manière négligeable les chances de prélever un autre sujet.
Les valeurs discontinues : variables qui ne peuvent prendre que certaines valeurs et pas d’autres
— variables discrètes
Une variables continue, peut prendre n’importe quelle valeur sur un intervalle donné
19 sur 59
é
é
é
fl
fi
é
fi
fi
é
é
ff
é
î
à
Elyas Stangier Analyse de 2022-2023
données scienti ques
Distributions
Exemple: 40 parents (issus de m nages di rents) ont r pondu par oui ou non la question
suivante: “Mon enfant re oit-il de l’argent de poche? “ Voici les r sultats:
Remarque 1 : avec une variable nominale l’ordre d’apparition des catégories n’a aucune
importance.
20 sur 59
fi
ç
é
ff
é
é
é
à
Elyas Stangier Analyse de 2022-2023
données scienti ques
Remarque 2 : dès que l’ordre des catégories importe, on peut calculer des fréquences cumulées
nj Fj
Nj
Fj
( fréquence (Fréquence (Fréquence
absolue) relative) cumulée)
5 0 0/20 = 0 20 20/20 =1
Remarque 4 : quand trop de modalités possibles possibles on utilise des classes (histogramme)
5.8. Distributions
* Corubes représentant l’in nité des résultats possibles.
21 sur 59
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Unimodale
2 2 2 3 4 5 6 8 8 9 9 10 10 10 11 11 12 12 13 13 13 13 13 14 15 16 17 17 17 18 18 19 19 19 20 20
21 21 22 22 23 24 25 25 26 26 26 27 27 28 29 30 31 32 33 33 35 35 36 37 38 39 39 40 41 42 45
45 45 46 47 48 48 49 50 50 59
2 2 2 3 4 5 6 8 8 9 9 10 10 10 11 11 12 12 13 13 13 13 13 14 15
16 17 17 17 18 18 19 19 19 20 20 21 21 22 22 23 24 25 25 26
26 26 27 27 28 29 30 31 32 33 34 35 35 36 37 38 39 39 40 41
45 45 45 45 46 47 48 48 49 50 50 59
Intérêt du graphique : visuellement on peut se rendre compte que la moyenne est la meilleure
22 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
* Valeurs anormales ( par rapport au reste de la série)
* Anomalie :
* Erreur d’encodage
* Erreur systématique
-> Tentative d’explication, sur base d’une nouvelle expérience adaptée au problème
* La médiane (θ) divise la distribution en deux options contenant chacune 50% des observations
* Les perceptiles divisent la distribution en 100 portions contenant chacune 1% des observations
OUI NON
Le quantile correspond à la moyenne entre cette modalité Le quantile correspond à la première modalité
et la modalité observée suivante. associée à une proportion supérieure à celle du
quantile en question.
Le calcul sera di érent suivant qu’on veuille déterminer la médiane sur base …
23 sur 59
fi
ff
fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
5.11.1. Calcul de la médiane sur base d’une série statistique
Série 1 : 5 8 3 7 15
NB: La médiane est une valeur observée, TOUJOURS vrai quand nombre impair d’observation
Constat :
Série 2 : 5 11 3 6 15 14
Constat :
Série 3 : 3 5 5 8 8 14 14 14 14 15
Médiane : 11
Série 4 (ordonnée) : 3 5 5 14 14 1 4 14 15
Conclusion
La médiane est nécessairement une valeur observée La médiane est une valeur observée uniquement si
les valeurs de part et d’autre sont identiques
En résumé
24 sur 59
𝜃
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
* Etape 1 : ordonner la série statistique
avec graphique
xj nj Fj
3 1 20 %
5 1 40 %
7 1 60 %
8 1 80 %
15 1 100 %
∂ = 7 car on prend la première modalité qui est relative à une fréquence cumulée qui dépasse 50
%
Q1 = 5 ( 25 % )
Q3 = 8 (75%)
xj nj Fj
3 2 20 %
5 2 40 %
7 1 60 %
8 4 80 %
15 1 100 %
∂ = 11
Dernier exemple
xj Fj
1 12,5 %
4 25 %
5 62,5 %
6 87,5 %
7 100 %
Q1 : (4+5)/ 2 = 4.5
∂:5
Q3 : 6
25 sur 59
fi
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Q1 = 161.695
θ = 166.35
Q3 = 170.686
26 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
EIQ : (Q3-Q1) -> dispersion des données
= 1.5 x EIQ
= 1.5. x9 = 13.5
=9
Hauteur …
Exemple 1 : Exemple 2 :
* Les points et les étoiles. Les valeurs extrêmes supérieurs > à la barrière supérieur et les valeurs
inférieures sont < à la barrière inférieur.
Objectif
Mode
27 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
moyenne (arithmétique)
Médiane
Remarque 1: on aurait aussi pu calculer les fréquences cumulées, mais on n’en a pas besoin pour
les calculs qui suivent.
6.1.2. Mode
Remarques :
n = e ectif total
i = num ro de la donn e
= moyenne de l’ chantillon
28 sur 59
𝑋
ff
é
fi
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
INCONVENIENT 2 : Peu repr sentatif d’une distribution non sym trique ou multimodale
Propriétés du signe de sommation : une constante multipliant la somme, peut être indiquée après
ou avant le signe de sommation. La somme de n sommes de termes a et b est égale à la somme
de la somme tous les a et de la somme de tous les b.
3° multiplier par fréquence relative diviser par solde de toutes modalités et diviser
!"#$%&"'%()
6.1.4. Modèle
29 sur 59
fi
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Remarque : plus le modèle s’éloigne de celui de la moyenne, plus grande est la SCE
30 sur 59
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Etendue
Variance et écart-type
Inconv nients 2 : Ne d pend que de deux valeurs, donc tr s peu repr sentatif de la distribution
Solutions :
31 sur 59
é
fi
é
è
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
C’est une très bonne représentation de la dispersion MAIS Supplantée par l’écart-type, à
cause des propriétés mathématiques de la variance dont il est dérivé
Car les valeurs extrême vont avoir un poids plus important dans mon calcul et encore plus vrai
dans la variance en élevant au carré on augmente en plus leur impacte ( le calcul est traumatisé)
32 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Envisageons tous les échantillons possibles de taille n= 2, et les estimations de µ
associées ( = tous les X possible)
La variance de l’échantillon est un estimateur biaisé donc il est nécessaire de corriger la variance
->diviser la SCE par les degrés de liberté ( qui est nécessairement inférieur au nombre de sujets
6.2.7. Variance
estimateur biaisé
33 sur 59
𝑆
𝑆
fi
é
é
é
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Une distribution asymétriques; Le mode est plus petit que la moyenne en cas d’asymétrie positive
et plus grand en cas d’asymétrie négative.
Un moment est une quantité calculée par la moyenne des valeurs de la distribution élevées à un
certain ordre
34 sur 59
ff
fi
ffi
ffi
Elyas Stangier Analyse de 2022-2023
données scienti ques
une fois élevés à l’ordre concerné. En revanche, un exposant impair ne change jamais le signe de
la valeur exposée.
Pour caractériser algébriquement une distribution. Trois grandes classes de mesures ont été
envisagées : la tendance centrale, la dispersion et la forme des distributions ( aplatissement et
asymétrie)
35 sur 59
ffi
ffi
fi
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Objectif
* Calculer une probabilité avec une loi normale, à l’aide d’une table
Rappel : une distribution binomiale la variable aléatoire discrète (discontinue) par les paramètres n
et p, une distribution normale sera dé nie par une variable aléatoire continue caractérisée par 2
paramètres : la moyenne et la variance
= Distribution d’une variable dont les expériences aléatoires n’ont que deux issues
possibles, réussite ou échec
Exemple: on lance trois fois une pi ce de monnaie, et on s’int resse au nombre d’occurrence de
la face « Pile ». La pi ce n’est pas parfaitement quilibr e et la probabilit d’obtenir Pile est de .6
36 sur 59
é
é
é
fi
é
è
è
é
é
é
é
è
é
fi
é
é
é
é
fi
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Une entreprise produit des machines à laver. Depuis le début de leur production, on constate que
1% des machines sont défectueuses. Une société commande 30 machine, quelle est la
probabilité qu’exactement 2 machines soit défectueuses parmi celles-ci.
Remarque : Toute variable discr te peut tre consid r e comme une binomiale.
L distribution binomiale est une distribution entièrement caractérisée par deux paramètre n
et p, lorsque p est constant, plus le n est grand, plus la courbe est plate et décalée vers la droite
37 sur 59
é
é
fi
é
é
é
è
é
è
É
ê
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
7.3. Table de la binomial
* Fonction de 2 paramètres : p et n
7.6.1. Introduction
Quand n augmente, la distribution binomiale devient inutilisable
38 sur 59
é
fi
è
è
é
é
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Qd n est su samment grand (n>30), la binomiale tend vers une distribution normale
*S’étend de -∞ ∞
*Unimodale
*Symétrique
39 sur 59
ffi
fi
à
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Exemple
1) A quelle distance ?
40 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Centrage : x - µ Reduction
41 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
* … jusque 3.90
Exercice 1:
Lors d’un processus de s lection, une entreprise utilise un test de logique. On sait qu’au sein de
la population, les scores (continus) ce test suivent une distribution normale avec = 10 et = 3.
Quelle est la proportion d’individus (en %) qui obtiennent un score compris entre 5.53 et 18.16 ?
Solution
( . ≤ ≤ . )= ( − . ≤ ≤ . )
Exercice 2:
Lors d’un processus de s lection, une entreprise utilise un test de logique. On sait qu’au sein de
la population, les scores (continus) ce test suivent une distribution normale avec = 10 et = 3.
Au-dessus de quel score un individu ayant réalisé le test de logique fait-il partie de 15 % les
meilleurs ?
Solution
Les individus qui ont un score supérieur ou égal à 13.12 font partie des
15% les meilleurs.
42 sur 59
𝑷
𝟓
𝟓
𝟑
𝑿
é
𝟏
𝟖
fi
𝟏
𝟔
𝑷
é
é
é
𝟏
𝟒
𝟗
é
𝒁
à
à
é
𝟐
𝟕
𝟐
é
𝜇
𝜇
𝜎
𝜎
Elyas Stangier Analyse de 2022-2023
données scienti ques
L’inférence statistique
Introduction
* L’estimation d’un paramètre est-elle compatible avec une valeur théorique connue ?
* Les tests paramétriques reposent sur des postulats concernant les erreurs.
* Distribué normalement
ex : dé équilibré ?
L’erreur est distribuée normalement autour d’une moyenne nulle, mais pas toujours. Lorsque ce
n’est pas le cas ; il sera nécessaire d’avoir l’information sur la distribution concernée et de
prendre les mesures qui s’imposent pour tenir compte de la situation.
Les erreurs sont considérées comme étant indépendantes. L’erreur d’une mesure n’a absolument
aucun e et sur l’erreur d’une autre mesure. Ce n’est pas toujours le cas. L’exemple le plus évident
est représenté par les séries temporelles. Les erreurs entre le temps zéro et le temps un sont
donc bien liées.
Les erreurs sont identiquement distribuée. Les valeurs di èrent de la sorte et que les variances ne
sont pas les mêmes- hétérodasticité
Erreur standard -
43 sur 59
ff
fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
44 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
paramètres
Objectifs du chapitre
* Distribution de l’échantillon
* Distribution de la population
* Distribution d’échantillonnage
µ = 100
µ= 100.4
propriété
Distribution normale
Plus les échantillon sont grands plus les estimations seront le moins dispersé autour de la
moyenne
45 sur 59
fi
fi
ff
fi
è
Elyas Stangier Analyse de 2022-2023
données scienti ques
Explication mathématique :
Explication intuitive :
* µ = 16! Cm
Quid, si n = 2 ou 100 ?
Si N = 2
SI N = 100
distribution normale
Ex : soit un échantillon consituté de 50 personnes. Le QI moyen dans mon échantillon vaut 101.2.
L’écart type de la population théoriquement connu, vaut 15. J’estime dès lors que la D.E. Suit la
distribution normale suivante
P (-1.96 ≤ µ ≤1.96)
Z = -1.96
46 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Il y a 95% de chance que la vraie moyenne de la population soit comprise entre 97.04 et 105.36
risques β = probabilité qu’un évènelent n’est pas exclu alors qu’il le devrait
On se demande s’il est possible que notre échantillon soit extrait d’une population dont la
moyenne vaut 106.
47 sur 59
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Estimation de la distribution d’échantillonnage : ressemble à une distribution t de Student mais
avec les paramètres suivants ;
Moyenne = 0, cart-type = 1
48 sur 59
ff
é
é
é
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Synthèse
— — — Rappel — — —
49 sur 59
è
fi
è
è
è
è
è
fi
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Exemple 1
Des tudiant.e.s passent un examen constitu de 100 « Vrai ou Faux » (1 point par question,
pas de point n gatif). On dispose de la note obtenue par 14 de ces tudiant.e.s.
Si je ne prend aucune donn e en compte pour m’aider pr dire sa note (ni sur le sujet, ni sur
l’ chantillon, ni sur la population), quel mod le puis-je d nir ?
→ Mod le du hasard
é
fi
é
é
é
é
é
è
è
è
é
é
é
à
é
é
fi
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
de mon échantillon
Exemple 2 : SCE(C)
Des tudiant.e.s passent un examen constitu de 100 « Vrai ou Faux » (1 point par question, pas
de point n gatif). Voici les r sultats obtenus dans un échantillon de 14 personnes.
SCE(C) = 1414
SCE(A) = 14
OU = ( )− ( )
51 sur 59
𝑆
é
𝐶
𝑅
𝑆
é
𝐶
𝐸
𝐶
fi
𝑆
𝐶
𝐸
𝐴
é
é
Elyas Stangier Analyse de 2022-2023
données scienti ques
Rajouter de l’info ne
pourra pas être
dégradant pour la qualité
du modèle
0≤ ≤ 1
La taille du PRE,
L’erreur,
L’erreur peut également nous empêcher de voir les e ets. Plus on contrôle les variables
potentiellement perurbatrices; plus on a de chances de réduire l’erreur.
La taille de l’échantillon,
Plus un échantillon est grand, plus l’erreur standard est petite. Plus l’échantillon est grand, moins
l’intervalle de con ance est grand et plus on va considérer rapidement qu’une valeur di érente de
la moyenne appartient à une autre distribution d’échantillonnage, donc plus on est puissant.
PRE: information partielle … (pour dire que PA est meilleur que PC)
1) En moyenne, quelle est la proportion de réduction par paramètre estimé ? ( la part d’erreur
expliqué par le modèle)
= PRE/(PA-PC)
2) En moyenne, quelle part de l’erreur résiduelle pourrait être expliquée par les paramètres
disponibles ? ( part de la variabilité pas expliqué par le modèle)
=(1-PRE)/(n-PA)
52 sur 59
𝑃
𝑅
𝐸
é
fi
fi
é
é
é
ff
𝐬
𝐢
𝐠
𝐧
𝐢
𝐟
𝐢
𝐜
𝐚
𝐭
𝐢
𝐯
𝐞
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
(F>1)
(F=0)
Remarque : lorsqu’on rejette une hypothèse, c’est qu’on a pu observer une di érence signi cative
et nous pouvons être con ants dans notre décision de la rejeter. Si on ne rejette pas l’hypothèse,
on ne peut pas pour autant l’accepter
8.5. Distribution F
* Dépend de 2 paramètres :
*Asymétrie positive
*Étendue : de 0 à + oo
53 sur 59
fi
fi
ff
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
8.6. Présentation des résultats
Oui ou non on rejette l’hypothèse nulle, la p valeur est le degré de crédibilité que mes données
sont compatible avec nos
P valeur = Portion de l’air sous la distribution f qui se situe au-delà de la statistique trouvée
NRH0 n’est pas un soutien en faveur de H0 -> démontrer que prendre en compte la moyenne
joue un rôle -> modèle augmenté > modèle compacte
Exemple 2 (reprise)
PRE= 0.99
F = 1287
54 sur 59
fi
fi
é
... de la taille de l’ chantillon ( plus un échantillon est grand plus la dispersion sera étrioite,
et donc Intervalle de con ance plus précis
8.7. Lien entre l’approche par comparaison de modèles et le calcul des I.C.
. =√ . . 2= .
55 sur 59
𝟐
𝟏
𝟔
𝟎
é
𝟒
𝟔
𝟕
fi
𝟐
𝟏
𝟔
𝟎
fi
é
𝟒
𝟔
𝟕
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
8.9 Test t
On ne pourra pas d montrer la sup riorit du mod le de la moyenne sur le mod le du hasard si…
Reprise de l’exemple 1
Reprise de l’exemple 2 :
56 sur 59
𝜇
fi
è
é
é
é
è
è
Elyas Stangier Analyse de 2022-2023
données scienti ques
Appréhender la distribution 2
9.1. 2 d’ajustement
Puis-je douter du fait que mon dé soit bien équilibré ?
Il s’agit d’un teste de comparaison entre une distribution observée et une distribution
théorique. Pour traiter les problèmes liés à l’utilisation de variables dépendantes
catégorielles.
9.2. Distribution 2
57 sur 59
𝜒
𝜒
𝜒
𝜒
𝜒
𝜒
ff
fi
fi
ffi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
Les fluctuations de votre estimation de la variance (l’erreur standard) sera plus faible en
prenant de grands échantillons qu’en en prenant des petits puisque l’impact des grands
et des petits individus est moins grand que lorsque l’échantillon contient peu de sujets.
58 sur 59
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
59 sur 59
𝜒
ff
fi
fi
fi