Statistique en

Elyas Stangier Analyse de 2022-2023
données scienti ques
Chapitre 1 : Importance des statistiques pour un

psychologue
1.1 Qu’est ce que la statistiques ?

La statistique = ensemble d’outils de recherche mathématiques qui permettent de
déterminer les caractéristiques d’un ensemble de données
3 activités :
- collecter
- traiter (statistique descriptive)
- interpréter (inférence statistique) s’appuie sur la théorie des sondages et la

statistique mathématique
-> un ensemble de données ( généralement vaste)
Exemple
Hypothèse de recherche : « les humoristes ont une tendance à la dépression clinique « .
Tous les humoristes de la terre = population
On veut démontrer que les humoristes ont une tendance à la dépression clinique.
Echelle BDI
Exemple : item 1 de l’échelle BDI
0 I do not feel sad

Score Interprétation
1 I feel sad
0-10 « normal »
2 I am sad all the time and I can’t snap out of it
3 I am so sad and unhappy that I can’t stand it

11-16 Mild mood disturbance
17-20 Bordeline clinical depression

-> 21 blocs d’a rmation
-> score total compris entre 0 est 63

21-30 Moderate depression
31-40 Severe depression
Etape 1 : collecte des données

41 -63 Extreme depression
Sur qui mesurer le score à l’échelle BDI ?
Etape 2 : traitement des données
Statistiques descriptives
= simpli er l’information des données brutes
=> en utilisant des graphiques
=> en utilisant des indicateurs chi rés
/!\ le choix du graphique et du( ou des) indicateur(s) chi rés dépendront de l’échelle de mesure
Etape 3 : interprétation des données
Statistiques inférentielles
= induire les informations de l’échantillon à la population entière
/!\
-> raisonnement incertain
-> introduction aux probabilités
1 sur 59
fi
ffi
fi
ff
ff
1.2. A quoi bon faire de l’expérimentation ?
-> abolir la croyance
-> établir des modèles de prédiction …
exemple : la résilience en fonction du nombre de di cultés renco,ntrées
… qu’on pourra complexi er/approfondir en cas de désaccord
exemple : immunisation vs sensibilisation
1.3. Structure du cours

Chap 2-4 Not ion de prédiction - variable-hypothèse-logique et représentation
par les ensembles
+ échelle de mesure
Chap 3 Proba
Chap 5 Exploration graphique des données à une dimension STATISTIQUES
Chap 6 Exploration algébrique des données à une dimesnion DESCRIPTIVES
Chap 7 Les distribution binomiales et normales
Chap 8 Inférence statistiques à propos des valeurs de paramètres
Chap 9 Inférence statistique sur des variables nominales STATISTIQUES
Chap 10 Véri cation des conditions d’application et alternatives INFERENTIELLES
Chap 11 Présentation des résultats
1.4. Ressources disponibles

Syllabi
!!! Attention « partie Aspects pratiques » non à jour !!
Diapo
Usage de l’UV
Lien vers le syllabus, les Slides et les podcasts
Documents divers (erratum)
Corrigés des exercices
Quiz
Forum
Il vous sera utile pour
Poser divers questions (théorie et TP)
Signaler d’éventuelles erreurs dans le cours
Attention : ne sera pris en charge que sur le forum (PAS par email !)
1.5. Les TP’s

séances pas obligatoires mais fortement conseillées
séances questions/réponses (système de classes inversées)
1.6.Contacts supplémentaires
aude.fenaux@ulb.be ( coordinatrice administrative)
voir vos assistant.es aux TP
1.7. Wooclap
- Question de ré exion
- Entraînement  
2 sur 59
fi

fi
fl
fi
ffi

Chapitre 2 : Les notions de prédiction — variable-

hypothèse - logique et représentation par les ensembles
OBJECTIF :
Identi er et analyser les hypoth ses de recherche;
Comprendre le principe de mod lisation;
Distinguer les logiques d ductive et inductive;
Tester la validit d’un raisonnement d ductif, en le représentant l’aide d’ensembles

(diagrammes de Venn).
2.1. Variables hypothèses et modélisation
2.1.1. Variables
* « informations » dont on dispose pour chaque sujet, qui s’in uencent éventuellement entre elles
* Permettent une prédiction
exemple : âge, genre, taille, origine ethnique, score à l’échelle BDI …

* Variable ≠ constante
* Plusieurs modalités
* Contraintes de la modélisation de la réalité
(a) di cile d’identi er l’ensemble des variables la dé nissant
(b) impossible d’évaluer l’in uence de l’ensemble d’entre elle
(c) di cile de mesurer chacune des variables
* choix des variables : déterminer les variables les plus pertinentes, qui in uencent le plus le
concept
exemple : couleur des yeux : brun, noir, bleu, vert, gris

2.1.1.2. Variables dépendantes vs indépendantes
Variable dépendante (VD) = le concept étudié
exemple : Le BE, le score de résilience …

Variable indépendante (VI) = variables qui in uencent le concept étudié
exemple : La prise ( ou non) d’anti-dépresseur, le fait de suivre (ou pas) une thérapie etc
NB: il est impossible d’identi er toutes les VIs. Sélection des plus pertinentes.
NB: l’établissement du statut de la variable dépend de l’expérimentateur
2.1.2. Hypothèse VI et VD
Hypothèse : prédiction de l’in uence d’une (ou plusieurs) variable indépendante.s (Vi’s) sur une
variable dépendante (VD)
exemple : Le « médicament X » permet d’améliorer le bien-être

VI : recevoir (ou pas) le médicament X
VD = bien-être

Dans le contexte d’études sur le partage sociale des émotions, on souhaite tester l’impact du type
de réaction de l’auditeur sur la préception du locuteur ( = la personne qui parle). On suspecte,
notamment que les réactions de l’auditeur centrées sur lui-même sont perçues négativement par
le locuteur, alors que celles centrées sur le locuteur sont perçues positivement par le locuteur
Un chercheur se demande si le niveau d’addiction d’une personne aux nouvelles technologies

peut être prédit en fonction du nombre d’heures qu’elle passe en moyenne chaque semaine sur
internet et en fonction de son niveau de dépression évalué par un test psychologique. Le score de
dépression est évalué sur 30 points. Le score élevé signi e que la personne est dépressive. Le
score d’addiction est évalué sur 40 poins. Un score élevé signi e que la personne a développé
une addiction
Dans une clinique de r habilitation on veut v ri er si la condition physique avant une intervention
chirurgicale a un e et sur le nombre de jours de kin sith rapie n cessaire pour r habilitation
3 sur 59
fi

ffi
ffi
é
fi
ff
é

é
fi
fi
fl
è
é
fl
é
fl
é
fi
é
é
fi
fi
fl
fi
é
à

fl
é
compl te. La condition physique est valu e selon un bar me qui donne : condition moyenne
sous la moyenne ou sup rieur la
moyenne.

⚠ Une variable peut changer de statut d’une hypothèse à l’autre !

VD
Le temps d’étude consacré au cours de STAT-E110 va in uencer la note des étudiants à l’examen
de ce cours
Vs
VI
La motivation d’un étudiant va in uencer le temps qu’il consacre à étudier le cours de STAT-E110
2.1.3. Comment générer une hypothèse ?

Intuition Théorie
« Bon sens » qui ne repose sur Ensemble des recherches sur

aucune étude
la problématique ciblée ( ou
une problématique très
Exploration avant d’établir une proche)
hypothèse
Prédictions a priori
2.1.4. Propriétés d’une hypothèse

1. Elle est toujours falsi able
-> elle doit pouvoir être véri ée/réfutée
-> ≠ croyance
⚠
« Hypothèse vs croyance « ≠ « Vrai vs Faux »
ex « dieu existe » = croyance

« Hypothèse vs croyance « ≠ « Crédible vs non crédible »
ex « les clous rouillent plus rapidement en présence d’adultes dépressifs » = hypothèse
2. Il s’agit d’une prédiction et non d’une question de recherche
Question Prédiction/a rmation
« Est-ce qu’aller aux guidances permet « Aller aux guidances permet

d’améliorer la réussite à un examen ? » d’améliorer la réussite à un examen’
VI = participer ou non aux guidances
VD = note à l’examen

3. Elle contient une seule proposition
Hypothèse 1
Ex : « les étudiants les plus motivés réussiront mieux le cours de statistiques parce que leur
motivation les poussera à étudier plus »
Hypothèse 2
2.1.5. Hypothèse théorique vs opérationnelle
Hypothèse théorique = description général de l’e et attendu d’une VI sur une VD
Exemple : le taux d’alcoolémie réduit les ré exes des conducteurs

pour que ce soit une hypothèse opérationnelle on doit dé nir comment on va mettre l’expérience
en place
Hypothèse opérationnelle = prédiction concrète des résultats d’une expérience
Exemple 1: en présence d’un obstacles sur un parcours plus le dosage d’alcool dans le sang est
élevé plis le temps qui s’écoulera ente elle moment où l’individus détecte l’obstacle et celui où il
appuie sur le frein sera long
4 sur 59
è

ffi
fi
fi
é
à
fl
fi
é
é
ff
fl

fl
fi
è
Exemple 2 : en présence d’un obstacle sur un parcours les sujets ont bu 3 verres de bière
freineront avec un temps de réaction plus long que les sujets sobres
2.2 Modélisation
Simpli er la réalité au point d’ignorer complètement l’in nité des autres variables est de leurs
interactions
Avec l’exemple 1 :
/!\ attention : modélisation = simpli cation de la réalité
Réalité = modèle + erreur
<=> Erreur = réalité - modèle
Objectif : réduire l’erreur de prédiction
optique probabiliste : plus grande probabilité de décrire correctement la réalité, sue

l’erreur soit la plus petite possible
Prédiction : modèle prédictif et/ou description de la réalité
2.3. historique
Les première commentes de données, il y a 4000 ans en Chine en l’an 2 de la dynastie des Han,
recenser la population, les revenus et le nombre de soldats.
Plus en avance dans l’Histoire, plus ces recensements sont fréquents et précis
La notion d’incertitude et de probabilité apparait dans les 1950
La certitude a une longue histoire, elle est accessible à l’Homme par sa croyance en DI
( prophète Isaïe), avec l’héliocentrisme ( >< égocentrisme) ( Nicolas Copernic). C’est en n pascal
et Fermat qui énoncent le concept de probabilité sous la forme de degré d’incertitude.
2.4. Logique
* Logique = raisonnement, argumentation
Un raisonnement correcte = ne pas inférer une conclusion fausse à partie de prémisses vraies
2.4.1. Les propositions

* Prémisses et conclusion = propositions
* Proposition = sujet (individu.s ciblé.s) + Prédicat (attribut caractéristique)
= énoncé qui peut être vrai ou faux
2.4.1.1. Type de proposition (6)

A rmative Négative
Universelle = toute la population Tous les humoriste sont Aucun humoriste n’est dépressif
dépressifs
5 sur 59
ffi
fi

fi
fi

fi
fi
Particulière = une partie de la Certains/quelques humoristes Certains/quelques humoristes ne
Carré logique
population sont dépressif sont pas dépressifs
d’Aristote
Singulière = un et un seul Gaspard Proust est dépressif Gaspard Proust n’est pas
individus dépressif
1
2.4.2. Logique déductive
Raisonnement certain à condition que

Les étudiant.e.s réussissent toujours ( prémisse 1)
- les prémisses soient vraies

Les participant.e.s au cours de stat sont des étudiant.e.s
- ET le raisonnement soit valide
( prémisse 2)
____________________________________________
Logique certaines, rarement possible sauf

Les participant.e.s au cours de stat qui sont motivés vont
dans le cadre d’une démonstration
réussir mon examen (conclusion)
mathématique
Prototypes du raisonnement déductif est le syllogisme2 d’Aristote
= une proposition est une assertion comprenant un sujet et un prédicat ( = un attribut)
D’un point de vue qualitatif , une proposition peut être vrai ou fausse
D’un point de vue quantitatif, une proposition peut concerner tous les cas, certains cas ou un seul
cas.
La logique déductive ne peut pas conduire à une erreur pour peu que les prémices soient vraies
et l’argumentation soit valide.
2.4.3. Représentations des raisonnements à l’aide d’ensemble

ensemble = ensemble d’éléments ayant une caractéristiques commune
ensembles particuliers :
ensemble universel (Ω) (indispensable pour dé nir la notion de complément d’un

ensemble ), ensemble de tous les éléments auxquels on s’intéresse
ensembe vide (ø) (ensemble qui ne contient aucun élément, sous éléments contenu
dans n’importe quel ensemble, utile pour dé nir la notion d’ensemble disjoint)
singleton (ensemble qui contient un seul individus)
2.4.4. Inclusion et appartenance :
2.3.4.1. Relations entre ensembles
Inclusion (logique d’implication) (2 ensembles) :
Appartenance ( 1 élément dans 1 ensemble):
1 l’apport logique d’Aristote à la logique tient des inférences médiates

2 = conclusion tirée à partir de deux ou plusieurs prémisses
6 sur 59
fi
fi
fi
2.4.5. Ensembles complémentaires
2.3.5.1. Relations entre ensembles :

Complément : (négation)
~G ( ou G)
2.4.6. Intersection et di érence

Intersection (‘et’) :
Di érence
2.4.7. Union d’ensemble
2.3.7.1 Relations entre ensembles :
Union inclusive :
Union exclusive :
2.4.8. Ensembles disjoints
Ensembles disjoints (mutuellement exclusifs):
2.4.9. Synthèse
(Ensemble) qui ne comprend pas (un autre ensemble) \
2.5. Représentation des raisonnements à l’aide des ensembles
Probabilité = chances d’obtention d’un évènement donné, séparer ensembles ayant une propriété
spéci que ainsi que des ensembles pouvant regrouper plusieurs propriétés décryptent
graphiquement ou algébriquement.
2.5.1. Diagrammes de Venn

Utilisé en logique déductive, quanti cateurs tous, certains et aucun

Mortels Mortels

Hommes Hommes
Grecs
Grecs
7 sur 59
CERTAINs
TOUS
fi

fi
ff
ff
fi


2.5.2. Diagrammes de Venn et validité du raisonnement : exemple 1
3 possibilités
2.5.3. Diagrammes de Venn et validité du raisonnement : exemple 2
2.5.4. Remarques
* Les prémisses sont intrinsèquement VRAIES ou FAUSSES
* Etat de fait ≠ état de nos connaissances
* Les prémisses sont toutes probabilistes : « plus un phénomène est observé plus il y a de
chances qu’il se produise à nouveau
exemple : tous les hommes sont mortels

* Les ensembles contiennent un nombre ni d’éléments discrets ( ni) dénombrables
* Les diagrammes de Venn sont des représentations de propriétés ( de prédicats) supposé vraies
pour tous les éléments constituant l’extension des ensembles
* Il existe un lien de réciprocité entre la logique déductive et la la logique inductive, le premier

raisonnement est certain, pour peu que mes prémisses soient vraies et que mon argument soit
valide, le second est probabilistes.
2.6. Logique inductive
= raisonnement nécessaire incertain ! Dont le principe est de découvrir des lois générales
à partir d’observation de faits. Plus un phénomène donné est observé, plus il y a de chances qu’il
se produise à nouveau.
peut amener à des dérives
Basé sur l’observation du monde
8 sur 59
fi
fi
fi

2.6.1. Exemple de dérive
De quelle couleur sont les corneilles ?
je vais regarder à Bruxelles et au l des jours je vais

voire plus de corneille noire alors qu’elle est en
réalité moins fréquente que la corneille noir
Par essence, le cerveau humain fonctionne sur base

d’une logique inductive
Une mauvais utilisation de la logique inductive est souvent à la base des stéréotypes à propos
des groupes sociaux.
MAIS à la base de tout raisonnement scienti que
-> importance de quanti er l’incertitude que l’on a en a rmant une proposition.
Notre cerveau fonctionne sur base d’une logique inductive, de stéréotype -> l’essentiel de notre
connaissance se base sur une logique inductive.
Une proposition est toujours vraie ou fausse
Chapitre 4 : Les échelles de mesure
* di érentes manières de mesurer l’information
ex : l’ivresse
* être saoul ou pas ( variable qualitative)
* Le nombre de verre d’alcool consommés (variable quantitative discrète)
* le nombre de mg d’alcool par litre de sang (variable quantitative continue)
=> le choix de la mesure est capital. Les analyses qui suivront dépendront de ce choix !
=> Ce choix doit toujours précéder la dé nition des hypothèses !!
4.1. 4 échelle de mesure Howell
Les échelles nominales regroupent les mesures qualitatives, les autres des mesures quantitatives.
Ils ont une relation d’inclusion.(toutes être considérée comme nominale
échelle nominale : lien d’appartenance d’un objet, distinctive, di érente qualitativement
échelle ordinale ; plus informait que les échelles nominales: l’ordination des chi res import,
la qualité qui sépare le 1 et le 2 n’est pas forcément la même que celle entre le 2 et le 3
échelle d’intervalle: un niveau supplémentaire d’information. La distance entre deux unités

est constante. Exemple de température en C° , pas de zéro absolu
échelle de rapport : zéro absolu
9 sur 59
ff

fi
fi
fi
fi
fi
ffi
ff
ff
4.1.1. Echelle absolue
* échelle qui n’admet aucune transformation linéaire, pcq je peux la mesurer de

di érentes manières
- ex : nombre d’animaux de compagnie est mesuré sur une échelle absolue
- ex : la taille n’est pas mesuré sur une échelle absolue ( 30.48cm = un pied,
2.54cm = un pouce)
=> le choix de la mesure est capital. Les analyses qui suivront dépendront de ce choix !
=> Ce choix doit toujours précéder la dé nition des hypothèses !!
4.1.2. Remarque
Ou exclusif, quand ?
exemples:
Risque d’e et secondaire indésirable ( ex . Prise de deux molécules somilatné »es)
Etude de famille monoparentale hétérosexuelle : in uence du fait de vivre abbé son père ou sa
mère uniquement ? Etc.
Chapitre 3 : Probabilités et analyse combinatoire
Objectifs :
Dé nir les notions de probabilité, expérience et évènement aléatoires et la loi des grands
nombres
Dé nir mes axiomes de Kolmogorov et les loi qui en découlent
Introduire les probabilités conditionnelles
Introduire l’analyse combinatoire ( dénombrement)
3.1. Probabilité d’un évènement :

3.1.1. dé nition épidémique
* « degré de croyance en des propositions qui n’ont rien de statistique , relatif à la connaissance
exemple : « je trouve un verre cassé dans la cuisine, qui est coupable ? »
-> a un côté subjectif et personnel.
3.1.2. dé nition fréquentantiste

Tendance de certains dispositifs aléatoire à produire des événements avec des fréquences
relative.3 qui tendent à se stabiliser au fur et à mesure qu’on augmente le nombre de répétitions
de l’expérience aléatoire.
Probabilité qu’un évènement aléatoire se produise au cours d’une expérience aléatoire ?
* Expérience aléatoire
« action qui va engendrer à chaque répétition un (et un seul) des évènements élémentaires
possibles » - peut se réaliser ou ne pas se réaliser lors de chaque essai
exemple : lancer un dé
* Evénement aléatoire
« Événement qui peut se réaliser au cours d’une expérience aléatoire »
exemple : obtenir « 5 »
3fréquence relative = nombre d’observations intéressantes divisé par le nombre total

d’observation
10 sur 59
ff
fi
fi
ff

fi
fi
fi
fi
fl
Espace-échantillon : ensemble des événements élémentaires possibles auxquels on s’intéresse
—> les événements aléatoires se produisent avec des fréquences relatives qui se stabilisent au l
des répétitions d’une expérience aléatoire
Ex soit un dé à 6 face
Évènements d’intérêt : observer la face « 1 »
Le fréquence relative : je compte le nombre de fois que j’ai obtenus
Nombre de répétitions: Résultats Fréquenc relative
12 323222143462 1/12
50 244342166126637476367463743 6/50=1/8.33
6743 »
100 353485796866534567978432676 19/100 = 1/5.26

065454500985453478876753344
805237065345898784456
=> dé nition fréquentiste = limite de la fréquence relative quand le nombre d’expérience aléatoire
tend vers l’in ni
« Re et de la tendance de certains dispositifs aléatoires à produire des événments avec des
fréquences relatives qui tendent à se stabiliser au fur et à mesure qio’on augmente le nombre de
répétitions de l’expérience aléatoire »
Quelques termes spéci ques
Fréquence relative = le rapport entre le nombre d’événements favorables à la réalisation de

l’événements considéré comme critique et le nombre total d’événements élémentaires possibles
La probabilité = le rapport entre le nombre de cas favorables et le nombre de cas possible
Comment calculer la probabilité d’un évènement ?
Analytiquement
Empiriquement

A posteriori

A priori
Exemple : évènement A = « obtenir une face

paire »
* n(A) = 3
* N=6
* P(A) = probabilité de l’évènement A

-> P(A) = 3/6 = 0.5
* n(A) = nombre de cas favorable
11 sur 59
fl
fi

fi
fi
fi
fi
* N = nombre de cas possible
3.2. Dé nition analytique de la probabilité
conditions
Événement sont équiprobable
Evénements exclusif, 2 évènements qui ne peux pas paraitre en même temps
Evénement exhaustifs : pcq on connaît toutes les possibilité
Remarques :
Condition d’équiprobabilité
—> introduction de la notion de probabilité dans la dé nition du concept de

probabilité
—> dé nition circulaire et impropre à la condition
—> Avantage : simple et facile à comprendre
3.3. Synthèse : 2 dé nition de la probabilité :
1) dé nition analytique ( méthode analytique, a priori) = « nombre de cas favorable divisé par le
nombre de cas possibles »
2) Dé nition fréquentiste ( méthode empirique, a posteriori) = « limite de la fréquence relative

quand le nombre d’expérience aléatoire est égal à l’in ni », correspond à une caractéristique
physique, de disposition, de tendance ou de propension
- avantage : ne demande pas la condition d’équiprobabilité ni celle de

l’exhaustivité.
-le désaventage : réaliser des expériences aléatoires pour déterminer la probabilité.

La possibilité d’évaluer une proba a priori
Situation fréquentante pure : peut être véri ée empiriquement. Grâce à cette possibilité » de
véri cation empirique, la probabilité au sens féquentiste a souvent été quali ée d’objective
Situation épidémique pure : une proposition exprimée en degré de con ance qu’une personne
accorde aux di érents arguments qui appuient cette thèse. Comme le degré de con ance
accord »é à une proposition varie d’une personne à l’autre, la probabilité au sens épistémique a
sauver été quali ée de subjective.
Situation de va-et-vient : l’observateurs attribue donc la valeur de la proba fréquentante à la

probabilité épidémique dans le cas du lancer unique
3.4. La loi des grands nombres
Quand le nombre de répétition d’une expérience aléatoire tend vers l’in ni
-> la fréquence relative de l’événement X tend vers P(X )
<=> la probabilité que la fréquence relative d’apparition de X di ère de P(X ) qui tend vers 0
= la loi des grands nombres (Bernouilli)
/!\ indépendance des répétitions de l’expérience aléatoire => Les probabilités n’ont pas de
mémoire ! /!\
/!\ d’illusion/sophisme du jouer » = croit que la loi des grands nombres implique une sorte de
compensation de la part de la nature : tout se passerait cille si la nature s’arrangeait pour que les
fréquences absolues des di érents événements possibles s’équilibrent après un grand nombre
d’essais /!\
Autrement dit : plus le nombre de jets augmente, plus la di érence entre la fréquence relative de
l’événement critique et sa fréquence relative théorique (50%) devient petite.
12 sur 59
fi
fi
fi
fi

ff
fi
fi
fi
fi
ff
fi
fi
ff
ff
fi
fi
fi
fi
fi
La di érence entre la fréquence relative observée et la fréquence relative théorique (= la
probabilité) tend vers 0 quand N tend vers l’in ni
3.2. Dé nition axiomatique des probabilités
* axiome4 = vérité indémontrable qui doit être admise
* En probabilité 3 axiomes dé nis par Kolmogorov
* Base de raisonnements plus complexes
3.2.1.Axiomes de Kolmogorov
Soit un espace-échantillon Ω associé à une expérience aléatoire. La probabilité P(E ) d’un

évènement critique E constante en un nombre réel qui satisfait aux axiomes sui ants :
Un évènement E est soit
impossible -> P(E) =0
certain -> P(E) =1
probable -> 0 < P(E) < 1
3.3. propriétés dérivées des axiomes

- Pour des v nements disjoints (mutuellement exclusifs) et exhaustifs
- Pour des v nements non disjoints (non mutuellement exclusifs)
3.3.1. Pour des évènements disjoints(exclusif) et exhaustifs
a) propriété d’une partition
P(V ∪ O ∪ R ∪ B) = P(Ω)
b) propriété d’événements complémentaires
4le principe d’une axiomatisation est que tous les théorèmes de la théorie axiomatisée peuvent
être dérivés à partir des axiomes.
13 sur 59
ff
fi
é
é

é
é
fi
fi
fi
ff
2 évènements qui s’oppose, la somme de la probabilité de chacun de ses
évènements vaut 1
P(V ∪ ~ )=1 <=> PV =1−P(~ ) <=> P(~ ) =1−P(V)
V et~ sont exhaustifs et mutuellement exclusifs
c) propriété de multiplication, à condition qu’ils sont indépendant
Je lance une pièce de monnaie 2 fois. Quelle est la probabilité d’obtenir 2 fois « pile »
( 1∩ 2) = P(Pile1) × ( 2) = .25
On lance une pièce 3 fois d’a lée. Quelle est la probabilité d’obtenir « face » 3 fois d’a lé ?
Note : la pièce est légèrement déséquilibrée, si bien que la probabilité d’obtenir « pile » vaut 0,6
au lieu du traditionnel 0, 5
P(Face) = 0.4 à chaque lancé
0,6 x 0,6 x 0,6 = 0, 064
Je lance une pièce de monnaie 3 fois. Quelle est la probabilité d’obtenir au moins 1 fois Pile ?
Loi multiplicative des probabilités : la probabilité d’occurrence

conjointe de deux ou plusieurs événements indépendants est
égale au produit de leurs probabilités individuelles
3.3.2. Pour des évènements non disjoints
3.4. Tableau de contingence

B ~B P marginale
A A inter B A inter ~ B P (A )
~A ~A inter B ~A inter ~B P(~A)
P marginale P (B) P(~B) 1
B ~B P marginale
A .3 .4 .7
~A .2 .1 .3
P marginale .5 .5 1
14 sur 59
𝑃
𝑃
𝑖
𝑙
𝑒
𝑃
𝑖

𝑙
𝑒
fi
𝑉
𝑉
𝑃
ffi
𝑃
𝑖
𝑙
𝑒
𝑉
𝑉
ffi
Règle générale d’addition des probabilités de deux événements

Si A et B sont deux événements quelconques
Dans le cas particulier oui A et B sont des événements disjoints
Parce que
3.5. Les probabilités conditionnelles

Qu’elle est la probabilité d’un évènement sachant qu’un autre évènement est présent ?
Ex : quelle est la probabilité de réussir l’examen de statistiques sachant qu’on a lu les lectures
conseillée ? -> 70/90
Les fréquences relatives : ƒ= n/N, nombre de sujets d’une case, divisé par le nombre total de
sujets.
-> Importance de cette notion pour tester l’indépendance entre deux variables
R= réussir l’examen, L = lire les lectures
Ré exion 1 :
Parmi un ensemble de 120 étudiants seulement 20 ont simultanément lu les lectures conseillées
et réussi l’examen . Peut-on en conclure que la lecture est inutile ?
NON, tout dépend combien de personne on raté l’examen et qui ont lu.
3.6. Probabilités conjointes vs conditionnelles
Conclusion : Probabilités conjointes ≠ conditionnelles
Ré exion 2 :
La probabilité de r réussir sachant qu’on z lu ls lectures conseillées est de 80%. Argument

su sant pour être en faveur de la lecture?
NON, peut-être que tous les élèves ont réussi l’examen
Pour être capable de répondre il faut prendre en compte la proba de réussir sachant qu’on a pas
lu
3.6. Probabilités conjointes vs marginale
* étudier le lien entre deux variables implique de comparer les probabilités conditionnelle et les
probabilités marginales
15 sur 59
ffi
fl
fl

fi
3.7. Probabilités conditionnelles vs Probabilités conjointes dépendants
Si on obtient un lien de dépendance entre une variable A et une variable B, on obtiendra

forcément un lieu de dépendance entre la variable B et la variable A
3.8. Indépendance entre événements
Règle des produits des probabilités qui est applicable au cas des événements compatibles et
indépendants
16 sur 59
fi
3.9. Analyses combinatoires
Nécessité dans le calcul de probabilité de dénombrer l’inventaire des dispositions d’un certain
nombre d’objet parmi un ensemble d’objet avec ou sans remise. / Counting rules : dénombrement
du nombre de dispositions d’un certain nombre d’objet parmi un ensemble d’objets avec ou sans
remise Il est nécessaire sue s’intéresser à la remise ou à la non remise des éléments avant chaque
tirage (càd à l’indépendance ou là la dépendance des tirrges successifs) et à l’importance ou non
de l’ordre de tirage
3.9.1. Tirage avec remise

Soit une urne contenant 9 billes (5bleues et 4 rouges)
P(bille bleue au premier tirage) = 5/9
P(bille bleue au deuxième tirage|bille bleu au premier tirage)= 5/9
P(bille bleue au troisième tirage | billes bleus aux premier et deuxième tirages) = 5/9
=> tirage indépendant !!
ex : on, sélectionne 3 bille numérotées parmi un ensemble de 4 billes ( numérotées de 1 à

4) …
… avec remise (on peut s »sectionner deux fois la mêmes bille)
… En considérant que l’ordre est important
Combien de résultats possible ?
règle des produits
4 x 4 x 4 = 4^3 = 64
Règle des produits

Dénombre les événements élémentaires distincts de l’espace-échantillon d’un expérience
aléatoire comprenant N , avec remise et ordre est dé ni
17 sur 59
fi
fi
SI K1, K2,… KN sont les nombres d ‘évnemtns distinctes et indépendants qui peuvent se produire
au cours des essais 1, 2, …N dans une série, le nombre de séquences di érentes de N
événements est donné par le produit K1 x K2x..x KN
3.9.2. Tirage sans remise
Soit une urne contenant 9 billes (5bleues et 4 rouges)
P (bille bleue au premier tirage) = 5/9
P(billa bleu au deuxième tirage |bille bleue au premier tirage) = 4/8 = 1/2
P (bille bleue au troisième tirage|billes bleus aux premier et deuxième tirage) = 3/6
=> Tirage non indépendant !!
L’ordre est important L’ordre est important
OUI NON
Veut on organiser tous Tous Permutations

1 ou ø
les éléments d’un 4! = 4x3x2x1 = 4!= 24
ensemble iu seulement P = N!
une partie ?
Veut on organiser tous Une partie Arangements

Combinaison
les éléments d’un

ensemble iu seulement
une partie ?
Soit N = nombre d’objets
3.9.3. Synthèse
18 sur 59
fi
ff

Chapitre 5 : exploration graphique des données à une

dimension et terminologie
Objectifs :
Cr er des tableaux de fr quences
Cr er, lire et interpr ter des graphiques bas s sur les fr quences
Calculer divers quantiles
Cr er, lire et interpreter des graphiques bases sur les quantiles (bo tes moustaches)
5.1. Introduction
On demande à 200 étudiants s’ils fument ou pas. La réponse à cette question a 2 modalités :
« oui » et « non ». Voici le résultat obtenus
* Les données brutes sont indigeste en l »’état;
* Elle doivent être simpli ées
* Ex : 30 personnes ne fument pas; 170 fument
* Les données simpli és peuvent être représentées graphiquememnt
*La transnumérisation, manipulation des données chi rées

pour leur donner un sens facilement compréhensible
Un échantillon va être prélevé aléatoirement dans une

population ( N : taille popu, n : taille échantillon). Si je ne m’intéresse qu’aux caractéristiques de
mon échantillon, sans me soucier de la population, sans vouloir inférer les caractéristiques de
cette population on parle de statistique descriptives. MAIS si j’ai la vocation de déterminer
certaines caractéristiques de ma population à partir d’un échantillon, inférences statistiques.
Plus mon échantillon est grand , plus je serai précis dans mes estimations? Il est nécessaire que
l’échantillon représente un prélèvement d’une toute petite partie de la population, prélever u sujet
n’in uence que de manière négligeable les chances de prélever un autre sujet.
Les valeurs discontinues : variables qui ne peuvent prendre que certaines valeurs et pas d’autres
— variables discrètes
Une variables continue, peut prendre n’importe quelle valeur sur un intervalle donné
5.2. Avantages des graphiques

* Accès visuel facile et immédiat sur nos données
* Permet de repérer facilement….
* … Les tendances principales
* … Les éventuelles anomalies (ex. Erreurs d’encodage)
19 sur 59
é
é
é
fl

fi
é
fi
fi
é
é
ff
é
î
à
5.3. Représentations graphiques d’une variable
Diagrammes en bâtons et histogrammes
Distributions
Diagramme en tiges et feuilles
Les boîtes à moustache
5.4. Diagrammes en bâtons et histogramme

Etape 1 : transnumérisaction des données
—> tableau de fréquences
Etape 2 : représentation graphique
diagramme en bâtons ou historgramme
5.5. Les distributions de fréquences
Exemple: 40 parents (issus de m nages di rents) ont r pondu par oui ou non la question
suivante: “Mon enfant re oit-il de l’argent de poche? “ Voici les r sultats:
1) Déterminer les modalités de la variables ( = les valeurs possibles)
2) Créer un tableau contenant autant de lignes que de modalité et
3) Calculer les fréquences absolues et relatives
5.6.. Diagramme en barres
5.6.1. Les distributions de fréquences et diagrammes en barres
Remarque 1 : avec une variable nominale l’ordre d’apparition des catégories n’a aucune
importance.
PAR CONTRE il en aura pour des variables ordinales ou supérieures !
20 sur 59
fi
ç
é
ff
é
é
é
à
Remarque 2 : dès que l’ordre des catégories importe, on peut calculer des fréquences cumulées
Remarque 3 : pour des variables d’intervalle, respecter la taille des intervalles
nj Fj
Nj
Fj
( fréquence (Fréquence (Fréquence
absolue) relative) cumulée)
1 6 6/20 = 0,3 6 6/20 = 0,3
2 8 8/20 = 0,25 14 14/20 = 0,55
3 5 5/20 = 0,25 19 19/20 = 0,95
4 1 1/20 = 0,05 20 20/20 = 1
5 0 0/20 = 0 20 20/20 =1
5.7. Les histogrammes
Remarque 4 : quand trop de modalités possibles possibles on utilise des classes (histogramme)
5.7.1. Combien de classes dans un histrogramme ?

—> Pas de règle mais des suggestions d’Howell (1999)
* On peut en gérer facilement une dizaine
* Le bon sens peut nous guider
* Etendue identique ou non entre les classes
5.8. Distributions
* Corubes représentant l’in nité des résultats possibles.
* représentations de variables continues (>< discrètes)
* Imaginez qu’on établisse un histogramme avec un nombre in ni de classes dot la largeur

devient très petite ( jusque’à avoir la largeur d’un point).
5.8.1. Air sous la courbe
21 sur 59
fi
fi
fi

* Toutes les valeurs possibles de la variables sont représentées sous la courbe
* Probabilité d’obtenir un score en dessous de cette courbe = 100%
* P(QI > 100) = 0.5
Unimodale
5.8. Diagramme en tiges et en feuilles
* représente l’entièreté des données tout en donnant la forme de la distribution
* Proposée par Tuckey
* Tiges = les dizaies(=classe); Feuilles = l’unité
Exemple : temps de trajet entre domicile de 77 étudiants et le campus du Solbosch
2 2 2 3 4 5 6 8 8 9 9 10 10 10 11 11 12 12 13 13 13 13 13 14 15 16 17 17 17 18 18 19 19 19 20 20
21 21 22 22 23 24 25 25 26 26 26 27 27 28 29 30 31 32 33 33 35 35 36 37 38 39 39 40 41 42 45
45 45 46 47 48 48 49 50 50 59
1) rassembler les scores par dizaines
2 2 2 3 4 5 6 8 8 9 9 10 10 10 11 11 12 12 13 13 13 13 13 14 15
16 17 17 17 18 18 19 19 19 20 20 21 21 22 22 23 24 25 25 26
26 26 27 27 28 29 30 31 32 33 34 35 35 36 37 38 39 39 40 41
45 45 45 45 46 47 48 48 49 50 50 59
2) Créer la tige = représente les dizaines
3) Créer les feuilles
La majorité des élèves prennent entre 10 et 20 minutes
NB : mode : la valeur la plus représentée (le pic)
Intérêt du graphique : visuellement on peut se rendre compte que la moyenne est la meilleure
5.9. Valeurs aberrantes
22 sur 59
fi
* Valeurs anormales ( par rapport au reste de la série)
* Peuvent sérieusement perturber les analyses ( cf. Prochain chapitre)
* Plusieurs causes possible :
* Anomalie :
* Erreur d’encodage
* Distraction des sujets ( ex.: mesure du temps de réaction)
-> valeur à ôter de l’analyse
* Erreur systématique
* Perturbation liée à stimuli
-> Suppression du stimuli (si le problème théorique sous-jacent m’indi ère)
-> Tentative d’explication, sur base d’une nouvelle expérience adaptée au problème
5.10. Boîte à moustache

= décrire une distribution et de la diviser en un certains nombre d’intervalle ayant comme
caractéristique de contenir des proportions identiques d’observations (les quantiles)
Etape 1 : Transnumérisation des données
-> Déterminer les valeurs de quantiles
Etape 2 : Représentation graphique
-> Boîte à moustache
5.10.1. Dé nition et quantiles particuliers

Borne qui permettent de diviser une distribution en un certain nombre d’intervalles contenant tous
des proportions identiques d’observations
* La médiane (θ) divise la distribution en deux options contenant chacune 50% des observations
* Les quartiles divisent la distribution en 4 portions contenant chacune 25 % des observations ( 3

bornes)
* Les déciles divisent la distribution en 10 portions contenant chacune 10 % des observations ( 9

bornes)
* Les perceptiles divisent la distribution en 100 portions contenant chacune 1% des observations
Médiane Quartiles Décile
1 borne 3 bornes 9 bornes
OUI NON
Le quantile correspond à la moyenne entre cette modalité Le quantile correspond à la première modalité
et la modalité observée suivante. associée à une proportion supérieure à celle du
quantile en question.
5.11. Calcul de médiane et des quartiles
Le calcul sera di érent suivant qu’on veuille déterminer la médiane sur base …
… d’une série de statistique
… d’une distribution de fréquence
* variable discrète ( ex : le nombre d’enfants)
* variable continue ( ex : la taille, le poids, …)
23 sur 59
fi
ff
fi
ff
5.11.1. Calcul de la médiane sur base d’une série statistique
Série 1 : 5 8 3 7 15
* principe : on veut autant de données inférieures à la médiane que de données supérieures à la

médiane
—> implique de commencer par ordonner la série : 3 5 7 8 15
Astuce : calculer le rang médian = où n = nbr d’observations dans la série
—> rang médian ; 5+1/2 = 3 -> la médiane correspond à la 3ème observation
/!\ Médiane ≠ rang médian
Médiane : un score (une valeur de la variable étudiée)
Rang médian = position du sujet possédant ce score
NB: La médiane est une valeur observée, TOUJOURS vrai quand nombre impair d’observation
Constat :
- nombre égal d’observations de lapant et d’autre de la médiane
- Ces parts ne représentent pas exactement 50 % des observations
Série 2 : 5 11 3 6 15 14
Série 2 (ordonnée) : 3 5 6|11 14 15
Rang médian : = (6+ 2)/2 = 3,5
—> la médiane se situe à mi-chemin entre la « ème et la 4 ème observation
—> par convention, on calcul la moyenne entre ces deux observations ;
-> = (6+11) : 2 = 8.5
NB : la médiane n’est pas toujours une valeur observée
Constat :
* Nombre égal d’observations de part et d’autre de la médiane
* Ces parts représentant exactement 50 % des observations
Série 3 : 3 5 5 8 8 14 14 14 14 15
rang médian : (n+1)/ 2 = 11/2 = 5.5
Médiane : 11
Série 4 (ordonnée) : 3 5 5 14 14 1 4 14 15
Rang m’éditant : (8+1)/2 = 4.5
Conclusion
Nombre impaire d’observation Nombre pari d’observation
La médiane est nécessairement une valeur observée La médiane est une valeur observée uniquement si
les valeurs de part et d’autre sont identiques
En résumé
Au départ d’une série de données, la médiane se détermine en 4 étapes
24 sur 59
𝜃

fi
* Etape 1 : ordonner la série statistique
* Étape 2 : attribuer un rang à chaque observation
* Etape 3 : déterminer :e rang médian : (n+1)/2
* Etape 4 : déterminer la valeur qui occupe le rang médian
Trouver les valeurs exactes des partiels par interpolation

linéaire.
avec graphique
5.11.2. Calcul de la médiane sur base d’un tableau de fréquence
xj nj Fj
3 1 20 %
5 1 40 %
7 1 60 %
8 1 80 %
15 1 100 %
∂ = 7 car on prend la première modalité qui est relative à une fréquence cumulée qui dépasse 50
%
Q1 = 5 ( 25 % )
Q3 = 8 (75%)
xj nj Fj
3 2 20 %
5 2 40 %
7 1 60 %
8 4 80 %
15 1 100 %
∂ = 11
Dernier exemple
xj Fj
1 12,5 %
4 25 %
5 62,5 %
6 87,5 %
7 100 %
Si la valeur correspond EXACTEMENT à la moitié on fait la moyenne
Q1 : (4+5)/ 2 = 4.5
∂:5
Q3 : 6
La proportion correspondant au quantile est-elle exactement atteinte pour une modalit ?
25 sur 59
fi
é
5.11.3. distribution de fréquence, variable continue => interpolation linéaire
Q1 = 161.695
θ = 166.35
Q3 = 170.686
5.12. Boîtes à moustaches
26 sur 59
fi
EIQ : (Q3-Q1) -> dispersion des données
5.12.2. Les moustaches
Longueur maximale des moustaches
= 1.5 x EIQ
EIQ -> Longueur maximale des

= 171-162
moustache
= 1.5. x9 = 13.5
=9
Hauteur …
… maximale de la moustache du haut = 171 +13.5 = 184.5
… minimale de la moustache du bas = 162 -13.5 = 148.5
5.12.1. La boîte centrale
* Correspond aux 50% des données centrales de la distribution
* La position de la médiane à l’intérieur de la boîte indique le degré de symétrie ou d’asymétrie de

la portion centrale de la distribution.
Exemple 1 : Exemple 2 :
5.12.23. Les valeurs extrêmes
* Les points et les étoiles. Les valeurs extrêmes supérieurs > à la barrière supérieur et les valeurs
inférieures sont < à la barrière inférieur.
* Éloignée de 1,5 à 3 x la boite -> •
* Éloignée de + de 3 x la boite -> *
Chapitre 6 : Exploration algébrique des données à une

dimension
Objectif
* mesures de tendance centrales
* Comprendre le principe de la modélisation par la moyenne

* Mesures de dispersion
* Mesure d’asymétrie et d’aplatissement
6.1. Mesures de tendance centrale

= valeurs distribution qui sont les plus représentées
Mode
27 sur 59
 

fi
moyenne (arithmétique)
Médiane
6.1.1. Mode et moyenne arithmétique
Remarque 1: on aurait aussi pu calculer les fréquences cumulées, mais on n’en a pas besoin pour
les calculs qui suivent.
Remarque 2: attention aux notations
6.1.2. Mode
Mode : classe/valeur la plus représentée
Remarques :
1) Ne pas confondre le mode et la fréquence associée au mode !
2) Une distribution peut être bimodale et multimodale
AVANTAGE : insensible au valeurs aberrantes (>< moyenne)
INCONVENIENT : insensible à TOUTES les autres valeurs de la distribution
6.1.3. MOYENNE (arithmétique)

Somme des valeurs, divisée par la nombre de valeurs constituant la somme.
n = e ectif total
Xi = les valeurs que peut prendre la variable
i = num ro de la donn e
= moyenne de l’ chantillon
28 sur 59
𝑋
ff
é

fi
é
é

INCONVENIENT 1 : Sensible à toutes les valeurs aberrantes
INCONVENIENT 2 : Peu repr sentatif d’une distribution non sym trique ou multimodale
Propriétés du signe de sommation : une constante multipliant la somme, peut être indiquée après
ou avant le signe de sommation. La somme de n sommes de termes a et b est égale à la somme
de la somme tous les a et de la somme de tous les b.
AVANTAGE : Représente parfaitement une distribution normale ( uni-modale et symétrique)
1° Formules = (sommes des observation) / n
2° Pondérer chaque modalité des variable

absolue et diviser par n
3° multiplier par fréquence relative diviser par solde de toutes modalités et diviser
!"#$%&"'%()
Distribution normale Distribution multimodale ou asymétrique
La moyenne représentera parfaitement la Moyenne très peu représentative

distribution
==> Importance des indices de symétrie !
6.1.4. Modèle
Réalité : modèle + erreur
Prédire une réalité et utiliser un modèle pour faire cette prédiction
29 sur 59
fi
é
é

L’utilisation de lettres grecques se justi e lorsque l"on fair référence à la

population. L’utilisation de lettres correspondantes se fera lorsque l’on
fait référence à l’échantillon
6.1.5. Modèle de la moyenne : en supposant les données symétriques et unimodales ;
La moyenne de l’échantillon est un estimateur de la moyenne de la population.
6.1.6. Modèle de la moyenne : reprise de l’exemple
Kk et pas caca hahaha mdr XD ptdr lol x) lolilol
Modèle de la Moyenne : reprise de l’exemple
6.1.7. Modèle de la Moyenne : la SCE
Erreur globale -> somme du carré des

erreurs
Remarque : la moyenne conduit à une SCE

plus petite que n’importe quelle autre valeur
!
Remarque : plus le modèle s’éloigne de celui de la moyenne, plus grande est la SCE
30 sur 59
fi
fi
6.2. Les mesures de dispersion ou description de l’erreur

= jusqu’à quel point les sujets s’éloignent des valeurs centrales de la distribution
L’erreur n’est rien d’autre que la mesure de l’écart entre les valeurs observées et une bvaleur
théorique, donc la dispersion.
Ecart interquartile
Etendue
Ecart moyen absolu
Variance et écart-type
6.2.1. étendue des données
Etendue : valeur maximale observée — valeur minimale observée
Avantage : très simple
Inconvénients 1 : Très sensible aux valeurs extrêmes
Inconv nients 2 : Ne d pend que de deux valeurs, donc tr s peu repr sentatif de la distribution
6.2.2. Reprise du modèle de la moyenne
La dispersion = mesure de l’erreur faite « en moyenne’ par notre modèle de la moyenne.
Solutions :
*calculer l’erreur absolue (EMA)
*Elever les erreurs au carré (variance)
6.2.3. Ecart Moyen Absolu
31 sur 59
é

fi
é
è
é
C’est une très bonne représentation de la dispersion MAIS Supplantée par l’écart-type, à
cause des propriétés mathématiques de la variance dont il est dérivé
6.2.4. Variance et écart-type de l’échantillon
Je change l’unité de départ
Et donc pour y revenir il faut

en calculer la racine ( écarte
type)
S>EMA —> S surestime un peu l’erreur par rapport à l’EMA
Car les valeurs extrême vont avoir un poids plus important dans mon calcul et encore plus vrai
dans la variance en élevant au carré on augmente en plus leur impacte ( le calcul est traumatisé)
6.2.5. Notion de biais
Biais : en moyenne, l’estimation obtenue par échantillon correspond-elle bien au paramètre de la

population
Soit une POPULATION constituée de 4 sujets
6.2.6. Moyenne arithmétique

Estimation non biaisé
32 sur 59
fi
Envisageons tous les échantillons possibles de taille n= 2, et les estimations de µ
associées ( = tous les X possible)
Etablissement des concept dans une optique inférenciel
Inférer le paramètre correspondant à la population. La moyenne est un estimateur non biaisé. En

revanche, l’utilisation de l’a variance de l’échantillon comme estimateur de la variance de la
population conduit en moyenne à une sous-estimation de cette variance.
La variance de l’échantillon est un estimateur biaisé donc il est nécessaire de corriger la variance
->diviser la SCE par les degrés de liberté ( qui est nécessairement inférieur au nombre de sujets
6.2.7. Variance
estimateur biaisé
Envisageons tous les chantillons possibles de taille n = 2, et les estimations de σ2 associ es (=

tous les 2 possibles)
6.2.7.1. Variance corrigée
Pas de correction quand population et non échantillon
Degrés de libertés = n- le nombre de paramètres

estimés dans le calcul de la variance
= ensemble de valeurs aléatoires qui ne peuvent être

déterminées par une équation.
Estimateur non biaisé
Envisageons tous les chantillons possibles de taille n = 2, et les estimations de σ2 associ es (=

2
tous les corrig s possibles)
33 sur 59
𝑆
𝑆

fi
é
é
é
é
é
NB: la di érence entre variance

corrigée et non-corrigée s’estompe
au fur et à mesure que n est grand.
6.2.8. Inconvénients de la variance et de l'écart-type

* Sensible aux valeurs aberrantes/extrêmes:
* Calcul des écart par rapport à la moyenne (elle-même très sensible)
* Erreur élevée au carré —> sensibilité exacerbée !
Importance de la forme des distributions
Pour une distribution parfaitement symétrique, moyenne, mode et médiane se confondent.
Une distribution asymétriques; Le mode est plus petit que la moyenne en cas d’asymétrie positive
et plus grand en cas d’asymétrie négative.
Distribution bimodale, les modes ne correspondent (forcement) pas à la moyenne.
Notion de moments d’une distribution
Un moment est une quantité calculée par la moyenne des valeurs de la distribution élevées à un
certain ordre
- si l’ordre vaut 1 et a=0 —> moyenne
- si l’ordre vaut 2 et a= moyenne —> variance
- si l’ordre vaut 3 —> lié au coe cient à asymétrie
- si l’ordre vaut 4 —> lié au coe cient d’aplatissement
Propriétés des moments d’ordres airs et les moments d’ordre impires

de degrés supérieur à 1, les exposant pair implique que les termes négatifs deviennent positifs
34 sur 59
ff

fi
ffi
ffi
une fois élevés à l’ordre concerné. En revanche, un exposant impair ne change jamais le signe de
la valeur exposée.
6.3. Mesures d’(a)symétrie et aplatissement
Coe cient G1 de Fisher (asym trie)
Coe cient G2 de Fisher (aplatissement)
Pour caractériser algébriquement une distribution. Trois grandes classes de mesures ont été
envisagées : la tendance centrale, la dispersion et la forme des distributions ( aplatissement et
asymétrie)  
35 sur 59
ffi
ffi

fi
é

Chapitre 7 : Les distributions binomiales et normales
Objectif
* reconnaitre une loi binomiale
* Calculer une probabilité avec une loi binomiale (formule ET tables)
* Reconnaitre une li normale
* Comprendre et appliquer le principe de standardisation d'une variable aléatoire continue
* Calculer une probabilité avec une loi normale, à l’aide d’une table
Rappel : une distribution binomiale la variable aléatoire discrète (discontinue) par les paramètres n
et p, une distribution normale sera dé nie par une variable aléatoire continue caractérisée par 2
paramètres : la moyenne et la variance
Une variable discrètes : les événements possibles sont dénombrables
Une variable continue : les événements possibles sont in nis
7.1. La distribution binomiale
= Distribution d’une variable dont les expériences aléatoires n’ont que deux issues
possibles, réussite ou échec
EX: réussir ou échouer à un examen, pile ou face, etc.
p = probabilit du premier v nement possible (=r ussite/sucès)
q = probabilit du deuxi me v nement possible (= chec)
→La r ussite et l’ chec sont compl mentaires (p+q = 1)
Exemple: on lance trois fois une pi ce de monnaie, et on s’int resse au nombre d’occurrence de
la face « Pile ». La pi ce n’est pas parfaitement quilibr e et la probabilit d’obtenir Pile est de .6
Le 3 vient des 3 combinaisons possibles

=p
= Succès
Envisageons toutes les situations possibles
36 sur 59
é

é
é
fi
é
è
è
é
é
é
é
è
é
fi
é
é
é
é
fi
é
é
Une entreprise produit des machines à laver. Depuis le début de leur production, on constate que
1% des machines sont défectueuses. Une société commande 30 machine, quelle est la
probabilité qu’exactement 2 machines soit défectueuses parmi celles-ci.
7.2. La distribution binomiale
Remarque : Toute variable discr te peut tre consid r e comme une binomiale.
• Exemple: lanc de d : succ s vs. chec = ...
... 6 vs. N’importe quelle autre face
... face paire vs. Face impaire
→Dichotomisation des v nements possibles!
L distribution binomiale est une distribution entièrement caractérisée par deux paramètre n
et p, lorsque p est constant, plus le n est grand, plus la courbe est plate et décalée vers la droite
• On peut repr senter graphiquement les distributions (diagramme en barre)
... mais se rapproche de la sym trie quand n augmente p = .2
37 sur 59
é
é
fi
é
é
é
è
é
è
É
ê
é
é
7.3. Table de la binomial
* Fonction de 2 paramètres : p et n
Si la probabilit de succ s est de .4, quelle est la probabilit

d’obtenir 2 succ s parmi 4 r p titions de l’exp rience? .3456
7.4. Statistiques descriptives d’une distribution binomiale
7.5. Statistiques descriptives d’une distribution binomial exprimée en proportion
7.6. La distribution normale

= fonction de densité de probabilité d’une variable aléatoire continue. La densité de probabilité de
l’entièreté de la courbe est égale à 1
7.6.1. Introduction
Quand n augmente, la distribution binomiale devient inutilisable
ex: probabilité d’avoir 3 succès parmi 500 expériences aléatoires ?
38 sur 59
é
fi
è
è
é
é
é
é
Qd n est su samment grand (n>30), la binomiale tend vers une distribution normale
Une distribtution normal est une ditribution théorique qui semble

représenter correctement la distribution de nombreuses variables
aléatoires naturelles
*Pour variables aléatoires continues
*S’étend de -∞ ∞
*Unimodale
*Symétrique
*Toujours représenté par une variable centrée et réduite, moyenne

égale à zéro et d’écart-type égal à un.
Il existe une in nité de distributions normales possibles
La distribution norme est entièrement dé nie par les

paramètres de moyenne de variance de la population
concernée.
7.6.2. Air sous la courbe
7.6.3. Air sous la courbe : intervalle quelconque

* Portion d’aire sous la courbe, dans un intervalle donné?
—> Dépend des para:mètres de la distribution
39 sur 59
ffi

fi
à
fi
fi
7.6.3.1. Les scores z ( standardisation
A combien d’écart-type la (ou les) borne(s) de l’intervalle sous la courbe se trouvent-ils de la

moyenne ?
Exemple
1) A quelle distance ?
2) Combien d’écart-types cette distance

représente-t-elle ?
40 sur 59
fi
Centrage : x - µ Reduction

41 sur 59
fi

7.6.3.2. Utilisation de la table de la distribution normale

standardisée
* Aire sous la courbe comprise ente -∞ et Z
* N’envisage que les scores Z à partir de 0 …
* … jusque 3.90
7.6.3.2. Utilisation de la table pour des valeurs

négatives
P (Z ≤ -1.3.) = P ( Z≤ 1.3) = 1-.9032 = .0968
7.6.3.2. Utilisation de la table pour des valeurs négatives
P (-1.3. ≤ Z ≤ 1.3.) = .9032 - .0968 = .0968
Exercice 1:
Lors d’un processus de s lection, une entreprise utilise un test de logique. On sait qu’au sein de
la population, les scores (continus) ce test suivent une distribution normale avec = 10 et = 3.
Quelle est la proportion d’individus (en %) qui obtiennent un score compris entre 5.53 et 18.16 ?
Solution
( . ≤ ≤ . )= ( − . ≤ ≤ . )
Toute l’aire en vert = .9967 (trouv e directement dans la table)

Aire hachur e = 1 - .9319 = .0681 (cf. sym trie de la loi
normale + aires compl mentaires)
→ Aire recherche (en vert non hachur e) = .9967 - .0681 =

.9286 → 92.86% des individus ont un score compris entre
5.53 et 18.16
Exercice 2:
Lors d’un processus de s lection, une entreprise utilise un test de logique. On sait qu’au sein de
la population, les scores (continus) ce test suivent une distribution normale avec = 10 et = 3.
Au-dessus de quel score un individu ayant réalisé le test de logique fait-il partie de 15 % les
meilleurs ?
Solution
P( Z≥ ?) = .15 <=> P(Z ≤ ?) =.85
Aire orange = .15 <=> Aire en vert = .85
La borne recherchée est nécessairement positive
P (Z ≤ 1.04- = .85 1.04 trouvé dans la table, en cherchant l’aire la plus

proche possible de .8500
Les individus qui ont un score supérieur ou égal à 13.12 font partie des
15% les meilleurs.
42 sur 59
𝑷
𝟓
𝟓
𝟑
𝑿
é

𝟏
𝟖
fi
𝟏
𝟔
𝑷
é
é
é
𝟏
𝟒
𝟗
é
𝒁
à
à
é
𝟐
𝟕
𝟐
é
𝜇
𝜇
𝜎
𝜎
L’inférence statistique
Introduction
1) Test sur une variable continue
2) Test sur une variable inconnue
Test sur une variable continue
* L’estimation d’un paramètre est-elle compatible avec une valeur théorique connue ?
* Tests paramétrique : test base sur l’usage de la Moyenne et de l’écart-type ( variance)
* Les tests paramétriques reposent sur des postulats concernant les erreurs.
Rappel : réalité (mesure) = modèle (estimation)+erreur
* On postule que les erreurs sont…
* Distribué normalement
* Dénuées de biais : N(0,σ)
* Indépendantes (condition méthodologique)
* De même dispersion entre les groupes, quand plusieurs groupes ( = homodcédasticité)
* Si le postulat de normalité violé, test non paramétriques

Test sur une variable nominale
La distribution de fréquences est-elle conforme à nos attentes th »trique ?
ex : dé équilibré ?
NB : postulat concernant l’erreur
L’erreur est distribuée normalement autour d’une moyenne nulle, mais pas toujours. Lorsque ce
n’est pas le cas ; il sera nécessaire d’avoir l’information sur la distribution concernée et de
prendre les mesures qui s’imposent pour tenir compte de la situation.
Les erreurs sont considérées comme étant indépendantes. L’erreur d’une mesure n’a absolument
aucun e et sur l’erreur d’une autre mesure. Ce n’est pas toujours le cas. L’exemple le plus évident
est représenté par les séries temporelles. Les erreurs entre le temps zéro et le temps un sont
donc bien liées.
Les erreurs sont identiquement distribuée. Les valeurs di èrent de la sorte et que les variances ne
sont pas les mêmes- hétérodasticité
Quand les variances de toutes les erreurs sont équivalentes — homosédasticité
Erreur standard -
43 sur 59
ff

fi
ff
44 sur 59

fi
Chapitre 8 : Inférence statistique à propos des valeurs de
paramètres
Objectifs du chapitre
* comprendre et appliquer les 3 méthodes d’inférence : comparaison, test d’hypoth se

(test-t) et intervalles de con ance.
8.1. Intervalle de con ance
8.1.1. 3 distributions à distinguer
* Distribution de l’échantillon
* Distribution de la population
* Distribution d’échantillonnage
8.1.2. Distribution d e la population
je m’intéresse à une population, je sais que la distribution du QI

suit une distribution normale
µ = 100
En pratique on connais pas la distribution c’est pk on a besoin de test
8.1.3. Distribution de l’échantillon

on prend un échantillon et on évalue la distribution du QI
µ= 100.4
Il faut avoir conscience que si on avait estimé un autre échantillon on

aurait un estimation di érente
8.1.4. Distribution de l’échantillonnage
On représente la distributions de TOUTES les estimations
propriété
Distribution normale
Si l’échantillonnage se fait sur des échantillons de taille 50
-> si le dénominateur est plus grand -> écart types
Plus les échantillon sont grands plus les estimations seront le moins dispersé autour de la
moyenne
45 sur 59
fi
fi
ff
fi
è
Explication mathématique :
Explication intuitive :
* Soit une population constituée de 200 femmes
* µ = 16! Cm
* Dans la population une étudiante mesure 200cm
Quid, si n = 2 ou 100 ?
Si N = 2
* P(la sélectionner) = 2 x (1/200)= 1/100
* MAIS impact énorme si sélectionnée
SI N = 100
* P(La sélectionner) = 100 x (1/200) = 1/2
* MAOS impact très réduit si sélectionnée
* ==> Plus n est grand, plus l’ensemble des estimations se

rapproche de µ
NB : lettre grecque -> population
Lettre latine -> échantillon
* Soit on connait σ (très rare)
* Soit on ne connait pas σ
8.2 Cas où σ est connue
* Estimation de la distribution, d’échantillonnage
distribution normale
Ex : soit un échantillon consituté de 50 personnes. Le QI moyen dans mon échantillon vaut 101.2.
L’écart type de la population théoriquement connu, vaut 15. J’estime dès lors que la D.E. Suit la
distribution normale suivante
-> on va essayer d’estimer une fourchette relativement présidé de

valeur pour pas prendre trop de risque
95% de l’air en dessous de la courbe
8.2.1. Distribution d’échantillonnage
P (-1.96 ≤ µ ≤1.96)
Z’ = 1.96 car il y a 97,5 % de l’air sous la courbe se trouve en dessous de 1.96
Z = -1.96
46 sur 59
fi
Transformer les scores Z
Il y a 95% de chance que la vraie moyenne de la population soit comprise entre 97.04 et 105.36
8.2.2. Risque α et risque β

Risque α = proportion d’estimations exclues de l’I.C., probabilit » de faire l’erreur de première

espèce. Càd la probabilit » de décider qu’une valeur n’est pas issue de la même population que
celle autour de laquelle j’ai construit ma distribution d’échantillonnage alors qu’en fait elle l’est.
risques β = probabilité qu’un évènelent n’est pas exclu alors qu’il le devrait
On se demande s’il est possible que notre échantillon soit extrait d’une population dont la
moyenne vaut 106.
conclusion , avec un risque α de 5% : non!
décision correcte, pu errer de première espèce ?
Conclusion, avec un risque α de 1% : oui!
Diminuer le risque α (= de première espèce) augmente le risque β ( = de

seconde espèce)
les risques α et β sont complémentaires
8.3. Cas où sigma est estimée

* estimation := ajout d’incertitude
* Palliatif : distribution t de Student (William Gosset) ‘

ressemble à normale mais plus dense) (plus
conservatrice)
* Dépend d’un peul paramètre : les degrés de liberté (n-1)
47 sur 59
fi
Estimation de la distribution d’échantillonnage : ressemble à une distribution t de Student mais
avec les paramètres suivants ;
P = portion qu’on EXCLUE
Plus il y a de jet -> plus elle se rapproche de la

normale et quand on dépasse 30 jets -> = loi normale
Moyenne = 0, cart-type = 1
Moyenne = 0, cart-type = 0.41
Moyenne = 5, cart-type = 0.41
8.4 la di érences d’estimations sur base des lois normale et Student
48 sur 59
ff

é
é
é
fi
Synthèse
8.4. Comparaison de modèles
8.4.1.Le modèle de la moyenne
Le mod le de la moyenne est-il pertinent?
= la prise en compte de la moyenne est-elle utile, en vue de faire des pr dictions?
→ Solution: comparer 2 mod les:

• Un mod le qui ne prend AUCUN param tre en compte
• Un mod le qui prend UN SEUL param tre en compte: la moyenne
— — — Rappel — — —
But de la modélisation = prédire (de manière simpli ée) la réalité
49 sur 59
è

fi
è
è
è

è
è
fi
é

Exemple 1
Des tudiant.e.s passent un examen constitu de 100 « Vrai ou Faux » (1 point par question,
pas de point n gatif). On dispose de la note obtenue par 14 de ces tudiant.e.s.
Je souhaite pouvoir pr dire la note de n’importe quel.le tudiant.e dans la population.
Exemple 1 : modèle compact
Si je ne prend aucune donn e en compte pour m’aider pr dire sa note (ni sur le sujet, ni sur
l’ chantillon, ni sur la population), quel mod le puis-je d nir ?
→ Mod le du hasard
A chaque question, P(R pondre correctement) = ?0.5
DONC, note moyenne attendue = 50/100
Comment estimer l’erreur associ e au mod le du hasard?
Etape 1 : d terminer, pour chaque sujet de l’ chantillon, l’erreur

qu’on aurait commise en utilisant le mod le du hasard
Exemple 1 : modèle augmenté
Je d cide de prendre en compte la moyenne de mon chantillon.
→Mod le de la moyenne Pr diction = 60/100
Exemple 1 : prédiction et erreur sur base du modèle augmenté
Pour estimer l’erreur associée au modèle de la moyenne :
Etape 1 : déterminer, paru chaque sujet de l’échantillon, l’erreur

qu’on aurait commise en utilisant le modèle de la moyenne
Modèle augmenté : plus d’info que le modèle compacte, la moyenne

50 sur 59
é
é
é
è
è
é

é
fi
é
é
é
é
é
è
è
è
é
é
é
à
é
é
fi
é
é
de mon échantillon
Exemple 2 : SCE(C)
Des tudiant.e.s passent un examen constitu de 100 « Vrai ou Faux » (1 point par question, pas
de point n gatif). Voici les r sultats obtenus dans un échantillon de 14 personnes.
SCE(C) = 1414
SCE(A) = 14
OU = ( )− ( )
51 sur 59
𝑆
é
𝐶
𝑅
𝑆
é
𝐶

𝐸
𝐶
fi
𝑆
𝐶
𝐸
𝐴
é
é
Rajouter de l’info ne
pourra pas être
dégradant pour la qualité
du modèle
Exemple 1 : proportion de réduction

de l’erreur
Que repr sente une r duction de l’erreur de

1400 points?
0≤ ≤ 1
La taille du PRE,
La taille de la proportion de réduction de l’erreur que l’on veut détecter.
L’erreur,
L’erreur peut également nous empêcher de voir les e ets. Plus on contrôle les variables
potentiellement perurbatrices; plus on a de chances de réduire l’erreur.
La taille de l’échantillon,
Plus un échantillon est grand, plus l’erreur standard est petite. Plus l’échantillon est grand, moins
l’intervalle de con ance est grand et plus on va considérer rapidement qu’une valeur di érente de
la moyenne appartient à une autre distribution d’échantillonnage, donc plus on est puissant.
Exemple 1 : Distribution F et ANOVA(=analyse de variance)
PRE: information partielle … (pour dire que PA est meilleur que PC)
1) En moyenne, quelle est la proportion de réduction par paramètre estimé ? ( la part d’erreur
expliqué par le modèle)
= PRE/(PA-PC)
2) En moyenne, quelle part de l’erreur résiduelle pourrait être expliquée par les paramètres
disponibles ? ( part de la variabilité pas expliqué par le modèle)
=(1-PRE)/(n-PA)
→ Comment savoir si cela repr sente une r duction de l′erreu
8.4.2. Hypothèse de recherche vs. Hypothèse nulle
Hypothèse de recherche : le modèle augmenté permet de faire de meilleures prédictions

que le modèle compact
52 sur 59
𝑃
𝑅
𝐸
é

fi
fi
é
é
é
ff
𝐬
𝐢
𝐠
𝐧
𝐢
𝐟
𝐢
𝐜
𝐚
𝐭
𝐢
𝐯
𝐞
ff
(F>1)
Hypothèse nulle : modèle compact est identique au modèle augmenté
(F=0)
Remarque : lorsqu’on rejette une hypothèse, c’est qu’on a pu observer une di érence signi cative
et nous pouvons être con ants dans notre décision de la rejeter. Si on ne rejette pas l’hypothèse,
on ne peut pas pour autant l’accepter
8.5. Distribution F
* Distribution d’échantillonnage de la statistique F quand H0 est vraie :
* Dépend de 2 paramètres :
8.5.1. Distribution F et table
-> valeur crédible ou l’hypothèse 0, non

rejet
*Asymétrie positive
*Étendue : de 0 à + oo
*Risque alpha entièreté reporté sur les

valeurs élevées de la distribution
53 sur 59
fi
fi
ff
fi
8.6. Présentation des résultats
Normes de l’American Psychological Association (APA)
Risque alpha pas toujours 5% sauf si pas mentionné
Oui ou non on rejette l’hypothèse nulle, la p valeur est le degré de crédibilité que mes données
sont compatible avec nos
P valeur = Portion de l’air sous la distribution f qui se situe au-delà de la statistique trouvée
RH0 est un soutien en faveur de H1-> modèle augmenté = modèle compacte
NRH0 n’est pas un soutien en faveur de H0 -> démontrer que prendre en compte la moyenne
joue un rôle -> modèle augmenté > modèle compacte
Exemple 2 (reprise)
SCE(C) = 1414 SCE(A)= 14
PRE= 0.99
F = 1287
F(1,13)= 127; p < 5 % —> RH0, prendre en compte la moyenne permet de

diminuer signi cativement l’erreur
Exemple 2 par rapport à l’exemple 1
* SCR identique …. Mais SCE(C) beaucoup plus petite !
* augmentation drastique de la PRE
* Suppression de presque toute l’erreur grâce à la moyenne !
8.6. Puissance d’un test
Il y a toujours de l’erreur et de l’incertitude face à une expérience
Erreur beta : risque à croire à tord que MC<MA
Puissance d’un texte = capacité à détecter le taux d’erreur
La puissance d’un test d pend ...

... de la PRE ( plus je réduits les erreurs -> rejets de plus en plus de rejet d’hypothèse
nulle)
54 sur 59
fi
fi
é


... de l’erreur/du bruit (facteurs que nous contrôlons pas)
... du risque alpha ( risque de penser qu’il y a un e et à tord)
... de la taille de l’ chantillon ( plus un échantillon est grand plus la dispersion sera étrioite,
et donc Intervalle de con ance plus précis
8.7. Lien entre l’approche par comparaison de modèles et le calcul des I.C.
Stricte quivalence des deux approches
→ lien direct entre les statistiques F et t
. =√ . . 2= .
8.8. Construction de l’I.C à l’aide d’une distribution F
Variance corrigée = CME
55 sur 59
𝟐
𝟏
𝟔
𝟎
é
𝟒
𝟔

𝟕
fi
𝟐
𝟏
𝟔
𝟎
fi
é
𝟒
𝟔
𝟕
ff
8.9 Test t
8.9.1. Statistique t, on va standardiser l’erreur

On situe une valeur quelconque (µ0) par rapport à l’I.C. :
Ex.: 0 = 50 (mod le du hasard)
On ne pourra pas d montrer la sup riorit du mod le de la moyenne sur le mod le du hasard si…
Reprise de l’exemple 1

Norme de l’American Psychological association (APA)
Reprise de l’exemple 2 :
56 sur 59
𝜇

fi
è
é
é
é
è
è

Chapitre 9 : Inférence statistique sur des variables nominales —test 2

Comprendre les principes du test 2 d’ajustement et l’appliquer
Appréhender la distribution 2
Comprendre le lien entre la distribution 2 et la loi normale
Construire un intervalle de con ance autour de la variance corrigée de l’échantillon
9.1. 2 d’ajustement
Puis-je douter du fait que mon dé soit bien équilibré ?
Pour tester, je lance 60 fois …
Y a t’il des di érence SIGNIFICATIVE entre

les deux
Hypothèse nulle : il n’y a pas de di érence

entre ≠ théorique et appliqué
Il s’agit d’un teste de comparaison entre une distribution observée et une distribution
théorique. Pour traiter les problèmes liés à l’utilisation de variables dépendantes
catégorielles.
La question devient donc de savoir si les écarts entre la distribution théorique et la

distribution observée sont su samment importants pour être attribués à autre chose
qu’au hasard d’échantillonnage.
9.2. Distribution 2

* Ne dépend que d’un paramètre : mes degrés de liberté : k

=nb de modalités -1
* Tend à être symétrique
*Correspond à la forme de la distribution d’échantillonnage

de la variance.
* Mais l’asymétrie diminue quand les degrés de liberté

augmentent
* Ne peut prendre que des valeurs positives
* les observation doivent, t être indépendantes et provenir d’une population distribué

normalement
57 sur 59
𝜒
𝜒
𝜒
𝜒
𝜒
𝜒

ff
fi
fi
ffi
ff
Reprise de l’exemple des dés
Dans la zone verte —> dé est déséquilibré
Lien avec la distribution normale et proche

intuitive
Elle a tendance à être asymétrique, cette

asymétrie diminue au fur et à mesure que le
nombre de degrés de liberté augmente. Les
valeurs progressent vers l’in ni.
9.3. Présentation des résultats
9.4. intervalle de confiance
IC bilatéral pour une distribution de variances
IC unilatéral pour une distribution de variance
Les fluctuations de votre estimation de la variance (l’erreur standard) sera plus faible en
prenant de grands échantillons qu’en en prenant des petits puisque l’impact des grands
et des petits individus est moins grand que lorsque l’échantillon contient peu de sujets.
9.5. Résidus standardisés
58 sur 59
fi
fi
9.6. Rappel: sur la loi normale standard
Si au dessus ou en dessous de l’intervalle de con ance

=> di érent signi cative
si au dessus-> plus souvent observé qu’attendu en

théorie (positif)
En dessous -> moins souvent qu’attendu en théorie

(négatif)
9.7. 2 d’ajustement : résidus standardisés
59 sur 59
𝜒
ff

fi
fi
fi

Statistique en

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique en

Transféré par

Droits d'auteur :

Formats disponibles

Elyas Stangier Analyse de 2022-2023

données scienti ques

Chapitre 1 : Importance des statistiques pour un

1.1 Qu’est ce que la statistiques ?

- traiter (statistique descriptive)

- interpréter (inférence statistique) s’appuie sur la théorie des sondages et la

-> un ensemble de données ( généralement vaste)

Tous les humoristes de la terre = population

Exemple : item 1 de l’échelle BDI

0 I do not feel sad

3 I am so sad and unhappy that I can’t stand it

17-20 Bordeline clinical depression

-> score total compris entre 0 est 63

31-40 Severe depression

Etape 1 : collecte des données

Etape 2 : traitement des données

= simpli er l’information des données brutes

=> en utilisant des graphiques

=> en utilisant des indicateurs chi rés

Etape 3 : interprétation des données

= induire les informations de l’échantillon à la population entière

-> raisonnement incertain

-> introduction aux probabilités

-> établir des modèles de prédiction …

exemple : la résilience en fonction du nombre de di cultés renco,ntrées

… qu’on pourra complexi er/approfondir en cas de désaccord

exemple : immunisation vs sensibilisation

1.3. Structure du cours

Chap 5 Exploration graphique des données à une dimension STATISTIQUES

Chap 6 Exploration algébrique des données à une dimesnion DESCRIPTIVES

Chap 7 Les distribution binomiales et normales

Chap 8 Inférence statistiques à propos des valeurs de paramètres

Chap 9 Inférence statistique sur des variables nominales STATISTIQUES

Chap 10 Véri cation des conditions d’application et alternatives INFERENTIELLES

Chap 11 Présentation des résultats

1.4. Ressources disponibles

!!! Attention « partie Aspects pratiques » non à jour !!

Lien vers le syllabus, les Slides et les podcasts

Documents divers (erratum)

Corrigés des exercices

Il vous sera utile pour

Poser divers questions (théorie et TP)

Signaler d’éventuelles erreurs dans le cours

1.5. Les TP’s

séances questions/réponses (système de classes inversées)

voir vos assistant.es aux TP

Chapitre 2 : Les notions de prédiction — variable-

Identi er et analyser les hypoth ses de recherche;

Comprendre le principe de mod lisation;

Distinguer les logiques d ductive et inductive;

Tester la validit d’un raisonnement d ductif, en le représentant l’aide d’ensembles

2.1. Variables hypothèses et modélisation

* Permettent une prédiction

exemple : âge, genre, taille, origine ethnique, score à l’échelle BDI …

* Contraintes de la modélisation de la réalité

(a) di cile d’identi er l’ensemble des variables la dé nissant

(b) impossible d’évaluer l’in uence de l’ensemble d’entre elle

(c) di cile de mesurer chacune des variables

exemple : couleur des yeux : brun, noir, bleu, vert, gris

exemple : Le BE, le score de résilience …

NB: l’établissement du statut de la variable dépend de l’expérimentateur

exemple : Le « médicament X » permet d’améliorer le bien-être

Un chercheur se demande si le niveau d’addiction d’une personne aux nouvelles technologies