Vous êtes sur la page 1sur 59

Elyas Stangier Analyse de 2022-2023

données scienti ques

Chapitre 1 : Importance des statistiques pour un


psychologue

1.1 Qu’est ce que la statistiques ?


La statistique = ensemble d’outils de recherche mathématiques qui permettent de
déterminer les caractéristiques d’un ensemble de données

3 activités :

- collecter

- traiter (statistique descriptive)

- interpréter (inférence statistique) s’appuie sur la théorie des sondages et la


statistique mathématique

-> un ensemble de données ( généralement vaste)

Exemple

Hypothèse de recherche : « les humoristes ont une tendance à la dépression clinique « .

Tous les humoristes de la terre = population

On veut démontrer que les humoristes ont une tendance à la dépression clinique.

Echelle BDI

Exemple : item 1 de l’échelle BDI

0 I do not feel sad


Score Interprétation
1 I feel sad
0-10 « normal »
2 I am sad all the time and I can’t snap out of it

3 I am so sad and unhappy that I can’t stand it


11-16 Mild mood disturbance

17-20 Bordeline clinical depression


-> 21 blocs d’a rmation

-> score total compris entre 0 est 63


21-30 Moderate depression

31-40 Severe depression

Etape 1 : collecte des données


41 -63 Extreme depression
Sur qui mesurer le score à l’échelle BDI ?

Etape 2 : traitement des données

Statistiques descriptives

= simpli er l’information des données brutes

=> en utilisant des graphiques

=> en utilisant des indicateurs chi rés

/!\ le choix du graphique et du( ou des) indicateur(s) chi rés dépendront de l’échelle de mesure

Etape 3 : interprétation des données

Statistiques inférentielles

= induire les informations de l’échantillon à la population entière

/!\

-> raisonnement incertain

-> introduction aux probabilités

1 sur 59

fi
ffi
fi
ff
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
1.2. A quoi bon faire de l’expérimentation ?
-> abolir la croyance

-> établir des modèles de prédiction …

exemple : la résilience en fonction du nombre de di cultés renco,ntrées

… qu’on pourra complexi er/approfondir en cas de désaccord

exemple : immunisation vs sensibilisation

1.3. Structure du cours


Chap 2-4 Not ion de prédiction - variable-hypothèse-logique et représentation
par les ensembles

+ échelle de mesure

Chap 3 Proba

Chap 5 Exploration graphique des données à une dimension STATISTIQUES

Chap 6 Exploration algébrique des données à une dimesnion DESCRIPTIVES

Chap 7 Les distribution binomiales et normales

Chap 8 Inférence statistiques à propos des valeurs de paramètres

Chap 9 Inférence statistique sur des variables nominales STATISTIQUES

Chap 10 Véri cation des conditions d’application et alternatives INFERENTIELLES

Chap 11 Présentation des résultats

1.4. Ressources disponibles


Syllabi

!!! Attention «  partie Aspects pratiques » non à jour !!

Diapo

Usage de l’UV

Lien vers le syllabus, les Slides et les podcasts

Documents divers (erratum)

Corrigés des exercices

Quiz

Forum

Il vous sera utile pour

Poser divers questions (théorie et TP)

Signaler d’éventuelles erreurs dans le cours

Attention : ne sera pris en charge que sur le forum (PAS par email !)

1.5. Les TP’s


séances pas obligatoires mais fortement conseillées

séances questions/réponses (système de classes inversées)

1.6.Contacts supplémentaires
aude.fenaux@ulb.be ( coordinatrice administrative)

voir vos assistant.es aux TP

1.7. Wooclap
- Question de ré exion

- Entraînement 


2 sur 59
fi

fi
fl
fi
ffi
Elyas Stangier Analyse de 2022-2023
données scienti ques

Chapitre 2 : Les notions de prédiction — variable-


hypothèse - logique et représentation par les ensembles

OBJECTIF :

Identi er et analyser les hypoth ses de recherche;

Comprendre le principe de mod lisation;

Distinguer les logiques d ductive et inductive;

Tester la validit d’un raisonnement d ductif, en le représentant l’aide d’ensembles


(diagrammes de Venn).

2.1. Variables hypothèses et modélisation

2.1.1. Variables
* « informations » dont on dispose pour chaque sujet, qui s’in uencent éventuellement entre elles

* Permettent une prédiction

exemple : âge, genre, taille, origine ethnique, score à l’échelle BDI …


* Variable ≠ constante

* Plusieurs modalités

* Contraintes de la modélisation de la réalité

(a) di cile d’identi er l’ensemble des variables la dé nissant

(b) impossible d’évaluer l’in uence de l’ensemble d’entre elle

(c) di cile de mesurer chacune des variables

* choix des variables : déterminer les variables les plus pertinentes, qui in uencent le plus le
concept

exemple : couleur des yeux : brun, noir, bleu, vert, gris


2.1.1.2. Variables dépendantes vs indépendantes
Variable dépendante (VD) = le concept étudié

exemple : Le BE, le score de résilience …


Variable indépendante (VI) = variables qui in uencent le concept étudié

exemple : La prise ( ou non) d’anti-dépresseur, le fait de suivre (ou pas) une thérapie etc
NB: il est impossible d’identi er toutes les VIs. Sélection des plus pertinentes.

NB: l’établissement du statut de la variable dépend de l’expérimentateur

2.1.2. Hypothèse VI et VD

Hypothèse : prédiction de l’in uence d’une (ou plusieurs) variable indépendante.s (Vi’s) sur une
variable dépendante (VD)

exemple : Le « médicament X » permet d’améliorer le bien-être


VI : recevoir (ou pas) le médicament X
VD = bien-être

Dans le contexte d’études sur le partage sociale des émotions, on souhaite tester l’impact du type
de réaction de l’auditeur sur la préception du locuteur ( = la personne qui parle). On suspecte,
notamment que les réactions de l’auditeur centrées sur lui-même sont perçues négativement par
le locuteur, alors que celles centrées sur le locuteur sont perçues positivement par le locuteur

Un chercheur se demande si le niveau d’addiction d’une personne aux nouvelles technologies


peut être prédit en fonction du nombre d’heures qu’elle passe en moyenne chaque semaine sur
internet et en fonction de son niveau de dépression évalué par un test psychologique. Le score de
dépression est évalué sur 30 points. Le score élevé signi e que la personne est dépressive. Le
score d’addiction est évalué sur 40 poins. Un score élevé signi e que la personne a développé
une addiction

Dans une clinique de r habilitation on veut v ri er si la condition physique avant une intervention
chirurgicale a un e et sur le nombre de jours de kin sith rapie n cessaire pour r habilitation

3 sur 59
fi

ffi
ffi

fi
ff


fi
fi
fl


fl

fl

fi


fi
fi
fl
fi


fl

Elyas Stangier Analyse de 2022-2023
données scienti ques
compl te. La condition physique est valu e selon un bar me qui donne : condition moyenne
sous la moyenne ou sup rieur la
moyenne.

⚠ Une variable peut changer de statut d’une hypothèse à l’autre !


VD
Le temps d’étude consacré au cours de STAT-E110 va in uencer la note des étudiants à l’examen
de ce cours

Vs
VI
La motivation d’un étudiant va in uencer le temps qu’il consacre à étudier le cours de STAT-E110

2.1.3. Comment générer une hypothèse ?


Intuition Théorie

« Bon sens » qui ne repose sur Ensemble des recherches sur


aucune étude
la problématique ciblée ( ou
une problématique très
Exploration avant d’établir une proche)

hypothèse
Prédictions a priori

2.1.4. Propriétés d’une hypothèse


1. Elle est toujours falsi able

-> elle doit pouvoir être véri ée/réfutée

-> ≠ croyance


« Hypothèse vs croyance «  ≠ «  Vrai vs Faux »

ex « dieu existe » = croyance


« Hypothèse vs croyance «  ≠ «  Crédible vs non crédible  »

ex «  les clous rouillent plus rapidement en présence d’adultes dépressifs » = hypothèse

2. Il s’agit d’une prédiction et non d’une question de recherche

Question Prédiction/a rmation

« Est-ce qu’aller aux guidances permet « Aller aux guidances permet


d’améliorer la réussite à un examen ? » d’améliorer la réussite à un examen’

VI = participer ou non aux guidances

VD = note à l’examen

3. Elle contient une seule proposition

Hypothèse 1
Ex : « les étudiants les plus motivés réussiront mieux le cours de statistiques parce que leur
motivation les poussera à étudier plus »
Hypothèse 2
2.1.5. Hypothèse théorique vs opérationnelle
Hypothèse théorique = description général de l’e et attendu d’une VI sur une VD

Exemple : le taux d’alcoolémie réduit les ré exes des conducteurs


pour que ce soit une hypothèse opérationnelle on doit dé nir comment on va mettre l’expérience
en place

Hypothèse opérationnelle = prédiction concrète des résultats d’une expérience

Exemple 1: en présence d’un obstacles sur un parcours plus le dosage d’alcool dans le sang est
élevé plis le temps qui s’écoulera ente elle moment où l’individus détecte l’obstacle et celui où il
appuie sur le frein sera long
4 sur 59

ffi
fi
fi


fl
fi


ff
fl

fl
fi

Elyas Stangier Analyse de 2022-2023
données scienti ques

Exemple 2 : en présence d’un obstacle sur un parcours les sujets ont bu 3 verres de bière
freineront avec un temps de réaction plus long que les sujets sobres

2.2 Modélisation
Simpli er la réalité au point d’ignorer complètement l’in nité des autres variables est de leurs
interactions

Avec l’exemple 1 :

/!\ attention : modélisation = simpli cation de la réalité

Réalité = modèle + erreur

<=> Erreur = réalité - modèle

Objectif : réduire l’erreur de prédiction

optique probabiliste : plus grande probabilité de décrire correctement la réalité, sue


l’erreur soit la plus petite possible

Prédiction : modèle prédictif et/ou description de la réalité

2.3. historique
Les première commentes de données, il y a 4000 ans en Chine en l’an 2 de la dynastie des Han,
recenser la population, les revenus et le nombre de soldats.

Plus en avance dans l’Histoire, plus ces recensements sont fréquents et précis

La notion d’incertitude et de probabilité apparait dans les 1950

La certitude a une longue histoire, elle est accessible à l’Homme par sa croyance en DI
( prophète Isaïe), avec l’héliocentrisme ( >< égocentrisme) ( Nicolas Copernic). C’est en n pascal
et Fermat qui énoncent le concept de probabilité sous la forme de degré d’incertitude.

2.4. Logique
* Logique = raisonnement, argumentation

Un raisonnement correcte = ne pas inférer une conclusion fausse à partie de prémisses vraies

2.4.1. Les propositions


* Prémisses et conclusion = propositions

* Proposition = sujet (individu.s ciblé.s) + Prédicat (attribut caractéristique)

= énoncé qui peut être vrai ou faux

2.4.1.1. Type de proposition (6)


A rmative Négative

Universelle = toute la population Tous les humoriste sont Aucun humoriste n’est dépressif
dépressifs

5 sur 59
ffi
fi

fi
fi

fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Particulière = une partie de la Certains/quelques humoristes Certains/quelques humoristes ne

Carré logique

population sont dépressif sont pas dépressifs

d’Aristote
Singulière = un et un seul Gaspard Proust est dépressif Gaspard Proust n’est pas
individus dépressif
1

2.4.2. Logique déductive

Raisonnement certain à condition que


Les étudiant.e.s réussissent toujours ( prémisse 1)

- les prémisses soient vraies


Les participant.e.s au cours de stat sont des étudiant.e.s
- ET le raisonnement soit valide
( prémisse 2)

____________________________________________

Logique certaines, rarement possible sauf


Les participant.e.s au cours de stat qui sont motivés vont
dans le cadre d’une démonstration
réussir mon examen (conclusion)
mathématique

Prototypes du raisonnement déductif est le syllogisme2 d’Aristote

= une proposition est une assertion comprenant un sujet et un prédicat ( = un attribut)

D’un point de vue qualitatif , une proposition peut être vrai ou fausse

D’un point de vue quantitatif, une proposition peut concerner tous les cas, certains cas ou un seul
cas.

La logique déductive ne peut pas conduire à une erreur pour peu que les prémices soient vraies
et l’argumentation soit valide.

2.4.3. Représentations des raisonnements à l’aide d’ensemble


ensemble = ensemble d’éléments ayant une caractéristiques commune

ensembles particuliers :

ensemble universel (Ω) (indispensable pour dé nir la notion de complément d’un


ensemble ), ensemble de tous les éléments auxquels on s’intéresse

ensembe vide (ø) (ensemble qui ne contient aucun élément, sous éléments contenu
dans n’importe quel ensemble, utile pour dé nir la notion d’ensemble disjoint)

singleton (ensemble qui contient un seul individus)

2.4.4. Inclusion et appartenance :

2.3.4.1. Relations entre ensembles

Inclusion (logique d’implication) (2 ensembles) :

Appartenance ( 1 élément dans 1 ensemble):

1 l’apport logique d’Aristote à la logique tient des inférences médiates


2 = conclusion tirée à partir de deux ou plusieurs prémisses
6 sur 59

fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
2.4.5. Ensembles complémentaires

2.3.5.1. Relations entre ensembles :


Complément : (négation)

~G ( ou G)

2.4.6. Intersection et di érence


2.3.6.1. Relations entre ensembles :

Intersection (‘et’) :

Di érence

2.4.7. Union d’ensemble

2.3.7.1 Relations entre ensembles :

Union inclusive :

Union exclusive :

2.4.8. Ensembles disjoints

2.3.8.1. Relations entre ensembles :

Ensembles disjoints (mutuellement exclusifs):

2.4.9. Synthèse

(Ensemble) qui ne comprend pas (un autre ensemble) \

2.5. Représentation des raisonnements à l’aide des ensembles

Probabilité = chances d’obtention d’un évènement donné, séparer ensembles ayant une propriété
spéci que ainsi que des ensembles pouvant regrouper plusieurs propriétés décryptent
graphiquement ou algébriquement.

2.5.1. Diagrammes de Venn


Utilisé en logique déductive, quanti cateurs tous, certains et aucun


Mortels Mortels


Hommes Hommes
Grecs
Grecs

7 sur 59
CERTAINs
TOUS
fi

fi
ff
ff
fi

Elyas Stangier Analyse de 2022-2023


données scienti ques

2.5.2. Diagrammes de Venn et validité du raisonnement : exemple 1

3 possibilités

2.5.3. Diagrammes de Venn et validité du raisonnement : exemple 2

2.5.4. Remarques
* Les prémisses sont intrinsèquement VRAIES ou FAUSSES

* Etat de fait ≠ état de nos connaissances

* Les prémisses sont toutes probabilistes : « plus un phénomène est observé plus il y a de
chances qu’il se produise à nouveau

exemple : tous les hommes sont mortels


* Les ensembles contiennent un nombre ni d’éléments discrets ( ni) dénombrables

* Les diagrammes de Venn sont des représentations de propriétés ( de prédicats) supposé vraies
pour tous les éléments constituant l’extension des ensembles

* Il existe un lien de réciprocité entre la logique déductive et la la logique inductive, le premier


raisonnement est certain, pour peu que mes prémisses soient vraies et que mon argument soit
valide, le second est probabilistes.

2.6. Logique inductive

= raisonnement nécessaire incertain ! Dont le principe est de découvrir des lois générales
à partir d’observation de faits. Plus un phénomène donné est observé, plus il y a de chances qu’il
se produise à nouveau.

peut amener à des dérives

Basé sur l’observation du monde

8 sur 59

fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

2.6.1. Exemple de dérive

De quelle couleur sont les corneilles ?

je vais regarder à Bruxelles et au l des jours je vais


voire plus de corneille noire alors qu’elle est en
réalité moins fréquente que la corneille noir

Par essence, le cerveau humain fonctionne sur base


d’une logique inductive

Une mauvais utilisation de la logique inductive est souvent à la base des stéréotypes à propos
des groupes sociaux.

MAIS à la base de tout raisonnement scienti que

-> importance de quanti er l’incertitude que l’on a en a rmant une proposition.

Notre cerveau fonctionne sur base d’une logique inductive, de stéréotype -> l’essentiel de notre
connaissance se base sur une logique inductive.

Une proposition est toujours vraie ou fausse

Chapitre 4 : Les échelles de mesure

* di érentes manières de mesurer l’information

ex : l’ivresse

* être saoul ou pas ( variable qualitative)

* Le nombre de verre d’alcool consommés (variable quantitative discrète)

* le nombre de mg d’alcool par litre de sang (variable quantitative continue)

=> le choix de la mesure est capital. Les analyses qui suivront dépendront de ce choix !

=> Ce choix doit toujours précéder la dé nition des hypothèses !!

4.1. 4 échelle de mesure Howell

Les échelles nominales regroupent les mesures qualitatives, les autres des mesures quantitatives.
Ils ont une relation d’inclusion.(toutes être considérée comme nominale

échelle nominale : lien d’appartenance d’un objet, distinctive, di érente qualitativement

échelle ordinale ; plus informait que les échelles nominales: l’ordination des chi res import,
la qualité qui sépare le 1 et le 2 n’est pas forcément la même que celle entre le 2 et le 3

échelle d’intervalle: un niveau supplémentaire d’information. La distance entre deux unités


est constante. Exemple de température en C° , pas de zéro absolu

échelle de rapport : zéro absolu

9 sur 59
ff

fi
fi
fi
fi
fi
ffi
ff
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
4.1.1. Echelle absolue

* échelle qui n’admet aucune transformation linéaire, pcq je peux la mesurer de


di érentes manières

- ex : nombre d’animaux de compagnie est mesuré sur une échelle absolue

- ex : la taille n’est pas mesuré sur une échelle absolue ( 30.48cm = un pied,
2.54cm = un pouce)

=> le choix de la mesure est capital. Les analyses qui suivront dépendront de ce choix !

=> Ce choix doit toujours précéder la dé nition des hypothèses !!

4.1.2. Remarque

Ou exclusif, quand ?

exemples:
Risque d’e et secondaire indésirable ( ex . Prise de deux molécules somilatné »es)
Etude de famille monoparentale hétérosexuelle : in uence du fait de vivre abbé son père ou sa
mère uniquement ? Etc.

Chapitre 3 : Probabilités et analyse combinatoire

Objectifs :

Dé nir les notions de probabilité, expérience et évènement aléatoires et la loi des grands
nombres

Dé nir mes axiomes de Kolmogorov et les loi qui en découlent

Introduire les probabilités conditionnelles

Introduire l’analyse combinatoire ( dénombrement)

3.1. Probabilité d’un évènement :


3.1.1. dé nition épidémique
* « degré de croyance en des propositions qui n’ont rien de statistique , relatif à la connaissance

exemple : «  je trouve un verre cassé dans la cuisine, qui est coupable ? »

-> a un côté subjectif et personnel.

3.1.2. dé nition fréquentantiste


Tendance de certains dispositifs aléatoire à produire des événements avec des fréquences
relative.3 qui tendent à se stabiliser au fur et à mesure qu’on augmente le nombre de répétitions
de l’expérience aléatoire.

Probabilité qu’un évènement aléatoire se produise au cours d’une expérience aléatoire ?

* Expérience aléatoire

«  action qui va engendrer à chaque répétition un (et un seul) des évènements élémentaires
possibles » - peut se réaliser ou ne pas se réaliser lors de chaque essai

exemple : lancer un dé

* Evénement aléatoire

«  Événement qui peut se réaliser au cours d’une expérience aléatoire » 

exemple : obtenir « 5 »

3fréquence relative = nombre d’observations intéressantes divisé par le nombre total


d’observation
10 sur 59
ff
fi
fi
ff

fi
fi
fi
fi
fl
Elyas Stangier Analyse de 2022-2023
données scienti ques
Espace-échantillon : ensemble des événements élémentaires possibles auxquels on s’intéresse
—> les événements aléatoires se produisent avec des fréquences relatives qui se stabilisent au l
des répétitions d’une expérience aléatoire

Ex soit un dé à 6 face

Évènements d’intérêt : observer la face « 1 »

Le fréquence relative : je compte le nombre de fois que j’ai obtenus

Nombre de répétitions: Résultats Fréquenc relative

12 323222143462 1/12

50 244342166126637476367463743 6/50=1/8.33
6743 »

100 353485796866534567978432676 19/100 = 1/5.26


065454500985453478876753344
805237065345898784456
=> dé nition fréquentiste = limite de la fréquence relative quand le nombre d’expérience aléatoire
tend vers l’in ni

« Re et de la tendance de certains dispositifs aléatoires à produire des événments avec des
fréquences relatives qui tendent à se stabiliser au fur et à mesure qio’on augmente le nombre de
répétitions de l’expérience aléatoire »

Quelques termes spéci ques

Fréquence relative = le rapport entre le nombre d’événements favorables à la réalisation de


l’événements considéré comme critique et le nombre total d’événements élémentaires possibles

La probabilité = le rapport entre le nombre de cas favorables et le nombre de cas possible

Comment calculer la probabilité d’un évènement ?

Analytiquement
Empiriquement


A posteriori

A priori

Exemple : évènement A = « obtenir une face


paire »

* n(A) = 3

* N=6

* P(A) = probabilité de l’évènement A


-> P(A) = 3/6 = 0.5
* n(A) = nombre de cas favorable

11 sur 59
fl
fi

fi
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
* N = nombre de cas possible

3.2. Dé nition analytique de la probabilité

conditions

Événement sont équiprobable

Evénements exclusif, 2 évènements qui ne peux pas paraitre en même temps

Evénement exhaustifs : pcq on connaît toutes les possibilité

Remarques :

Condition d’équiprobabilité

—> introduction de la notion de probabilité dans la dé nition du concept de


probabilité

—> dé nition circulaire et impropre à la condition

—> Avantage : simple et facile à comprendre

3.3. Synthèse : 2 dé nition de la probabilité :

1) dé nition analytique ( méthode analytique, a priori) = « nombre de cas favorable divisé par le
nombre de cas possibles »

2) Dé nition fréquentiste ( méthode empirique, a posteriori) = «  limite de la fréquence relative


quand le nombre d’expérience aléatoire est égal à l’in ni », correspond à une caractéristique
physique, de disposition, de tendance ou de propension

- avantage : ne demande pas la condition d’équiprobabilité ni celle de


l’exhaustivité.

-le désaventage : réaliser des expériences aléatoires pour déterminer la probabilité.


La possibilité d’évaluer une proba a priori

Situation fréquentante pure : peut être véri ée empiriquement. Grâce à cette possibilité » de

véri cation empirique, la probabilité au sens féquentiste a souvent été quali ée d’objective

Situation épidémique pure : une proposition exprimée en degré de con ance qu’une personne
accorde aux di érents arguments qui appuient cette thèse. Comme le degré de con ance
accord »é à une proposition varie d’une personne à l’autre, la probabilité au sens épistémique a
sauver été quali ée de subjective.

Situation de va-et-vient : l’observateurs attribue donc la valeur de la proba fréquentante à la


probabilité épidémique dans le cas du lancer unique

3.4. La loi des grands nombres

Quand le nombre de répétition d’une expérience aléatoire tend vers l’in ni

-> la fréquence relative de l’événement X tend vers P(X )

<=> la probabilité que la fréquence relative d’apparition de X di ère de P(X ) qui tend vers 0

= la loi des grands nombres (Bernouilli)

/!\ indépendance des répétitions de l’expérience aléatoire => Les probabilités n’ont pas de
mémoire ! /!\

/!\ d’illusion/sophisme du jouer » = croit que la loi des grands nombres implique une sorte de
compensation de la part de la nature : tout se passerait cille si la nature s’arrangeait pour que les
fréquences absolues des di érents événements possibles s’équilibrent après un grand nombre
d’essais /!\

Autrement dit : plus le nombre de jets augmente, plus la di érence entre la fréquence relative de
l’événement critique et sa fréquence relative théorique (50%) devient petite.

12 sur 59
fi
fi
fi
fi

ff
fi
fi
fi
fi
ff
fi
fi
ff
ff
fi
fi
fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
La di érence entre la fréquence relative observée et la fréquence relative théorique (= la
probabilité) tend vers 0 quand N tend vers l’in ni

3.2. Dé nition axiomatique des probabilités

* axiome4 = vérité indémontrable qui doit être admise

* En probabilité 3 axiomes dé nis par Kolmogorov

* Base de raisonnements plus complexes

3.2.1.Axiomes de Kolmogorov

Soit un espace-échantillon Ω associé à une expérience aléatoire. La probabilité P(E ) d’un


évènement critique E constante en un nombre réel qui satisfait aux axiomes sui ants :

Un évènement E est soit

impossible -> P(E) =0

certain -> P(E) =1

probable -> 0 < P(E) < 1

3.3. propriétés dérivées des axiomes


- Pour des v nements disjoints (mutuellement exclusifs) et exhaustifs

- Pour des v nements non disjoints (non mutuellement exclusifs)

3.3.1. Pour des évènements disjoints(exclusif) et exhaustifs

a) propriété d’une partition

P(V ∪ O ∪ R ∪ B) = P(Ω)

b) propriété d’événements complémentaires

4le principe d’une axiomatisation est que tous les théorèmes de la théorie axiomatisée peuvent
être dérivés à partir des axiomes.
13 sur 59
ff
fi




fi
fi
fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
2 évènements qui s’oppose, la somme de la probabilité de chacun de ses
évènements vaut 1

P(V ∪ ~ )=1 <=> PV =1−P(~ ) <=> P(~ ) =1−P(V)

V et~ sont exhaustifs et mutuellement exclusifs

c) propriété de multiplication, à condition qu’ils sont indépendant

Je lance une pièce de monnaie 2 fois. Quelle est la probabilité d’obtenir 2 fois « pile »

( 1∩ 2) = P(Pile1) × ( 2) = .25

On lance une pièce 3 fois d’a lée. Quelle est la probabilité d’obtenir « face » 3 fois d’a lé ?
Note : la pièce est légèrement déséquilibrée, si bien que la probabilité d’obtenir « pile » vaut 0,6
au lieu du traditionnel 0, 5

P(Face) = 0.4 à chaque lancé

0,6 x 0,6 x 0,6 = 0, 064

Je lance une pièce de monnaie 3 fois. Quelle est la probabilité d’obtenir au moins 1 fois Pile ?

Loi multiplicative des probabilités : la probabilité d’occurrence


conjointe de deux ou plusieurs événements indépendants est
égale au produit de leurs probabilités individuelles

3.3.2. Pour des évènements non disjoints

3.4. Tableau de contingence


B ~B P marginale

A A inter B A inter ~ B P (A )

~A ~A inter B ~A inter ~B P(~A)

P marginale P (B) P(~B) 1

B ~B P marginale

A .3 .4 .7

~A .2 .1 .3

P marginale .5 .5 1

14 sur 59
𝑃
𝑃
𝑖
𝑙
𝑒
𝑃
𝑖

𝑙
𝑒
fi
𝑉
𝑉
𝑃
ffi
𝑃
𝑖
𝑙
𝑒
𝑉
𝑉
ffi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Règle générale d’addition des probabilités de deux événements

Si A et B sont deux événements quelconques

Dans le cas particulier oui A et B sont des événements disjoints

Parce que

3.5. Les probabilités conditionnelles


Qu’elle est la probabilité d’un évènement sachant qu’un autre évènement est présent ?

Ex : quelle est la probabilité de réussir l’examen de statistiques sachant qu’on a lu les lectures
conseillée ? -> 70/90
Les fréquences relatives : ƒ= n/N, nombre de sujets d’une case, divisé par le nombre total de
sujets.

-> Importance de cette notion pour tester l’indépendance entre deux variables

R= réussir l’examen, L = lire les lectures

Ré exion 1 :

Parmi un ensemble de 120 étudiants seulement 20 ont simultanément lu les lectures conseillées
et réussi l’examen . Peut-on en conclure que la lecture est inutile ?

NON, tout dépend combien de personne on raté l’examen et qui ont lu.

3.6. Probabilités conjointes vs conditionnelles

Conclusion : Probabilités conjointes ≠ conditionnelles

Ré exion 2 :

La probabilité de r réussir sachant qu’on z lu ls lectures conseillées est de 80%. Argument


su sant pour être en faveur de la lecture?

NON, peut-être que tous les élèves ont réussi l’examen

Pour être capable de répondre il faut prendre en compte la proba de réussir sachant qu’on a pas
lu

3.6. Probabilités conjointes vs marginale

* étudier le lien entre deux variables implique de comparer les probabilités conditionnelle et les
probabilités marginales

15 sur 59
ffi
fl
fl

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

3.7. Probabilités conditionnelles vs Probabilités conjointes dépendants

Si on obtient un lien de dépendance entre une variable A et une variable B, on obtiendra


forcément un lieu de dépendance entre la variable B et la variable A

3.8. Indépendance entre événements

Règle des produits des probabilités qui est applicable au cas des événements compatibles et
indépendants

16 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

3.9. Analyses combinatoires

Nécessité dans le calcul de probabilité de dénombrer l’inventaire des dispositions d’un certain
nombre d’objet parmi un ensemble d’objet avec ou sans remise. / Counting rules : dénombrement
du nombre de dispositions d’un certain nombre d’objet parmi un ensemble d’objets avec ou sans
remise Il est nécessaire sue s’intéresser à la remise ou à la non remise des éléments avant chaque
tirage (càd à l’indépendance ou là la dépendance des tirrges successifs) et à l’importance ou non
de l’ordre de tirage

3.9.1. Tirage avec remise


Soit une urne contenant 9 billes (5bleues et 4 rouges)

P(bille bleue au premier tirage) = 5/9

P(bille bleue au deuxième tirage|bille bleu au premier tirage)= 5/9

P(bille bleue au troisième tirage | billes bleus aux premier et deuxième tirages) = 5/9

=> tirage indépendant !!

ex : on, sélectionne 3 bille numérotées parmi un ensemble de 4 billes ( numérotées de 1 à


4) …

… avec remise (on peut s »sectionner deux fois la mêmes bille)

… En considérant que l’ordre est important

Combien de résultats possible ?

règle des produits

4 x 4 x 4 = 4^3 = 64

Règle des produits


Dénombre les événements élémentaires distincts de l’espace-échantillon d’un expérience
aléatoire comprenant N , avec remise et ordre est dé ni

17 sur 59

fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
SI K1, K2,… KN sont les nombres d ‘évnemtns distinctes et indépendants qui peuvent se produire
au cours des essais 1, 2, …N dans une série, le nombre de séquences di érentes de N
événements est donné par le produit K1 x K2x..x KN

3.9.2. Tirage sans remise

Soit une urne contenant 9 billes (5bleues et 4 rouges)

P (bille bleue au premier tirage) = 5/9

P(billa bleu au deuxième tirage |bille bleue au premier tirage) = 4/8 = 1/2

P (bille bleue au troisième tirage|billes bleus aux premier et deuxième tirage) = 3/6

=> Tirage non indépendant !!

L’ordre est important L’ordre est important

OUI NON

Veut on organiser tous Tous Permutations


1 ou ø
les éléments d’un 4! = 4x3x2x1 = 4!= 24

ensemble iu seulement P = N!
une partie ?

Veut on organiser tous Une partie Arangements


Combinaison

les éléments d’un


ensemble iu seulement
une partie ?

Soit N = nombre d’objets

3.9.3. Synthèse

18 sur 59

fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques

Chapitre 5 : exploration graphique des données à une


dimension et terminologie

Objectifs :

Cr er des tableaux de fr quences

Cr er, lire et interpr ter des graphiques bas s sur les fr quences

Calculer divers quantiles

Cr er, lire et interpreter des graphiques bases sur les quantiles (bo tes moustaches)

5.1. Introduction
On demande à 200 étudiants s’ils fument ou pas. La réponse à cette question a 2 modalités :
« oui » et « non ». Voici le résultat obtenus

* Les données brutes sont indigeste en l »’état;

* Elle doivent être simpli ées

* Ex : 30 personnes ne fument pas; 170 fument

* Les données simpli és peuvent être représentées graphiquememnt

*La transnumérisation, manipulation des données chi rées


pour leur donner un sens facilement compréhensible

Un échantillon va être prélevé aléatoirement dans une


population ( N : taille popu, n : taille échantillon). Si je ne m’intéresse qu’aux caractéristiques de
mon échantillon, sans me soucier de la population, sans vouloir inférer les caractéristiques de
cette population on parle de statistique descriptives. MAIS si j’ai la vocation de déterminer
certaines caractéristiques de ma population à partir d’un échantillon, inférences statistiques.

Plus mon échantillon est grand , plus je serai précis dans mes estimations? Il est nécessaire que
l’échantillon représente un prélèvement d’une toute petite partie de la population, prélever u sujet
n’in uence que de manière négligeable les chances de prélever un autre sujet.

Les valeurs discontinues : variables qui ne peuvent prendre que certaines valeurs et pas d’autres
— variables discrètes

Une variables continue, peut prendre n’importe quelle valeur sur un intervalle donné

5.2. Avantages des graphiques


* Accès visuel facile et immédiat sur nos données

* Permet de repérer facilement….

* … Les tendances principales

* … Les éventuelles anomalies (ex. Erreurs d’encodage)

19 sur 59



fl

fi

fi
fi


ff



Elyas Stangier Analyse de 2022-2023
données scienti ques

5.3. Représentations graphiques d’une variable

Diagrammes en bâtons et histogrammes

Distributions

Diagramme en tiges et feuilles

Les boîtes à moustache

5.4. Diagrammes en bâtons et histogramme


Etape 1 : transnumérisaction des données

—> tableau de fréquences

Etape 2 : représentation graphique

diagramme en bâtons ou historgramme

5.5. Les distributions de fréquences

Exemple: 40 parents (issus de m nages di rents) ont r pondu par oui ou non la question
suivante: “Mon enfant re oit-il de l’argent de poche? “ Voici les r sultats:

1) Déterminer les modalités de la variables ( = les valeurs possibles)

2) Créer un tableau contenant autant de lignes que de modalité et

3) Calculer les fréquences absolues et relatives

5.6.. Diagramme en barres

5.6.1. Les distributions de fréquences et diagrammes en barres

Remarque 1 : avec une variable nominale l’ordre d’apparition des catégories n’a aucune
importance.

PAR CONTRE il en aura pour des variables ordinales ou supérieures !

20 sur 59

fi


ff




Elyas Stangier Analyse de 2022-2023
données scienti ques
Remarque 2 : dès que l’ordre des catégories importe, on peut calculer des fréquences cumulées

Remarque 3 : pour des variables d’intervalle, respecter la taille des intervalles

nj Fj
Nj
Fj
( fréquence (Fréquence (Fréquence
absolue) relative) cumulée)

1 6 6/20 = 0,3 6 6/20 = 0,3

2 8 8/20 = 0,25 14 14/20 = 0,55

3 5 5/20 = 0,25 19 19/20 = 0,95

4 1 1/20 = 0,05 20 20/20 = 1

5 0 0/20 = 0 20 20/20 =1

5.7. Les histogrammes

Remarque 4 : quand trop de modalités possibles possibles on utilise des classes (histogramme)

5.7.1. Combien de classes dans un histrogramme ?


—> Pas de règle mais des suggestions d’Howell (1999)

* On peut en gérer facilement une dizaine

* Le bon sens peut nous guider

* Etendue identique ou non entre les classes

5.8. Distributions
* Corubes représentant l’in nité des résultats possibles.

* représentations de variables continues (>< discrètes)

* Imaginez qu’on établisse un histogramme avec un nombre in ni de classes dot la largeur


devient très petite ( jusque’à avoir la largeur d’un point).

5.8.1. Air sous la courbe

21 sur 59

fi
fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

* Toutes les valeurs possibles de la variables sont représentées sous la courbe

* Probabilité d’obtenir un score en dessous de cette courbe = 100%

* P(QI > 100) = 0.5

Unimodale

5.8. Diagramme en tiges et en feuilles

* représente l’entièreté des données tout en donnant la forme de la distribution

* Proposée par Tuckey

* Tiges = les dizaies(=classe); Feuilles = l’unité

Exemple : temps de trajet entre domicile de 77 étudiants et le campus du Solbosch

2 2 2 3 4 5 6 8 8 9 9 10 10 10 11 11 12 12 13 13 13 13 13 14 15 16 17 17 17 18 18 19 19 19 20 20
21 21 22 22 23 24 25 25 26 26 26 27 27 28 29 30 31 32 33 33 35 35 36 37 38 39 39 40 41 42 45
45 45 46 47 48 48 49 50 50 59

1) rassembler les scores par dizaines

2 2 2 3 4 5 6 8 8 9 9 10 10 10 11 11 12 12 13 13 13 13 13 14 15
16 17 17 17 18 18 19 19 19 20 20 21 21 22 22 23 24 25 25 26
26 26 27 27 28 29 30 31 32 33 34 35 35 36 37 38 39 39 40 41
45 45 45 45 46 47 48 48 49 50 50 59

2) Créer la tige = représente les dizaines

3) Créer les feuilles

La majorité des élèves prennent entre 10 et 20 minutes

NB : mode : la valeur la plus représentée (le pic)

Intérêt du graphique : visuellement on peut se rendre compte que la moyenne est la meilleure

5.9. Valeurs aberrantes

22 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
* Valeurs anormales ( par rapport au reste de la série)

* Peuvent sérieusement perturber les analyses ( cf. Prochain chapitre)

* Plusieurs causes possible :

* Anomalie :

* Erreur d’encodage

* Distraction des sujets ( ex.: mesure du temps de réaction)

-> valeur à ôter de l’analyse

* Erreur systématique

* Perturbation liée à stimuli

-> Suppression du stimuli (si le problème théorique sous-jacent m’indi ère)

-> Tentative d’explication, sur base d’une nouvelle expérience adaptée au problème

5.10. Boîte à moustache


= décrire une distribution et de la diviser en un certains nombre d’intervalle ayant comme
caractéristique de contenir des proportions identiques d’observations (les quantiles)

Etape 1 : Transnumérisation des données

-> Déterminer les valeurs de quantiles

Etape 2 : Représentation graphique

-> Boîte à moustache

5.10.1. Dé nition et quantiles particuliers


Borne qui permettent de diviser une distribution en un certain nombre d’intervalles contenant tous
des proportions identiques d’observations

* La médiane (θ) divise la distribution en deux options contenant chacune 50% des observations

* Les quartiles divisent la distribution en 4 portions contenant chacune 25 % des observations ( 3


bornes)

* Les déciles divisent la distribution en 10 portions contenant chacune 10 % des observations ( 9


bornes)

* Les perceptiles divisent la distribution en 100 portions contenant chacune 1% des observations

Médiane Quartiles Décile

1 borne 3 bornes 9 bornes

OUI NON

Le quantile correspond à la moyenne entre cette modalité Le quantile correspond à la première modalité
et la modalité observée suivante. associée à une proportion supérieure à celle du
quantile en question.

5.11. Calcul de médiane et des quartiles

Le calcul sera di érent suivant qu’on veuille déterminer la médiane sur base …

… d’une série de statistique

… d’une distribution de fréquence

* variable discrète ( ex : le nombre d’enfants)

* variable continue ( ex : la taille, le poids, …)

23 sur 59

fi
ff
fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques
5.11.1. Calcul de la médiane sur base d’une série statistique

Série 1 : 5 8 3 7 15

* principe : on veut autant de données inférieures à la médiane que de données supérieures à la


médiane

—> implique de commencer par ordonner la série : 3 5 7 8 15

Astuce : calculer le rang médian = où n = nbr d’observations dans la série

—> rang médian ; 5+1/2 = 3 -> la médiane correspond à la 3ème observation

/!\ Médiane ≠ rang médian

Médiane : un score (une valeur de la variable étudiée)

Rang médian = position du sujet possédant ce score

NB: La médiane est une valeur observée, TOUJOURS vrai quand nombre impair d’observation

Constat :

- nombre égal d’observations de lapant et d’autre de la médiane

- Ces parts ne représentent pas exactement 50 % des observations

Série 2 : 5 11 3 6 15 14

Série 2 (ordonnée) : 3 5 6|11 14 15

Rang médian : = (6+ 2)/2 = 3,5

—> la médiane se situe à mi-chemin entre la « ème et la 4 ème observation

—> par convention, on calcul la moyenne entre ces deux observations ;

-> = (6+11) : 2 = 8.5

NB : la médiane n’est pas toujours une valeur observée

Constat :

* Nombre égal d’observations de part et d’autre de la médiane

* Ces parts représentant exactement 50 % des observations

Série 3 : 3 5 5 8 8 14 14 14 14 15

rang médian : (n+1)/ 2 = 11/2 = 5.5

Médiane : 11

Série 4 (ordonnée) : 3 5 5 14 14 1 4 14 15

Rang m’éditant : (8+1)/2 = 4.5

Conclusion

Nombre impaire d’observation Nombre pari d’observation

La médiane est nécessairement une valeur observée La médiane est une valeur observée uniquement si
les valeurs de part et d’autre sont identiques

En résumé

Au départ d’une série de données, la médiane se détermine en 4 étapes

24 sur 59
𝜃

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
* Etape 1 : ordonner la série statistique

* Étape 2 : attribuer un rang à chaque observation

* Etape 3 : déterminer :e rang médian : (n+1)/2

* Etape 4 : déterminer la valeur qui occupe le rang médian

Trouver les valeurs exactes des partiels par interpolation


linéaire.

avec graphique

5.11.2. Calcul de la médiane sur base d’un tableau de fréquence

xj nj Fj

3 1 20 %

5 1 40 %

7 1 60 %

8 1 80 %

15 1 100 %

∂ = 7 car on prend la première modalité qui est relative à une fréquence cumulée qui dépasse 50
%

Q1 = 5 ( 25 % )

Q3 = 8 (75%)

xj nj Fj

3 2 20 %

5 2 40 %

7 1 60 %

8 4 80 %

15 1 100 %

∂ = 11

Dernier exemple

xj Fj

1 12,5 %

4 25 %

5 62,5 %

6 87,5 %

7 100 %

Si la valeur correspond EXACTEMENT à la moitié on fait la moyenne

Q1 : (4+5)/ 2 = 4.5

∂:5

Q3 : 6

La proportion correspondant au quantile est-elle exactement atteinte pour une modalit ?

25 sur 59

fi

Elyas Stangier Analyse de 2022-2023
données scienti ques

5.11.3. distribution de fréquence, variable continue => interpolation linéaire

Q1 = 161.695

θ = 166.35

Q3 = 170.686

5.12. Boîtes à moustaches

26 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
EIQ : (Q3-Q1) -> dispersion des données

5.12.2. Les moustaches

Longueur maximale des moustaches

= 1.5 x EIQ

EIQ -> Longueur maximale des


= 171-162
moustache

= 1.5. x9 = 13.5

=9

Hauteur …

… maximale de la moustache du haut = 171 +13.5 = 184.5

… minimale de la moustache du bas = 162 -13.5 = 148.5

5.12.1. La boîte centrale

* Correspond aux 50% des données centrales de la distribution

* La position de la médiane à l’intérieur de la boîte indique le degré de symétrie ou d’asymétrie de


la portion centrale de la distribution.

Exemple 1 : Exemple 2 :

5.12.23. Les valeurs extrêmes

* Les points et les étoiles. Les valeurs extrêmes supérieurs > à la barrière supérieur et les valeurs
inférieures sont < à la barrière inférieur.

* Éloignée de 1,5 à 3 x la boite -> •

* Éloignée de + de 3 x la boite -> *

Chapitre 6 : Exploration algébrique des données à une


dimension

Objectif

* mesures de tendance centrales

* Comprendre le principe de la modélisation par la moyenne


* Mesures de dispersion

* Mesure d’asymétrie et d’aplatissement

6.1. Mesures de tendance centrale


= valeurs distribution qui sont les plus représentées

Mode

27 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
moyenne (arithmétique)

Médiane

6.1.1. Mode et moyenne arithmétique

Remarque 1: on aurait aussi pu calculer les fréquences cumulées, mais on n’en a pas besoin pour
les calculs qui suivent.

Remarque 2: attention aux notations

6.1.2. Mode

Mode : classe/valeur la plus représentée

Remarques :

1) Ne pas confondre le mode et la fréquence associée au mode !

2) Une distribution peut être bimodale et multimodale

AVANTAGE : insensible au valeurs aberrantes (>< moyenne)

INCONVENIENT : insensible à TOUTES les autres valeurs de la distribution

6.1.3. MOYENNE (arithmétique)


Somme des valeurs, divisée par la nombre de valeurs constituant la somme.

n = e ectif total

Xi = les valeurs que peut prendre la variable

i = num ro de la donn e

= moyenne de l’ chantillon

28 sur 59
𝑋
ff

fi


Elyas Stangier Analyse de 2022-2023
données scienti ques

INCONVENIENT 1 : Sensible à toutes les valeurs aberrantes

INCONVENIENT 2 : Peu repr sentatif d’une distribution non sym trique ou multimodale

Propriétés du signe de sommation : une constante multipliant la somme, peut être indiquée après
ou avant le signe de sommation. La somme de n sommes de termes a et b est égale à la somme
de la somme tous les a et de la somme de tous les b.

AVANTAGE : Représente parfaitement une distribution normale ( uni-modale et symétrique)

1° Formules = (sommes des observation) / n

2° Pondérer chaque modalité des variable


absolue et diviser par n

3° multiplier par fréquence relative diviser par solde de toutes modalités et diviser

!"#$%&"'%()

Distribution normale Distribution multimodale ou asymétrique

La moyenne représentera parfaitement la Moyenne très peu représentative


distribution

==> Importance des indices de symétrie !

6.1.4. Modèle

Réalité : modèle + erreur

Prédire une réalité et utiliser un modèle pour faire cette prédiction

29 sur 59

fi


Elyas Stangier Analyse de 2022-2023
données scienti ques

L’utilisation de lettres grecques se justi e lorsque l"on fair référence à la


population. L’utilisation de lettres correspondantes se fera lorsque l’on
fait référence à l’échantillon

6.1.5. Modèle de la moyenne : en supposant les données symétriques et unimodales ;

La moyenne de l’échantillon est un estimateur de la moyenne de la population.

6.1.6. Modèle de la moyenne : reprise de l’exemple

Kk et pas caca hahaha mdr XD ptdr lol x) lolilol

Modèle de la Moyenne : reprise de l’exemple

6.1.7. Modèle de la Moyenne : la SCE

Erreur globale -> somme du carré des


erreurs

Remarque : la moyenne conduit à une SCE


plus petite que n’importe quelle autre valeur
!

Remarque : plus le modèle s’éloigne de celui de la moyenne, plus grande est la SCE

30 sur 59

fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

6.2. Les mesures de dispersion ou description de l’erreur


= jusqu’à quel point les sujets s’éloignent des valeurs centrales de la distribution
L’erreur n’est rien d’autre que la mesure de l’écart entre les valeurs observées et une bvaleur
théorique, donc la dispersion.
Ecart interquartile

Etendue

Ecart moyen absolu

Variance et écart-type

6.2.1. étendue des données

Etendue : valeur maximale observée — valeur minimale observée

Avantage : très simple

Inconvénients 1 : Très sensible aux valeurs extrêmes

Inconv nients 2 : Ne d pend que de deux valeurs, donc tr s peu repr sentatif de la distribution

6.2.2. Reprise du modèle de la moyenne

La dispersion = mesure de l’erreur faite «  en moyenne’ par notre modèle de la moyenne.

Solutions :

*calculer l’erreur absolue (EMA)

*Elever les erreurs au carré (variance)

6.2.3. Ecart Moyen Absolu

31 sur 59

fi



Elyas Stangier Analyse de 2022-2023
données scienti ques

C’est une très bonne représentation de la dispersion MAIS Supplantée par l’écart-type, à
cause des propriétés mathématiques de la variance dont il est dérivé

6.2.4. Variance et écart-type de l’échantillon

Je change l’unité de départ

Et donc pour y revenir il faut


en calculer la racine ( écarte
type)

S>EMA —> S surestime un peu l’erreur par rapport à l’EMA

Car les valeurs extrême vont avoir un poids plus important dans mon calcul et encore plus vrai
dans la variance en élevant au carré on augmente en plus leur impacte ( le calcul est traumatisé)

6.2.5. Notion de biais

Biais : en moyenne, l’estimation obtenue par échantillon correspond-elle bien au paramètre de la


population

Soit une POPULATION constituée de 4 sujets

6.2.6. Moyenne arithmétique


Estimation non biaisé

32 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Envisageons tous les échantillons possibles de taille n= 2, et les estimations de µ
associées ( = tous les X possible)

Etablissement des concept dans une optique inférenciel

Inférer le paramètre correspondant à la population. La moyenne est un estimateur non biaisé. En


revanche, l’utilisation de l’a variance de l’échantillon comme estimateur de la variance de la
population conduit en moyenne à une sous-estimation de cette variance.

La variance de l’échantillon est un estimateur biaisé donc il est nécessaire de corriger la variance
->diviser la SCE par les degrés de liberté ( qui est nécessairement inférieur au nombre de sujets

6.2.7. Variance

estimateur biaisé

Envisageons tous les chantillons possibles de taille n = 2, et les estimations de σ2 associ es (=


tous les 2 possibles)

6.2.7.1. Variance corrigée

Pas de correction quand population et non échantillon

Degrés de libertés = n- le nombre de paramètres


estimés dans le calcul de la variance

= ensemble de valeurs aléatoires qui ne peuvent être


déterminées par une équation.

Estimateur non biaisé

Envisageons tous les chantillons possibles de taille n = 2, et les estimations de σ2 associ es (=


2
tous les corrig s possibles)

33 sur 59
𝑆
𝑆

fi





Elyas Stangier Analyse de 2022-2023
données scienti ques

NB: la di érence entre variance


corrigée et non-corrigée s’estompe
au fur et à mesure que n est grand.

6.2.8. Inconvénients de la variance et de l'écart-type


* Sensible aux valeurs aberrantes/extrêmes:

* Calcul des écart par rapport à la moyenne (elle-même très sensible)

* Erreur élevée au carré —> sensibilité exacerbée !

Importance de la forme des distributions

Pour une distribution parfaitement symétrique, moyenne, mode et médiane se confondent.

Une distribution asymétriques; Le mode est plus petit que la moyenne en cas d’asymétrie positive
et plus grand en cas d’asymétrie négative.

Distribution bimodale, les modes ne correspondent (forcement) pas à la moyenne.

Notion de moments d’une distribution

Un moment est une quantité calculée par la moyenne des valeurs de la distribution élevées à un
certain ordre

- si l’ordre vaut 1 et a=0 —> moyenne

- si l’ordre vaut 2 et a= moyenne —> variance

- si l’ordre vaut 3 —> lié au coe cient à asymétrie

- si l’ordre vaut 4 —> lié au coe cient d’aplatissement

Propriétés des moments d’ordres airs et les moments d’ordre impires


de degrés supérieur à 1, les exposant pair implique que les termes négatifs deviennent positifs

34 sur 59
ff

fi
ffi
ffi
Elyas Stangier Analyse de 2022-2023
données scienti ques
une fois élevés à l’ordre concerné. En revanche, un exposant impair ne change jamais le signe de
la valeur exposée.

6.3. Mesures d’(a)symétrie et aplatissement

Coe cient G1 de Fisher (asym trie)

Coe cient G2 de Fisher (aplatissement)

Pour caractériser algébriquement une distribution. Trois grandes classes de mesures ont été
envisagées : la tendance centrale, la dispersion et la forme des distributions ( aplatissement et
asymétrie) 


35 sur 59
ffi
ffi

fi

Elyas Stangier Analyse de 2022-2023
données scienti ques

Chapitre 7 : Les distributions binomiales et normales

Objectif

* reconnaitre une loi binomiale

* Calculer une probabilité avec une loi binomiale (formule ET tables)

* Reconnaitre une li normale

* Comprendre et appliquer le principe de standardisation d'une variable aléatoire continue

* Calculer une probabilité avec une loi normale, à l’aide d’une table

Rappel : une distribution binomiale la variable aléatoire discrète (discontinue) par les paramètres n
et p, une distribution normale sera dé nie par une variable aléatoire continue caractérisée par 2
paramètres : la moyenne et la variance

Une variable discrètes : les événements possibles sont dénombrables

Une variable continue : les événements possibles sont in nis

7.1. La distribution binomiale

= Distribution d’une variable dont les expériences aléatoires n’ont que deux issues
possibles, réussite ou échec

EX: réussir ou échouer à un examen, pile ou face, etc.

p = probabilit du premier v nement possible (=r ussite/sucès)

q = probabilit du deuxi me v nement possible (= chec)

→La r ussite et l’ chec sont compl mentaires (p+q = 1)

Exemple: on lance trois fois une pi ce de monnaie, et on s’int resse au nombre d’occurrence de
la face « Pile ». La pi ce n’est pas parfaitement quilibr e et la probabilit d’obtenir Pile est de .6

Le 3 vient des 3 combinaisons possibles


=p
= Succès

Envisageons toutes les situations possibles

36 sur 59



fi









fi




fi


Elyas Stangier Analyse de 2022-2023
données scienti ques
Une entreprise produit des machines à laver. Depuis le début de leur production, on constate que
1% des machines sont défectueuses. Une société commande 30 machine, quelle est la
probabilité qu’exactement 2 machines soit défectueuses parmi celles-ci.

7.2. La distribution binomiale

Remarque : Toute variable discr te peut tre consid r e comme une binomiale.

• Exemple: lanc de d : succ s vs. chec = ...

... 6 vs. N’importe quelle autre face

... face paire vs. Face impaire

→Dichotomisation des v nements possibles!

L distribution binomiale est une distribution entièrement caractérisée par deux paramètre n
et p, lorsque p est constant, plus le n est grand, plus la courbe est plate et décalée vers la droite

• On peut repr senter graphiquement les distributions (diagramme en barre)

... mais se rapproche de la sym trie quand n augmente p = .2

37 sur 59



fi










Elyas Stangier Analyse de 2022-2023
données scienti ques
7.3. Table de la binomial
* Fonction de 2 paramètres : p et n

Si la probabilit de succ s est de .4, quelle est la probabilit


d’obtenir 2 succ s parmi 4 r p titions de l’exp rience? .3456

7.4. Statistiques descriptives d’une distribution binomiale

7.5. Statistiques descriptives d’une distribution binomial exprimée en proportion

7.6. La distribution normale


= fonction de densité de probabilité d’une variable aléatoire continue. La densité de probabilité de
l’entièreté de la courbe est égale à 1

7.6.1. Introduction
Quand n augmente, la distribution binomiale devient inutilisable

ex: probabilité d’avoir 3 succès parmi 500 expériences aléatoires ?

38 sur 59


fi






Elyas Stangier Analyse de 2022-2023
données scienti ques

Qd n est su samment grand (n>30), la binomiale tend vers une distribution normale

Une distribtution normal est une ditribution théorique qui semble


représenter correctement la distribution de nombreuses variables
aléatoires naturelles

*Pour variables aléatoires continues

*S’étend de -∞ ∞

*Unimodale

*Symétrique

*Toujours représenté par une variable centrée et réduite, moyenne


égale à zéro et d’écart-type égal à un.

Il existe une in nité de distributions normales possibles

La distribution norme est entièrement dé nie par les


paramètres de moyenne de variance de la population
concernée.

7.6.2. Air sous la courbe

7.6.3. Air sous la courbe : intervalle quelconque


* Portion d’aire sous la courbe, dans un intervalle donné?

—> Dépend des para:mètres de la distribution

39 sur 59
ffi

fi

fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

7.6.3.1. Les scores z ( standardisation

A combien d’écart-type la (ou les) borne(s) de l’intervalle sous la courbe se trouvent-ils de la


moyenne ?

Exemple

1) A quelle distance ?

2) Combien d’écart-types cette distance


représente-t-elle ?

40 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

Centrage : x - µ Reduction

41 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

7.6.3.2. Utilisation de la table de la distribution normale


standardisée
* Aire sous la courbe comprise ente -∞ et Z

* N’envisage que les scores Z à partir de 0 …

* … jusque 3.90

7.6.3.2. Utilisation de la table pour des valeurs


négatives

P (Z ≤ -1.3.) = P ( Z≤ 1.3) = 1-.9032 = .0968

7.6.3.2. Utilisation de la table pour des valeurs négatives

P (-1.3. ≤ Z ≤ 1.3.) = .9032 - .0968 = .0968

Exercice 1:

Lors d’un processus de s lection, une entreprise utilise un test de logique. On sait qu’au sein de
la population, les scores (continus) ce test suivent une distribution normale avec = 10 et = 3.

Quelle est la proportion d’individus (en %) qui obtiennent un score compris entre 5.53 et 18.16 ?

Solution

( . ≤ ≤ . )= ( − . ≤ ≤ . )

Toute l’aire en vert = .9967 (trouv e directement dans la table)


Aire hachur e = 1 - .9319 = .0681 (cf. sym trie de la loi
normale + aires compl mentaires)

→ Aire recherche (en vert non hachur e) = .9967 - .0681 =


.9286 → 92.86% des individus ont un score compris entre
5.53 et 18.16

Exercice 2:

Lors d’un processus de s lection, une entreprise utilise un test de logique. On sait qu’au sein de
la population, les scores (continus) ce test suivent une distribution normale avec = 10 et = 3.

Au-dessus de quel score un individu ayant réalisé le test de logique fait-il partie de 15 % les
meilleurs ?

Solution

P( Z≥ ?) = .15 <=> P(Z ≤ ?) =.85

Aire orange = .15 <=> Aire en vert = .85

La borne recherchée est nécessairement positive

P (Z ≤ 1.04- = .85 1.04 trouvé dans la table, en cherchant l’aire la plus


proche possible de .8500

Les individus qui ont un score supérieur ou égal à 13.12 font partie des
15% les meilleurs.

42 sur 59
𝑷
𝟓
𝟓
𝟑
𝑿

𝟏
𝟖
fi
𝟏
𝟔
𝑷



𝟏
𝟒
𝟗

𝒁



𝟐
𝟕
𝟐

𝜇
𝜇
𝜎
𝜎
Elyas Stangier Analyse de 2022-2023
données scienti ques

L’inférence statistique
Introduction

1) Test sur une variable continue

2) Test sur une variable inconnue

Test sur une variable continue

* L’estimation d’un paramètre est-elle compatible avec une valeur théorique connue ?

* Tests paramétrique : test base sur l’usage de la Moyenne et de l’écart-type ( variance)

* Les tests paramétriques reposent sur des postulats concernant les erreurs.

Rappel : réalité (mesure) = modèle (estimation)+erreur

* On postule que les erreurs sont…

* Distribué normalement

* Dénuées de biais : N(0,σ)

* Indépendantes (condition méthodologique)

* De même dispersion entre les groupes, quand plusieurs groupes ( = homodcédasticité)

* Si le postulat de normalité violé, test non paramétriques


Test sur une variable nominale

La distribution de fréquences est-elle conforme à nos attentes th »trique ?

ex : dé équilibré ?

NB : postulat concernant l’erreur

L’erreur est distribuée normalement autour d’une moyenne nulle, mais pas toujours. Lorsque ce
n’est pas le cas ; il sera nécessaire d’avoir l’information sur la distribution concernée et de
prendre les mesures qui s’imposent pour tenir compte de la situation.

Les erreurs sont considérées comme étant indépendantes. L’erreur d’une mesure n’a absolument
aucun e et sur l’erreur d’une autre mesure. Ce n’est pas toujours le cas. L’exemple le plus évident
est représenté par les séries temporelles. Les erreurs entre le temps zéro et le temps un sont
donc bien liées.

Les erreurs sont identiquement distribuée. Les valeurs di èrent de la sorte et que les variances ne
sont pas les mêmes- hétérodasticité

Quand les variances de toutes les erreurs sont équivalentes — homosédasticité

Erreur standard -

43 sur 59
ff

fi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques

44 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

Chapitre 8 : Inférence statistique à propos des valeurs de

paramètres

Objectifs du chapitre

* comprendre et appliquer les 3 méthodes d’inférence : comparaison, test d’hypoth se


(test-t) et intervalles de con ance.

8.1. Intervalle de con ance

8.1.1. 3 distributions à distinguer

* Distribution de l’échantillon

* Distribution de la population

* Distribution d’échantillonnage

8.1.2. Distribution d e la population

je m’intéresse à une population, je sais que la distribution du QI


suit une distribution normale

µ = 100

En pratique on connais pas la distribution c’est pk on a besoin de test

8.1.3. Distribution de l’échantillon


on prend un échantillon et on évalue la distribution du QI

µ= 100.4

Il faut avoir conscience que si on avait estimé un autre échantillon on


aurait un estimation di érente

8.1.4. Distribution de l’échantillonnage

On représente la distributions de TOUTES les estimations

propriété

Distribution normale

Si l’échantillonnage se fait sur des échantillons de taille 50

-> si le dénominateur est plus grand -> écart types

Plus les échantillon sont grands plus les estimations seront le moins dispersé autour de la
moyenne

45 sur 59

fi
fi
ff
fi

Elyas Stangier Analyse de 2022-2023
données scienti ques
Explication mathématique :

Explication intuitive :

* Soit une population constituée de 200 femmes

* µ = 16! Cm

* Dans la population une étudiante mesure 200cm

Quid, si n = 2 ou 100 ?

Si N = 2

* P(la sélectionner) = 2 x (1/200)= 1/100

* MAIS impact énorme si sélectionnée

SI N = 100

* P(La sélectionner) = 100 x (1/200) = 1/2

* MAOS impact très réduit si sélectionnée

* ==> Plus n est grand, plus l’ensemble des estimations se


rapproche de µ

NB : lettre grecque -> population

Lettre latine -> échantillon

* Soit on connait σ (très rare)

* Soit on ne connait pas σ

8.2 Cas où σ est connue

* Estimation de la distribution, d’échantillonnage

distribution normale

Ex : soit un échantillon consituté de 50 personnes. Le QI moyen dans mon échantillon vaut 101.2.
L’écart type de la population théoriquement connu, vaut 15. J’estime dès lors que la D.E. Suit la
distribution normale suivante

-> on va essayer d’estimer une fourchette relativement présidé de


valeur pour pas prendre trop de risque

95% de l’air en dessous de la courbe

8.2.1. Distribution d’échantillonnage

P (-1.96 ≤ µ ≤1.96)

Z’ = 1.96 car il y a 97,5 % de l’air sous la courbe se trouve en dessous de 1.96

Z = -1.96

46 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

Transformer les scores Z

Il y a 95% de chance que la vraie moyenne de la population soit comprise entre 97.04 et 105.36

8.2.2. Risque α et risque β


Risque α = proportion d’estimations exclues de l’I.C., probabilit » de faire l’erreur de première


espèce. Càd la probabilit » de décider qu’une valeur n’est pas issue de la même population que
celle autour de laquelle j’ai construit ma distribution d’échantillonnage alors qu’en fait elle l’est.

risques β = probabilité qu’un évènelent n’est pas exclu alors qu’il le devrait

On se demande s’il est possible que notre échantillon soit extrait d’une population dont la
moyenne vaut 106.

conclusion , avec un risque α de 5% : non!

décision correcte, pu errer de première espèce ?

Conclusion, avec un risque α de 1% : oui!

Diminuer le risque α (= de première espèce) augmente le risque β ( = de


seconde espèce)

les risques α et β sont complémentaires

8.3. Cas où sigma est estimée


* estimation := ajout d’incertitude

* Palliatif : distribution t de Student (William Gosset) ‘


ressemble à normale mais plus dense) (plus
conservatrice)

* Dépend d’un peul paramètre : les degrés de liberté (n-1)

47 sur 59

fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
Estimation de la distribution d’échantillonnage : ressemble à une distribution t de Student mais
avec les paramètres suivants ;

P = portion qu’on EXCLUE

Plus il y a de jet -> plus elle se rapproche de la


normale et quand on dépasse 30 jets -> = loi normale

Moyenne = 0, cart-type = 1

Moyenne = 0, cart-type = 0.41

Moyenne = 5, cart-type = 0.41

8.4 la di érences d’estimations sur base des lois normale et Student

48 sur 59
ff




fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

Synthèse

8.4. Comparaison de modèles

8.4.1.Le modèle de la moyenne

Le mod le de la moyenne est-il pertinent?

= la prise en compte de la moyenne est-elle utile, en vue de faire des pr dictions?

→ Solution: comparer 2 mod les:


• Un mod le qui ne prend AUCUN param tre en compte

• Un mod le qui prend UN SEUL param tre en compte: la moyenne

— — — Rappel — — —

But de la modélisation = prédire (de manière simpli ée) la réalité

49 sur 59

fi





fi

Elyas Stangier Analyse de 2022-2023
données scienti ques

Exemple 1

Des tudiant.e.s passent un examen constitu de 100 « Vrai ou Faux » (1 point par question,
pas de point n gatif). On dispose de la note obtenue par 14 de ces tudiant.e.s.

Je souhaite pouvoir pr dire la note de n’importe quel.le tudiant.e dans la population.

Exemple 1 : modèle compact

Si je ne prend aucune donn e en compte pour m’aider pr dire sa note (ni sur le sujet, ni sur
l’ chantillon, ni sur la population), quel mod le puis-je d nir ?

→ Mod le du hasard

A chaque question, P(R pondre correctement) = ?0.5

DONC, note moyenne attendue = 50/100

Comment estimer l’erreur associ e au mod le du hasard?

Etape 1 : d terminer, pour chaque sujet de l’ chantillon, l’erreur


qu’on aurait commise en utilisant le mod le du hasard

Exemple 1 : modèle augmenté

Je d cide de prendre en compte la moyenne de mon chantillon.

→Mod le de la moyenne Pr diction = 60/100

Exemple 1 : prédiction et erreur sur base du modèle augmenté

Pour estimer l’erreur associée au modèle de la moyenne :

Etape 1 : déterminer, paru chaque sujet de l’échantillon, l’erreur


qu’on aurait commise en utilisant le modèle de la moyenne

Modèle augmenté : plus d’info que le modèle compacte, la moyenne


50 sur 59







fi














fi


Elyas Stangier Analyse de 2022-2023
données scienti ques
de mon échantillon

Exemple 2 : SCE(C)

Des tudiant.e.s passent un examen constitu de 100 « Vrai ou Faux » (1 point par question, pas
de point n gatif). Voici les r sultats obtenus dans un échantillon de 14 personnes.

SCE(C) = 1414

SCE(A) = 14

OU = ( )− ( )

51 sur 59
𝑆

𝐶
𝑅
𝑆

𝐶

𝐸
𝐶
fi
𝑆
𝐶
𝐸
𝐴


Elyas Stangier Analyse de 2022-2023
données scienti ques

Rajouter de l’info ne
pourra pas être
dégradant pour la qualité
du modèle

Exemple 1 : proportion de réduction


de l’erreur

Que repr sente une r duction de l’erreur de


1400 points?

0≤ ≤ 1

La taille du PRE,

La taille de la proportion de réduction de l’erreur que l’on veut détecter.

L’erreur,

L’erreur peut également nous empêcher de voir les e ets. Plus on contrôle les variables
potentiellement perurbatrices; plus on a de chances de réduire l’erreur.

La taille de l’échantillon,

Plus un échantillon est grand, plus l’erreur standard est petite. Plus l’échantillon est grand, moins
l’intervalle de con ance est grand et plus on va considérer rapidement qu’une valeur di érente de
la moyenne appartient à une autre distribution d’échantillonnage, donc plus on est puissant.

Exemple 1 : Distribution F et ANOVA(=analyse de variance)

PRE: information partielle … (pour dire que PA est meilleur que PC)

1) En moyenne, quelle est la proportion de réduction par paramètre estimé ? ( la part d’erreur
expliqué par le modèle)

= PRE/(PA-PC)

2) En moyenne, quelle part de l’erreur résiduelle pourrait être expliquée par les paramètres
disponibles ? ( part de la variabilité pas expliqué par le modèle)

=(1-PRE)/(n-PA)

→ Comment savoir si cela repr sente une r duction de l′erreu

8.4.2. Hypothèse de recherche vs. Hypothèse nulle

Hypothèse de recherche : le modèle augmenté permet de faire de meilleures prédictions


que le modèle compact

52 sur 59
𝑃
𝑅
𝐸

fi
fi



ff
𝐬
𝐢
𝐠
𝐧
𝐢
𝐟
𝐢
𝐜
𝐚
𝐭
𝐢
𝐯
𝐞
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques

(F>1)

Hypothèse nulle : modèle compact est identique au modèle augmenté

(F=0)

Remarque : lorsqu’on rejette une hypothèse, c’est qu’on a pu observer une di érence signi cative
et nous pouvons être con ants dans notre décision de la rejeter. Si on ne rejette pas l’hypothèse,
on ne peut pas pour autant l’accepter

8.5. Distribution F

* Distribution d’échantillonnage de la statistique F quand H0 est vraie :

* Dépend de 2 paramètres :

8.5.1. Distribution F et table

-> valeur crédible ou l’hypothèse 0, non


rejet

*Asymétrie positive

*Étendue : de 0 à + oo

*Risque alpha entièreté reporté sur les


valeurs élevées de la distribution

53 sur 59

fi
fi
ff
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques
8.6. Présentation des résultats

Normes de l’American Psychological Association (APA)

Risque alpha pas toujours 5% sauf si pas mentionné

Oui ou non on rejette l’hypothèse nulle, la p valeur est le degré de crédibilité que mes données
sont compatible avec nos

P valeur = Portion de l’air sous la distribution f qui se situe au-delà de la statistique trouvée

RH0 est un soutien en faveur de H1-> modèle augmenté = modèle compacte

NRH0 n’est pas un soutien en faveur de H0 -> démontrer que prendre en compte la moyenne
joue un rôle -> modèle augmenté > modèle compacte

Exemple 2 (reprise)

SCE(C) = 1414 SCE(A)= 14

PRE= 0.99

F = 1287

F(1,13)= 127; p < 5 % —> RH0, prendre en compte la moyenne permet de


diminuer signi cativement l’erreur

Exemple 2 par rapport à l’exemple 1

* SCR identique …. Mais SCE(C) beaucoup plus petite !

* augmentation drastique de la PRE

* Suppression de presque toute l’erreur grâce à la moyenne !

8.6. Puissance d’un test

Il y a toujours de l’erreur et de l’incertitude face à une expérience

Erreur beta : risque à croire à tord que MC<MA

Puissance d’un texte = capacité à détecter le taux d’erreur

La puissance d’un test d pend ...


... de la PRE ( plus je réduits les erreurs -> rejets de plus en plus de rejet d’hypothèse
nulle)

54 sur 59

fi
fi

Elyas Stangier Analyse de 2022-2023


données scienti ques
... de l’erreur/du bruit (facteurs que nous contrôlons pas)

... du risque alpha ( risque de penser qu’il y a un e et à tord)

... de la taille de l’ chantillon ( plus un échantillon est grand plus la dispersion sera étrioite,
et donc Intervalle de con ance plus précis

8.7. Lien entre l’approche par comparaison de modèles et le calcul des I.C.

Stricte quivalence des deux approches

→ lien direct entre les statistiques F et t

. =√ . . 2= .

8.8. Construction de l’I.C à l’aide d’une distribution F

Variance corrigée = CME

55 sur 59
𝟐
𝟏
𝟔
𝟎

𝟒
𝟔

𝟕
fi
𝟐
𝟏
𝟔
𝟎
fi

𝟒
𝟔
𝟕
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques

8.9 Test t

8.9.1. Statistique t, on va standardiser l’erreur


On situe une valeur quelconque (µ0) par rapport à l’I.C. :

Ex.: 0 = 50 (mod le du hasard)

On ne pourra pas d montrer la sup riorit du mod le de la moyenne sur le mod le du hasard si…

Reprise de l’exemple 1

Norme de l’American Psychological association (APA)

Reprise de l’exemple 2 :

56 sur 59
𝜇

fi






Elyas Stangier Analyse de 2022-2023
données scienti ques

Chapitre 9 : Inférence statistique sur des variables nominales —test 2


Comprendre les principes du test 2 d’ajustement et l’appliquer

Appréhender la distribution 2

Comprendre le lien entre la distribution 2 et la loi normale

Construire un intervalle de con ance autour de la variance corrigée de l’échantillon

9.1. 2 d’ajustement
Puis-je douter du fait que mon dé soit bien équilibré ?

Pour tester, je lance 60 fois …

Y a t’il des di érence SIGNIFICATIVE entre


les deux

Hypothèse nulle : il n’y a pas de di érence


entre ≠ théorique et appliqué

Il s’agit d’un teste de comparaison entre une distribution observée et une distribution
théorique. Pour traiter les problèmes liés à l’utilisation de variables dépendantes
catégorielles.

La question devient donc de savoir si les écarts entre la distribution théorique et la


distribution observée sont su samment importants pour être attribués à autre chose
qu’au hasard d’échantillonnage.

9.2. Distribution 2

* Ne dépend que d’un paramètre : mes degrés de liberté : k


=nb de modalités -1

* Tend à être symétrique

*Correspond à la forme de la distribution d’échantillonnage


de la variance.

* Mais l’asymétrie diminue quand les degrés de liberté


augmentent

* Ne peut prendre que des valeurs positives

* les observation doivent, t être indépendantes et provenir d’une population distribué


normalement

57 sur 59
𝜒
𝜒
𝜒
𝜒
𝜒
𝜒

ff
fi
fi
ffi
ff
Elyas Stangier Analyse de 2022-2023
données scienti ques

Reprise de l’exemple des dés

Dans la zone verte —> dé est déséquilibré

Lien avec la distribution normale et proche


intuitive

Elle a tendance à être asymétrique, cette


asymétrie diminue au fur et à mesure que le
nombre de degrés de liberté augmente. Les
valeurs progressent vers l’in ni.

9.3. Présentation des résultats

9.4. intervalle de confiance

IC bilatéral pour une distribution de variances

IC unilatéral pour une distribution de variance

Les fluctuations de votre estimation de la variance (l’erreur standard) sera plus faible en
prenant de grands échantillons qu’en en prenant des petits puisque l’impact des grands
et des petits individus est moins grand que lorsque l’échantillon contient peu de sujets.

9.5. Résidus standardisés

58 sur 59

fi
fi
Elyas Stangier Analyse de 2022-2023
données scienti ques

9.6. Rappel: sur la loi normale standard

Si au dessus ou en dessous de l’intervalle de con ance


=> di érent signi cative

si au dessus-> plus souvent observé qu’attendu en


théorie (positif)

En dessous -> moins souvent qu’attendu en théorie


(négatif)

9.7. 2 d’ajustement : résidus standardisés

59 sur 59
𝜒
ff

fi
fi
fi

Vous aimerez peut-être aussi