Vous êtes sur la page 1sur 44

Cours 2023-2024

UE ASD1 Unité d’Enseignement Analyse


Statistique des Données
Frédéric Aschehoug
CM durée 1H30
Lundi 15H15 répété le Jeudi 17H30-19H
10 TD de 2H
Début des TD le 2 0ctobre
3 devoirs d’aide à la réussite (facultatifs)
Examen final durée 2H sans documents
Bibliographie au sein du livret d’exercices
Calculatrice autorisée TI36XPRO
Site ASD1 moodle.u-univ.fr sur l’ENT

1
Cours 1

CHAPITRE I
BUTS
1. OBJET ET METHODES DES STATISTIQUES
2. S’INITIER AUX TYPES DE VARIABLES
3. APPRENDRE A DECRIRE UN PLAN DE
RECUEIL DES DONNEES
1. OBJET ET MÉTHODES DES STATISTIQUES

L’objet de la statistique est constitué par l’ensemble des méthodes qui


rendent possible :
1. la collecte,
2. le traitement
3. l’interprétation de données d’observation relatives à un groupe
d’individus appelés aussi unités statistiques.

Ce cours constitue introduction à ces méthodes statistiques.

Le champ de la statistique se divise en deux parties :


► La statistique descriptive: méthodes permettant d’explorer des données
et de les représenter graphiquement, afin de repérer des structures, et
des tendances au sein des données.

3
► La statistique inférentielle: méthodes permettant de tester si un résultat
observé dans un échantillon pourrait être le simple fait du hasard, ou s’il
correspond à un phénomène réel.

S’INITIER AUX TYPES DE VARIABLES

▪ Terminologie et notations
La statistique s’intéresse à des populations c’est-à-dire à des
multiplicités.

Mais en statistique, le terme population (notée traditionnellement ) est


à comprendre en un sens élargi.
Exemples de populations:
► Les habitants d’une ville, d’une région, d’un pays
► Les sujets qui participent à une expérience
► Les voitures de couleur rouge
► Les élèves d’une classe
► Les patients atteints d’une certaine maladie
► L’ensemble des séjours hospitaliers pendant une année dans un
hôpital
► Les temps de réponse à une situation

Les éléments d’une population sont appelés des individus ou sujets ou


unités statistiques. Ils peuvent être de nature différentes. Dans les
exemples ci-dessus, on trouve les types suivants:
► des personnes
► des objets (voitures)
► des unités abstraites (séjours hospitaliers, jets d’une pièce de
monnaie, des temps de réaction)

Le terme composé population parente désigne la population d’où


l’échantillon est issu. L’effectif de population parente est noté : N

Un échantillon est constitué par un sous-ensemble des éléments de la


population. L’effectif d’un échantillon est noté : n
5
Les unités statistiques possèdent des multiples caractéristiques:
a. Habitants: âge, nombre d’enfants, sexe, état de santé
b. Les participants à une expérience âge, sexe, genre
c. Voitures: couleur, kilométrage, nombre de roues
d. Les élèves d’une classe, niveau scolaire, âge, genre, origine
sociale
e. Séjours hospitaliers : durée en jours, spécialité, coût
f. Jets d’une pièce : côté (pile ou face),
Ces caractéristiques sont appelées des variables (ou des caractères)
car leur valeur peut varier d’une unité statistique à l’autre.
Les valeurs possibles d’une variable sont appelées les modalités de la
variable.
À retenir
Une population statistique est composée d’unités statistiques. Un échantillon d’unités
statistiques est sous-ensemble de la population statistique. Chaque unité statistique peut
être caractérisée en indiquant les modalités prises par la ou les variables retenues dans
l’étude.

7
LORS DE LA REALISATION D’UNE ETUDE STATISTIQUE DEUX
CAS SONT À ENVISAGER ;

1er cas consiste à prendre en compte toute la population qui fait l’objet
de l’étude.

2ème cas consiste à prendre en compte un échantillon de la population


qui fait l’objet de l’étude. On procède par échantillonnage pour
estimer les valeurs des paramètres de la population à partir des
valeurs obtenues sur l’échantillon.
Si vous utilisez l’échantillonnage : DEUX ETAPES SUCCESSIVES
à METTRE EN ŒUVRE

1. L’étude descriptive 2. L’étude inférentielle


Estimer les paramètres de la
Décrire l’échantillon population parente à partir des
valeurs obtenues sur l’échantillon

9
LES TYPES DE VARIABLES UTILISES EN STATISTIQUE
Les variables en statistique servent à préciser les aspects de la
population ou de l’échantillon qui seront analysés.

► Une VARIABLE associe à chaque individu une catégorie ou une


mesure numérique

► Exemples de variables: Un type de pathologie, l’âge, le score à un


test…un groupe sanguin…..

TYPES DE VARIABLES

On distingue les variables qualitatives et les variables


quantitatives.

11
variable

qualitative quantitative

nominale ordinale numérique

1. VARIABLES QUALITATIVES (on dit aussi catégorisées ou


catégorielles)
Une variable qualitative associe à chaque individu une simple catégorie
qui n’est pas une mesure numérique.
► LES VARIABLES NOMINALES
Une variable nominale est une variable qualitative dont les modalités
ne sont pas ordonnées.

► EXEMPLE DE VARIABLE QUALITATIVE NOMINALE

On demande à 8 écoliers l’accompagnement préféré servi à la cantine.

épinards frites pâtes haricots carottes riz


s1 x
s2 x
s3 x
... ... ... ... ... ... ...

s8 x
13
Terminologie

► Une observation est un couple (sujet; modalité observée)

► Le protocole est constitué par l’ensemble des observations


recueillies.

► Le nombre d'observations : 8

ATTENTION: il pourrait y avoir plusieurs observations par sujets.

ETUDE DESCRIPTIVE DE L’ECHANTILLON


► L’échantillon est constitué par l’ensemble des sujets interrogés
:
S = {s1, s2, s3, s4, s5, s6, s7, s8} n=8
► L’ensemble des modalités observables c’est-à-dire possibles
est :
V = {épinards, frites, pâtes, haricots, carottes, riz}
► Le protocole : l’ensemble des couples
(sujet, modalités observées)
{(s1; frites), (s2; frites), (s3; pâtes),..., (s8; frites)}

► Caractérisation des variables qualitatives


On distingue les variables sur la base du nombre de modalités.
1. Les Variables binaires ont 2 modalités et 2 seulement Ex : le Sexe
(masculin/féminin),la Réussite
(réussite/échec), une Réponse (oui/non)
2. Les Variables à K modalités ou multi-catégorielles
Ex: Plat d’accompagnement à K = 6 modalités, les groupes sanguins,..
3. Les Variables ouvertes (questions ouvertes) ayant un nombre illimité
de modalités, non déterminé à l'avance
Ex : la réponse à une question du type : "que pensez-vous de la réforme
du baccalauréat en France".

► LES VARIABLES ORDINALES


Une variable qualitative est dite ordinale lorsque ses modalités sont
ordonnées (mais attention la distance entre catégories n'est pas
estimée).
15
Variable qualitative dont les modalités sont reliées par une relation d’ordre.
Exemple : Une échelle de Likert
Une échelle de Likert est une forme de questionnaire psychologique
permettant de quantifier les attitudes. Elle est composée d'une série
d'affirmations auxquelles le sujet doit indiquer son degré d'accord.
L'échelle contient pour chaque item une graduation comprenant en général
cinq ou sept choix de réponse qui permettent de nuancer le degré d'accord.
Le texte des étiquettes est variable, par exemple une échelle d’accord en 5
points:
1. Tout à fait d'accord
2. D'accord
3. Ni en désaccord ni d'accord
4. Pas d'accord
5. Pas du tout d'accord
Un autre exemple : d’échelle de Likert en quatre points sur le degré de satisfaction de citoyens
à l’égard d’un service administratif
Pas du tout satisfait Peu Satisfait Très
Satisfait satisfait

s1 x

s2 x

s3 x

… … … … …
s10 x

2. LES VARIABLES QUANTITATIVES (= NUMERIQUES)


On a relevé pour 5 enfants la note sur 10 obtenu à un test d’évaluation,
des capacités motrices :
s1 s2 s3 s4 s5
8 4 5 9 5

17
La valeur associée à chaque individu est un nombre qui a valeur de
mesure.

ATTENTION

Les opérations arithmétiques appliquées aux mesures (+,-,/,*) doivent


avoir un sens. Un numéro de département est un nombre mais ce n’est
pas une variable numérique.

ON DISTINGUE deux TYPES DE VARIABLES NUMERIQUES

1. Les variables discrètes, qui prennent des valeurs isolées (souvent


entières, mais pas forcément)
2. Les variables continues
Les variables par intervalles (ou par classes)
À RETENIR
On distingue les variables qualitatives et les variables quantitatives.
Il existe deux sortes de variables qualitatives :
-les variables nominales
-les variables ordinales
Il existe deux sortes de variables quantitatives :
-les variables numériques discrètes
-les variables numériques continues.

3. L’ECRITURE DES PLANS DE RECUEIL DES DONNEES

L’analyse de données expérimentales

Dans une expérimentation le nombre de sujets et le nombre d’essais


sont limités. On cherche à optimiser l’étude des variables en prenant
en compte plusieurs variables dans une même expérience. D’où la
nécessité de construire un plan de recueil de données qui précisera les
relations entre les variables.

19
1. Un thème et une question initiale
2. La recherche bibliographique et la mise en place d’une
problématique
3. La formulation du problème et l’hypothèse théorique
4. Le choix des méthodes
• Population
• Échantillonnage
• Unité statistique
• Plan expérimental
5. La formulation de l’hypothèse opérationnelle
6. La confrontation de l’hypothèse à la réalité
7. Le traitement des données
8. L’interprétation des résultats
9. La communication des résultats obtenus

20
Le cycle simplifié de la recherche expérimentale

Interprtation 1. Hypothèse de
des résulats recherche

Définition d'un
plan de recueil
Analyse
des données en
statistique des
spécifiant les
données
variables
pertinentes

Recueil des
données

21
En statistique, les variables peuvent avoir deux statuts possibles :

1. Soit le statut de variable indépendante (notée VI) ou facteur

On dit aussi VARIABLE EXPLICATIVE, ou PREDICTRICE dont on


étudie l'influence. Ex : âge, pathologie etc.. et

2. Soit le statut de variable dépendante (c’est la mesure : notée


VD). On dit aussi VARIABLE EXPLIQUEE ou PREDITE.
On étudie sa variation en fonction des VI

22
VI
VD
VI

23
Un plan de recueil de données s’écrit en précisant les facteurs pris en
compte ainsi que les relations entre ces facteurs.

Nous considérerons deux relations fondamentales entre les facteurs


pour écrire les plans de recueil:
-la relation de croisement ;
-la relation d’emboîtement.

Les facteurs seront représentéspar des lettres majuscules.

Les sujets sont désignés par la lettre S. Ce facteur doit toujours être
présent dans l’écriture du plan.

Les modalités d’un facteur sont notées en lettres minuscules avec en


indice le numéro de la modalité. Par exemple, un facteur B à trois
modalités, elles seront notées : b1, b2, b3

24
Relations de croisement entre facteurs
Définition. On dit que deux facteurs sont croisés si chaque modalité
d’un facteur apparaît en conjonction avec chacune des modalités
de l’autre facteur.

La relation de croisement est notée par le symbole *. Ainsi A croisé avec


B s’écrit A * B et se lit A croix B. La relation de croisement est symétrique.

Le nombre de modalités de A * B est égal au nombre de modalités de


A multiplié par le nombre de modalités de B.

Relations d’emboîtement entre facteurs


Définition. On dit qu’un premier facteur est emboîté dans un second
facteur si chaque modalité du premier facteur n’apparaît que dans
une seule modalité du second facteur.

La relation d’emboîtement est notée par les symboles < >. Ainsi A est
emboîté dans B s’écrit A <B> qui se lit A emboîté dans B ou A dans B. A

25
est le facteur emboîté et B le facteur emboîtant. La relation
n’emboîtement n’est pas symétrique.

L’emboîtement S<A> signifie que A détermine une partition de S en


autant de classes que de modalités de A. Si les classes ont le même
effectif on note cet effectif en indice sur S. On dit que l’emboîtement
est équilibré. Dans le cas contraire, il n’apparaît aucun indice sur S.

Un facteur A peut être emboîté dans un facteur B lui-même emboîté dans


un facteur C. Ce plan s’écrira A<B<C>>
Les variables dépendantes mesure l’impact des variations des variables
indépendantes.

Le facteur Sujet apparaît toujours en première position dans le plan de


recueil de données.
***

26
▪ 1er exemple de plan de recueil de données
Une seule Variable Indépendante : LES SUJETS
Variable Dépendante : Note sur 10 au test de motricité
Variable Indépendante: S5
Variable dépendante : note obtenue au test
Plan de recueil: S5

▪ 2ème exemple de plan de recueil de données deux VI : la VI sujets et la


VI groupes

On utilise la technique de détection de syllabes afin d'étudier l'effet du


degré d'alphabétisation sur la segmentation des mots en syllabes. 2
groupes : le groupe a1 constitué de 5 adultes analphabètes et le groupe
a2 constitué de 5 adultes ex-analphabètes (en cours d'alphabétisation)
participent à cette expérience. Pour chaque sujet, on calcule le
pourcentage de détections correctes.
Soit les sujets sont analphabètes, soit ils sont en cours d'alphabétisation,
d'où la représentation suivante :
27
28
Pourcentages de détections correctes
% de
Groupe détections
correctes
s1 a1 64.30
s2 a1 55.10
s3 a1 58.50
s4 a1 61.20
s5 a1 60.00
s6 a2 88.30
s7 a2 84.10
s8 a2 76.50
s9 a2 78.20
s10 a2 90.70

La relation D'EMBOÎTEMENT S <G> (lire S emboîté G)


VD : Pourcentage de détections correctes
► VI : - SUJET Notation S10

29
- DEGRÉ D'ALPHABÉTISATION Notation a deux modalités a1
et a2
► Un sujet est soit analphabète soit en cours d’alphabétisation qui
s’écrit S5<A2> et se lit "S5 emboîté A2“
► Il y a 5*2=10 observations
► Si les groupes sont déséquilibrés (c’est-à-dire que les effectifs des
groupes sont ≠ )
S<A2>
"S emboîté A2"

Lorsque les sujets sont répartis en groupes


dans une structure emboitée S<G>, on parle de GROUPES
INDEPENDANTS (Le résultat de chaque groupe est indépendant des
autres groupes car un sujet n’appartient qu’à un seul groupe).

Le facteur G est appelé FACTEUR INTER car il va permettre de


comparer les groupes entre eux.

30
Dans notre exemple, le degré d’alphabétisation est un facteur INTER.

3ème exemple de plan de recueil de données :

Dans une recherche médicale, on a étudié 6 malades atteints de la


maladie de Parkinson. Leurs facultés de déplacements ont été notées
(de 0 à 10) selon une échelle de performance relative à la marche. Les
malades ont été examinés dans deux conditions: avant (c1) et après
(c2) la prise de médicament.
deux variables indépendantes :
► la VI sujets
► la VI conditions

31
Scores obtenus
condition c1 condition c2
avant après
médication médication
s1 2.5 5.0
s2 3.0 5.5
s3 4.5 7.0
s4 3.5 6.5
s5 5.0 5.0
s6 3.0 6.0

VD : Note sur 10 (performance à la marche)


VI : - SUJET S6
- CONDITION C2 (avant ou après la prise de médicament)

32
Variable
indépendante :
Avant ou après

c1 : avant c2 : après
médication médication
1er mesure 2ème mesure

s1 2.5 5.0
s2 3.0 5.5
s3 4.5 7.0
s4 3.5 6.5
s5 5.0 5.0
33
s6 3.0 6.0
Lorsque l’on a une structure croisée S*T, on parle de MESURES
REPETEES cela signifie qu’un même sujet est évalué plusieurs fois
successivement. On dit aussi que les conditions sont appariées.

Dans ce cas, on dit que T est un facteur INTRA car il permet


notamment de comparer les résultats successifs d’un même sujet.
Dans notre exemple, la VI condition est un facteur INTRA.
Ecriture du plan de recueil des données
S6 * C2 « S6 croisé C2 »
Il y a 6*2=12 observations

34
À RETENIR
Pour construire le plan de recueil de données, il convient de suivre trois
étapes :
1. Déterminer la ou les variables indépendantes
2. Identifier les relations entre les VI prises deux par deux
3. Ecrire le plan de recueil de données: c’est une formule qui permet de
retrouver le nombre d'observations ("plan") et où figurent toutes les VI
(pas les VD) et leurs relations.

Plan qui comporte un emboîtement et un croisement S <G> * T

10 sujets répartis de manière équivalente selon leur niveau d'expertise


(e1 : sujets entraînés ; e2: sujets non entraînés) participent à une
expérience de compréhension de textes. Les sujets sont testés une
première fois sur des textes de type c1 à information explicite, et une
semaine plus tard sur des textes de type c2 à information implicite. On
enregistre le temps moyen (exprimés en ms) que chaque sujet met pour
répondre correctement à des questions relatives à la compréhension de
ces textes.
35
VD : Temps de réponse moyen (ms)
► VI: S10
E2 Niveau d'expertise deux modalités e1 et e2
C2 Complexité du texte

► Relations binaires:
S10 * C2 (chaque sujet lit les deux textes successivement)
S5 < E2 > (deux groupes indépendants de 5 sujets)
(chaque groupe lit les deux textes)

36
Groupe Complexité faible du Complexité forte du
texte (info. explicite) Texte (info. implicite)
s1 e1 550 675
s2 e1 540 670
s3 e1 500 650
s4 e1 510 645
s5 e1 525 665
s6 e2 525 890
s7 e2 510 860
s8 e2 520 875
s9 e2 575 845
s10 e2 560 885

Plan de recueil des données S5 < E2 > * C2


37
Dans l’exemple que l’on vient de voir, c’est-à-dire lorsque l’on a
emboÎtement et croisement, facteur inter et intra, on parle de
STRUCTURE MIXTE

38
Structure d’un plan S < A * B >

Dans une recherche médicale, on a étudié 12 malades (6 hommes/ 6


femmes, facteur sexe X2 x1=homme, x2=femme) atteints de la maladie
de Parkinson selon une échelle de performance relative à la marche
(notes de 0 à 10). La moitié des hommes et la moitié des femmes sont
atteints d'un handicap "lourd" (h1) et les autres d'un handicap "léger" (h2)
(Facteur H2 niveau de handicap)
► VD : performance (sur 10)
► VI : S12 (12 sujets)
X2 Sexe (2 sexes) H2
2 Niveaux de handicap
► Relations binaires entre les VI:
S6 < X2 > (1 groupe 6F et 1 groupe 6H)
S6 < H2 > (6 sujets par niveau de handicap)
X2 * H2 (2 niveaux de handicap pour les F et pour les H)

39
SEXE HANDICAP Score
4 GROUPES
INDEPENDANTS S1 x1 h1 2.5
S2
DE 3 SUJETS S3 x1 h1 1.5

x1 h1 3.0
S4 x1 h2 3.5
S5
S6 x1 h2 4.0

x1 h2 4.0
S7 x2 h1 4.5
S8
S9 x2 h1 5.0

x2 h1 4.5
S10 x2 h2 7.0
S11
S12 x2 h2 7.5

x2 h2 6.5
40
Plan de recueil des données S3 < X2 * H2 >

4 cas comprenant 3 sujets chacun

• hommes • femmes
handicap handicap
lourd lourd
• x1h1 • x2h1
3 3
sujets sujets

3 3
• femmes
sujets sujets handicap
• hommes léger
handicap
léger • x2h2
• x1h2
41
Plan S * A < B >
On demande à 10 sujets de noter (sur 10) 8 films (facteur F8). 4 films de
science fiction et 4 comédies (facteur T2 type de film : t1=SF,
t2=comédie)
VD : note sur 10
► VI: S10 (10 sujets)
F8 film (8 films)
T2 2 types de films
► Relations binaires entre les VI :
► S10 * F8(les 10 sujets regardent les 8 films)
► S10 * T2 (les 10 sujets regardent deux types de films) F4 < T2 > (4 films
par type)
► Plan de recueil des données
Chaque sujet regarde 8 films répartis en deux types de quatre films. Au
total, 80 observations (10 * 4 * 2)

42
Films de SF (t1) Comédies (t2)
f1 f2 f3 f4 f5 f6 f7 f8
s1 2 2 9 5 6 9 8 2
s2 3 3 6 9 3 6 7 6
s3 7 6 8 4 9 3 5 9
s4 4 6 4 8 5 8 9 7
VI
SUJET s5 6 8 2 3 4 2 5 5

s6 9 9 5 8 8 5 5 6

s7 5 5 7 2 2 4 8 8

s8 1 8 8 7 1 1 4 9
s9 8 1 9 1 6 2 9 4
s10 3 6 5 5 8 6 5 6
S10 * F4 < T2 >
43
44

Vous aimerez peut-être aussi