Vous êtes sur la page 1sur 47

OUTILS ET METHODES STATISTIQUES

K. DJAGOURI

1
Objectif général
Ce cours vise à fournir aux auditeurs des outils et méthodes de base pour construire,
exploiter, interpréter, critiquer des données statistiques en communication

Objectifs spécifiques
A la fin de cette unité d’enseignement l’étudiant devra être capable de:
– Donner la définition de concepts fondamentaux du vocabulaire de la
statistique
– Faire la saisie des données
– Faire le tri à plat des données brutes collectées lors d’une enquête
– Construire le tableau de distribution d’une série statistique
– Construire la représentation graphique appropriée à une série
statistique
– Analyser des données représentées dans un tableau ou sur un
graphique
– Donner la définition de chacun des paramètres de positions d’une
série statistique
– Calculer les paramètres d’une série statistique
– Interpréter les valeurs des paramètres d’une distribution statistique
en éducation
– Utiliser ces paramètres pour analyser les données

Plan du cours :
Le plan du cours découle des objectifs précédents
• GÉNÉRALITÉS ET DÉFINITIONS
• DENOMBREMENT ET REPRESENTATION GRAPHIQUE D'UN CARACTERE
• CARACTÉRISTIQUES D’UNE SÉRIE STATISTIQUE
- LES PARAMETRES DE TENDANCE CENTRALE
– LES PARAMÈTRES DE POSITION
– LES PARAMÈTRES DE FORME
– LES PARAMÈTRES DE DISPERSION

2
CHAPITRE 1 : DEFINITIONS ET TERMINOLOGIE.

1) DEFINITION ET OBJECTIF DE LA STATISTIQUE

La statistique est l’ensemble d’outils et de méthodes scientifiques qui permettent de faire la


collecte et le traitement d’un grand nombre de données numériques. Elle consiste à organiser
des données chiffrées sur de grands ensembles, puis à les commenter. La statistique permet de
synthétiser et de résumer de grands volumes de données, des grandes matrices d’informations.
Dans sa composante traitement de données, la méthode statistique présente deux aspects :

 un aspect descriptif (ou exploratoire) désigné par« statistique descriptive »


 un aspect déductif désigné par « inférence statistique ».

a) La statistique descriptive ou exploratoire constitue l’ensemble des procédures et des


techniques qui ont pour but de décrire un phénomène observé, c'est-à-dire de présenter
succinctement les caractéristiques quantitatives pertinentes de ce phénomène.
Elle a pour objectif entre autres de :

 résumer, synthétiser l’information contenue dans une série statistique, mettre en


évidence ses propriétés.
 suggérer des hypothèses relatives à la population dont est issu l’échantillon.

Elle utilise souvent les outils suivants:

 Tableaux (table des fréquences,..)


 Graphiques (box-plots, histogrammes,..)
 indicateurs (moyenne, corrélation,..).

b) L’inférence statistique est la méthode statistique par laquelle il est possible de déduire
les caractéristiques quantitatives de toute une population à partir de leur étude dans un
échantillon issu de celle-ci. Elle nécessite des méthodes d’échantillonnage et suppose
un modèle probabiliste sur la population.
Elle a pour objectifs entre autres de :

 étendre (inférer) les propriétés constatées sur l’échantillon à la population.


 Valider ou infirmer des hypothèses sur la population énoncées à priori ou formulées
après une phase exploratoire.
Elle utilise souvent les méthodes suivantes:
 Estimation : approcher des paramètres de la population à partir de l’échantillon.
 Tests : valider ou infirmer des hypothèses statistiques émises sur ces paramètres.
 Modélisation et prévision : recherche d’une relation entre une variable et plusieurs
autres, valable pour l’ensemble de la population.

3
2) Définition de quelques termes usuels en statistique

a- La statistique, les statistiques, une statistique et un paramètre


 L’expression « statistiques » au pluriel désigne des données brutes ou partiellement
traitées, généralement publiées sous forme de tableaux, sans analyse.
 La statistique est la science du traitement de ces données et de leur commentaire.
 une statistique est une grandeur calculée à partir des observations recueillies dans un
échantillon.
 un paramètre est une grandeur calculée à partir des observations recueillies dans la
population totale.

b- Individu, population, échantillon, recensement, sondage

 Individu ou unité statistique


C’est l’entité élémentaire dont on étudie les caractéristiques. Il peut s’agir de personnes
humaines ou de tout autre objet.
 Population ou univers statistique.
C’est l’ensemble de personnes ou d’objets équivalents étudié.
C’est l’ensemble de référence auquel on s’intéresse. Une population est dite finie si elle
comprend un nombre fini d’individus, ou infinie si elle comprend un grand nombre
d’individus.
 Echantillon
Un échantillon est un lot d’individus extrait de la population totale (ou population mère)
sur lequel va porter l’étude afin de procéder éventuellement à des généralisations au
niveau de la population totale. Il existe plusieurs techniques pour constituer un
échantillon. L’un des principes directeurs est que l’échantillon obtenu doit être
représentatif c'est-à-dire qu’il doit refléter fidèlement sa composition et sa complexité.
Seul l’échantillonnage aléatoire assure la représentativité de l’échantillon.

Remarque: La statistique traite des propriétés des populations plus que des individus
particuliers de ces populations.

 Recensement
C’est l’étude de tous les individus d’une population. Difficile en pratique lorsque les
populations sont grandes pour des questions de coût et de temps.
 Sondage.
C’est le recueil d’une partie de la population c’est-à-dire l’échantillon. Le recueil d’un
échantillon à partir de la population initiale se fait par des techniques statistiques,
appelées méthodes d’échantillonnage.

4
Les principales composantes de l’approche statistique

Méthode de collecte des  Diverses procédures permettant


données de recueillir les informations
relatives au sujet

Tableaux de distribution  C’est un tableau condensé


présentant les modalités et leur
fréquence

Représentation  C’est un résumé visuel des


graphique données

Les mesures de  Elles décrivent les valeurs autour


tendance centrale desquelles les données se
trouvent, c’est-à-dire le "centre"
de leur distribution (mode,
médiane, moyenne).

Les mesures de position  Elles indiquent la position


relative d’une donnée dans la
distribution (quintiles, quintiles,
La statistique centiles)
descriptive

 Elles indiquent si les données


Pour déduire les Les mesures de
sont relativement proches de
phénomènes dispersion
leur centre ou si, au contraire,
observés
elles sont éparpillées (étendue,
écart moyen, écart type
variance, rapport de variation

Les mesures  Elles indiquent le degré de


d’association cooccurrence ou de covariation
entre les données relatives à
La statistique
deux variables.

L’estimation

L’inférence
statistique
A une variable

Pour déduire (ou plus précisément inférer) Ils permettent, par une prédiction, si
les caractéristiques d’une population, ou Les tests d’hypothèses une supposition faite au sujet d’un
confirmer des suppositions à son sujet, à paramètre est contredite par les
partir de l’étude d’un échantillon statistiques mesurées sur un
échantillon choisi au hasard

Ils permettent de vérifier, par une prédiction, si une


association statistique supposée entre deux A deux variables
variables concernant une population est contredite

5
Exemple :
En période électorale, on interroge 1 000 personnes sur leur intention de vote. A partir des résultats
obtenus sur cet échantillon, on prévoit, avec une certaine précision, le comportement de l’ensemble
des électeurs (population mère) et par la même, le résultat des élections. C’est ce qu’on appelle
l’inférence statistique et c’est le principe même du sondage d’opinion par exemple.

6
Le lien de complémentarité entre statistique d’inférence et statistique descriptive est évident.
Référence : document tiré du cours de statistique du prof. Marie – Hélène de Marceau.

3) Variable statistique – modalité - donnée

 Une variable est la caractéristique que l’on veut étudier et pour laquelle on cherche des
données. Ainsi, l’âge, le niveau de scolarité, la note obtenue à un examen, le revenu
annuel d’un ménage sont autant de variables.
 les données seraient les valeurs particulières que prennent ces variables pour chaque
individu.
 Les différents états possibles dans lesquels peuvent se trouver une variable sont
appelés ses modalités. Par exemple la variable niveau d’étude a pour modalités niveau
primaire, niveau secondaire, niveau supérieur.

4) Typologie des variables : variables qualitatives et variables quantitatives

 Une variable est dite qualitative lorsque les données qui s’y rapportent sont des
qualités ou des attributs non mesurées par des nombres. Elle est dite non numérique.
Une variable qualitative est dite nominale si aucun lien de hiérarchie ne peut être établi
entre ses modalités ; dans le cas contraire elle est dite ordinale.

7
 Une variable est dite quantitative lorsque les données qui s’y rapportent sont le résultat
d’un décompte ou d’une mesure numérique, faisant appel aux propriétés arithmétiques
des nombres.
 Une variable quantitative est dite discrète (ou discontinue) si elle ne peut
prendre aucune autre valeur entre deux valeurs consécutives. Généralement, ses
valeurs sont le résultat d’un décompte, elles sont donc connues avec exactitude
et sont souvent des entiers.
 Une variable quantitative est dite continue si elle peut prendre une infinité de
valeurs entre deux valeurs proches. Ses valeurs sont souvent le résultat d’une
mesure relative à un étalon, sa valeur n’est donc pas connue avec exactitude,
c’est un nombre réel (entier ou décimal)
 Remarque : données en coupe transversale et données temporelles.
 Les données sont dites en coupes transversales si elles sont collectées au même
moment ou presque.
 Si elles sont collectées sur des périodes différentes, elles sont dites temporelles.

5) Variable dépendante et variable indépendante


La notion de variables dépendantes ou de variables indépendantes dans une étude
suppose qu’il existe au moins deux variables.

La variable dépendante est celle qui est étudiée ; c’est celle qui est à expliquer.
 La variable indépendante est un facteur explicatif possible de la variable étudiée.
.

8
La notion d’échelle de mesure

Pour noter une caractéristique quelconque, c’est-à-dire une donnée concernant une variable telle
que le revenu d’un individu, son âge, son lieu de résidence dans le cadre d’une enquête, on
utilise un système de notation déterminé au préalable avant de commencer la collecte
systématique des données. Ce système de notation est appelé échelle de mesure. Il existe
quatre types d’échelle de mesure : l’échelle nominale, l’échelle ordinale, l’échelle d’intervalle et
l’échelle de rapport.

échelle Définitions et propriétés Opérations Exemples


mathématiques
Une variable est mesurée _ Pas de relation d’ordre *catégorie
sur une échelle nominale si entre les codes d’emploi
Les les codes utilisés ne servent (modalités) *lieu de
échelles qu’à identifier la modalité à _ Aucune opération résidence
nominales laquelle appartient l’unité mathématique sur les *statut
statistique. Elles codes matrimonial
permettent de répartir les _ On peut compter le *type de
données en catégorie. Ce nombre d’individus dans produit de
sont des variables chaque catégorie, puis beauté utilisé
nominales qui sont calculer les rapports, des
mesurées sur cette proportions et des
échelle pourcentages. .
Une variable est mesurée _établir des catégories *Niveau
9
sur une échelle ordinale si composées d’éléments d’étude
les codes utilisés qui ont le même rang ; *tranche de
Les permettent non seulement _ Aucune opération revenu
échelles d’identifier la modalité à mathématique sur les *tranche
ordinales laquelle appartient l’unité codes d’âge
statistique, mais également _ On peut compter le *niveau
d’établir une relation d’ordre nombre d’individus dans d’appréciation
entre les modalités chaque catégorie, puis d’un produit
observables et donc entre calculer les rapports, des
les unités statistiques. Elles proportions et des
permettent de répartir les pourcentages.
données en catégories et
de les ordonner (variable
qualitative ordinale).
Ce sont des grandeurs _établir des catégories *le quotient
numériques associées à composées d’éléments intellectuel
chaque élément avec les qui ont le même rang ; *les dates
Les propriétés suivantes : _ On peut compter le *la
échelles Ces échelles supposent le nombre d’individus dans température
d’intervall choix d’une unité de mesure chaque catégorie, puis *les horaires
e qui est répartie calculer les rapports, des
uniformément sur l’échelle proportions et des
et à l’aide de laquelle les pourcentages
distances entre les diverses _trouver les distances
valeurs sur l’échelle entre les données, puis
peuvent être évaluées ; le faire des rapports entre
point zéro sur cette ces distances (mais pas
échelle est arbitraire. entre les données elles-
mêmes)
Ce sont des grandeurs _établir des catégories *la durée
numériques associées à composées d’éléments d’une
chaque élément avec les qui ont le même rang ; émission de
propriétés suivantes : _ On peut compter le télévision
Les Ces échelles supposent le nombre d’individus dans *le volume de
échelles choix d’une unité de mesure chaque catégorie, puis vente d’un
de rapport qui est répartie calculer les rapports, des produit
uniformément sur l’échelle proportions et des *le rapport
et à l’aide de laquelle les pourcentages qualité-prix
distances entre les diverses _trouver les distances d’un produit.
valeurs sur l’échelle entre les données, puis
peuvent être évaluées ; le faire des rapports entre
point zéro sur cette ces distances ;
échelle est absolu. _faire des rapports entre
les mesures des
individus
_on peut utiliser toutes
les techniques
statistiques.

10
11
Exercices 1

Parmi les exemples suivants, identifier les variables et dire si elles constituent dans le
contexte une variable dépendante ou indépendante :
a- Dans une étude, on recherche des données sur la nature des articles volés selon
l’emplacement du magasin.
b- Un chercheur en marketing veut vérifier si le groupe culturel a une influence sur le
moment où des enfants atteignent les différents stades de développement selon la
théorie de Piaget. Il fait passer quatre épreuves de Piaget à trois groupes d’enfants de
10 ans, d’ethnies différentes.
c- On veut mesurer l’effet de nouvelles méthodes de publicité sur les habitudes
vestimentaires des enfants.

12
Chapitre 2 : Organisation des données
Introduction.

Le choix d’un outil statistique dépend de plusieurs facteurs.


1- Du nombre de variables conjointement traitées :
• Traiter variable par variable : analyse univariée ;
• Croiser les variables deux à deux : analyse bivariée
• Traiter conjointement plus de deux variables : on met en œuvre des
méthodes multivariées.
2- Du type de variable manipulée :
• Les variables qualitatives : les traitements univariés sont restreints.
• Les variables quantitatives : les traitements univariés offrent plus de
possibilités.
3- Des objectifs de l’analyse :
• Analyser et interpréter les données recueillies : on utilise les méthodes de la
statistique descriptive.
• Mettre en relation mathématique deux ou plusieurs variables (démarche de
modélisation) : on utilise les méthodes explicatives.
Il existe plusieurs niveaux de description statistique :
- Présentation brute des données
- Présentation par tableau de distribution
- Représentation graphique
- Résumé numérique à l’aide de mesures statistiques.

A- Présentations tabulaires des données

Introduction
Supposons, par exemple, que pour évaluer l'opportunité d’ouvrir un centre d’exposition
d’articles de sport « aux perles grises », on procède à une enquête auprès d’un échantillon
aléatoire de 170 ménages du quartier. Un enquêteur se présente à chacun des ménages avec
un questionnaire contenant des questions comme :
Age……………………………… n
Sexe M………………………….F………………………….
Niveau d’étude : primaire……secondaire…………supérieur…………
Statut matrimonial : marié…célibataire…veuf…..divorcé….vivant maritalement.
Nombre d’enfant par ménage :…..

13
Chacune de ces questions correspond à une variable. Le résultat immédiat de cette enquête
est une pile de 170 fiches, chaque fiche renfermant par exemple 20 questions. On aura donc au
total 20*170 = 3400 données recueillies.
Comment traiter ces données pour les rendre plus intelligibles en vue d’une analyse ?
a- La saisie des données :
Elle consiste à transcrire les données dans un tableau. On construit ainsi un immense
tableau où chaque ligne représente un individu et chaque colonne une variable. Ce tableau est
dit tableau complet.
La présentation complète peut ainsi être la forme première de saisie et de stockage des
données (issues par exemple d'une enquête ou d'un travail de terrain ou les résultats d'une
étude statistique), soit sous forme papier soit sous forme informatique. Elle constitue la matrice
des données brutes.

b- Analyse uni-variée

Dans ce cas, le traitement statistique porte sur l’étude systématique des données relatives à
chaque variable, indépendamment de toutes les autres. C’est l’analyse unidimensionnelle ou
analyse uni-variée. Pour chaque variable du tableau complet, on réalise un tri à plat simple.
Cette opération consiste à associer à chaque modalité X i de la variable X choisie le nombre n i
d’individus ayant cette valeur ; ni est l’effectif ou la fréquence absolue de cette modalité.
L’ensemble des couples (Xi ; ni) forme une série statistique. Cette série peut être présentée
sous forme de tableau appelée tableau de répartition ou tableau de fréquences de la variable
X.

c- Analyse bivariée

C’est l’étude des données relatives à deux variables à la fois. Il s’agit par exemple de
rechercher une éventuelle association entre les variables prises deux à deux : c’est une
analyse bi-dimensionnelle ou bi-variée. Pour chaque couple de variable (X ; Y) on
réalise un tri-croisé. Les résultats de cette opération se présentent sous forme de tableau
appelé tableau croisé ou tableau de contingence.

d- Analyse multivariée

C’est l’étude des données relatives à plus de deux variables à la fois. Sur la recherche de
relations entre un grand nombre de variables prises simultanément : c’est l’analyse
multidimensionnelle ou multivariée. Ces traitements sont longs et complexes et supposent le
recours aux outils informatiques.

14
Exemple de matrice de données brute.

Matrice de données brutes issues d’une enquête auprès d’un échantillon aléatoire de 60 téléspectateurs d’une
télévision privée de la place.

IND VAR1 VAR2 VAR3 IND VAR1 VAR2 VAR3 IND VAR1 VAR2 VAR3

01 1 1 3 21 3 4 5 41 2 2 4

02 2 2 4 22 3 3 4 42 3 2 4

03 3 1 5 23 2 1 5 43 1 2 5

04 2 2 4 24 3 2 4 44 2 3 4

05 2 3 4 25 3 1 3 45 3 1 5

06 2 1 5 26 3 2 5 46 1 2 2

07 3 3 5 27 2 1 2 47 3 1 4

08 2 2 3 28 1 3 3 48 2 2 3

09 1 4 4 29 1 3 4 49 1 1 3

10 2 2 5 30 2 2 4 50 2 2 4

11 2 3 3 31 1 2 4 51 1 4 5

12 3 1 5 32 2 2 5 52 2 1 5

13 3 2 5 33 1 3 5 53 1 2 4

14 3 1 4 34 3 1 2 54 3 2 4

15 2 4 4 35 2 2 3 55 1 3 5

16 3 1 4 36 1 1 3 56 2 3 3

17 3 1 1 37 2 2 5 57 2 2 4

18 2 3 1 38 1 1 2 58 1 4 4

19 3 2 5 39 2 3 4 59 3 1 4

20 2 2 5 40 1 1 4 60 3 1 3

Var1 : niveau d’étude : 1-primaire ; 2- secondaire ; 3- supérieur.

Var2 : profession : 1- cadre du privé ; 2- cadre de la fonction publique ; 3- emploi libéral ; 4- autres.

Var3 : appréciation de la qualité générale du service comparativement aux autres chaines privées :
1-mauvais ; 2- équivalent ; 3- bon ; 4- très bon ; 5- excellent
15
I- ANALYSE UNIVARIEE

A- Construction d’un tableau de répartition :

Tableau de répartition du caractère X ayant k modalités ou k différentes valeurs.


Dans ce type de tableau, on ne connaît que le nombre d'individus correspondant à chaque
modalité ou classe de valeurs. C’est un mode synthétique de présentation des données.

Var(X) Fréquence absolue nj


 Les notations utilisées dans ce cas sont les
x1 n1 suivantes :
x2 n2  Le caractère, toujours noté X, présente k
modalités.
. .  Une modalité quelconque du caractère X est
xj nj notée Xj, j variant de 1à k.
 L'effectif partiel correspondant à une
. . modalité Xj quelconque du
xk nk caractère X est noté nj, j variant toujours de 1 à k..

Total N Rappelons que n est l'effectif total de la population,


et k le nombre de modalités du caractère.

N = Σ ni

On appelle distribution statistique du caractère dans la population considérée, cette


présentation qui, à chaque modalité (catégorie, valeur discrète ou classe de valeurs) du
caractère fait correspondre son effectif partiel ou fréquence absolue et noté ni
Eléments d’identification d’un tableau de répartition :

Un tableau doit comporter les éléments d’identification suivants :

1- Un titre : dans le titre du tableau on doit indiquer :


1- ce qui est étudié

2- La population totale ou l’échantillon

3- Le lieu de réalisation de l’étude

4- La date de réalisation de l’étude

2- La source : Il faut indiquer la source des données


3- La légende : Il faut indiquer la légende du tableau.

16
B- Définition de quelques indicateurs

Les fréquences simples : elles peuvent être déterminées quel que soit la nature des données.

 Fréquence absolue ou effectif partiel notée ni

C’est l’effectif des données (ou le nombre d’individus) ayant pour valeur de la variable la valeur
xi. C’est une valeur observée.

 Fréquences relatives

 Proportion notée fi: elle indique le poids relatif, en terme numérique, de la modalité x i. Elle
indique aussi la probabilité d’observer la valeur xi du caractère X.
fi = n i / n

 Pourcentage noté fi % est la proportion ramenée à 100 individus:

fi% = (ni / n)*100


Les fréquences cumulées : elles sont déterminées pour des données non nominales. Les
fréquences cumulées comprennent aussi bien les effectifs cumulés que les fréquences relatives
cumulées. On déterminera seulement les pourcentages cumulés qui se déclinent en
pourcentage cumulé croissant et en pourcentage cumulé décroissant.

 Détermination des pourcentages cumulés :

On dispose d’abord les données par ordre croissant.

 Pourcentage cumulé croissant noté Fcum %:

Le pourcentage cumulé croissant d’une modalité xi est déterminée en ajoutant à son


pourcentage simple fi% l’ensemble des pourcentages simples précédents.

 Pourcentage cumulé décroissant noté Fcum %:

Le pourcentage cumulé décroissant d’une modalité xi est déterminée en ajoutant à son


pourcentage simple l’ensemble des pourcentages simples suivants.

Quelques autres définitions

 Les taux

17
Les taux sont une variété particulière de proportion. Il s’agit de proportion exprimée par
rapport à un nombre constant (1, 100, 1000,10000 etc.) et généralement construite pour
permettre des comparaisons dans le temps ou dans l’espace. Le dénominateur 1, 100,
1000,10000 etc. est choisi et convenu par des spécialistes pour permettre au
phénomène étudié d’être observable.

 Les ratios
Le ratio exprime un poids relatif des effectifs d’une catégorie par rapport aux effectifs d’une
autre catégorie.
Exercice : Que signifie l’expression suivante : le ratio femmes / hommes à la RTVB est de
45% ?

Exemple 1 :

Tableau de répartition de l’appréciation générale de la qualité de service par un échantillon


aléatoire de 60 téléspectateurs d’une chaine de télévision privée de la place lors d’une enquête.

Niveau Fréquence proportion Pourcentage Pourcentage Pourcentage Eff.


d’appréciatio Absolu ni % cumulé cumulé Cum.
n croissant décroissant croiss.

1 2 0.03333 3,333 3.333 99.999 2

2 4 0.6666 6,666 9.999 96.666 6

3 12 0.2 20 30 90 18

4 24 0.4 40 70 70 42

5 18 0.3 30 100 30 60

Total 60 0.9999 99,999

Source : données fictives

Légende : 1-mauvais ; 2- équivalent ; 3- bon ; 4- très bon ; 5- excellent

Exercice 1: Compléter le tableau suivant et donner un titre. On fera une analyse du document
obtenu.

Tableau de répartition du niveau d’étude d’un échantillon aléatoire de 60 téléspectateurs d’une


chaine de télévision privée de la place lors d’une enquête.

Niveau Fréquence Pourcentage % Pourcentage Pourcentage


d’étude Absolu ni cumulé cumulé
croissant décroissant

18
1 16 26.66 26.66 99.99

2 24 40 66.66 73.33

3 20 33.33 99.99 33.33

Total 60 100

Source : données fictives

Légende :

Exercice 2

1- Le tableau ci-dessous donne la distribution statistique des agents d’une entreprise de


publicité d’après le nombre d’enfants à charge pour un échantillon aléatoire de 80
personnes.

Nombre Effectif partiel pourcentage Pourcentage Pourcentage


d’enfants à ni cumulé cumulé
charge croissant décroissant

0 4 5 5 100

1 15 18.75 23.75 95

2 29 36.25 60 76.25

3 18 22.5 82.5 40

4 10 12.5 95 17.5

5 3 3.75 98.75 5

6 1 1.25 100 1.25

Total 80 100

i- Compléter le tableau
ii- Déterminer les pourcentages suivants :

Ceux qui ont 2 enfants ; au plus 3 enfants ; au moins 4


enfants

Répartition des données en classes.

19
Lorsque les différentes valeurs prises par le caractère (quantitatif) étudié sont en grand
nombre, on répartit les données en classes soit de mêmes amplitudes soit d’amplitudes
différentes.

Définition :

Classe [x1 ; x2 [

Amplitude de classe a = x2 – x1

Centre de classe C = (x1 + x2) / 2

Densité de fréquence d’une classe di = ni / ai

ELABORATION DES CLASSES

I- Le choix du nombre de classes selon la règle de STURGES

NOMBRE DE NOMBRE DE
DONNEES (N) CLASSES (k)

10 4

]10; 22] 5

]22 ; 44] 6

]44 ;90] 7

]90 ;180] 8

]180 ;360] 9

]360 ;720] 10

]720 ;1000] 11

ii- Construction du tableau : quelques règles à observer :


 Choisir les extrémités du classement (borne inférieure de la première classe et borne supérieure
de la dernière classe) de manière à ne pas créer des distorsions importantes avec l’ensemble des
données. Généralement la borne inférieure de la première classe coïncide avec la plus petite
valeur du caractère observée.
 Choisir des bornes qui permettent des calculs simples.
20
 Choisir des bornes qui ont une signification particulière dans l’analyse de ces données.
 On peut construire des classes de même amplitude ou d’amplitude différente selon l’analyse que
veut réaliser.

- Exemple de données réparties en classe.

Une entreprise possède 200 points de vente de journaux répartis sur le territoire ivoirien.
Chaque point de vente a fait connaître son chiffre d’affaires, exprimé en million de francs,
pour le mois de Septembre 2023. Un traitement préliminaire des données fournit les
résultats suivants.

Chiffre Centre Ni*ci


Fréquenc Pourcentag Pourcentage de
d’affaires Pourcent Amplitud
e absolue e cumulé cumulé Densité classe
en million age e ai
ni croissant décroissant
de francs
[02-30[ 20 10,00% 10,00% 100,00% 28 0,71 16 320
[30-50[ 35 17,50% 27,50% 90,00% 20 1,75 40 1400
[50-70[ 40 20,00% 47,50% 72,50% 20 2 60 2400
[70-90[ 46 23,00% 70,50% 52,50% 20 2,3 80 3680
[90-100[ 30 15,00% 85,50% 29,50% 10 3 95 2850
[100-110[ 15 7,50% 93,00% 14,50% 10 1,5 105 1575
[110-120[ 7 3,50% 96,50% 7,00% 10 0,7 115 805
[120-130[ 2 1,00% 97,50% 3,50% 10 0,2 125 250
[130-150[ 4 2,00% 9 9,50% 2,50% 20 0,2 140 560
[150-200[ 1 0,50% 100,00% 0,50% 50 0,02 175 175
total 200 14015

- Donner un titre au tableau


- Déterminer le nombre de points de vente dont le chiffre d’affaire est :
- Inférieur à 50 millions
- Au moins égal à 100 millions
- Compris entre 110 et 150 millions.

ANALYSE STATISTIQUE DE DONNEES


Fiche de td n°1
21
Une enquête effectuée dans un centre de réinsertion de jeunes délinquants auprès d’un échantillon
aléatoire de 80 pensionnaires du centre a révélé leurs notes de conduite.

53 68 84 75 82 68 90 62 88
76 65 73 69 88 73 60 93 61
54 85 72 61 65 75 87 74 62
95 78 63 60 66 82 78 65 54
77 69 74 68 71 96 68 89 61
75 55 60 79 83 65 79 62 67
68 78 85 76 61 71 74 65 80
73 57 88 78 62 53 67 86 67
73 81 62 63 76 65 85 56

a- Identifier l’unité statistique et la population étudiée


b- Identifier la variable statistique observée et donner sa nature
c- Dépouiller les données de cette enquête et construire un tableau de distribution ; pour se faire,
choisir un nombre d’intervalles, leur largeur et leurs limites.
d- Compléter le tableau précédent en y ajoutant les fréquences simples et les fréquences cumulées.
e- Réaliser le même tableau de distribution en prenant pour classes [50-60[; [60-65[; [65-75[; [75-
80[; [80-85[; [85-90[; [90-95[; [95-100[.
f- Quel est l’intérêt de ce dernier tableau ?
g- On veut engager 5% des enquêtés dans une entreprise de la place. Au-dessus de quelle note
observée peut-on faire ce recrutement ?
h- On dira qu’un pensionnaire réagit bien au programme de réinsertion si sa note en conduite est
d’au moins 80. Quel est le pourcentage de cette catégorie de pensionnaires ?
i- Un pensionnaire sera soumis à un autre programme de réinsertion s’il a obtenu moins de 65
points en conduite. Combien de pensionnaires seront soumis à ce nouveau programme après
cette enquête ?

B- Représentations graphiques des données

La représentation graphique permet de compléter la représentation synthétique du


tableau. C’est la visualisation des variations des fréquences en fonction des différentes
22
valeurs du caractère étudié. Pour être compréhensible, un graphique doit comporter un
titre indiquant précisément l’objet du graphique, des axes gradués (si possibles) portant
chacun la nature de la variable représentée, une échelle correctement choisie ; une
légende reprenant la totalité des figurés ou des symboles employés ; la mention de la
source.

 Avantage d’un graphique


- Il rend plus perceptible les écarts et les anomalies parmi les données permettant ainsi de
saisir et de comprendre rapidement le phénomène étudié
- Il permet de comparer des distributions entre elles ;
 Inconvénients d’un graphique
- Il n’offre pas une lecture aussi précise qu’un tableau ; il n’offre que l’ordre de grandeur
des effectifs des diverses modalités.

Le but de cette partie du cours est de répondre aux préoccupations suivantes :


- Quel est le graphique approprié à la représentation d’une fréquence pour un tableau de
distribution donné ?
- Comment réalise-t-on le graphique identifié?
- Comment peut-on utiliser le graphique en vue d’une analyse ?
a- Choix du graphique (voir document annexe)
b- Quelques exemples de graphiques.
.

Digramme circulaire

niveau d'étude de l'enquêté


Effectifs Pourcentage Pourcentage
cumulé
1 16 26,7 26,7
2 24 40,0 66,7
Valide
3 20 33,3 100,0
Total 60 100,0

23
appréciation de la qualité du service
Effectifs Pourcenta Pourcentag Pourcentag
ge e valide e cumulé
1 2 3,3 3,3 3,3
2 4 6,7 6,7 10,0
3 12 20,0 20,0 30,0
Valide
4 24 40,0 40,0 70,0
5 18 30,0 30,0 100,0
Total 60 100,0 100,0

24
25
 Exercice :
Dans une entreprise, on a observé un échantillon d’employés. Le caractère étudié est
l’état matrimonial; les données recueillies sont:
Marie(e)','Marie(e)','Divorce(e)','Celibataire','Celibataire','Marie(e)',‘
Celibataire’,'Celibataire','Celibataire','Marie(e)','Celibataire','Marie(e)',
'Veuf(ve)', 'Marié(e) 'Veuf(ve)','Divorce(e)','Célibataire’, ‘Célibataire',
'Célibataire’, ‘Marie(e)‘
a) Faire le tri à plat
b) Construire le tableau des fréquences
c) Construire le graphique approprié

DEUXIEME PARTIE : MESURES DESCRIPTIVES

Nous examinons dans cette partie les principales mesures utilisées pour décrire un ensemble
de données. Il s’agit de caractériser la distribution des valeurs observées d’une variable
statistique par certains nombres représentatifs qui pourraient résumer de façon suffisamment
complète l’ensemble de ces valeurs. On exposera les mesures de tendance centrale (le mode,
la médiane et la moyenne), les mesures de position (les quantiles) ainsi que les mesures de
dispersion (l’écart type) les mesures de forme.

26
CHAPITRE III : LES MESURES DE TENDANCE CENTRALE
ET LES MESURES DE POSITION.

A- Les mesures de tendance centrale


Elles répondent à la préoccupation suivante : autour de quelles valeurs les données sont-
elles accumulées. Elles donnent donc une idée du centre de la distribution.
1- Le mode (symbole Mo).
 Il peut être déterminé quelle que soit la nature des données.
 C’est la valeur de la variable (observée ou estimée) qui se répète le plus souvent. C’est
donc la valeur la plus fréquente, la valeur la plus probable.

Détermination :

i- Le cas des données non groupées :

Dans une distribution (xi,ni) le mode correspond à la valeur de x i qui a la plus grande valeur
de ni.

Donner des exemples à partir des distributions vues dans les chapitres précédents.

ii- Le cas des données groupées.

Dans ce cas on détermine d’abord la classe modale ou la classe dominante notée [x 1, x2[. C’est
la classe qui a l’effectif le plus élevé (données reparties en classes de même amplitude) ou la
densité d’effectif la plus élevée.

 Le mode estimé comme le centre de la classe modale :

Mo = (6350 + 6050) / 2 = 6200 F/h

 Le mode estimé par interpolation linéaire :

Δ1
Mo = x1+ ∗ai
Δ 1+ Δ 2

Δ 1= différence entre la fréquence (ou la densité de fréquence) de la classe dominante et la


fréquence (ou la densité de fréquence) de la classe qui la précède.

Δ 2= différence entre la fréquence (ou la densité de fréquence) de la classe dominante et la


fréquence (ou la densité de fréquence) de la classe qui la suit.

Exemple : répartition des salaires horaires dans une entreprise de la place


27
Centre de densité
Effectifs Pourcentage
Salaire horaire classe Ci d’effectif Pourcentage fi%
cumulé croissant
Ni di *100
[4750-5250[ 10 5000 2 4,00% 4,00%

[5250-5750[ 30 5500 6 12,00% 16,00%

[5750-6050[ 60 5900 20 24,00% 40,00%

[6050-6350[ 72 6200 24 28,80% 68,80%

[6350-6750[ 40 6550 10 16,00% 84,80%

[6750-7350[ 24 7050 4 9,60% 94,40%

[7350-8050[ 14 7700 2 5,60% 100,00%


Total 250 43900 100,00%

Δ1
Pour les données groupé Δ 1 = 24 – 20 = 4 et Δ 2 = 24 – 10 = 14 /Mo = x1+ ∗ai
Δ 1+ Δ 2

4
D’où Mo = 6050+ ∗300 = 6117 frs/heure
4+ 14

 Détermination graphique du mode :


- A partir d’un diagramme en bande :
- A partir d’un diagramme circulaire :
- A partir d’un diagramme en bâton
- A partir d’un histogramme
- A partir d’ polygone de fréquence.

2- La médiane (symbole Mé).

Elle ne peut être déterminée pour les données nominales.

28
Les données étant rangées par ordre croissant ou décroissant, la médiane est la valeur
observée ou estimée de la variable qui partage l’ensemble des données en deux parties de
même effectif :

- Au plus 50% des données sont inférieures ou égales à la médiane


- Au plus 50% des données sont supérieures ou égales à la médiane

Détermination de la médiane

i- Cas des données non groupées en classe

On dispose d’abord les données en ordre croissant et on attribue à chaque donnée un rang.

On calcule ensuite le rang de la médiane. Pour cela on calcule n/2, n étant le nombre total
des données.

- Si n/2 n’est pas un entier, on l’arrondit à l’entier supérieur qui correspond au rang de la
médiane.
- Si n/2 est un entier, la médiane est la moyenne des données de rang n/2 et n/2 +1.

Exemple 1: soit la série des notes

Note 8 10 12 13 14 16 17 17

Rang 1 2 3 4 5 6 7 8

n/2 = 8/2 = 4. C’est un entier, donc la médiane est la moyenne des notes de rang 4 soit 13 et de
rang 5 soit 14. La médiane vaut donc (13 + 14)/2 = 13,5.

Exemple 2 : soit la série des notes

Note 8 10 12 13 14 16 17 17 18

29
Rang 1 2 3 4 5 6 7 8 9

 n/2 = 9/2=4,5 on arrondit à l’entier supérieur soit 5. Donc la médiane est égale à 14.

ii- Cas de données groupées par classe

On détermine d’abord la classe médiane ; elle correspond à la classe qui a pour pourcentage
cumulé croissant 50% ou immédiatement supérieur à 50%.

Ensuite on estime la médiane par interpolation linéaire :

50−F cum%
Mé = x1+( )∗ai
f % mé

50−40
Mé= 6050+ ( )∗300
28 , 8

Mé= 6154,16 frs/heure

Fcum % = pourcentage cumulé croissant de la classe qui précède la classe médiane

fMé% = pourcentage simple de la classe médiane.

Exemple : déterminer le salaire horaire médian à partir du tableau de répartition.

3- La moyenne arithmétique (données quantitatives)

i- pour les données quantitatives non groupés

30
Soit une série numérique x1,x2…xn. La moyenne de cette série est
donnée par :
x 1+ x 2+ … .+ xn
X= n

Remarque : si les données sont dans un tableau de répartition,

[∑ ]
k
x=
¿∗xi
i=1

n
avec k le nombre de différentes valeurs du caractère

ii- La moyenne arithmétique (pour les données quantitatives groupées par classe)

( x )=¿

NB : (ci) étant le centre de la classe

iii- Position relative du mode, de la médiane et de la moyenne et recherche de


symétrie dans une distribution

- Si le Mode=médiane=moyenne arithmétique alors on a une distribution symétrique.

- Par contre Mo < Mé < X alors on a une distribution asymétrique avec étalement à droite
- Si le Mo > Mé > X alors on a une distribution asymétrique avec étalement à gauche

31
A l’analyse, nous remarquons que :

- le salaire horaire le plus fréquent est de 6117 frs/heure (Mode=Mo)


- 50% des employés gagnent moins de 6154frs/heure (Médiane=Mé)
- Le salaire moyen est de 6218 frs/heure (Moyenne arithmétique (X))

B- Les quartiles

Ne peuvent pas être calculés pour les données nominales.

Ils peuvent être utilisés pour les données ordinales et quantitatives. Les données étant
rangées par ordre croissant, les quartiles notés (Q1, Q2, Q3) divisent l’ensemble des
données en quatre parties de même effectif.

- Le 1er quartile Q1 est tel que 25% des données lui sont inférieures ou égales et 75%
lui sont supérieures ou égales.
- Le 2ème quartile Q2 est la médiane
- Le 3ème quartile Q3 est tel que 75% des données lui sont inférieures ou égales et
25% lui sont supérieures ou égales

Médiane

X min X max
Q1 Q2 Q3

32
Pour les données non groupées, il faut les ranger par ordre croissant et calculer le rang de Q1

 Rang Q1= n/4


Si le rang (n/4) est non entier, on arrondit à l’entier supérieur qui correspond au rang de Q1.
Si le rang (n/4) est un entier, Q1 est la moyenne les données de rang n/4 et (n/4)+1.

 Rang Q2 (voir médiane).


 Pour le rang Q3 = 3n / 4
Si le rang (3n/4) est non entier, on arrondit à l’entier supérieur qui correspond au rang de Q3.
Si le rang (3n/4) est un entier, Q3 est la moyenne les données de rang 3n/4 et (3n/4)+1.

7 8 10 12 14 15 16 16 17
Note
Rang 1er 2e 3e 4e 5e 6e 7e 8e 9e

Rang de Q1= n/4 = 9/4=2,25 arrondir à 3 est la position de Q1 don la note équivaut à 10
Rang de Q2= n/2= 9/2=4,5 arrondir à 5e position dont la note équivaut à 14
Rang de Q3= 3n/4 = 3*9/4=6,7 arrondir à 7e position dont la note équivaut à 16

33
Note 7 8 10 12 14 15 16 16 17 18
Rang 1er 2e 3e 4e 5e 6e 7e 8e 9e 10

Calculons Q1 :
Rang de Q1 : 10/4 = 2,5 soit 3 donc Q1 = 10
Calculons Q2
Rang de Q2 : 10/2 =5 donc Q2 = (14 +15) /2 = 14.5
Calculons Q3
Rang de Q3 : 3*10/4 =7.5 donc Q3 =16

Données regroupées en classes

Calcul du Q1
On détermine d’abord la classe de Q1 ; elle correspond à la classe qui a pour pourcentage
cumulé croissant 25% ou immédiatement supérieur à 25%.

Ensuite on estime le premier quartile Q1 par interpolation linéaire :

25−F cum%
Q1 = x1+( )∗ai
f %Q 1
Calcul du Q3
On détermine d’abord la classe de Q3 ; elle correspond à la classe qui a pour pourcentage
cumulé croissant 75% ou immédiatement supérieur à 75%.

Ensuite on estime le troisième quartile Q3 par interpolation linéaire :

75−F cum%
Q3 = x1+( )∗ai
f % Q3
Exemple : calculez Q1 et Q3 du tableau sur les chiffres d’affaire.

34
Recherche de données aberrantes :

Définition : c’est une donnée qui s’écarte anormalement de l’ensemble des données
observées.
Détermination :
 Iq = Q3 – Q1 exple Iq = 93 – 47.14= 45.86
 W = 1.5*Iq exple W = 1.5*45.86 = 68.79
 W1 = Q1 – W exple W1 = 47.14-68.79 = - 21.65
 W2 = Q3 + W exple W2 = 93+68.79 = 161.79
 Règle : [ W1 ; W2] exple [ -21.65 ; 161.79] soit [ 2 ; 161.79]

35
CHAPITRE IV : LES MESURES DE DISPERSION

Mesures de dispersion générales :


- Etendue d’une distribution (R)

R = Xmax – Xmin

Exple R = 200 – 2 = 198

L’étendue étant une grandeur absolue (non relative) elle ne permet pas d’apprécier des
dispersions autour des valeurs centrales.

- Etendue interquartile Iq :

Iq = Q3 – Q1

Exple Iq = 93 – 47.14 = 45.86

Mesures de dispersion autour de la moyenne :


1- La variance : c’est la moyenne des carrés des écarts à la moyenne pour une distribution de
données quantitatives. Var(X) = s2

2- Ecart type :

 n (x  x)
N
2
i

s = i1 i

N F

36
1
s= n x  x
k
2 2
i i

N i1

Pour les données groupées en classe Xi est remplacé par le centre de classe Ci.
Exemple Σnici2 = 1168495 et s2 = 931.96 (million de francs)2 et S= 30.52 millions de francs.

3- Le coefficient de variation

Soit distribution de moyenne m et d’écart type s, le coefficient de variation noté Cv s’écrit :

Cv% = (S / m) *100

Exemple Cv = 30.52 / 70.075 = 0.4355 soit 43.55%


Signification dire que le Cv = 44% signifie que l’écart type vaut 44% de la moyenne.
Recherche de l’homogénéité d’une distribution
j- Si Cv ˂15% alors la distribution est dite homogène c’est – à- dire que les données sont plutôt
regroupées autour de la moyenne.
k- Si cv ≥ 15% alors la distribution est dite h étérogène c’est – à- dire que les données sont plutôt
dispersées autour de la moyenne.
O°°°
4- La note standard z

Soit distribution de moyenne m et d’écart type s. à chaque donnée x i on associe sa note £


LKK zi = (xi – m) / s.

37
Chapitre V : INTRODUCTION A L’ANALYSE BIVARIEE

IL s’agit d’analyser simultanément deux séries de données issues :


 D’un même échantillon (étude d’indépendance entre deux variables X et Y)
 De deux échantillons différents (comparaison de plusieurs échantillons par rapport à un même
caractère).

 Présentation tabulaire d’une série double


 Tableau croisé ou tableau de contingence (recherche de l’association entre deux variables)
 Tableau des données relatives à deux variables connues individu par individu (recherche
d’une régression entre deux variables quantitatives)

Exemple de construction d’un tableau croisé


Tab 1: tableau de répartition, en effectif, d’un échantillon aléatoire de 60 partenaires d’un groupe
scolaire privé de la place interrogée lors d’une enquête selon le niveau d’étude et l’appréciation
de la qualité du service.

Niveau Appréciation de la qualité générale du service


d’étude Mauvais équivalent bon Très bon excellent total
Primaire 0 2 4 6 4 16
Secondaire 1 1 5 10 7 24
Supérieur 1 1 2 8 8 20
Total 2 4 11 24 19 60
Source : données fictives
1- Donnez la signification des données soulignées dans le tableau
2- Quel est le pourcentage de ceux qui ont le niveau secondaire ?
3- Parmi tous ceux qui jugent que le service est d’excellente qualité quel est le pourcentage de ceux
qui ont un niveau d’étude supérieur ?

38
Exemple de matrice de données brutes.
Matrice de données brutes issues d’une enquête auprès d’un échantillon aléatoire de 60
partenaires d’un groupe scolaire privé de la place.

IND VAR1 VAR2 VAR3 IND VAR1 VAR2 VAR3 IND VAR1 VAR2 VAR3
01 1 1 3 21 3 4 5 41 2 2 4
02 2 2 4 22 3 3 4 42 3 2 4
03 3 1 5 23 2 1 5 43 1 2 5
04 2 2 4 24 3 2 4 44 2 3 4
05 2 3 4 25 3 1 3 45 3 1 5
06 2 1 5 26 3 2 5 46 1 2 2
07 3 3 5 27 2 1 2 47 3 1 4
08 2 2 3 28 1 3 3 48 2 2 3
09 1 4 4 29 1 3 4 49 1 1 3
10 2 2 5 30 2 2 4 50 2 2 4
11 2 3 3 31 1 2 4 51 1 4 5
12 3 1 5 32 2 2 5 52 2 1 5
13 3 2 5 33 1 3 5 53 1 2 4
14 3 1 4 34 3 1 2 54 3 2 4
15 2 4 4 35 2 2 3 55 1 3 5
16 3 1 4 36 1 1 3 56 2 3 3
17 3 1 1 37 2 2 5 57 2 2 4
18 2 3 1 38 1 1 2 58 1 4 4
19 3 2 5 39 2 3 4 59 3 1 4
20 2 2 5 40 1 1 4 60 3 1 3

Var1 : niveau d’étude : 1-primaire ; 2- secondaire ; 3- supérieur.

Var2 : profession : 1- cadre du privé ; 2- cadre de la fonction publique ; 3- emploi libéral ; 4- autres.

Var3 : appréciation de la qualité générale du service comparativement aux autres établissements privés :
1-mauvais ; 2- équivalent ; 3- bon ; 4- très bon ; 5- excellent

39
Tab2 : tableau de répartition, en effectif, d’un échantillon aléatoire de 60 partenaires d’un groupe
scolaire privé de la place interrogée lors d’une enquête selon la profession et l’appréciation de la qualité
du service.

Appréciation de la qualité générale du service


Profession
Mauvais équivalent bon Très bon excellent total
Cdre priv 1 3 5 5 6 20
Cfp 0 1 3 11 8 23
Elib 1 0 3 5 3 12
Autre 0 0 0 3 2 5
Total 2 4 11 24 19 60
Source : données fictives

Les distributions tirées du tableau croisé


1- Les distributions marginales (2)
Ce sont les distributions relatives à chacune des variables croisées.
Exercice :
Construire les distributions marginales du niveau d’étude et de l’appréciation de la qualité du
service.
Titre du tableau 1 :

Niveau d’étude Effectif ni % Pcc Pcd


1 16
2 24
3 20
TOTAL 60

Faire une analyser de ce document.


Titre du tableau 2 :

Appréciation Effectif % Pcc Pcd


Mauvais 2 3.33
Equivalent 4 6.66
Bon 11 18.33
Très bon 24 40
Excellent 19 31.66
TOTAL 60

Faire une analyser de ce document.


40
2- Les distributions conditionnelles
Il existe autant de distributions conditionnelles de l’une des variables croisées qu’il y a de modalités de
l’autre. Ces distributions conditionnelles sont exprimées en pourcentage.
Exemple1 : Construire les distributions conditionnelles de la variable niveau d’étude. On donnera un
titre à ce tableau.

Titre : tableau de répartition, en pourcentage, d’un échantillon aléatoire de 60 partenaires par


appréciation de la qualité du service selon le niveau d’étude.

Niveau Appréciation de la qualité générale du service


d’étude mauvais équivalent bon Très bon excellent Total
Primaire 0 50 36.36 25 21.05 27
Secondaire 50 25 45.45 41.66 36.84 40
Supérieur 50 25 18.18 33.33 42.10 33
Total 100 100 100 100 100 100

Faire une analyser de ce document.

Apréciation ; 3

Nievau d’étude

La distribution s’exprime en pourcentage


Exercice :
Construire les distributions conditionnelles de la variable niveau d’étude. On donnera un titre à ce
tableau.

Titre :

Niveau Appréciation de la qualité générale du service


d’étude mauvais équivalent bon Très bon excellent Total
Primaire 0 12.5 25 37.5 25 100
Secondaire 4.16 4.16 20.83 41.6 29.16 100
Supérieur 5 5 10 40 40 100
Total 3.33 6.66 18.33 40 31.66 100

Existe-t-il un effet « niveau d’étude » dans l’appréciation de la qualité du service ?

 Distributions conditionnelles et recherche d’indépendance de deux variables croisées.

Population totale échantillon


Toutes les distributions Variables indépendantes Variables indépendantes
41
conditionnelles sont
identiques.
Les distributions Variables dépendantes Variables pourraient être liées
conditionnelles sont
différentes.

Consigne : écrire les réponses dans les espaces indiqués sur la feuille du sujet.
Exercice 1
Dans une enquête d’opinion auprès des jeunes sur l’utilisation des portables pendant le cours,
Djèdjè a construit un questionnaire dans lequel les questions se présentent sous la forme d’affirmations
suivies d’une échelle sur laquelle les sujets doivent entourer un nombre pour indiquer leur opinion ; par
exemple : « même si le professeur fait le cours, l’étudiant a le droit de répondre aux appels ».

-2 -1 0 1 2
Pas du tout En désaccord sans opinion D’accord Tout à fait
d’accord d’accord

a) indiquer la variable étudiée et sa nature.


………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………
……………………………………………………………………………………………
b) voici le tableau de répartition des données :

Opinion Effectif pourcentage Pourcentage Pourcentage


cumulé croissant cumulé
décroissant
-2 11 14,28 14,28 99 ;98
-1 6 7.79 22 ;07 85,7
0 18 23,37 45,44 77,91

1 27 35,06 80 ;5 54 ;54
2 15 19,48 99,98 19 ;48

Total 77

Compléter le tableau.
Avec quels graphiques peut-on représenter la variation des pourcentages selon le type d’opinion ?
Avec un diagramme enpilé utilisé quand on veit comparer deux variables ²
Le chapeau
42
La valeur modale
Voir si il y’a des irrégularités
………………………………………………………………………………………………………………………………………………………….
………………………………………………………………………………………………………………………………………………………..
c) indiquer le pourcentage de :
ceux qui sont en désaccord… .
ceux qui sont au moins d’accord…………………………………………………………………………………………..
ceux qui sont au plus « sans opinion » ………………………………………………………………

Exercice 2
Vous êtes le responsable d’un cyber, vous voulez réaliser une étude sur la durée de visite en minutes sur
un site internet qui vient d’être installé. Voici les données obtenues

24 24 24 25 25 26 26 26
28 28 28 28 28 29 30 31
33 34 34 35 35 36 37 39
43 43 46 48 52 53 57 60

a / identifier la variable statistique sur laquelle porte l’étude ; quelle est sa nature ?
C’est une variable quantitative continue
C’est une échelle de rapport car on compare les valeurs
b/ quelle est l’unité statistique ?
c’est chaque visiteur du site iè(
c c/ les données du tableau ci-dessus sont rangées par ordre croissant suivant les lignes. Déterminer la
durée modale et les trois quartiles Q1, Q2, Q3.
……………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………......
……………………………………………………………………………………………………………………………………………………….....
………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………………..
d/ Déterminer la durée de visite moyenne X. on donne ∑nixi= 1115 minutes.

43
………………………………………………………………………………………………………………………………………………………......
e/ ce site sera jugé intéressant si les conditions suivantes sont vérifiés :
- Les visiteurs passent en moyenne plus d’une demi-heure sur le site ;
- La distribution est asymétrique avec étalement à gauche

Peut-on considérer ce site intéressant ?


………………………………………………………………………………………………………………………………………………………......
……………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………….

Exercice 3 :
Complétez le tableau ci-dessous indiquant la répartition en pourcentage des revenus annuels en 2000
des familles dans un pays donné.

Revenu (en Pourcentage Pourcentage Pourcentage Densité de %


million de (%) cumulé cumulé
Fr.) croissant décroissant
[0 -5 [ 1,7 1,7 100 0,34
[5- 10[ 6,3 8 98,3 1,26
[10 -12[ 3,7 11,7 92 1,85
[12-15[ 7,2 18,9 88,3 2,4
[15-17[ 4,7 23,6 81,1 2,35
[17-20[ 6,2 29,8 76,4 2,06
[20-22[ 4 33,8 70,2 2
[22-25[ 6,2 40 66,2 2,06
[25-27[ 4,7 44,7 60 2,35
[27-30[ 6,7 51,4 55,3 2,23
[30-32[ 4,5 55,9 48,6 2,25
[32-35[ 6,9 62,8 44,1 2,3
[35-37[ 4,5 67,3 37,2 2,25
[37-40[ 6,2 73,5 32,7 2,06
[40-45[ 9,2 82,7 26,5 1,84
[45-50[ 7,2 89,9 17,3 1,44
[50-60[ 10,1 100 10,1 1,01
Source : enquête fictive
1) Indiquez la population étudiée
………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………
2) Par quel graphique peut-on représenter la variation des pourcentages………………………………

44
………………………………………………………………………………………………………………………………………….
3) Donnez les pourcentages des familles :
Qui gagnent moins de 10 millions l’an……………………………………………………………………………………
Qui gagnent au moins 25 millions l’an…………………………………………………………………………………..
Qui gagnent entre 30 millions et moins de 45 millions l’an………………………………………………….
…………………………………………………………………………………………………………………………………………..
4) Estimez par interpolation linéaire :
Le revenu modal ……………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………….
Le revenu médian……………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………………….
………………………………………………………………………………………………………………………………………………..
Le revenu correspondant au premier quartile Q1…………………………………………………………………
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………………
Le revenu correspondant au troisième quartile Q3………………………………………………………
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………………………….
………………………………………………………………………………………………………………………………………………
Faites un résumé en cinq chiffres de la distribution.
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………
5) La distribution admet-elle des valeurs aberrantes ? si oui, lesquelles ?
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………
……………………………………………………………………………………………………..

6) Le revenu moyen est estimé à 29820000fr .


Etudiez la symétrie de la distribution :
………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………….
7) Quelle conclusion peut-on tirer de cette étude ?

…………………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………………………
45
…………………………………………………………………………………………………………………………………………………………………
………………………………………………………………………………………………………………………………….

Exercices 1

Parmi les exemples suivants, identifier les variables et dire si elles constituent dans le
contexte une variable dépendante ou indépendante :
d- L’inspecteur de l’enseignement primaire de Yop. 4 veut analyser l’évolution du nombre
des grossesses des élèves dans sa circonscription depuis 1990 selon l’origine ethnique
et le niveau d’étude des parents.
e- Dans une étude, on recherche des données sur la nature des infractions commises par
des élèves selon le sexe des accusés
f- Un chercheur veut vérifier si le groupe culturel a une influence sur le moment où des
enfants atteignent les différents stades de développement selon Piaget. Il fait passer
quatre épreuves de Piaget à trois groupes d’enfants de 10 ans, d’ethnies différentes.
g- On veut mesurer l’effet d’une nouvelle méthode d’enseignement des mathématiques sur
les aptitudes logiques des élèves.

Exercice 2 :

Au cours d’une recherche ayant pour but d’étudier les effets dus à l’introduction de
l’informatique dans l’enseignement des mathématiques, plusieurs investigations ont été
réalisées auprès d’un groupe d’élèves et d’un groupe d’enseignants.
Les élèves ont d’abord été soumis à une épreuve de connaissance destinée à évaluer
leur maîtrise dans deux domaines : l’interprétation de graphiques et la connaissance des
formes géométriques. Ensuite, ils ont répondu à un questionnaire devant permettre de
déterminer, d’une part, leurs caractéristiques sociodémographiques (sexe, profession
des parents, zone géographique d’habitation etc.) et, d’autre part, leur niveau de
motivation quant à l’utilisation scolaire de l’informatique.
Les enseignants ont, en revanche, participé à un entretien individualisé au cours duquel
des informations ont été recueillies concernant leurs opinions sur l’utilité pédagogique de

46
l’innovation, sur la nature des difficultés rencontrées, sur les types de formation
souhaités et sur l’ampleur de l’investissement exigé par la réforme.
Dans cette étude, relevez les variables étudiées.

47

Vous aimerez peut-être aussi