Vous êtes sur la page 1sur 77

Dpartement de Mathmatiques

Facult des Sciences et Techniques Mohammedia


R. MORCHADI
morchadi@hotmail.com

Introduction et Gnralits
sur les statistiques

A vos maths !
Prts ?
Partez !
Objectifs de ce module
Apprendre les principales techniques
de la statistique descriptive une
dimension et deux dimensions.
Etre capable de mettre en uvre ces
techniques de manire approprie dans
un contexte donn.
Manipuler les techniques de
statistiques descriptives sur Excel ou
au moyen dun langage informatique
(langage R).

Introduction et Gnralits sur les statistiques
Plan du module
I. Dfinitions, historique et applications.
II. Les deux aspects de la statistique.
III. Concepts de base.
Voici les parties que nous allons aborder :
Introduction et Gnralits sur les statistiques
. Dfinitions, historique
et applications
Introduction et Gnralits sur les statistiques

Ce cours se prsente davantage comme
une initiation la rigueur que
ncessite la manipulation densembles
de donnes afin dutiliser bon
escient les mthodes appropries pour
viter de faire parler faussement les
chiffres.
Les concepts et mthodes statistiques
seront abordes au travers de
nombreux exemples que viendront
ponctus le droulement du cours.

1. Dfinitions heuristiques
Quest-ce-que la statistique?

La tche la plus difficile de ce cours est
de dfinir le mot
statistique

. Dfinitions, historique et applications
1. Dfinitions heuristiques
Dfinition de la statistique
Pour nous, la statistique sera un
ensemble de techniques
mathmatiques permettant de
recueillir, dcrire et interprter des
donnes, avant ltablissement de
prvisions.
Ces donnes ont une variabilit due au
hasard.
On peroit dans cette dfinition:
. Dfinitions, historique et applications

Le recueil qui sous entend la
collecte, qui son tour suppose
gnralement la ralisation
dune enqute ou dun sondage.
Ces derniers imposent un
chantillonnage dune certaine
population en vue dune tude
plus pousse une
infrence mathmatique


Les phases dinterprtation et de
prvisions ncessitent le plus de
rigueur possible, afin de ne pas
affirmer de contrevrits
Une matrise de lincertitude dans le
but de raliser des prvisions.
On les accompagne en gnral dun
degr de confiance , mesurant le
crdit que lon peut leur apporter.

2. Mises en garde
noter que ce dernier point, prcision des
rsultats, est souvent (toujours !) oubli des
mdias lorsquils tentent de nous informer
Par exemple, si lon interroge 1000 personnes
avant une lection deux candidats, Mick
et Keith, et que Keith obtient 51%
dintentions de vote, cela signifie en fait
que sur la population entire, Keith 95
chances sur 100 davoir entre 48% et 54%
des voix
Quel sens allons nous donner ses chiffres?
Cest l estimation paramtrique .
. Dfinitions, historique et applications
2. Mises en garde
Autre point capital, pour pouvoir effectuer des
prvisions il convient davoir un chantillon
reprsentatif .

Trs Important
Aux lections amricaines de 1936, le journal
Literary Digest prdit la victoire du
rpublicain Landon en interrogeant par
tlphone plus de 2 millions dlecteurs.
Un sondeur, George Gallup, annonce lui la
victoire du dmocrate Roosevelt en ne
sondant que 3000 personnes, mais
judicieusement choisies.

. Dfinitions, historique et applications
2. Mises en garde
Cest ce dernier qui avait raison, lchantillon
du Literary Digest tait certes plus important
mais biais , car cette poque
seule la bourgeoisie possdait le
tlphone
Ces exemples sont l pour vous mettre en
garde !!! Et on peut les multiplier

Soyez donc critique si on vous donne
des rsultats statistiques et .
soyez rigoureux si vous avez en
tablir !!!
. Dfinitions, historique et applications
3. Bref historique
Le mot statistique est rcent, on le trouve
dans un ouvrage administratif franais de la
fin du 17
e
sicle.
Le terme drive du latin statisticum : qui a
trait ltat.
Lactivit correspondante, le recueil de
donnes, est elle beaucoup plus ancienne.
lorigine, ce sont des chefs dtat, qui via
des recensements, souhaitaient connatre
ltendue de leur puissance. On dnombrait
ainsi population, richesses, capacit
militaire
. Dfinitions, historique et applications
3. Bref historique
On trouve trace de tels recensements :

Dans la civilisation sumrienne, entre 5000 et 3000
ans avant J.C. : liste dhommes et de biens sur des
tablettes dargile.
En Msopotamie, 3000 ans avant J.C.
En Egypte, 2500 ans avant J.C. : recensements
finalit fiscale.
En Chine, 2000 ans avant J.C. : valuations de
productions agricoles.
. Dfinitions, historique et applications
4. Champs dapplications
Les statistiques ne se limitent plus comme lorigine
aux seules donnes dmographiques, conomiques ou
sociologiques.
On y a recourt maintenant dans de nombreux domaines :
En sciences physiques : thermodynamique,
mcanique, astronomie.
Dmographie, conomie, biologie, chimie, sociologie,
mdecine, pharmacie, agronomie
En gophysique : mtorologie et climatologie.
En biologie : hrdit, gntique, mdecine.
En psychologie : sondages dopinions.
En industrie : contrle de qualit des productions.
Dans le domaine tertiaire : banques et assurances
. Dfinitions, historique et applications
Pause-rflexion sur la partie
. Dfinitions, historique et applications
. Les deux aspects de la
statistique
Introduction et Gnralits sur les statistiques
Plan de la partie
1. La statistique descriptive.
2. La statistique infrentielle.
3. La dmarche statistique.


Voici les chapitres que nous allons aborder
. Les deux aspects de la statistique

A partir de la dfinition on voit que:
la statistique est un ensemble de mthodes
permettant de prendre une bonne
dcision face lincertitude

Cest aussi un ensemble doutils et de
mthodes qui permettent de synthtiser
et de rsumer des grands volumes de
donnes, des grandes matrices
dinformations.

On voit se dessiner ici les
deux principales branches de
la statistique :
La statistique descriptive
La statistique mathmatique
ou infrentielle
1. La statistique descriptive
On dsigne par statistique
descriptive lensemble des
mthodes de collecte et
traitement des donnes. Elle
consiste rsumer, ordonner,
prsenter et analyser de faon
claire des donnes statistiques
relatives une population
donne

. Les deux aspects de la statistique

La description des donnes passe par :
Une prsentation synthtique
(tableaux).
Une reprsentation graphique adapte
(histogramme).
Un rsum numrique par le calcul de
certaines grandeurs typiques
(moyenne).
Une tude des ventuelles corrlations
entre variables.

1. La statistique descriptive
Exemple : notes des tudiants de FSTM
lexamen de probabilits et statistiques.
On collecte les rsultats dans chaque
section.
On reprsente la rpartition des notes par
un histogramme.
On rsume la srie par sa moyenne,
mdiane
On mesure la dispersion avec lcart-
type

. Les deux aspects de la statistique

Exemple : Les tempratures moyennes mensuelles
Ifrane sur la priode 1971-2000.







Le simple passage d'un tableau de
donnes plus ou moins important un
graphique et/ou quelques indicateurs
pertinents telle que la moyenne constituent
une opration relevant de la statistique
descriptive.

2. La statistique infrentielle
La statistique infrentielle ou
mathmatique est pour sa part
lensemble des mthodes qui
permettent partir de ltude dun
chantillon dinduire des
informations sur une population, de
faire des prvisions de
comportements bases sur le calcul
de probabilits.
. Les deux aspects de la statistique

Elle ncessite un choix judicieux de
lchantillon, i.e. il doit tre reprsentatif
de la population (cf. exemple des
lections amricaines de 1936)
Elle utilise des modles thoriques de
rfrence, les lois de probabilits .
En effet, on constate en gnral que la
rpartition statistique dune variable sur
un chantillon est voisine dune loi de
probabilit.

2. La statistique infrentielle
La statistique infrentielle permet alors :

Destimer les paramtres de la loi de
probabilit partir de lchantillon.
De mesurer la validit de cette estimation
par un intervalle de confiance.
De mesurer ladquation de la loi de
probabilit choisie lchantillon par des
tests statistiques.

. Les deux aspects de la statistique

Exemple :
En priode lectorale, on interroge 1 000
personnes sur leur intention de vote. A
partir des rsultats obtenus sur cet
chantillon, on prvoit, avec une certaine
prcision, le comportement de lensemble
des lecteurs (population mre) et par l
mme, le rsultat des lections. Cest ce
quon appel linfrence statistique et
cest le principe mme du sondage
dopinion par exemple.

Dmarche statistique
Etapes dune tude statistique :
1- Collecte des donnes (les statistiques) :
Recueillir les informations adquates sur un
chantillon qui serviront de base l tude.
2- Traitement des donnes (la statistique) :
A- Statistique descriptive : techniques
permettant de traiter les donnes recueillies, de
les mettre sous forme de tableaux, de graphiques
et de dgager les caractristiques essentielles
(moyenne, mdiane, variance,. . . )
B- Statistique mathmatique : techniques
permettant de tirer des conclusions sur toute la
population partir de donnes partielles recueillis
sur un chantillon.
Dmarche statistique



Le lien de complmentarit entre
statistique infrentielle et
statistique descriptive est vident :

la premire collecte et fournit la
seconde la matire premire
dcrire et analyser et faire des
prvisions
Pause-rflexion sur la partie
. Les deux aspects de la statistique
. Concepts de base
Introduction et Gnralits sur les statistiques
Plan de la partie
1. Terminologie de base.
2. Les diffrents types de
caractres.
3. Effectifs et frquences.


Voici les chapitres que nous allons aborder
. Concepts de base
1. Terminologie de base
A la base de toute tude
statistique, il y a une
population, forme d'
individus sur lesquels on
observe des caractres.


. Concepts de base

Population : ensemble dindividus
prsentant un caractre commun. Pour
une thmatique donne sur lesquels on
effectue une tude statistique.
La population europenne : ensemble des
individus rsidant sur le territoire
europen a un moment donn.
Le parc automobile Marocain: ensemble
des automobiles immatricules sur le
territoire Marocain.


La population est en gnral note P
L'effectif total d'une population est note N
ou n
Unit statistique (ou individu) : lment de
base constitutif de la population a
laquelle il appartient. Il est indivisible et
peut tre un animal, un vgtal, un
humain ou un objet.
Exemples : une automobile, un logement,
une vache, une ampoule, une ville, etc.
note i

chantillon : sous-ensemble de la population, dite
population mre.





Recensement : enqute dans laquelle les
observations (mesures, questions) portent sur
la population entire.
Sondage : enqute dans laquelle les observations
portent sur un chantillon de la population.


Srie statistique : Cest une correspondance
qui chaque individu de la population
tudie fait associer une valeur du
caractre tudi.

Les valeurs dune srie statistique pour un
caractre X sont notes :
x(1), x(2), . . . , x(N)

Exemple



Modalits : Ce sont les diffrentes valeurs
distinctes prises par le caractre.
Les modalits dun caractre X sont notes :


k dsigne le nombre de modalits du caractre.
Exemple
le caractre X =couleur peut avoir comme
modalits : noir, rouge, bleu, blanc, gris, autres.
Si X =groupe sanguin , il a comme modalits : A,
B, O, AB.

Remarque
Les modalits dun caractre doivent
tre :
Incompatibles : (chaque individu a
une seule modalit).
Exhaustives (tous les cas sont
prvus).
1. Terminologie de base
Pour fixer les ides, il est plus facile
de penser en termes de population
humaine. Les individus sont des
personnes, et les caractres
observes peuvent tre
morphologiques (taille, poids,
couleur des yeux), physiologiques
(groupe sanguin, numration
globulaire, taux de cholestrol) ou
psychologiques (ractions a des
tests ou rponses a une enqute
d'opinion)
. Concepts de base

Remarques: Ce vocabulaire provient bien
sr des origines dmographiques des
tudes statistiques.
On tudie un chantillon lorsque la
population est impossible (ou trs
difficile) tudier dans son intgralit.
Exemple : lensemble des tudiants
inscrits la FSTM est une population dont
la section BCG est un chantillon.
Exemple pratique
Sous quelle forme se
prsentent les donnes
statistiques ?

Pour tudier la rpartition des terres
agricoles d'une rgion, on peut faire
l'inventaire des exploitations agricoles
(soit n leur nombre), et noter pour
chacune d'elles sa taille (en hectares).
L'ensemble des n exploitations s'appelle
la population statistique tudie ;
chacune des exploitations est un individu,
ou une unit statistique. La taille (en ha)
est la variable statistique (ou caractre)
tudie.
Les valeurs que peut prendre un caractre
s'appellent les modalits.

2. Les diffrents types de caractres
Un caractre (ou variable ) est une proprit
(caractristique) relative chacun des
individus de la population et sur laquelle on
veut faire porter l tude (c..d que lon
dcide dobserver et analyser). Il est soit
observ soit mesur.
Les caractres (ou variables) seront dsigns
par une lettre X, Y, . . .
Exemple : la couleur, le sexe, le poids, la taille, la
marque, le modle, l'espce, le prix, la surface,
etc.
Dans une mme tude statistique, on pourra
considrer plusieurs caractres simultanment
sur une mme population.
. Concepts de base

On distingue deux types de
caractres :

Les caractres qualitatifs.
(Qualit)
Les caractres quantitatifs
(Quantit)

2. Les diffrents types de caractres
Caractres qualitatifs
Un caractre est dit qualitatif
lorsquil prend des modalits non
numriques.
On dit quun caractre qualitatif est
nominal, si les valeurs ne peuvent
tre ni ordonnes ni ajoutes


. Concepts de base

Les oprations arithmtiques que l'on
peut raliser sur ce type de
variable sont relativement rduites
et se limitent au comptage des
effectifs par modalit (frquences
absolues) et au calcul de
pourcentage (frquences relatives)
et le mode.


Exemple 1

Nationalit : marocaine, allemande,
franaise.
Groupe sanguin : A, B, O, AB.
Exemple 2:
Classement dun groupe de 25 tudiants selon leur
ville de naissance) Les quatre modalits du
caractre ville de naissance sont






nominales, en plus, ils ne font objet daucun
classement hirarchique.


Si les modalits peuvent tre ordonnes
dans une graduation logique, selon une
hirarchie naturelle, mais ne peuvent
tre ajoutes, les individus de la
population tudie pour le caractre
retenu. (niveau hirarchique, intensit
dune douleur) on parle de caractre
qualitatif ordinal.
Les oprations autorises pour l'chelle
qualitative ordinale sont, en plus du
comptage par modalit (frquences
relatives , mode, mdiane..).


Exemples :
le stade dune maladie, les tailles pour
habits,..
les rponses lors dun sondage Les
modalits :pas du tout, un peu,
assez,beaucoup, la folie
Enqute ralise par une entreprise sur le
degr de satisfaction des consommateurs
concernant un produit. Le caractre : Degr
de satisfaction . Les modalits du caractre
satisfait, Assez satisfait,
Peu satisfait, Pas satisfait

Exemple

Niveau d tude : primaire,
secondaire, suprieur.
Etat mcanique dune Voiture :
mauvais, moyen, bon, excellent.

Caractres quantitatifs
Un caractre est dit quantitatif sil est
mesurable.

La variable "surface" est
continue, alors que la
variable "nombre de chats"
est discrte.



Si le caractre quantitatif ne prend quun
nombre fini de valeurs, on dira de plus
quil est discret ou dnombrable.
En gnral il rsulte dun comptage et les
modalits sont des valeurs numriques
isoles.
Exemples : le nombre daccidents pour
une priode donne, le nombre denfants
par foyer, le nombre dtudiants inscrits en
bac, nombre denfants par famille, nombre
de jours de retard dun tudiant, .


Exemple : Une enqute auprs des habitants dun
quartier compos de 50 foyers rvle le nombre de
personne par foyer. Ces rsultats sont regroups
dans le tableaux suivant:






Si le caractre quantitatif peut prendre
toute les valeurs dans un intervalle donn
( lensemble de ses modalits nest pas
dnombrable), il sera dit continu.

En gnral, elle rsulte dune mesure.
Exemples : le poids, la taille, la dure, le
taux de glycmie, le rendement, la
surface, la dure, le salaire, lge,.

2. Les diffrents types de caractres
Dans le cas dun caractre quantitatif, lorsque le
nombre des modalits dun caractre quantitatif est
lev (suprieur 15), pour faciliter ltude et
linterprtation, on est amen regrouper les valeurs
en classes , rassemblant chacune des individus
prsentant des caractres similaires. Ce qui revient a
les rendre discrtes, les nouvelles modalits tant les
diffrentes classes.
Ce sont des intervalles du type .
Par exemple, si le caractre Notes obtenues par un
groupe d tudiants peut avoir comme modalits :
[0; 5[, [5; 7[, [7; 10[, [10; 14[, [14; 20].

. Concepts de base
Caractristiques dune classe
Une classe est un intervalle de la forme
[a
inf
; a
sup
[ ou
a
inf
est la borne infrieure de la classe
a
sup
est la borne suprieure de la classe
On appelle le centre de la classe ]a
inf
; a
sup
] le
milieu de lintervalle, qui est donn par:
c = (a
inf
+ a
sup
)/2
On appelle amplitude de la ]a
inf
; a
sup
] la
diffrence entre la borne suprieure de la
classe et la borne infrieure de la classe,
donne par: a = a
sup
- a
inf


Rcapitulatif
Pour les variables du questionnaire mdical ci-dessous, on
va donner la nature (Quantitative, Discrte, Continue) des
variables de 1 8:



3. Effectifs et frquences
Effectifs

N ou n : effectif total, i.e. le nombre dindividus
de lchantillon (ou de la population).

n
i
: effectif de la modalit i (resp. de la i
me
valeur,
resp. de la i
me
classe), i.e. le nombre dindividus
prsentant la modalit i (resp. prenant la i
me

valeur, resp. appartenant la i
me
classe).


. Concepts de base
3. Effectifs et frquences
Frquences

f
i
: frquence de la modalit i (resp. de la i
me

valeur, resp. de la i
me
classe), i.e. la proportion
des individus prsentant la modalit i (resp.
prenant la i
me
valeur, resp. appartenant la i
me

classe).

On a bien sr :
. Concepts de base

f
i
=
n
i
n
3. Effectifs et frquences
Frquences cumules

Si les valeurs du caractre sont ordonnables, i.e.
le caractre est qualitatif ordinal ou quantitatif, il
sera intressant de considrer les frquences
cumules.
On commence par classer les valeurs par ordre
croissant x
1
<x
2
<<x
p
(dans le cas continu on
ordonne les classes).
On pose alors :


. Concepts de base
i i
i
j
j i
f F f F

1
1

Effectifs cumuls,
Rsultat de l'addition, de proche en
proche, des effectifs d'une distribution
observe,
Effectifs cumuls croissants,
En commenant par le 1er :
N
1
= n
1
, N
2
= n
1
+ n
2
, ... , N
i
= n
1
+ n
2
+ ... + n
i

Effectifs cumuls dcroissants,
En commenant par le dernier :
N'
K
= n
K
, N'
K-1
= n
K
+ n
K-1
, ... , N
i
' = n
K
+ n
K-1
+ ... + n
i




Frquences cumules :
Rsultat de l'addition, de proche en
proche, des frquences d'une
distribution observe,
Frquences cumules croissantes
En commenant par le 1er :
F
1
= f
1
, F
2
= f
1
+ f
2
, ... , F
i
= f
1
+ f
2
+ ... + f
i
Frquences cumules dcroissantes
En commenant par le dernier :
F'
K
= f
K
, F'
K-1
= f
K
+ f
K-1
, ... , F'
i
= f
K
+ f
K-1
+ ... + f
i




Interprtation

Dans le cas discret, F
i
sinterprte comme
tant la proportion des individus pour
laquelle la valeur du caractre est
infrieure ou gale x
i
.

Dans le cas continu, F
i
s interprte
comme tant la proportion des individus
pour laquelle la valeur du caractre est
dans les i premires classes.

Pause-rflexion sur la partie
. Concepts de base
Flicitations
Vous avez suivi avec succs ce
module introductif :
Introduction et Gnralits
sur les statistiques
Fin
Introduction et Gnralits sur les statistiques

Vous aimerez peut-être aussi