Vous êtes sur la page 1sur 5

Population : C'est l'ensemble des individus sur lequel on effectue une analyse statistique.

Exemples de populations :
Les véhicules immatriculés en Algérie
La population des entreprises d'un pays
Les salariés d'une usine
Les habitants d'un quartier

Echantillon : C'est un ensemble d'individus prélevés dans une population déterminée (un sous
ensemble de la population)

Exemple d'échantillon : L'échantillon des véhicules immatriculés à Tamanrasset.

Caractère : C'est un trait présent chez tous les individus d'une population sur laquelle on effectue
une étude statistique (il est quantitatif ou qualitatif).
Un caractère est dit quantitatif s'il est mesurable.

Exemples de caractères quantitatifs :


La puissance d'un véhicule.
Le chiffre d'affaire d'une entreprise.
L'âge des salariés d'une usine.

Un caractère est dit qualitatif s'il est observable sans être mesurable.
Exemples de caractères qualitatifs :
La couleur de la carrosserie d'un véhicule
Le lieu de travail des habitants d'un quartier
La situation des salariés d'une usine

Variable statistique continue (Calcul fréquentiel) :


Les N observations doivent être regroupés en classes.
Chaque classe possède un intervalle définissant la classe.
Le nombre de classes (s’il n’est pas donné) peut être choisi de 2 manières par les formules
empiriques suivantes :
Formule de STURGE : Nombre de classes=1+3.3log10(N)
Formule de Yule : Nombre de classes=2.5N1/4
Puisque le nombre de classes est un entier naturel, on doit arrondir le résultat trouvé.
L’intervalle de classe est le rapport entre l’étendue et le nombre de classes.
Attention : on doit utiliser le même intervalle dans toutes les classes.

Les étapes à suivre : (pour chaque classe)


1. On compte l’effectif ni.
2. On calcule la fréquence Fi=100(ni/N).
3. On détermine la nouvelle variable qui est le centre de la classe.
Exemple : Le centre de classe de [2,12[ est 7
Le centre de classe de [2,13[ est 7.5
4. On détermine les fréquences cumulées (la dernière fréquence doit être égale à 100).
5. Dans le cas de besoin, on peut calculer la variable centrée, son carré ou sa valeur absolue.
6. On trace le diagramme des fréquences sous forme d’histogrammes en utilisant en ordonnées les
fréquences en %. Sur le même graphique, on trace la courbe de la fonction de répartition en
utilisant en ordonnées les fréquences cumulées. On peut tracer aussi l’allure inverse. La courbe
cumulative des fréquences doit représenter la fonction de répartition de la variable statistique.
7. Pour déterminer la médiane, on trace une droite à partir de y=50 % et lire M e en abscisses.
8. Pour déterminer le 1er quartile, on trace une droite à partir de y=25 % et lire Q1 en abscisses.
9. Pour déterminer le 3ème quartile, on trace une droite à partir de y=75 % et lire Q3 en abscisses.
10. La classe qui correspond à la plus grande fréquence est appelée classe modale.
11. La classe qui correspond au centre des observations (50 %) est appelée classe de la médiane.
12. La classe qui correspond au 1/4 des observations (25 %) est appelée classe du 1 er quartile.
13. La classe qui correspond au 3/4 des observations (75 %) est appelée classe du 3ème quartile.
PARAMETRES CARACTERISTIQUES
Le but de l'étude statistique est aussi de résumer des données par des paramètres.
Il existe 3 types de paramètres :
- Paramètres de position (ou de tendance centrale)
- Paramètres de dispersion
- Paramètres de forme

Paramètres de position :
Les paramètres de position (mode, médiane, moyenne … etc) permettent de savoir autour de quelles
valeurs se situent les valeurs d'une variable statistique.

Le mode (Mo) est la variable qui admet la plus grande fréquence :


Pour une variable quantitative continue, on parle de classe modale (classe dont la fréquence est
maximale).
Pour une variable quantitative continue et en tenant compte des fréquences des 2 classes
adjacentes, le mode est déterminé par la méthode suivante :

= =

Mo = xi + (xi + 1 – xi).

Lorsque les classes adjacentes à la classe modale ont des fréquences égales, le mode coïncide avec
le centre de la classe modale.
Le mode dépend beaucoup de la répartition en classes.
Une variable statistique peut présenter plusieurs modes : on dit alors qu'elle est plurimodale.
(Existence de plusieurs sous-populations, donc l'hétérogénéité de la population étudiée).

La médiane (Me) :
La médiane Me est telle que l'effectif des observations dont les variables sont inférieures à Me est
égal à l'effectif des observations dont les variables sont supérieures à Me.
Cette définition n'a de sens que si la série est ordonnée. Me est donc le centre de la série.

Détermination pratique de la médiane :


La fréquence cumulée est Fc1=42,8 % pour X1 = 2.
La fréquence cumulée est Fc2=64,6 % pour X2 = 3.
L'intervalle [2,3[ est appelé intervalle médian ou classe de la médiane.
Dans l'intervalle médian, la médiane est calculée de la façon suivante :
La médiane doit correspondre à Fc=50 %
On obtient donc : La différence Fc2-Fc1=21.8 % correspond à la différence X2-X1=1
7.2 % correspond donc 7.2/(21.8(1))=0.33
Donc Me=X1+0.32=2.33
Autre méthode : 14.6 % correspond donc 14.6/(21.8(1))=0.67
Donc Me=X2-0.67=2.33
C’est-à-dire le 0.01 % qui est le 1 % de l’intervalle de la fréquence (1) correspond à 0.218 % qui est le
1 % de la différence des fréquences cumulées (21.8 %)
La médiane ne dépend que de l'ordre des variables, elle n'est donc pas influencée par les grandeurs
des observations.
La médiane partage l'histogramme des fréquences en 2 parties d'aires égales.

𝐧𝐢𝐗𝐢
La moyenne : d’une façon générale =∑𝐧𝐢=𝟏 𝐍
: est la moyenne arithmétique des variables pondérées par les effectifs
N : est le nombre total d’effectifs
ni : sont les effectifs partiels (dans le cas d’une série donnée sous cette forme : variable continue)
ni=1 dans le cas d’une série de variables discrètes ou sans répétitions
Dans tous les cas : N=∑𝐧𝐢=𝟏 𝒏𝒊
La moyenne ne se définit que pour une variable statistique quantitative.

Paramètres de dispersion :
Les paramètres de dispersion (étendue, intervalle interquartile … etc) sont calculés pour les variables
statistiques quantitatives.
Etendue :
L'étendue ω de X est la différence entre la plus grande valeur de X et la plus petite valeur de X.
E = Xmax – Xmin

Quartiles :
Pour une variable statistique quantitative réelle continue X, on appelle quartiles les nombres réels
Q1, Q2, Q3, pour lesquels les fréquences cumulées de X sont respectivement 0,25, 0,50, 0,75. Ce sont
les valeurs pour lesquelles l'ordonnée de la courbe cumulative des fréquences est respectivement
égale à 0,25, 0,50, 0,75. Les quartiles partagent l'étendue en quatre intervalles qui ont le même
effectif.
Le deuxième quartile, Q2, est égal à la médiane.
L'intervalle interquartile : est la différence entre les valeurs du 3ème et du 1er quartile : Q3 – Q1.
L'intervalle [Q1, Q3] contient 50 % des valeurs de X.

Déciles et centiles :
Les 9 déciles sont les nombres réels qui partagent l'étendue en 10 intervalles de même effectif.
Les 99 centiles sont les nombres réels qui partagent l'étendue en 100 intervalles de même effectif.

Ecart absolu moyen :


On appelle écart absolu moyen de X la moyenne arithmétique des valeurs absolues des écarts de X
à sa moyenne :
𝐧𝐢│𝐗𝐢− │
Em= ∑𝐧𝐢=𝟏 𝐍
Variance et écart-type :
On appelle variance de X, la moyenne arithmétique des carrés des écarts de X à sa moyenne :

𝐧𝐢(𝐗𝐢− )²
V(X)= Ϭ2(X)=∑𝐧𝐢=𝟏 𝐍

On appelle écart-type de X la racine carrée de la variance V(X), il est noté Ϭ(X)


Pour N>30, il vaut mieux retrancher 1 de N et prendre N-1 au lieu de N seulement dans le cas d’une
variable non continue.
La variance est toujours un nombre réel positif. En effet, c'est une somme de carrés.
La variance est nulle si et seulement si X possède une seule valeur.

Le coefficient de variation : est un nombre sans dimension qui permet de comparer deux variables
statistiques de natures différentes, il est égal à Ϭ(X)/ , il est donné en % et peut être supérieur à 100 %.

Moments :
Soit X une variable statistique quantitative réelle. On appelle moment d'ordre r de X, la quantité :

mr = ni xi r

Pour r = 0 : m0 = 1.
Pour r = 1 : m1 = . Le moment d'ordre 1 est la moyenne.
Pour r = 2 : m2 = La moyenne de
On appelle moment centré d'ordre r de X, le moment d’ordre r en utilisant la variable centrée X –
il est noté par µr

Pour r = 0 : µ0 = 1.
Pour r = 1 : µ1 = 0.
Pour r = 2 : µ2 = Ϭ2(X) = m2 – m1 2. Le moment centré d'ordre 2 est la variance.
Centrer et réduire une variable statistique quantitative X consiste la remplacer par Ϭ(X) :
X – pour la centrer (moyenne 0)
Diviser par Ϭ(X) pour la réduire (écart-type 1).
Par exemple, si nous considérons la variable statistique continue théorique de Gauss :

h (x) = e

Sa moyenne est 0 et son écart-type est 1 : c'est une variable centrée réduite et de fréquence associée
est appelée la courbe en cloche, ou courbe de Gauss, ou courbe de la loi normale (allure
symétrique).

Paramètres de forme :
On définit les paramètres de forme pour une variable statistique quantitative, discrète ou continue,
à valeurs réelles.

Coefficient d'asymétrie :
Il existe plusieurs coefficients d'asymétrie. Les principaux sont les suivants.

Le coefficient P d'asymétrie de Pearson fait intervenir le mode M o quand il existe, il est définie par :

avec s(X) = Ϭ(X)

Le coefficient Y d'asymétrie de Yule fait intervenir la médiane et les quartiles, il est défini par :

Le coefficient F d'asymétrie de Fisher fait intervenir les moments centrés, il est défini par :

=
avec s3(X) = Ϭ3(X)

On utilise souvent un coefficient d'asymétrie β1 de Pearson basé sur les moments centrés : µ32/µ23
Ce coefficient d'asymétrie est toujours positif.
Il est nul pour une distribution à densité de fréquence symétrique, telle la loi de Gauss.

Coefficient d'aplatissement :
Le coefficient d'aplatissement de Pearson est β 2 =

Le coefficient d'aplatissement de Yule est F 2 = – 3.


Variable statistique à deux dimensions :
Covariance :
Pour une variable statistique quantitative à deux dimensions, on définit la covariance de X et Y par
l'expression :
𝐧𝐢(𝐗𝐢− )(𝐘𝐢−Ȳ)
Cov(X,Y)=∑𝐧
𝐢=𝟏 𝐍

On remarque que la variance a la même dimension qu'une variance.


D'ailleurs, nous avons Cov (X,X) = Ϭ2 (X) et Cov (Y,Y) = Ϭ2 (Y).

Corrélation linéaire :
En présence d'une distribution statistique de deux variables (X,Y) et dans certains cas, on peut poser
la question suivante : La connaissance d'une variable X apporte-t-elle une information
supplémentaire sur la variable Y ?
La liaison entre X et Y s'apprécie par la mesure de la corrélation (relation de dépendance).
Soient X et Y des variables réelles quantitatives, la corrélation linéaire est donnée par le coefficient :
r(X,Y)=Cov(X,Y)/(Ϭ(X)Ϭ(Y)) avec r(X,Y) compris entre -1 et 1, il est donné en %.
Si X et Y sont indépendantes, leur covariance est nulle, donc r(X,Y) nul.

ZEUDMI

Vous aimerez peut-être aussi