Vous êtes sur la page 1sur 9

CHAPITRE I : TRAITEMENTS ELEMENTAIRES

ET ANALYSES DES TABLEAUX UNIDIMENSIONNELS

Les traitements élémentaires portent sur les opérations de tri et de présentation des
informations. Ils permettent d’effectuer les analyses statistiques de base, c’est-à-dire les
analyses unidimensionnelles ou univariées dont l’objet est d’obtenir les résultats simples
concernant le phénomène étudié en vue de le comprendre et saisir sa portée.

I ) DEPOUILLEMENT DES DONNEES

Le dépouillement des questionnaires consiste à passer des tableaux de collecte aux tableaux
de distribution par l’intermédiaire d’opérations de tri. Le tri peut être à plat ou croisé ; il peut
être complet ou filtré.

Le tri à plat est la méthode de dépouillement la plus simple. Il permet de construire des
tableaux de distribution unidimensionnelle :

Nbre d’enfants (xi) Effectif des ménages (ni)


1 n1
2 n2
3
4
5 n5
Total n

Tableau unidimensionnel mettant en relation l’effectif


des ménages en fonction du nombre d’enfants à charge

Le tri croisé permet de construire des tableaux de distribution bi ou multidimensionnelle.


Selon la nature de l’information, on obtient des tableaux d’effectifs dits de contingence, ou
des tableaux de valeurs :

Marq / Qual Puissance Vitesse Confort Non réponse Total


Renault 4 2 3 1 10
Peugeot 2 2 1 0 5
Mercedes 5 2 1 0 8
Ford 4 1 1 0 6
Fiat 0 0 0 1 1
Total 15 7 6 2 30
Tableau de contingence mettant en relation les variables Marque du véhicule / Qualité

1
Marque Prix d’acquisition moy
Renault 150
Peugeot 240
Mercedes 360
Ford 180
Fiat 120
Total 210
Tableau de valeurs moyennes

Le tri est complet lorsque le dépouillement s’applique à la totalité des questionnaires.

Il est filtré si le dépouillement est limité à une partie déterminée des questionnaires. Le filtre
s’impose lorsqu’on veut calculer des paramètres statistiques en fonction de ceux qui
répondent à un critère donné. Dans ce cas, le questionnaire doit comporter des questions
appelées questions filtres.

Par ailleurs, il peut être utile dans le but d’améliorer la présentation des tableaux, d’éclater des
modalités, de les regrouper ou de les supprimer.

II ) ANALYSES STATISTIQUES UNIDIMENSIONNELLES

Elles traitent d’une seule variable et permet d’effectuer deux types d’analyses : une analyse
descriptive graphique ou numérique et une analyse explicative au moyen des tests
d’hypothèses et la recherche de lois statistiques.

1 ) Analyse unidimensionnelle de variables qualitatives nominales

Les variables qualitatives nominales sont les variables qui offrent le moins de possibilités en
matière de traitement statistique. Seule la fonction de distribution (des effectifs ou des
fréquences) peut être étudiée ; la fonction de répartition n’a aucun sens et le calcul de
paramètre est impossible :

Exemple : Distribution selon les marques de véhicules utilisés

Marque (xi) Effectif (ni) Fréquence (fi)


Renault 28 0,233
Peugeot 17 0,141
Mercedes 22 0,183
Ford 18 0,15
Fiat 17 0,141
Autre 18 0,15
Total 120 1

2
1.1- Analyse descriptive

Prend deux formes :

- Description graphique : s’effectue au moyen d’un diagramme circulaire, diagramme en


barres, en tuyaux d’orgue, etc.

- Description numérique : se limite à la détermination de la valeur modale ; dans notre


exemple, le mode correspond à la marque Renault.

1.2- Analyse explicative

Consiste à faire des tests d’hypothèse qui sont, dans le cas de variables nominales, des tests
non paramétriques d’ajustement ou d’adéquation opérés à l’aide de la loi χ2. Dans notre
exemple, on cherche à savoir s’il n’y a pas de différence significative entre les différentes
marques utilisées ou au contraire une marque se distingue des autres.

- Hypothèses :

Ho : il n’y a pas de différence entre les marques ou autrement dit il n’y a pas de
différence entre la distribution expérimentale et la distribution théorique ou uniforme ; c’est
l’hypothèse nulle.

H1 : la différence est significative ; c’est l’hypothèse alternative.

- Règle de décision du Test du χ2 :

On calcule : dc = (niob – nith)2


nith

Cette statistique suit une loi χ2k-1 sous Ho ; k étant le nombre de modalités de la variable.

On détermine ensuite une valeur critique dT à partir de la table du χ2 au niveau de


confiance requis (généralement 95 ou 99%).

Si dc < dT alors on accepte Ho et on convient donc de l’absence de différence


significative entre les distributions.

Pour l’exemple traité :

3
xi niob nith (niob – nith)2 / nith
Renault 28 20 3,2
Peugeot 17 20 0,45
Mercedes 22 20 0,2
Ford 18 20 0,2
Fiat 17 20 0,45
Autre 18 20 0,2
Total 120 120 4,7

Ainsi, dc = 4,7.

Et P (χ26-1 < dT) = 0,95 ; à partir de la table dT = 11,1.

Donc dc < dT On retient Ho.

2 ) Analyse unidimensionnelle de variables qualitatives ordinales

Les variables qualitatives ordinales offrent également peu possibilités en matière d’analyse
statistique. Cependant, en plus de la fonction de distribution on peut construire la fonction de
répartition qui permet de faire des interprétations en termes de cumul.

Exemple : Classement du délai d’obtention

Rang (xi) Effectif (ni) Fréquence (fi)


A 2 0,067
B 18 0,6
C 6 0,2
D 3 0,1
E 1 0,033
Total 30 1

2.1- Analyse descriptive

- Description graphique : s’effectue au moyen des diagrammes précédents (circulaire, en


barres, en tuyaux d’orgue), en plus des diagrammes en escaliers correspondant à la fonction
de répartition.

- Description numérique : consiste à déterminer la valeur modale, ainsi que les quantiles dont
le calcul est fondé sur la notion de rang, particulièrement la médiane.

4
2.2- Analyse explicative

Le test non paramétrique du χ2 peut être appliqué dans les mêmes conditions que les variables
nominales. Néanmoins, on lui préfère le test spécifiquement conçu pour les variables
ordinales à savoir le test de Kolmogorov-Smirnov (qui n’impose pas la condition restrictive
d’avoir un effectif théorique au moins égal à 5 pour chaque classe).

- Hypothèses :

Ho : il n’y a pas de différence entre les classements de la distribution expérimentale


comparée à la distribution théorique ; c’est l’hypothèse nulle.

H1 : la différence est significative ; c’est l’hypothèse alternative.

- Règle de décision du Test :

On calcule l’écart KSc en valeur absolue entre les fréquences cumulées


expérimentales et théoriques au niveau de chaque modalité et on retient l’écart maximum.

On détermine ensuite une valeur critique KST à partir de la table de Kolmogorov-


Smirnov au seuil requis (5 ou 1%).

Si KSc < KST alors on accepte Ho et on convient donc de l’absence de différence


significative entre les distributions.

Pour l’exemple précédent :

xi Fiob Fith | Fiob – Fith |


A 0,2 0,2 0
B 0,575 0,4 0,175
C 0,75 0,6 0,15
D 0,9 0,8 0,1
E 1 1 0
Total - - -

Ainsi, l’écart maximum est KSc = 0,175.

Et P (KS < KST) = 0,05 ; à partir de la table KST = 1,36/80 = 0,145.

Donc KSc > KST On rejette Ho.

5
3 ) Analyse unidimensionnelle de variables quantitatives scalées

Dans ce type d’analyse, on retient généralement l’échelle d’Osgood conçue comme étant
d’intervalles. On estime en effet, que les distances entre les points sont relativement égales.
Notons que l’origine des échelles est totalement arbitraire ; on peut prendre 1 à 5 ou -2 à 2 ou
toute autre échelle, les résultats seront différents mais leur signification reste la même.

Exemple : Etude de l’efficacité d’un produit

Xi Code xi ni ECC xi . ni (xi – )2 . ni


Très ineff 1 15 15 15 41,83
Assez ineff 2 34 49 68 15,26
Juste eff 3 19 68 57 2,07
Assez eff 4 10 78 40 17,69
Très eff 5 12 90 60 65,15
Total - 90 - 240 142

3.1- Analyse descriptive

- Description graphique : diagramme en bâtons et diagramme cumulatif en escaliers.

- Description numérique : on détermine,

le mode
la médiane
la moyenne arithmétique
la quasi-variance

3.2- Analyse explicative

On peut effectuer des tests d’ajustement ou d’adéquation comme dans le cas de variables
nominales, mais en plus il y a possibilité de faire des tests paramétriques.

a- Test d’ajustement du χ2

- Hypothèses :

Ho : il n’y a pas de différence significative entre les appréciations de l’efficacité du


produit (hypothèse nulle).

H1 : la différence est significative (hypothèse alternative).

- Règle de décision du Test du χ2 :

6
Si dc < dT alors on accepte Ho et on convient donc de l’absence de différence significative
entre les distributions.

Pour l’exemple traité :

xi Code xi niob nith (niob – nith)2 / nith


Très ineff 1 15 18 0,5
Assez ineff 2 34 18 14,22
Juste eff 3 19 18 0,05
Assez eff 4 10 18 3,55
Très eff 5 12 18 2
Total 90 90 20,32

dT χ2 4

P (χ25-1 < dT) = 0,95 ; la table du χ2 permet de lire dT = 9,49.

Donc dc > dT On rejette Ho, la différence est significative.

b- Test de signification de la moyenne

La moyenne théorique étant m = 3 (c’est-à-dire juste efficace), on se demande si l’attitude


moyenne est bien l’appréciation juste efficace au niveau de confiance de 95% (ou 99%).

Si n ≥ 30 alors ẋ N (m ; σ/√n) ou N (m ; s/√n)

Quand n < 30 ; ẋ St(n-1)

Le problème consiste à construire un intervalle [a ; b] autour de m et voir si  est contenu


dans cet intervalle auquel cas on retiendra l’hypothèse H0 d’une attitude moyenne ‘neutre’.

Tests unidirectionnels (ou unilatéraux) : on résout P (T < t) = niv de conf

Test à gauche : H0 : m = m0
H1 : m < m0

a = m0 – t σ/√n

Test à droite : H0 : m = m0
H1 : m > m0

b = m0 + t σ/√n

7
Test bidirectionnel (ou bilatéral) : on résout P (-t < T < t) = niv de conf

H0 : m = m0
H1 : m ≠ m0

a = m0 – t σ/√n
b = m0 + t σ/√n

4 ) Analyse unidimensionnelle de variables quantitatives numériques

Les mêmes analyses concernant les variables scalées peuvent être adaptées aux variables
numériques.

4.1- Analyse descriptive

- Description graphique :

Variable discrète : diagramme en bâtons et diagramme cumulatif en escaliers

Variable continue : histogramme et courbe cumulative continue.

- Description numérique : paramètres de tendance centrale, de dispersion, etc.

4.2- Analyse explicative

Il est possible d’effectuer les différents tests décrits précédemment. On peut également
vérifier si les distributions étudiées suivent telle ou telle loi statistique, en particulier la loi
normale.

4.3- Analyse de la normalité de la distribution

a- Indicateurs de normalité

Il est souvent intéressant de calculer ces indicateurs pour faire un premier rapprochement
entre les distributions empirique et gaussienne. Lorsque ces paramètres sont suffisamment
proches de 0, l'hypothèse de compatibilité avec la loi normale peut être retenue.

- Coefficients d’asymétrie (Skewness en anglais)

Pour apprécier la forme d’une distribution, il est courant de calculer le coefficient d’asymétrie
ou de dissymétrie de Fisher :
γ1 = µ3
σ3

Si γ1 = 0 distribution symétrique : les xi de part et d’autre de x s’étalent

8
de la même distance
γ1 > 0 distribution asymétrique à droite : les xi s’étalent à droite
γ1 < 0 distribution asymétrique à gauche : les xi s’étalent à gauche.

Il est possible également d’apprécier la forme par le coefficient quartile de Yule :

g = (Q3 – Me) - (Me – Q1)


(Q3 – Me) + (Me – Q1)

g = 0 distribution symétrique
g > 0 distribution asymétrique à droite
g < 0 distribution asymétrique à gauche.

- Coefficients d’aplatissement (Kurtosis en anglais)

Dans le cas de l’aplatissement, on utilise le coefficient de Fisher suivant :

γ2 = µ4 - 3
σ4

γ2 = 0 distribution normalement aplatie


γ1 > 0 distribution moins aplatie
γ1 < 0 distribution plus aplatie.

b- Droite de Henri

Une autre technique graphique, pour établir la normalité, consiste à comparer les distributions
de deux ensembles de données. Il s’agit de construire la droite de Henry d’équation :

H = Xi – m
σ

Soit une droite de la forme : a Xi + b

La méthode se déroule en trois étapes :

- de trier de manière croissante les données de la distribution xi

- associer à chaque valeur xi, la fonction de répartition empirique Fi

- déterminer, à partir de la table de loi normale, les quantiles successifs ti d'ordre Fi

Si les données sont compatibles avec la loi normale, les points ti seront alignés par rapport à
la droite de Henry tracée.

Vous aimerez peut-être aussi