Vous êtes sur la page 1sur 26

Introduction à l’analyse statistique des

données

1
Les travaux préalables à l’AD

 Il est important de suivre un certain nombre d’étapes avant de


démarrer l’AD
- Vérification des questionnaires
- Codage des questions
- Saisie informatique
- Nettoyage des données
- Le traitement des réponses manquantes
- Ajustement statistique des données

2
Le traitement des réponses manquantes:

 Substitution par une valeur neutre: cette valeur est généralement définie
comme la moyenne des réponses attribuées à la variable.
 Substitution par une valeur imputée: on tente de déduire sur la base des
données disponibles les réponses que les individus auraient pu fournir.
 Suppression d’individu: utilisée si les réponses manquantes sont trop
nombreuses.
 Suppression appariée: se contenter pour chaque calcul des répondants dont les
réponses s’avèrent complètes

3
Ajustement statistique des données :

 Pondération: Attribuer à des répondants ou à des variables


un poids reflétant son importance par rapport aux autres.
 Re-spécification de variables : Exemple en procédant à des
regroupements, à des calculs
 Changement d’échelle.

4
Les méthodes d’Analyse des données

 Il y a 3 familles de méthodes selon le nombre de variables prises en


compte dans l’analyse :
- L’analyse univariée qui consiste à examiner la distribution des
modalités de réponse par variable.
- L’analyse bivariée qui consiste à analyser la relation entre deux
variables
- L’analyse multivariée qui traite simultanément plusieurs variables.

5
Analyse univariée
 Elle consiste à enregistrer dans une distribution de fréquence le
nombre de réponses reçues pour chaque variable. Elle fournie :
 la fréquence des réponses en valeur absolue et en pourcentage
et la fréquence cumulée.
 leur représentation graphique.
 les statistiques associées à la distribution de fréquences: les
mesures de position centrale et les mesures de dispersion.

6
Avantages de l’analyse univariée
 Donner une vue d’ensemble des résultats.
 Détecter les erreurs éventuelles d’enregistrement des données.
 Identifier les points aberrants.
 Vérifier le caractère représentatif de l’échantillon.
 Identifier la structure de la distribution de la réponse et
déterminer le type de transformations et de regroupements des
réponses à adopter.

7
Analyse des tableaux obtenus

 Étape 1 : Analyse des non réponses


 Étape 2 : La description des données
 Étape 3 : Test d’inférence

8
Etape 1 : Analyse des non réponses
 Le nombre de non-réponses : traduit-il un embarras face à la
question ?
 Si elles ne présentent pas de sens particulier, il vaut mieux
éliminer les non-réponses de l'analyse en calculant les
pourcentages sur le nombre de réponses effectives.
 Certaines questions se retrouvent avec un nombre de « non-
réponses » important non pas parce que les gens n'ont pas su quoi
dire mais parce qu'elles ne leur ont pas été posées (voir le rôle des
questions filtres). Il faut donc en limiter le dépouillement aux
seuls répondants en filtrant les réponses.

9
Etape 2 : La description des données

 Analyse des mesures de tendance centrale (la ou les mesures


qui peuvent résumer la série d’observation par une seule
valeur)
 Analyse des mesures de dispersion (la variabilité des
observations autour de la tendance centrale)

10
Etape 3 : Test d’inférence
 Il s’agit de comparer les valeurs observées à une ou des valeurs
prédéterminées. Les résultats de l'enquête peuvent parfois être
comparés à ceux d'études identiques antérieures ou rapprochées
d'études menées par des organismes extérieurs.
 Les divergences éventuellement constatées posent le problème de
savoir si les écarts résultent d'une erreur d'échantillonnage ou ont
une cause plus profonde (comportement particulier de la
population étudiée).

11
Les méthodes d’AD : analyse univariée
Objectif Type de variable

Métrique Ordinale Nominale

Description Moyenne Médiane Mode


Tendance Ecart type Fractile Fréquence
centrale
Dispersion
Inférence Test de Test de Kolmogorov Test du Chi-
moyenne Smirnov deux

Analyse univariée cas d’un échantillon unique (Evrard et al, 1997)


12
Application sur SPSS: Distribution de fréquence
Pour obtenir les fréquences et les statistiques relatives à chaque variable :

 Etape 1: ANALYZE / DESCRIPTIVE STATISTICS / FREQUENCIES ➔ vous


obtenez la fenêtre de calcul de fréquence.
 Etape 2: Sélectionnez une ou plusieurs variables dans la partie gauche de l’écran et
cliquez ensuite sur la flèche pour les retenir comme les variables à analyser.
 Etape 3: Cliquez sur l’option STATISTICS pour sélectionner selon la nature de vos
données:
- Les mesures de position centrale: moyenne, mode, médiane.
- Les mesures de dispersion: maximum, minimum, variance, écart type

 Etape 4: Cliquez sur l’option CHARTS pour visualiser la distribution sous forme
graphique pour une meilleure interprétation.
 Etape 5: Cliquez sur CONTINUE et OK

13
Analyse bivariée

 Il s’agit d’un croisement de deux variables entre lesquelles il


pourrait y avoir une relation. Cette relation peut être
symétrique (on cherche à mesurer un indicateur de la liaison
entre les deux variables) ou dissymétrique (on cherche à
expliquer les variations de l’une des variables, dite variable
dépendante, par les variations de l’autre, dite variable
indépendante)

14
La démarche (test d’association)
 Etape 1 : Mettre en évidence l’existence d’une relation par
une procédure de test
 Etape 2 : Mesurer la force de la relation par un indicateur
d’association qui varie entre 0 et 1 c'est-à-dire allant d’une
association nulle à une association « parfaite »
 Etape 3 : Etudier sa direction (les variables étudiées varient-
elles dans le même sens ?) ou sa forme

15
Analyse bivariée
Type de mesure Deux mesures avec Une mesure avec échelle Deux mesures avec
échelle non métrique et une échelle métrique
métrique mesure avec échelle
non métrique
Type d’analyse Tableau croisé Comparaison de moyennes Corrélation ou
(test t ou ANOVA à un régression simple
facteur)
Tests statistiques Chi-deux t de student (deux t (corrélation)
moyennes) F (régression)
F (Anova) (deux moyennes
ou plus)
Forces de la V de Cramer (Eta)= r ou R
relation C coefficient de (t²/(t²+n1+n2-2))
contingence

Analyse bivariée selon types de mesure des variables testées

16
Le tri croisé (tableau de contingence)

 Le but du tri croisé est de faire ressortir des différences de


comportement dans la population.
 Ce type de croisement est très fréquent dans l’analyse des
résultats d’enquête.
 La signification du croisement doit être certifiée par le test du
Chi-deux.

17
Le tri croisé (tableau de contingence)
Test du ²

 On pouvait voir dans l'exemple ci-dessus que 66 % des interviewés ayant un niveau d'étude compris entre 1 et
3 étaient abonnés à un quotidien. Ces pourcentages étaient respectivement de 59 % et 53 % pour les niveaux
d'étude 4-5 et 6.Y-a-t-il une réelle différence de comportement entre ces individus ou les variations
enregistrées dans les pourcentages ne sont-elles que le fruit du hasard de l'échantillonnage ?
 Pour faciliter la compréhension de la construction du ² (prononcer Khi 2), nous commencerons par
analyser l'apport d'information des diverses cases d'un tableau croisé puis nous verrons l'apport d'information
du tableau tout entier. Dans la pratique, les calculs doivent être menés dans l'ordre inverse ; en effet, c'est
uniquement dans la mesure où un tableau croisé apporte de l'information qu'on peut être amené à en faire
une étude case à case.

18
Le tri croisé (tableau de contingence)
Règle de décision:
- H0: hypothèse d’indépendance: il n’y a pas une différance significative
entre …..
- H1:hypothése de dépendance: il y a une différance significative
entre…..
Remarque: le seuil de significativité représente le risque maximum que je suis prêt à
assumer si je rejette H0
- Si le p (risque d’erreur ) est très important >> 5%
J’accepte H0
Si X² calculé < X² tabulé => Accepte H0, risque de se tromper > 5 %

- Si le p (risque d’erreur ) est très faible < 5%


Je rejette H0 => les deux variables sont dépendants
225
Si X² calculé > X² tabulé => rejette H0, risque de se tromper < 5 %

19
La corrélation, mesure de liaison entre variables quantitatives :
(coefficient de corrélation linéaire de Pearson)

 Quand les variables mises en relation sont quantitatives, on peut


chercher à mesurer le lien qui les unit, dans quelle mesure elles
varient conjointement
 On calcule pour ce faire le coefficient de corrélation linéaire.
 Le calcul du coefficient (noté r est connu : r = COVxy / x y.
Plus il est proche de 1 plus les variables sont corrélées.

20
Application sur SPSS : Tableaux croisés
 Etape 1: ANALYZE / DESCRIPTIVE STATISTICS /
CROSSTABS ➔ vous obtenez la fenêtre de dialogue explorer.
 Etape 2 : Sélectionnez une variable et cliquez sur la variable du
haut pour indiquer qu’il s’agit d’une variable dépendante.
Sélectionnez ensuite une deuxième variable et cliquez sur la flèche
du milieu pour indiquer qu’il s’agit de la variable
indépendante.
 Etape 3: Cliquez sur l’option STATISTICS pour sélectionner le
test du Khi deux et les tests d’association. Cliquez sur Continue
 Etape 4: Cliquez sur OK

21
Application SPSS : Analyse de corrélation

 Etape 1: ANALYZE / CORRELATE/ BIVARIATE


 Etape 2: Glissez les deux variables à analyser dans la zone
VARIABLES
 Etape 3: Sélectionnez le coefficient de corrélation
(Pearson)
 Etape 4: Cliquez sur OK

22
Calcul de l’erreur d’échantillonnage
 Ce calcul n'est (en principe) faisable que pour les échantillons
tirés au sort par des méthodes probabilistes. Au lieu de
considérer les valeurs trouvées, on considère les intervalles
(intervalles de confiance) dans lesquels les valeurs devraient
se situer.

23
Calcul de l’erreur d’échantillonnage
 On utilise la même formule que pour déterminer la taille
d'un échantillon avec un seuil de confiance pré – établi, la
proportion observée sur l'échantillon et sa taille n.

pq
e =t
n

24
La rédaction du rapport d'enquête
Le rapport remis au client présente et analyse les résultats obtenus. Il doit être
concis, clair et complet ; il comprend les parties suivantes :

➢ Présentation de l'enquête.

Quel était l'objectif de l'étude, quelles recherches documentaires ont été faites,
quelles orientations de travail ont été retenues ou éliminées et pourquoi, quelle
méthodologie (description de l'échantillon et de la méthode d'enquête), a été
retenue et pourquoi.

➢ Présentation et interprétation des résultats.

Ce n'est pas au client de se « débrouiller » avec ses résultats. C'est à l'organisme


chargé du sondage d'en tirer les grandes conclusions. Toutefois certaines
précautions s’imposent: Il est inutile de présenter des tableaux compliqués (ils ne
seront pas lus) ou de vouloir tout mettre; l'essentiel doit être dit pour être
retenu mais le superflu doit être rejeté en annexes. La présentation de graphiques
plutôt que de tableaux de chiffres est souhaitable.
25
➢ Conclusions

Pour être utile, un rapport doit être une base de travail. Il doit
proposer des décisions, émettre des recommandations.

➢ Annexes

On doit retrouver là entre autres le guide d’entretien, la grille


d’analyse, le questionnaire et les résultats détaillés (même s'ils ne
l'intéressent pas vraiment, le client a le droit de les posséder).

26

Vous aimerez peut-être aussi