Analyse Des Donnães

Introduction à l’analyse statistique des
données
1
Les travaux préalables à l’AD
 Il est important de suivre un certain nombre d’étapes avant de

démarrer l’AD
- Vérification des questionnaires
- Codage des questions
- Saisie informatique
- Nettoyage des données
- Le traitement des réponses manquantes
- Ajustement statistique des données
2
Le traitement des réponses manquantes:
 Substitution par une valeur neutre: cette valeur est généralement définie
comme la moyenne des réponses attribuées à la variable.
 Substitution par une valeur imputée: on tente de déduire sur la base des
données disponibles les réponses que les individus auraient pu fournir.
 Suppression d’individu: utilisée si les réponses manquantes sont trop
nombreuses.
 Suppression appariée: se contenter pour chaque calcul des répondants dont les
réponses s’avèrent complètes
3
Ajustement statistique des données :
 Pondération: Attribuer à des répondants ou à des variables

un poids reflétant son importance par rapport aux autres.
 Re-spécification de variables : Exemple en procédant à des
regroupements, à des calculs
 Changement d’échelle.
4
Les méthodes d’Analyse des données
 Il y a 3 familles de méthodes selon le nombre de variables prises en

compte dans l’analyse :
- L’analyse univariée qui consiste à examiner la distribution des
modalités de réponse par variable.
- L’analyse bivariée qui consiste à analyser la relation entre deux
variables
- L’analyse multivariée qui traite simultanément plusieurs variables.
5
Analyse univariée
 Elle consiste à enregistrer dans une distribution de fréquence le
nombre de réponses reçues pour chaque variable. Elle fournie :
 la fréquence des réponses en valeur absolue et en pourcentage
et la fréquence cumulée.
 leur représentation graphique.
 les statistiques associées à la distribution de fréquences: les
mesures de position centrale et les mesures de dispersion.
6
Avantages de l’analyse univariée
 Donner une vue d’ensemble des résultats.
 Détecter les erreurs éventuelles d’enregistrement des données.
 Identifier les points aberrants.
 Vérifier le caractère représentatif de l’échantillon.
 Identifier la structure de la distribution de la réponse et
déterminer le type de transformations et de regroupements des
réponses à adopter.
7
Analyse des tableaux obtenus
 Étape 1 : Analyse des non réponses

 Étape 2 : La description des données
 Étape 3 : Test d’inférence
8
Etape 1 : Analyse des non réponses
 Le nombre de non-réponses : traduit-il un embarras face à la
question ?
 Si elles ne présentent pas de sens particulier, il vaut mieux
éliminer les non-réponses de l'analyse en calculant les
pourcentages sur le nombre de réponses effectives.
 Certaines questions se retrouvent avec un nombre de « non-
réponses » important non pas parce que les gens n'ont pas su quoi
dire mais parce qu'elles ne leur ont pas été posées (voir le rôle des
questions filtres). Il faut donc en limiter le dépouillement aux
seuls répondants en filtrant les réponses.
9
Etape 2 : La description des données
 Analyse des mesures de tendance centrale (la ou les mesures

qui peuvent résumer la série d’observation par une seule
valeur)
 Analyse des mesures de dispersion (la variabilité des
observations autour de la tendance centrale)
10
Etape 3 : Test d’inférence
 Il s’agit de comparer les valeurs observées à une ou des valeurs
prédéterminées. Les résultats de l'enquête peuvent parfois être
comparés à ceux d'études identiques antérieures ou rapprochées
d'études menées par des organismes extérieurs.
 Les divergences éventuellement constatées posent le problème de
savoir si les écarts résultent d'une erreur d'échantillonnage ou ont
une cause plus profonde (comportement particulier de la
population étudiée).
11
Les méthodes d’AD : analyse univariée
Objectif Type de variable
Métrique Ordinale Nominale
Description Moyenne Médiane Mode

Tendance Ecart type Fractile Fréquence
centrale
Dispersion
Inférence Test de Test de Kolmogorov Test du Chi-
moyenne Smirnov deux
Analyse univariée cas d’un échantillon unique (Evrard et al, 1997)

12
Application sur SPSS: Distribution de fréquence
Pour obtenir les fréquences et les statistiques relatives à chaque variable :
 Etape 1: ANALYZE / DESCRIPTIVE STATISTICS / FREQUENCIES ➔ vous

obtenez la fenêtre de calcul de fréquence.
 Etape 2: Sélectionnez une ou plusieurs variables dans la partie gauche de l’écran et
cliquez ensuite sur la flèche pour les retenir comme les variables à analyser.
 Etape 3: Cliquez sur l’option STATISTICS pour sélectionner selon la nature de vos
données:
- Les mesures de position centrale: moyenne, mode, médiane.
- Les mesures de dispersion: maximum, minimum, variance, écart type
 Etape 4: Cliquez sur l’option CHARTS pour visualiser la distribution sous forme
graphique pour une meilleure interprétation.
 Etape 5: Cliquez sur CONTINUE et OK
13
Analyse bivariée
 Il s’agit d’un croisement de deux variables entre lesquelles il

pourrait y avoir une relation. Cette relation peut être
symétrique (on cherche à mesurer un indicateur de la liaison
entre les deux variables) ou dissymétrique (on cherche à
expliquer les variations de l’une des variables, dite variable
dépendante, par les variations de l’autre, dite variable
indépendante)
14
La démarche (test d’association)
 Etape 1 : Mettre en évidence l’existence d’une relation par
une procédure de test
 Etape 2 : Mesurer la force de la relation par un indicateur
d’association qui varie entre 0 et 1 c'est-à-dire allant d’une
association nulle à une association « parfaite »
 Etape 3 : Etudier sa direction (les variables étudiées varient-
elles dans le même sens ?) ou sa forme
15
Analyse bivariée
Type de mesure Deux mesures avec Une mesure avec échelle Deux mesures avec
échelle non métrique et une échelle métrique
métrique mesure avec échelle
non métrique
Type d’analyse Tableau croisé Comparaison de moyennes Corrélation ou
(test t ou ANOVA à un régression simple
facteur)
Tests statistiques Chi-deux t de student (deux t (corrélation)
moyennes) F (régression)
F (Anova) (deux moyennes
ou plus)
Forces de la V de Cramer (Eta)= r ou R
relation C coefficient de (t²/(t²+n1+n2-2))
contingence
Analyse bivariée selon types de mesure des variables testées
16
Le tri croisé (tableau de contingence)
 Le but du tri croisé est de faire ressortir des différences de

comportement dans la population.
 Ce type de croisement est très fréquent dans l’analyse des
résultats d’enquête.
 La signification du croisement doit être certifiée par le test du
Chi-deux.
17
Test du ²
 On pouvait voir dans l'exemple ci-dessus que 66 % des interviewés ayant un niveau d'étude compris entre 1 et
3 étaient abonnés à un quotidien. Ces pourcentages étaient respectivement de 59 % et 53 % pour les niveaux
d'étude 4-5 et 6.Y-a-t-il une réelle différence de comportement entre ces individus ou les variations
enregistrées dans les pourcentages ne sont-elles que le fruit du hasard de l'échantillonnage ?
 Pour faciliter la compréhension de la construction du ² (prononcer Khi 2), nous commencerons par
analyser l'apport d'information des diverses cases d'un tableau croisé puis nous verrons l'apport d'information
du tableau tout entier. Dans la pratique, les calculs doivent être menés dans l'ordre inverse ; en effet, c'est
uniquement dans la mesure où un tableau croisé apporte de l'information qu'on peut être amené à en faire
une étude case à case.
18
Règle de décision:
- H0: hypothèse d’indépendance: il n’y a pas une différance significative
entre …..
- H1:hypothése de dépendance: il y a une différance significative
entre…..
Remarque: le seuil de significativité représente le risque maximum que je suis prêt à
assumer si je rejette H0
- Si le p (risque d’erreur ) est très important >> 5%
J’accepte H0
Si X² calculé < X² tabulé => Accepte H0, risque de se tromper > 5 %
- Si le p (risque d’erreur ) est très faible < 5%

Je rejette H0 => les deux variables sont dépendants
225
Si X² calculé > X² tabulé => rejette H0, risque de se tromper < 5 %
19
La corrélation, mesure de liaison entre variables quantitatives :
(coefficient de corrélation linéaire de Pearson)
 Quand les variables mises en relation sont quantitatives, on peut

chercher à mesurer le lien qui les unit, dans quelle mesure elles
varient conjointement
 On calcule pour ce faire le coefficient de corrélation linéaire.
 Le calcul du coefficient (noté r est connu : r = COVxy / x y.
Plus il est proche de 1 plus les variables sont corrélées.
20
Application sur SPSS : Tableaux croisés
 Etape 1: ANALYZE / DESCRIPTIVE STATISTICS /
CROSSTABS ➔ vous obtenez la fenêtre de dialogue explorer.
 Etape 2 : Sélectionnez une variable et cliquez sur la variable du
haut pour indiquer qu’il s’agit d’une variable dépendante.
Sélectionnez ensuite une deuxième variable et cliquez sur la flèche
du milieu pour indiquer qu’il s’agit de la variable
indépendante.
 Etape 3: Cliquez sur l’option STATISTICS pour sélectionner le
test du Khi deux et les tests d’association. Cliquez sur Continue
 Etape 4: Cliquez sur OK
21
Application SPSS : Analyse de corrélation
 Etape 1: ANALYZE / CORRELATE/ BIVARIATE

 Etape 2: Glissez les deux variables à analyser dans la zone
VARIABLES
 Etape 3: Sélectionnez le coefficient de corrélation
(Pearson)
 Etape 4: Cliquez sur OK
22
Calcul de l’erreur d’échantillonnage
 Ce calcul n'est (en principe) faisable que pour les échantillons
tirés au sort par des méthodes probabilistes. Au lieu de
considérer les valeurs trouvées, on considère les intervalles
(intervalles de confiance) dans lesquels les valeurs devraient
se situer.
23
Calcul de l’erreur d’échantillonnage
 On utilise la même formule que pour déterminer la taille
d'un échantillon avec un seuil de confiance pré – établi, la
proportion observée sur l'échantillon et sa taille n.
pq
e =t
n
24
La rédaction du rapport d'enquête
Le rapport remis au client présente et analyse les résultats obtenus. Il doit être
concis, clair et complet ; il comprend les parties suivantes :
➢ Présentation de l'enquête.
Quel était l'objectif de l'étude, quelles recherches documentaires ont été faites,
quelles orientations de travail ont été retenues ou éliminées et pourquoi, quelle
méthodologie (description de l'échantillon et de la méthode d'enquête), a été
retenue et pourquoi.
➢ Présentation et interprétation des résultats.
Ce n'est pas au client de se « débrouiller » avec ses résultats. C'est à l'organisme

chargé du sondage d'en tirer les grandes conclusions. Toutefois certaines
précautions s’imposent: Il est inutile de présenter des tableaux compliqués (ils ne
seront pas lus) ou de vouloir tout mettre; l'essentiel doit être dit pour être
retenu mais le superflu doit être rejeté en annexes. La présentation de graphiques
plutôt que de tableaux de chiffres est souhaitable.
25
➢ Conclusions
Pour être utile, un rapport doit être une base de travail. Il doit
proposer des décisions, émettre des recommandations.
➢ Annexes
On doit retrouver là entre autres le guide d’entretien, la grille

d’analyse, le questionnaire et les résultats détaillés (même s'ils ne
l'intéressent pas vraiment, le client a le droit de les posséder).
26

Analyse Des Donnães

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Donnães

Transféré par

Droits d'auteur :

Formats disponibles

Introduction à l’analyse statistique des

 Il est important de suivre un certain nombre d’étapes avant de

 Pondération: Attribuer à des répondants ou à des variables

 Il y a 3 familles de méthodes selon le nombre de variables prises en

 Étape 1 : Analyse des non réponses

 Analyse des mesures de tendance centrale (la ou les mesures

Métrique Ordinale Nominale

Description Moyenne Médiane Mode

Analyse univariée cas d’un échantillon unique (Evrard et al, 1997)

 Etape 1: ANALYZE / DESCRIPTIVE STATISTICS / FREQUENCIES ➔ vous

 Il s’agit d’un croisement de deux variables entre lesquelles il

Analyse bivariée selon types de mesure des variables testées

 Le but du tri croisé est de faire ressortir des différences de

- Si le p (risque d’erreur ) est très faible < 5%

 Quand les variables mises en relation sont quantitatives, on peut

 Etape 1: ANALYZE / CORRELATE/ BIVARIATE

➢ Présentation et interprétation des résultats.

Ce n'est pas au client de se « débrouiller » avec ses résultats. C'est à l'organisme

On doit retrouver là entre autres le guide d’entretien, la grille

Vous aimerez peut-être aussi