CH 5préparation Des Données

UNIVERSITÉ CHOUAÏB DOUKKALI
École Nationale de Commerce et de Gestion

(ENCG) - EL JADIDA
Professeur : H. El Bayed Sakalli

E-mail : hanaa.sakalli@gmail.Com
Niveau : Semestre 6
Année universitaire : 2019- 2020
Etude de marché, H. EL BAYED SAKALLI Page 1

(ENCG) - EL JADIDA
Le terrain étant achevé, le chargé d’étude se trouve avec une pile de questionnaires,
représentant une masse d’informations brute. Celle-ci doit être traitée, de manière à pouvoir
répondre clairement aux questions posées lors de la définition des objectifs. Les analyses
prennent des formes plus ou moins complexes.
Nous verrons dans ce chapitre les points suivant :
 Processus de préparation des données

 Vérification et édition des questionnaires
 Codage, transcription et nettoyage des données
 Ajustement statistique des données
 Classification des techniques statistiques

(ENCG) - EL JADIDA
1. Processus de préparation des données
2. Vérification et édition des questionnaires
Avant toute analyse, les données doivent être vérifiées très soigneusement et très strictement
de manière à éviter tout risque d’erreur lors du travail d’enregistrement des données. Cette
étape consiste en une relecture systématique de chaque questionnaire et en une vérification
de leur contenu. Elle Pour se faire, il s’agit de :
 Ne pas attendre la fin de la collecte de données

 Réponses suspectes (incohérences)
 Réponses difficiles à lire (questions ouvertes)
 Réponses multiples à une question à choix unique
 Questionnaires incomplets
 Respect des instructions

(ENCG) - EL JADIDA
 Pages manquantes
 Réception après date limite
 Répondant non éligible (âge p. ex.)
Objectif : améliorer l’exactitude des réponses
Solutions si trop de manques sont constatés sur le questionnaire :
Gros échantillons : éliminer le répondant (possibilité de biais)
Petits échantillons : contacter le répondant pour effectuer des corrections OU en

sélectionner un nouveau en respectant la méthode d’échantillonnage
3. Codage, transcription et nettoyage des données
A. Codage des questions
A ce stade il faut préparer les données recueillies de manière à ce qu’elles puissent être
traitées par l’ordinateur.
La codification consiste à traduire les données dans le langage qui permet le traitement sur
ordinateur. Le code doit regrouper sous une même rubrique les réponses reflétant une idée
commune. Toute codification entraîne une altération ou une simplification arbitraire des
réponses obtenues. Elle demeure cependant le passage obligé pour le traitement de grands
échantillons.
Pratiquement, l’analyste va associer un nombre à chaque réponse possible. Il s’agit de :
 Transformer les réponses en données quantifiables

 Identification des variables
 Identification des valeurs pour chaque variable
 Code plus élevé à valeur la plus positive :
oui = 2, non = 1
 Choix d’une ou plusieurs valeurs pour les données manquantes
Codage des questions non structurées (ouvertes)
Pour les questions ouvertes, elle est parfois plus problématique, surtout quand le nombre de
réponses possibles est grand ou mal connu au moment de l’enquête.

(ENCG) - EL JADIDA
Quand le nombre de réponses possibles est limité, il suffit d’établir une liste exhaustive avant
l’enquête. Au moment de l’encodage, il suffit d’attribuer le code correspondant à la liste
initiale.
Cette possibilité se présente lorsque le chercheur a, au cours de l’étude exploratoire et du pré-

test, pu établir une liste exhaustive des réponses possibles et dès lors les pré-codifier (par
exemple, pour des questions portant sur la « notoriété spontanée » car les marques ou
entreprises existantes sont connues et on peut associer un code à chaque marque).
Dans le cas de questions d’une question ouverte où une liste exhaustive ne peut être établie au
préalable, la procédure de codification est plus complexe et intègre les règles suivantes :
 Chaque question d’un questionnaire est dépouillée et transcrite sur un document;

 Quand la liste exhaustive est terminée, l’analyste classe les réponses à la question
ouverte par thème
 Chaque thème doit être univoque, exhaustif et mutuellement exclusif;
 Chaque thème est défini en fonction des hypothèses de la recherche et des objectifs
poursuivis;
 Chacune des réponses possibles est ensuite traduite par code;
 Les codes retenus doivent être exhaustifs et mutuellement exclusifs.
B. Transcription des données
La transcription des données impose la construction d’un tableau dans lequel les individus
figurent en lignes, et les variables en colonnes. En d’autres termes, à l’intersection d’une ligne
et d’une colonne données, on retrouve la réponse d’un individu à une question.
C. Nettoyage des données : Contrôle d’uniformité
 Vérifier données hors norme (anormales), p. ex. « 6 » pour une variable codifiée 1 à
5 : Vérifier en triant chaque colonne
 Si non contrôlé à l’étape de la vérification des questionnaires : Réponses suspectes
(incohérences)
D. Nettoyage des données : Réponses manquantes
 Retourner au questionnaire
 Substitution par valeur manquante (p. ex. 99)
 Substitution par valeur neutre (p. ex. moyenne) : Discutable, introduit biais
 Substitution par valeur imputée (déduction par rapport autres réponses) : Introduit
biais
 Suppression du répondant : Si nombreuses réponses manquantes, possibilité de biais
lié à l’échantillon

(ENCG) - EL JADIDA
 Suppression appariée : Plutôt que de supprimer les questionnaires qui présentent de

nombreuses réponses manquantes, retenir seulement réponses valides pour chaque
variable. Utiliser seulement avec échantillon de grande taille, réponses manquantes
rares et relations entre variables faibles
4. Ajustement statistique des données
A. Pondération
La pondération des données consiste à accorder un coefficient de pondération (un poids) à

chacun des individus d’un échantillon. L’objectif premier de l’exercice est de corriger la
représentativité de l’échantillon en fonction de certaines variables clés afin d’être en mesure
d’extrapoler les résultats du sondage à la population.
Exemple :
Proportion Proportion Poids

Âge (1) échantillon (2) population (3) (3/2)
16-25 22% 11% 0,50
26-35 7% 14% 2,00
36-45 20% 18% 0,90
46-55 17% 17% 1,00
56-65 22% 25% 1,14
B. Création et transformation de variables
Il arrive très souvent que les variables brutes d'une base de données ne soient pas suffisantes
pour effectuer certaines analyses. On peut avoir besoin de créer une ou des nouvelles
variables à partir des variables existantes
Transformation des variables existantes :
- Transformer les catégories pour comparer les données d’une étude avec celles d’une
autre étude
- Équilibrer des données manifestement biaisées (standardisation - COMPLEXE)
Création d’une nouvelle variable :
- Synthèse de plusieurs variables

(ENCG) - EL JADIDA
- Création de catégories (p. ex. âge)
Fonctions dans SPSS :
- Compute
- Recode
C. Changement d’échelle : Création de variables muettes
Cette astuce est utilisée lorsqu’on étudie les relations entre plusieurs variables dont certaines
sont numériques, d’autres nominales, et que l’on veut appliquer des modèles d’analyses
conçus pour des variables numériques (régression linéaires, par exemple).
 Variables utilisées pour représenter différents groupes dans la population sans utiliser
une échelle ordinale qui aurait peu de sens
 Utilisées dans les analyses de régression
 Valeurs les plus fréquentes sont 0 et 1 (binaire)
 Re-spécification d’une variable avec K catégories nécessite l’utilisation de K-1
variables muettes
Exemple de variables muettes
Répondants Codification originale Variables muettes

Homme Femme
1 Homme 1 0
2 Femme 0 1
5. Classification des techniques statistiques
A. Analyse des fréquences
Une variable à la fois
Distribution des réponses
Mesures de position centrale : Moyenne, Mode, Médiane
Mesures de dispersion : Étendue (écart), Variance et écart-type
Mesures de forme : Symétrie (skewness), Aplatissement (kurtosis)

(ENCG) - EL JADIDA
B. Analyse des relations entre les variables : Analyses multivariées
Deuxième variable
Nominale Intervalles ou
ou ordinale proportion (ratio)
Première variable Nominale Tris croisés Comparaison

ou ordinale moyennes
Intervalles ou Comparaison Corrélation
proportion (ratio) moyennes ou régression
Tris croisés :
- La plus utile et la plus fréquemment utilisée
- Analyse de la relation existant entre deux variables (bivariée) ou trois variables (multivariée)
P. ex., l’influence du sexe sur le choix de destination
Comparaison moyennes :
- Analyse de la différence existant entre les moyennes de deux catégories de personnes
- P. ex., la différence entre les 26-45 ans et les 46-65 ans par rapport au pourcentage de
personnes qui achètent une croisière
Corrélation :
- Analyse de la relation existant entre deux variables métriques
- Augmentation des valeurs de la première correspond-elle à une augmentation, ou à une

diminution, des valeurs de la seconde?
- P. ex., la relation entre l’investissement publicitaire et les ventes d’un restaurant
Régression :
- Analyse de la relation de dépendance entre deux variables métriques
- Utilisation de variables muettes lorsque requis
- P. ex., la relation entre le niveau d’estime de soi et le choix une résidence luxueuse

(ENCG) - EL JADIDA
C. Tests de comparaison
Type de
données
Non métrique Métrique

(nominal, (intervalles,
ordinal) proportion)
Khi deux test t
Khi deux (X2) :
Test du niveau de signification de la relation entre deux variables (tri croisé)
X2 ≥ valeur théorique
Niveau de signification usuel de 95% (19 fois sur 20),
Voir statistique P ≤ 0,05 (95%)
Test t :
Permet d’énoncer des conclusions sur l’existence de différences significatives entre les
moyennes de deux échantillons
t ≥ 1,98 ou t ≤ -1,98
Niveau de signification usuel de 0,05 (95%)

CH 5préparation Des Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CH 5préparation Des Données

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITÉ CHOUAÏB DOUKKALI

École Nationale de Commerce et de Gestion

Professeur : H. El Bayed Sakalli

Etude de marché, H. EL BAYED SAKALLI Page 1

Nous verrons dans ce chapitre les points suivant :

 Processus de préparation des données

Etude de marché, H. EL BAYED SAKALLI Page 2

1. Processus de préparation des données

2. Vérification et édition des questionnaires

 Ne pas attendre la fin de la collecte de données

Etude de marché, H. EL BAYED SAKALLI Page 3

Objectif : améliorer l’exactitude des réponses

Solutions si trop de manques sont constatés sur le questionnaire :

Gros échantillons : éliminer le répondant (possibilité de biais)

Petits échantillons : contacter le répondant pour effectuer des corrections OU en

3. Codage, transcription et nettoyage des données

A. Codage des questions

Pratiquement, l’analyste va associer un nombre à chaque réponse possible. Il s’agit de :

 Transformer les réponses en données quantifiables

 Choix d’une ou plusieurs valeurs pour les données manquantes

Codage des questions non structurées (ouvertes)

Etude de marché, H. EL BAYED SAKALLI Page 4

Cette possibilité se présente lorsque le chercheur a, au cours de l’étude exploratoire et du pré-

 Chaque question d’un questionnaire est dépouillée et transcrite sur un document;

B. Transcription des données

C. Nettoyage des données : Contrôle d’uniformité

D. Nettoyage des données : Réponses manquantes

Etude de marché, H. EL BAYED SAKALLI Page 5

 Suppression appariée : Plutôt que de supprimer les questionnaires qui présentent de

4. Ajustement statistique des données

La pondération des données consiste à accorder un coefficient de pondération (un poids) à

Proportion Proportion Poids

16-25 22% 11% 0,50

26-35 7% 14% 2,00

36-45 20% 18% 0,90

46-55 17% 17% 1,00

56-65 22% 25% 1,14

B. Création et transformation de variables

Transformation des variables existantes :

Création d’une nouvelle variable :

- Synthèse de plusieurs variables

Etude de marché, H. EL BAYED SAKALLI Page 6

- Création de catégories (p. ex. âge)

Fonctions dans SPSS :

C. Changement d’échelle : Création de variables muettes

Exemple de variables muettes

Répondants Codification originale Variables muettes

5. Classification des techniques statistiques

A. Analyse des fréquences

Une variable à la fois

Distribution des réponses

Mesures de position centrale : Moyenne, Mode, Médiane

Mesures de dispersion : Étendue (écart), Variance et écart-type

Mesures de forme : Symétrie (skewness), Aplatissement (kurtosis)

Etude de marché, H. EL BAYED SAKALLI Page 7

B. Analyse des relations entre les variables : Analyses multivariées

Première variable Nominale Tris croisés Comparaison

- La plus utile et la plus fréquemment utilisée

P. ex., l’influence du sexe sur le choix de destination

- Analyse de la différence existant entre les moyennes de deux catégories de personnes

- Analyse de la relation existant entre deux variables métriques

- Augmentation des valeurs de la première correspond-elle à une augmentation, ou à une

- P. ex., la relation entre l’investissement publicitaire et les ventes d’un restaurant