Vous êtes sur la page 1sur 15

Cours : Analyse de données 2ème LNSG

Chapitre 1 : Introduction à l’analyse de données

Introduction
L’analyse des données est multidisciplinaire et son importance en sciences de gestion
s’appuie sur sa contribution à l’examen des données en vue de les interpréter, de réduire
l’incertitude et de prendre les meilleures décisions. Ainsi, le présent chapitre consiste à
introduire les principes de base de l’analyse des données en se focalisant sur l’aspect
quantitatif. Le paragraphe 1 sera dédié à la présentation des généralités sur la discipline, avant
d’indiquer dans les paragraphes qui suivent (2, 3, 4 et 5) les fondements de la collecte et de
traitement des données. Notons que ce chapitre présentera des indications pratiques
concernant la préparation d’une base de données sur SPSS.

I. Généralités sur les analyses de données


Les données ont besoin d’être analysées et interprétées afin de trouver des solutions
pertinentes et utiles à des problèmes étudiés. Les analyses des données portent sur plusieurs
sujets en relation avec le contrôle de la rentabilité économique des entreprises, la maîtrise de
l’inflation, la veille concurrentielle, etc. (Mangalu et Agbada, 2019).
Ainsi, l’analyse de données est un sous domaine des statistiques et un ensemble de méthodes
mathématiques qui consistent à manipuler et synthétiser l’information issue des tableaux de
données. Ces méthodes permettent d’étudier statistiquement les relations entre les items et les
variables associées, d’établir un classement des données en différents sous-groupes
homogènes, d’identifier les liens pouvant exister entre les différentes données et décrire de
manière concise les principales informations contenues dans ces données, de simplifier la
lecture des données, etc. Les résultats de ces analyses sont généralement utiles à l’ajustement
et à l’optimisation des stratégies ou des politiques commerciales des entreprises1. Parmi les
pionniers de ces méthodes d’analyses on distingue Jean-Paul Benzécri, John Tukey et Chikio
Hayashi2. Par ailleurs, les données quantitatives susceptibles d’être analysées peuvent
provenir de plusieurs sources d’informations. On distingue alors les enquêtes, les études
expérimentales, les bases de données en ligne, les outils de web analytics, etc. Les figures ci-
dessous présentent certains exemples illustratifs des sources de données.

1
Jobintree, https://www.jobintree.com/dictionnaire/definition-analyse-donnees-339.html.
2
Techno-science, https://www.techno-science.net/glossaire-definition/Analyse-des-donnees.html.

1
Cours : Analyse de données 2ème LNSG

Figure 1 : Exemples d’outils de web analytics

Sources : https://neilpatel.com/fr/ubersuggest/
https://analytics.google.com
https://www.xiti.com/fr/

Figure 2 : Exemples de bases de données en ligne

Sources : http://dataportal.ins.tn/fr/DataAnalysis
https://ec.europa.eu/eurostat/databrowser/view/reg_area3/default/table?lang=fr

2
Cours : Analyse de données 2ème LNSG

Dans ce qui suit, nous allons nous concentrer sur les méthodes de collecte des données en se
basant sur les méthodes d’enquêtes. Ces études quantitatives ont la particularité de collecter
des informations pour la première fois des répondants afin de répondre à des besoins
spécifiques des études, ce qui nécessite une démarche particulière de sélection de l’échantillon
à interroger et de bien concevoir le questionnaire.

II. L’échantillonnage
L’échantillonnage est l’ensemble des opérations qui aboutissent à la sélection d’un échantillon
à partir d’une population. L’échantillon est un sous-ensemble représentatif de la population
mère sur lequel, on effectue une étude statistique (Dodge, 2007). Une population mère
correspond au total des individus disposant des informations désirées et permettant de
répondre aux objectifs de l’étude. L’unité de sondage est l’individu (ou encore l’élément de la
base de sondage auprès duquel on devrait collecter les informations de l’enquête). La base de
sondage représente l’ensemble des individus constituant la population à étudier (et qu’on peut
y accéder à travers des listes ou des fichiers).
Il est à noter que le choix d’un échantillon nécessite la sélection de la méthode
d’échantillonnage ainsi que la taille de l’échantillon.

1. Les méthodes d’échantillonnage


Il existe deux grandes catégories de méthodes d’échantillonnage permettant de constituer un
échantillon : les méthodes probabilistes (aléatoires) et les méthodes empiriques (ou non
probabilistes / non aléatoires). Les premières méthodes permettent d’estimer les
caractéristiques de la population, avec une marge d’erreur relative à la taille de l’échantillon.
Les secondes méthodes peuvent aboutir à des résultats pertinents même si elles ne permettent
pas d’évaluer la marge d’erreur des résultats obtenus.

a. Les méthodes probabilistes


Selon ces méthodes, chaque individu de la base de sondage a une probabilité connue et
différente de zéro de faire partie d’un échantillon représentatif. Le choix de l’échantillon se
fait par tirage au sort. Ces méthodes permettent de mesurer avec précision la marge d’erreur
des résultats obtenus, grâce au calcul de probabilité. En revanche, ces méthodes nécessitent la
disposition de la liste exhaustive de tous les membres de la base de sondage. Le tableau ci-
dessous présente quatre méthodes d’échantillonnage probabilistes :

3
Cours : Analyse de données 2ème LNSG

Tableau 1 : Les méthodes d’échantillonnage probabilistes


Méthode
Caractéristiques
d’échantillonnage
Chaque individu de la population a la même probabilité que les autres,
connue à l’avance, d’être choisi pour figurer dans l’échantillon. L’objectif est
de pouvoir estimer les paramètres de tendance centrale et de dispersion de la
population cible. Dans le cas d’un échantillon suffisamment grand (supérieur
à 30), on peut considérer que :
- La moyenne de la population est égale à la moyenne de l’échantillon (de
même pour la proportion).
- L’écart type de la population est égal à celui de l’échantillon divisé par la
racine carrée de la taille de l’échantillon.
- La variable étudiée suit une loi normale moyenne ou de proportion, celle de
l’échantillon et d’écart type, celui de l’échantillon divisé par la racine carrée
Echantillon aléatoire
de la taille.
simple
Il est alors possible de construire un intervalle de confiance de la moyenne ou
de la proportion de la population mère avec un niveau de confiance (1 – 𝛼)
ou un niveau de risque 𝛼 donné.
𝑆 𝑆
𝑋̅ − (𝑡 ) ≤ 𝑚 ≤ 𝑋̅ + (𝑡 )
√𝑛 √𝑛
Où 𝒎 est la moyenne de la population, 𝑺 l’écart type de l’échantillon, 𝒏 la
̅ est la moyenne de l’échantillon.
taille de l’échantillon et 𝑿
𝒕 est une constante tirée d’une table de distribution normale centrée réduite
qui dépend du niveau de risque 𝛼. (Voir annexe 1 concernant les valeurs de
𝒕). Pour une proportion π, l’intervalle de confiance devient :

𝑝 (1 − 𝑝) 𝑝(1 − 𝑝)
𝑝 − (𝑡 √ ) ≤ 𝜋 ≤ 𝑝 + (𝑡 √ )
𝑛 𝑛

Où 𝒑 est la proportion de l’échantillon.


Le tirage aléatoire stratifié se déroule en deux étapes. Dans un premier temps,
Echantillon aléatoire la base de sondage est divisée en groupes homogènes appelés strates. Dans
stratifié un deuxième temps, un sous-échantillon est tiré dans chaque strate par
sondage simple. L’ensemble des sous-échantillons forme l’échantillon total.
On divise la population en sous-ensembles appelés grappes (ville, quartier,
Echantillon par familles, etc.) de sorte que tous les éléments soient couverts et que chacun
grappes n’appartienne qu’à un seul groupe. On sélectionne ensuite un échantillon
aléatoire simple de grappes et on enquête tous les éléments de la grappe.
Il s’agit d’un tirage au sort d’individus régulièrement espacés dans la base de
sondage (par exemple, tirer un individu tous les dix) (Dodge, 2007 ;
Demeure, 2008).
Pour une population composée de 𝑁 individus, un échantillon systématique
Echantillon aléatoire
systématique est formé d’individus dont les numéros constituent une progression
arithmétique. On choisit aléatoirement un premier nombre 𝑏 compris entre 1
𝑁
et 𝑟, où 𝑟 =
𝑛
𝑛 est la taille de l’échantillon et 𝑟 représente la raison de la progression
arithmétique. Les individus prélevés porteront alors les numéros suivants : 𝑏,
𝑏 + 𝑟, 𝑏 + 2𝑟, . . . , 𝑏 + (𝑛 − 1) 𝑟.
4
Cours : Analyse de données 2ème LNSG

L’encadré qui suit présente deux exemples illustratifs sur l’échantillon aléatoire simple et
l’échantillon systématique :
Exemple 1 : (Echantillon aléatoire simple)
Une entreprise souhaite connaître l’achat de sa marque auprès de ses clients. En interrogeant
200 consommateurs, les responsables ont trouvé que 35% achètent cette marque.
L’intervalle de confiance du pourcentage d’acheteurs pour un risque de 5% et la constante 𝑡
égale à 1,96 est de :

0,35 × 0,65 0,35 × 0,65


0,35 − (1,96 × √ ) ≤ 𝜋 ≤ 0,35 + (1,96 × √ )
200 200

Soit 0,284 ≤ 𝜋 ≤ 0,416


95% des chances que le pourcentage d’acheteurs soit compris entre 28,4% et 41,6%.

Exemple 2 : (Echantillon systématique)


Soit une population de 600 consommateurs classés par ordre alphabétique dans laquelle on
désire prélever un échantillon de 30 observations selon la méthode d’échantillonnage
systématique. La raison de la progression arithmétique est :
𝑁 600
𝑟 = = = 20
𝑛 30
On choisit aléatoirement un premier nombre de 1 à 20. Soit 𝑎 = 17.
L’échantillon sera composé des consommateurs suivants : 17, 37, 57, ….. , 597.

b. Les méthodes non probabilistes


Pour les méthodes non probabilistes (ou empiriques), la sélection de l’échantillon n’est pas
aléatoire. On distingue par exemples la méthode des quotas et la méthode de convenance. Le
tableau ci-dessous donne un aperçu sur ces méthodes :
Tableau 2 : Exemples de méthodes non probabilistes
Méthode
Caractéristiques
d’échantillonnage
Il s’agit de construire un échantillon qui aura proportionnellement la même
La méthode des
quotas composition que la population à étudier, par rapport à certains critères
(Exemples : âge, sexe, CSP, habitat, région, ville…).
L’échantillonnage par convenance est composé d’individus sélectionnés car
Echantillon par ils sont disponibles, faciles à interroger ou à convaincre de participer à l’étude
convenance (Vandercammen et Jospin-Pernet, 2002 ; Malhotra et al, 2004 ; Demeure,
2008).

5
Cours : Analyse de données 2ème LNSG

L’encadré qui suit présente un exemple illustratif de la méthode des quotas :


Exemple :
On désire étudier les opportunités d’achat d’une nouvelle marque dans une région spécifique. La
variable de contrôle sélectionnée est l’âge. La répartition de la population (en milliers de personnes)
selon la variable âge est la suivante :
Tableau 3 : Répartition de la population selon l’âge
Classe d’âge Effectif (en milliers)
1 – 20 70
21 – 60 192,5
61 et plus 87,5
Total 350

1
On choisit un taux de sondage = 300. L’échantillon aura la taille suivante :
1
𝑛 = 𝑁 . 𝑞 = 350 000 × = 1167
300
On aura donc la répartition suivante :
Tableau 4 : Répartition de l’échantillon
Classe d’âge Effectif
1 – 20 233
21 – 60 642
61 et plus 292
Total 1167

2. La détermination de la taille de l’échantillon


La détermination de la taille de l’échantillon dépend des facteurs théoriques et pratiques.
Théoriquement, la loi des grands nombres stipule que lorsqu’un tirage est de taille suffisante, il sera
représentatif de la population mère. Cette loi s’applique lorsque le taux de sondage (taille de
l’échantillon / base de sondage) c'est-à-dire (n / N) est strictement inférieur à (1/7).
A partir de la détermination d’un niveau de confiance acceptable (95% par exemple) et de la
précision souhaitée de l’estimation, il est possible de déduire à l’avance la taille de l’échantillon si
on connaît la taille de la population.
𝑡 𝑠 2
𝑛= ( )
𝜀
Avec : 𝒕 la constante au risque 𝛼 voulu
𝒔 l’écart type de la population cible
𝜺 le niveau de précision recherché

Également, il est possible de déterminer la taille de l’échantillon à partir des proportions :


2
𝑡 √𝑝 (1 − 𝑝) 𝑡2 𝑝 𝑞
𝑛= ( ) =
𝜀 𝜀2
Avec : 𝒒 = 𝟏 − 𝒑
𝒕 la constante au risque 𝛼 voulu
𝜺 le niveau de précision recherché

6
Cours : Analyse de données 2ème LNSG

L’intervalle de confiance ou erreur acceptée sera [𝑝 − 𝑒 ; 𝑝 + 𝑒]

Si on n’a pas d’informations sur la proportion, 𝑝 sera égale à 𝑞 (𝑝 = 𝑞 = 50%).


Par ailleurs, les contraintes financières sont des conditions pratiques qui influencent souvent la
taille de l’échantillon. La contrainte de budget disponible pour l’étude et les coûts fixes de la
recherche conduisent à l’évaluation suivante de la taille de l’échantillon :
(𝐵 − 𝐶𝐹)
𝑛=
𝐶𝑄
Avec : B = budget de l’étude. CF = coûts fixes de l’étude. CQ = coût d’un questionnaire

III. La conception du questionnaire


Quelle que soit la méthode d’enquête (en face à face, par téléphone, par voie postale, par internet),
le questionnaire représente l’instrument de la collecte des données auprès des répondants. Il doit
procurer des informations nécessaires et précises en vue de répondre au problème posé et
d’atteindre les objectifs prévus. La conception d’un questionnaire nécessite la prise en considération
de son fond et de sa forme. En effet, le questionnaire doit commencer par une phrase introductive
en vue de clarifier les intérêts de l’enquête. Le corps du questionnaire se compose de différentes
questions permettant d’atteindre les objectifs prévus. Finalement, les questions de signalétique
permettent d’identifier le profil des répondants.
Dans ce qui suit, il est intéressant de présenter les différents types de questions ainsi que les
échelles de mesures utilisées.
1. Les différents types de questions posées
On distingue les questions fermées et les questions ouvertes. Dans un questionnaire, les questions
fermées sont les plus utilisées. En se basant sur Perconte (2011), il existe cinq catégories de
questions fermées :

7
Cours : Analyse de données 2ème LNSG

Tableau 5 : Typologie des questions fermées


Types de questions Principes Exemples
Questions Ces questions proposent aux Avez-vous une tablette ?
dichotomiques répondants deux modalités Oui / Non
de réponses. (Questions
binaires).
Questions à choix Ces questions offrent Quelle est la meilleure couleur préférée
unique plusieurs modalités, parmi lorsque vous achèterez un smartphone ?
lesquelles l’enquêté choisit Blanc Gris Gold Noir
une seule réponse.
Questions à choix Ces questions permettent de Veuillez choisir la ou les couleurs de
multiples présenter plusieurs modalités tablettes :
et l’enquêté peut choisir Blanc Rose Noir Gris
plusieurs modalités (deux Bleu
possibilités ou plus).
Questions Ce sont des questions à choix Veuillez classer par ordre de
ordonnées multiple dans lesquelles on préférences les points de vente les plus
(Questions demande au répondant visités :
ordinales selon d’établir un classement aux 1. Epicier 2. Supérette 3. Supermarché
Vedrine, 1991) propositions procurées par la 4. Hypermarché
question.
Questions à échelles Ces échelles permettent de Veuillez accorder une note allant de 1 à
d’attitudes. 5 à l’ensemble des
mesurer la direction et
caractéristiques suivantes de votre PC
l’intensité des attitudes portable :
psychologiques à l’égard -Capacité de stockage.
-Design.
d’un produit, d’une marque,
-Performance de la carte graphique.
d’un comportement, etc. (On -Vitesse du processeur.
utilise par exemple l’échelle
de Likert ou l’échelle
d’Osgood).

NB : Les questions de ce tableau seront utilisées dans l’annexe 2 afin de présenter des
illustrations graphiques sur SPSS.

8
Cours : Analyse de données 2ème LNSG

2. Les échelles de mesures des questions


Selon Védrine (1991), les échelles de mesure adoptées se distinguent les unes des autres par trois
caractéristiques à savoir : l’ordre, la distance et l’origine. Ainsi, on peut distinguer quatre types
d’échelles de mesures à savoir :
- Les échelles nominales : Ces échelles ont la particularité de ne posséder ni ordre, ni
distance, ni origine. Les nombres correspondent à l’appartenance à une catégorie.
- Les échelles ordinales : Permettent de classer les objets d’étude selon un ordre donné.
La distance et l’origine naturelle sont inconnues.
- Les échelles d’intervalle : Permettent de classer les objets et de connaître la distance à
travers la différence des notes attribuées. Mais ces échelles ne possèdent pas d’origine.
- Les échelles de ratio : Elles possèdent un ordre, une distance et une origine naturelle.
IV. La codification des données collectées
La codification est définie comme « la transformation des informations recueillies dans une forme
compatible avec leur traitement informatisé » (Perrien et al., 1984). La codification permet de
mettre les informations recueillies dans une forme compatible avec une procédure de traitement
informatisée en attribuant un nombre à chaque réponse possible sur un support permettant le
traitement informatique (Lambin, 1994).
Lors de cette phase, il est important de concevoir une grille de codification qui représente le cœur
de l’étape de codification. Nous présentons dans ce qui suit un exemple de grille de codification
d’un questionnaire.

9
Cours : Analyse de données 2ème LNSG

Tableau 6 : Grille de codification du questionnaire


Questions Colonnes Réponses possibles Codes
0. Questionnaire 1 Enquêteur A 1
Enquêteur B 2
Enquêteur C 3
2,3 Numéro d’ordre -
1. Quantité achetée 4,5 Nombre d’unités -
2. Importance des attributs
2.1 Emplacement 6 Pas du tout important 1
Peu important 2
Indifférent 3
Assez important 4
Très important 5
2.2 Prix 7 Idem 2.1 1à5
2.3 Accès 8 Idem 2.1 1à5
2.4 Assortiment 9 Idem 2.1 1à5
2.5 Qualité 10 Idem 2.1 1à5
2.6 Accueil 11 Idem 2.1 1à5
2.7 Ambiance 12 Idem 2.1 1à5
3.0 Fréquentation 13 Oui 1
Non 2
4.0 Evaluation des attributs
4.1 Emplacement 14 Pas du tout d’accord 1
Pas d’accord 2
Neutre 3
D’accord 4
Tout à fait d’accord 5
Ne sait pas 6
4.2 Prix Idem 4.1 1à6
4.3 Accès Idem 4.1 1à6
4.4 Assortiment Idem 4.1 1à6
4.5 Qualité Idem 4.1 1à6
4.6 Accueil Idem 4.1 1à6
4.7 Ambiance Idem 4.1 1à6
5. Occupation 21 Secondaire 1
Universitaire 2
Salarié 3
Commerçant 4
Employé 5
Sans 6
6. Age 22,23 Age donné -
7. Sexe 24 Féminin 1
Masculin 2

Source : Lambin, (1994), Page 226.

10
Cours : Analyse de données 2ème LNSG

V. Les méthodes de traitement des données collectées

D’après Védrine (1991), les méthodes de traitement des données sont classées selon trois
critères principaux à savoir :
- Le caractère descriptif ou explicatif de la méthode : Les méthodes descriptives
permettent de synthétiser l’information contenue dans les données alors que les méthodes
explicatives permettent de comprendre les relations qui existent entre deux groupes de
variables.
- La nature des variables : C’est-à-dire les variables nominales ou ordinales (variables
qualitatives) et intervalles ou de ratios (variables quantitatives). Il existe des méthodes de
traitement des données adaptées à chacune de ces catégories de variables.
- Le nombre des variables traitées simultanément : On distingue les méthodes
univariées, bivariées et multivariées en fonction du nombre des variables en question.

Conclusion

Ce chapitre introductif a permis de présenter les fondements de l’analyse des données en se


focalisant sur les stades permettant de passer de la collecte des données vers leur codification
en vue de préparer les bases de données puis générer les résultats statistiques.
Les chapitres suivants seront alors dédiés à la présentation des analyses univariées, bivariées
et multivariées.

11
Cours : Analyse de données 2ème LNSG

Bibliographie

Dataportal, http://dataportal.ins.tn/fr/DataAnalysis.
Demeure C., (2008), Aide-mémoire marketing, 6ème édition, DUNOD, PARIS.
Dodge Y., (2007), Statistique dictionnaire encyclopédique, 2ème édition, Springer, Paris.
Eurostat, https://ec.europa.eu/eurostat/databrowser/view/reg_area3/default/table?lang=fr.
Evrard Y., Pras B., Roux E., (2003), Market Etudes et recherches en Marketing, 3ème édition,
DUNOD, PARIS.
Google Analytics, https://analytics.google.com.
Jobintree, https://www.jobintree.com/dictionnaire/definition-analyse-donnees-339.html.
Kruger A., Ferrandi J-M., Ingarao A., Carpentier L., (2010), Mini Manuel de Marketing,
DUNOD, PARIS.
Lambin J-J., (1994), La recherche marketing : Analyser – mesurer – prévoir, Ediscience
International.
Malhotra N., Décaudin J-M., Bouguerra A., Marty S., Urien E., (2004), Etudes marketing
avec SPSS, Pearson Education, 4ème Ed, Paris, 670 pages.
Mangalu J., Agbada M., (2019), Guide d’analyse des données en sciences sociales et
humaines : de la conception de l’étude à la préparation des analyses, L’Harmattan, Paris.
Neilpatel, https://neilpatel.com/fr/ubersuggest/.
Perconte B., (2011), 50 fiches pour comprendre le marketing, Bréal, 4ème édition, Paris.
Perrien J., Chéron E.J., Zins M., (1984), Recherche en marketing : méthodes et décisions,
Gaëtan Morin editeur, Paris, France.
Techno-science, https://www.techno-science.net/glossaire-definition/Analyse-des-
donnees.html.
Vandercammen, M., Jospin-Pernet, N., (2002), La distribution, 1ère Edition De Boeck,
Bruxelles.
Vedrine, J-P., (1991), Le traitement des données en marketing, Editions d’Organisation.
Xiti, https://www.xiti.com/fr/.

12
Cours : Analyse de données 2ème LNSG

Annexe 1 : Les valeurs de t


Les valeurs de t associées à des niveaux de risque courants sont :

A 1% 5% 10% 20%
t 2,575 1,96 1,64 1,282

Annexe 2 : Illustration de certains exemples d’applications concernant la préparation de la base de données sur SPSS
Type de Exemple de Affichage des variables Affichage des données
question question (Illustrations sur SPSS) (Illustrations sur SPSS)

Question Avez-vous une


tablette :
dichotomique oui / non
Cours : Analyse de données 2ème LNSG

Quelle est la
meilleure
couleur
Question à préférée
lorsque vous
choix unique achèterez un
smartphone ?
Blanc Gris
Gold Noir

Veuillez
Question à choisir la ou
les couleurs de
choix tablettes :
multiples Blanc Rose
Noir Gris
Bleu
Cours : Analyse de données 2ème LNSG

Veuillez
classer par
ordre de
préférences les
Question points de vente
les plus
ordonnée visités :
1.Epicier
2.Supérette
3.Supermarché
4.Hypermarché

Veuillez
accorder une
note allant de 1
à 5 à
l’ensemble des
caractéristiques
Question à suivantes de
votre PC
échelles portable :
d’attitudes -Capacité de
stockage.
-Design.
-Performance
de la carte
graphique.
-Vitesse du
processeur.

Vous aimerez peut-être aussi