Vous êtes sur la page 1sur 11

Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

INTRODUCTION

Nous avons généré plus de données au cours des quelques dernières années que dans toute
l'histoire humaine.

l’Analyse des données est la science de la découverte et de l'interprétation du sens des don-
nées. Extraire le sens des données collectées pourrait conduire à un avenir meilleur.

les chefs d’entreprise ont besoin de déchiffrer les données collectées et de prendre des déci-

sions éclairées. L’exploitation de l’information constitue un avantage concurrentiel et un fac-

teur de différenciation pour les entreprises. En ce sens, les données et leurs outils d’analyse
deviennent peu à peu des priorités stratégiques.

Emploi : a mission principale du data analyst est d’aller explorer la donnée grâce à des outils
mathématiques, statistiques et des langages informatiques. En général, ces outils sont conçus

par les data scientists, c’est notamment ce qui différencie les deux métiers. Ensuite, l’objectif

pour lui sera d’interpréter ces données et d’en dégager des tendances ou conclusions straté-
giques pour les équipes métiers.

Il n’y a pas de parcours type pour devenir data analyst. On peut aussi bien être issu d’une

école d’Ingénieurs, qu’une école de commerce, voire même d’une Université avec des domi-
nantes en mathématiques. Une chose est sûre, il faut des bases solides en mathématiques, en
statistiques et aussi en informatique !
Aux Etats-Unis: en moyenne 68K$ annuel

Vous l’avez compris – c’est vraiment important.


Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

Chapitre préliminaire
Introduction à l’Analyse Des Données (ADD)
Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

I. Les Données

(1) Qu’est-ce que des données ?

• Les données consistent en des observations ou des mesures collectées pour répondre à une problé-
matique précise, pour résoudre un problème particulier et pour mieux comprendre le monde.

• Les données sont des sources d’information au sujet d’une population spécifique ; elles peuvent donc
se référer à différentes unités (un individu, un groupe d’individus ou même des objets).
A noter
• Les données sont des informations. Toutefois, c’est le traitement et l’analyse dont elles font l’objet qui
leur donnent un sens, une signification et qui permettent d’obtenir des résultats exploitables pour la
prise de décision.

• La donnée représente une véritable richesse pour les entreprises, Pour améliorer la performance de
ces dernières grâce à l'exploitation des données, encore faut-il disposer des ressources humaines et
techniques nécessaires.

(2) Quelle méthode de recherche pour le recueil des données ?

Il existe différentes manières de récolter les données. Nous distinguons entre les approches quantita-
tives et qualitatives. Chacune présente des avantages et des inconvénients. Le choix de l’une, de l’autre,
ou des deux approches combinées (approche mixte) dépend de l’objectif à atteindre et du problème à
résoudre. À noter que le choix d’une méthode a une influence directe sur la forme de l’analyse des don-
nées à effectuer.

L’approche qualitative

Elle vise à découvrir des comportements, des événements ainsi que les raisons de ces différents types
de comportements et événements. Cette approche convient à des recherches dont le but est de com-
prendre en profondeur comment et pourquoi un événement ou phénomène particulier s’est déroulé.
Le chercheur ne cherche pas à démontrer ou de prouver quoi que ce soit, son but est de reconnaître, de
nommer, de découvrir, de décrire les variables et les relations découvertes, et par-là, de comprendre une
réalité humaine ou sociale complexe et mal connue. Il s’agit de rendre compte de la réalité sociale telle
qu’elle est vraiment vécue et perçue par les sujets ou telle qu’elle se déroule dans les institutions.

La méthode qualitative ne fournit pas d’emblée des données chiffrées. Ses analyses peuvent se borner à
être des descriptions, des énumérations ou déboucher sur des classifications, sur l'établissement de
nouveaux liens entre des variables, sur des comparaisons. Les données qualitatives peuvent être recueil-
lies en utilisant des techniques variées (étude de cas, observation, entretien semi-structuré ou non struc-
turé, etc.).
Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

L’approche quantitative

L'approche quantitative vise à recueillir des données observables et quantifiables. Cette approche permet
de faire des analyses descriptives, de produire des tableaux et des graphiques, d’effectuer des analyses
statistiques de recherche de liens entre les variables ou facteurs, des analyses de corrélation ou d'associa-
tion, etc. Elle se fonde sur l'observation des faits, des événements, des conduites, des phénomènes exis-
tants indépendamment du chercheur et vise à décrire, à expliquer, à contrôler, à prédire. La recherche
quantitative s'appuie sur des instruments ou techniques de recherche quantitatives de collecte des don-
nées (ex. questionnaire) dont en principe la fidélité et la validité sont assurées.

L’approche mixte

L’approche mixte combine des approches quantitatives et qualitatives soit simultanément soit successi-
vement. Elle permet ainsi de rassembler des données qualitatives et quantitatives sur une même théma-
tique. Elle pourrait être utile dans les cas suivants :
o Quand une thématique jusqu’ici peu développée doit être à la fois explorée au travers de données quali-
tatives et mesurée par des données quantitatives
o Lorsque des données qualitatives sont nécessaires pour interpréter des résultats quantitatifs
o Lorsque des données quantitatives sont nécessaires pour pouvoir généraliser des résultats qualitatifs
o etc.
Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

(3) Produire des données primaires ou exploiter des données secondaires (Produire ou réutiliser) ?

Les données primaires sont des données recueillies par les chercheurs eux-mêmes contrairement aux
données secondaires, qui consistent en des données disponibles et recueillies par d’autres cher-
cheurs/organismes. Le choix de produire des données primaires ou d’utiliser des données secondaires
dépend de la question de recherche et de la disponibilité des données.

Les données primaires : Elles sont collectées “sur le terrain” et sont spécialement produites en vue de
réaliser une étude, c’est-à-dire pour répondre à une problématique spécifique. Par exemple, si l’on fait
une recherche sur la satisfaction des usagers face à un produit ou un service, les questions posées se
rapporteront directement à ce produit ou à ce service. Elles sont ainsi obtenues directement en utilisant
des méthodes adaptées (qualitatives ou quantitatives).

Les données secondaires : Ce sont des données de “seconde main”. Elles ont déjà été recueillies, trai-
tées, interprétées par d’autres. Elles constituent une information déjà existante et accessible. Les don-
nées secondaires peuvent provenir de différentes sources : travaux de recherche, articles ou autres publi-
cations scientifiques, statistiques officielles (nationales ou internationales), instituts de sondage, … Selon
les données et informations nécessaires à une recherche, il s’agit de déterminer la ou les sources dispo-
nibles et s’assurer de la pertinence des données et de leur réutilisation pour sa propre recherche.

NB : Très souvent, les données primaires et secondaires sont complémentaires


Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

II. Les variables


1. Notion de variable

On s’intéresse `a des unité statistiques ou unit´es d’observation : par exemple des individus, des entre-
prises, des ménages. En sciences humaines, on s’intéresse dans la plupart des cas `a un nombre fini
d’unités.

– Sur ces unités, on mesure un caractère ou une variable, le chiffre d’affaires de l’entreprise, le revenu
du ménage, l’âge de la personne, la catégorie socioprofessionnelle d’une personne. On suppose que la

variable prend toujours une seule valeur sur chaque unité.

La notion de variable, qui joue un rôle central dans toutes les recherches en sciences sociales et en
sciences de la gestion. Au plan strictement sémantique, le terme « variable » suppose qu’une réponse à
une question donnée peut varier (dans un certain écart) d’un individu à un autre. Donc : « Si la caracté-

ristique mesurée peut prendre différentes valeurs, on dit alors que cette caractéristique est une variable.
Une variable est donc un critère par lequel on classe des individus dans des catégories. Par exemple, si
on demande dans un sondage : quelle était la destination de votre dernier voyage ? La réponse pourrait

être :

2. Typologie des variables


Couple qualitatives/quantitatives

Variable qualitative : La variable est dite qualitative quand les modalités sont des catégories. Les va-
riables qualitatives (ou catégorielles) qui n’ont pas de valeur numérique : il peut alors s’agir de proposer

de faire un choix exclusif entre différentes modalités de réponse (je suis d’accord OU BIEN pas
d’accord ; je suis un homme OU BIEN une femme, etc.) ou bien un choix multiple parmi une liste de ré-

ponses plus ou moins longue. Parmi les choses qui comptent le plus pour moi, je pourrais ainsi désigner

par ordre décroissant d’importance pour moi : d’abord le fait d’être amoureux, ensuite d’avoir beaucoup
d’amis, ensuite ensuite de pouvoir faire ce qui me plaît, et ainsi de suite.

– Variable qualitative nominale : La variable est dite qualitative nominale quand les modalités ne peu-
vent pas être ordonnées.

– Variable qualitative ordinale : La variable est dite qualitative ordinale quand les modalités peuvent

être ordonnées.

Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont numériques.
Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

– Variable quantitative discrète : Une variable est dite discrète, si l’ensemble des valeurs possibles est

dénombrable.

– Variable quantitative continue : Une variable est dite continue, si l’ensemble des valeurs possibles est
continu.
Classification des variables selon la chaine causale

L’analyse des données tient compte des variables indépendantes et des variables dépendantes.

La variable indépendante représente habituellement un facteur causal, un élément qui semble détermi-
nant dans l’explication d’un phénomène. Dans certains cas, la variable indépendante est celle qui sur-

vient en premier lieu, dans le temps ; il y a donc une certaine antériorité. La variable indépendante com-

porte des aspects historiques et logiques. La variable dépendante est celle qui est influencée, celle dont
on observe les variations. Voici une définition plus spécifique de la variable dépendante : « Toute gran-

deur dont le niveau peut être connu lorsqu’on connaît le niveau atteint par une autre grandeur dite va-
riable indépendante. On dit alors que la variable dépendante est fonction de la variable indépendante42.
». Les variables dépendantes sont les variables manipulées, expliquées par les autres variables ; elles re-

présentent ce que l’on cherche à savoir.

À l’aide de tests, le chercheur vérifie si les relations entre les variables indépendantes et la variable dé-

pendante sont significatives au plan statistique. Il arrive que les relations observées entre les variables
indépendantes usuelles (les variables socioéconomiques) ne soient pas significatives. Si tel est le cas, à
ce moment de l’enquête, il faudra, si nécessaire, puiser dans le vivier des autres variables de l’enquête, si
elles existent.

Dans une perspective d’explication sociologique, il est possible de construire un tableau qui croise deux
variables pour mettre en lumière l’action éventuelle d’un facteur social, l’effet d’un déterminant social.

La variable indépendante est celle qui représente, selon l’hypothèse, un facteur qui influe sur… La va-
riable dépendante (qui dépend de l’action de la première) est celle qui est censée subir l’action de ce fac-
teur.
Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

III. Les échelles de mesure

Il s’agit en définitive de faire correspondre un concept à une mesure ; c’est dans cette opération que la dé-
marche de recherche devient empirique. Mesurer, c’est relier des nombres à des entités plus ou moins abs-
traites : l’âge, le sexe, la satisfaction, l’intérêt…L’analyse des données est basée en grande partie sur les

principes des mathématiques et plus particulièrement de la statistique appliquée. Les nombres possèdent
certaines propriétés mathématiques dont il faut tenir compte. Ces propriétés sont les suivantes :

1. la propriété de classer des individus dans des catégories ;

2. la propriété d’établir un ordre de préséance, un ordre hiérarchique entre ces catégories ;

3. la propriété de fixer des intervalles égaux dans cet ordre hiérarchique construit en fonction de la
deuxième propriété ;

4. la propriété de fixer une origine 0 à cet ordre hiérarchique (en plus d’avoir des intervalles égaux).

Les variables utilisées dans les recherches en sciences sociales et en sciences de la gestion possèdent
une ou plusieurs de ces propriétés.

Nous voyons dans le tableau 1.2 :

 que l’échelle nominale permet de classer les individus dans des catégories ;

 que l’échelle ordinale permet de classer les individus dans des catégories et, en plus, d’établir un

ordre hiérarchique entre ces catégories ;

 que l’échelle par intervalles possède les propriétés des deux premières échelles ; en plus, les inter-

valles de l’échelle sont égaux ;

 que l’échelle de rapport possède toutes les propriétés des nombres ; c’est donc la plus achevée des
mesures

NB: Le classement des individus dans des catégories doit répondre à des règles assez strictes :

1. les catégories doivent être exhaustives, c’est-à-dire tenir compte de toutes les possibilités (ou du
moins des principales) ;

2. les catégories doivent être mutuellement exclusives en ce sens qu’une personne ne peut être classée à

la fois dans deux catégories (ou plus) ;


Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

3. les individus de la population étudiée doivent être classés dans les catégories avec le minimum

d’erreur possible.

Ces règles incontournables s’appliquent à toutes les échelles de mesure.

Exemple

Voyons tout de suite des exemples de chacune de ces échelles.

L’échelle nominale

L’échelle nominale a pour principale propriété de classer les individus d’un ensemble donné (population
ou échantillon) dans des catégories données. Donnons des exemples : • Le sexe des personnes se répar-
tit comme suit : 1. Femme 2. Homme

Les catégories nominales reposent, la plupart du temps, sur des conventions culturelles

L’échelle ordinale : Dans l’échelle nominale, chacune des catégories de la variable est équivalente aux
autres ; dans le cas de l’échelle ordinale, une catégorie peut être plus petite ou plus grande qu’une autre :

il y a une gradation dans les catégories utilisées. L’échelle ordinale possède donc deux des principales
propriétés des nombres : classer les individus dans des catégories et établir un ordre valable entre ces
catégories – deux opérations naturellement simultanées.

Voici des exemples :

La satisfaction face à un service : 1. Très insatisfait 2. Insatisfait 3. Satisfait 4. Très satisfait

L’achat d’un bien de consommation : 1. Jamais 2. Rarement 3. Souvent 4. Très souvent

Le niveau de scolarité : 1. Primaire 2. Secondaire 3. Collégial 4. Universitaire

L’échelle par intervalles

L’échelle par intervalles possède les propriétés des échelles nominales et ordinales, auxquelles elle
ajoute des intervalles égaux dans les différents niveaux gradués de l’échelle de mesure.
Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

Donnons des exemples :

• Le revenu du ménage : 1. 20 000 $ et moins 2. 20 001 $ à 40 000 $ 3. 40 001 $ à 60 000 $ 4. 60 001 $ à

80 000 $ 5. 80 001 $ à 100 000 $ 6. 100 001 $ et plus

• La scolarité : 1. 7 années et moins 2. 8 à 14 années 3. 15 à 21 années 4. 22 années et plus

L’échelle de rapport

L’échelle de rapport possède les mêmes propriétés des nombres que les trois premières échelles ;

s’ajoutent à ces propriétés les éléments suivants :

• le zéro dans l’échelle est absolu et a un sens, le sens d’absence de quelque chose ;

• les proportions calculées, dans l’échelle même, ont aussi un sens quelconque.

Donnons des exemples de cette fameuse échelle :

• Les dépenses alimentaires du ménage par semaine : 1. 0 2. 1 $ à 50 $ 3. 51 $ à 100 $ 4. 101 $ à 150 $ 5.


151 $ à 200 $ 6. 201 $ à 250 $ 7. 251 $ à 300 $ 8. etc.

• L’âge du répondant à une enquête sur les opinions politiques : 1. 0 2. 1 an à 10 ans 3. 11 ans à 20 ans 4.

21 ans à 30 ans 5. 31 ans à 40 ans 6. 41 ans à 50 ans 7. 51 ans à 60 ans 8. 61 ans à 70 ans 9. etc.
Analyse Des Données / Semestre 5 Professeure ZIneb EL ANDALOUSSI ENCGT

• Les échelles de mesure et Les opérations statistiques

NB: Une même variable peut être mesurée par des échelles différentes (mais ce n’est pas toujours pos-
sible pour toutes les variables : par exemple, la variable sexe restera toujours au niveau nominal). Don-
nons un exemple. À la question :

Consommez-vous du vin à la maison ? On aura les réponses suivantes, selon les échelles utilisées :

• Échelle nominale : 1. Oui 2. Non

• Échelle ordinale : 1. Jamais 2. Rarement 3. Souvent 4. Très souvent

• Échelle d’intervalles : nous allons ici changer la formulation de la question : Combien de fois avez-vous

consommé du vin à la maison dans le dernier mois ?

1. Jamais 2. 1 à 5 fois 3. 6 à 10 fois 4. 11 à 15 fois 5. 16 à 20 fois 6. 21 fois et plus

Vous aimerez peut-être aussi