Vous êtes sur la page 1sur 6

Les traitements élémentaires :

Les analyses univariées (ou tris à plat) :

 Concernent le traitement d’une seule variable


 Ont pour objet de synthétiser et d’analyser les informations disponibles sur cette
variable

Les analyses bivariées (ou tris croisés)

 Ont pour objet de mettre en évidence les relations éventuelles qui existent entre 2
variables analysées simultanément

Les analyses multivariées

Les méthodes descriptives :

 Cherchent à étudier les relations entre 2 groupes de variables


 L’une d’entre elles mesure un phénomène que l’on cherche à expliquer
 Les autres représentent des phénomènes qui sont supposés influencer et déterminer
le précédent

Les méthodes explicatives :

 Prennent en compte un ensemble de variables


 Cherchent à structurer ou résumer un groupe de variables
 Cherchent à décrire de façon synthétique la structure des données disponibles

Y = aX + b
Y X
Variable à expliquer Variable explicative
Endogène Exogène
Dépendante Indépendante

 La régression linéaire
 Simple : Explication d’une variable quantitative Y à l’aide d’une variable
également quantitative
 Multiple : utilisation de plusieurs variables explicatives (X1, X2…) pour
expliquer Y
 L’analyse de la variance (ANOVA)
 L’analyse discriminante
 L’analyse conjointe (MONANOVA)
 La segmentation
Les méthodes descriptives :

 L’analyse en composantes principales (ACP)


 L’analyse typologique
 L’analyse factorielle des correspondances

Les méthodes avancées d’analyse multivariée :

L’analyse canonique :

 Etend la régression au cas où il y a plusieurs variables à expliquer


 Peut être considérée comme la plus générale des méthodes fondées sur le modèle
linéaire

Les modèles de causalité (ou équations structurelles) :

 Constituent le stade actuellement le plus avancé des méthodes d’analyse de données


 Permettent d’étudier simultanément la structure des relations entre variables et la
qualité de la mesure de ces variables

Références Bibliographiques

- MARKET : études et recherches en Marketing

Auteurs : Y. Evrard, B.Pras & E. Roux

Editeur : Dunod

- Les enquêtes par questionnaire avec Sphinx

Auteur : Stéphane Ganassali

Editeur : Pearson Education

- Etudes de marché

Auteurs : Jean-Luc Giannelloni & Eric Vernette

Editeur : Vuibert

- Le traitement des données en marketing

Auteur : Jean-Pierre Vedrine

Editeur : Les éditions d’Organisation


Les traitements élémentaires :
Les analyses univariées
Introduction :

 Les analyses univariées concernent le traitement d’une seule variable


 Elles ont pour objet de synthétiser et d’analyser les informations disponibles sur
cette variable
 Ces données peuvent provenir de sources différentes
 Donnés d’observations
 Données expérimentales
 Séries statistiques
 Résultats d’une question posée dans le cadre d’un sondage

Exemples :

 Le nombre d’entrées dans un hypermarché à différentes heures de la journée


 Les ventes d’un produit associées à un conditionnement expérimental
 L’évolution des ventes d’un produit sur un certain nombre d’années
 Les réponses à la question : « possédez-vous un auto-radio ? »

Données quantitatives (métriques) :

 Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne
interrogée se voit demander la valeur qu’elle donne à la variable concernée
 Pour chaque individu I, une valeur XIK sera obtenue pour cette variable. Si l’enquête
porte sur n individus, la variable sera associée à un vecteur de n éléments
 La synthétisation de ces données peut être réalisée à travers le calcul de divers
indicateurs que fournissent la plupart des logiciels

Données qualitatives (Nominales) :

 Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne
interrogée a le choix entre plusieurs modalités qui lui sont proposées explicitement
ou implicitement (Cas d’une question ouverte avec post-codification)
 Pour chaque individu I, la réponse correspond à un code ou éventuellement à
plusieurs si le choix est multiple
 Sur l’ensemble de la population enquêtée, on calcule alors la fréquence absolue (le
nombre de fois qu’un code j donné est apparu pour la variable k étudiée)
Données qualitatives (Ordinales) :

 Dans le cadre d’un questionnaire, elles apparaissent chaque fois que la personne
interrogée se voit demander de classer plusieurs items proposés
 Sur l’ensemble de la population enquêtée, il sera ainsi possible de comptabiliser :
 Le nombre de fois qu’un item donné a été classé en 1ere position, ou en 2 e,…
 Le nombre de fois qu’un item donné a été classé avant un autre item ; ce type
de résultats permettra d’établir une matrice des préférences

Les indicateurs de position


Cherchent à résumer par une caractéristique de tendance centrale les niveaux pris par une
variable

 Le mode : modalité pour laquelle les observations sont les plus nombreuses (Mo)
 La médiane : Valeur qui divise la population étudiée en 2 parties égales (Me)
 La moyenne : Généralement considérée comme « naturellement » la tendance
centrale de la distribution d’une variable numérique : XAk = ∑ XIK / n

Les indicateurs de dispersion


mesurent la plus ou moins grande dispersion des valeurs autour de leur tendance centrale

 L’étendue : Intervalle qui sépare les deux valeurs extrêmes : E = XMAX – XMIN
 La variance : Moyenne des carrés des écarts par rapport à la moyenne (obtenue sur
échantillon) : S2k = ∑ (XIK – XAK) 2 / (n – 1)
 L’écart-type : Racine carrée de la variance : Sk = [∑(XIK – XAK) 2 / (n – 1)] 1 /2
 Le coefficient de variation : Pourcentage permettant de comparer la dispersion de
variables ayant des moyennes différentes : C.V. = SK / XAK

Le test de moyenne

 Il s’agit de comparer la moyenne obtenue sur un échantillon A XA à une valeur


prédéterminée µ
 L’hypothèse nulle peut être formulée de 2 façons :
 Sous forme d’inégalité (par exemple XA > µ) : il s’agira alors d’un test
unilatéral
 Sous forme d’égalité (par exemple XA = µ) : Il s’agira alors d’un test bilatéral
 Deux test sont utilisables (z ou t) selon 2 conditions :
 Connait-on ou non l’écart-type de la variable dans la population (α) ? Si oui,
on utilisera le test z
 Sinon (ce qui est le cas le plus fréquent dans la pratique), on utilisera l’écart-
type de l’échantillon (α) comme estimateur de l’écart-type (inconnu) de la
population : le choix dépend alors de la taille de l’échantillon : si n < 30, on
utilisera le test t (sinon on utilisera le test z)
 Le test z consiste alors à calculer la valeur z = |XA - µ| / SXA où l’écart-type de la
moyenne SXA = S / n1/2
 Valeur observée de z est comparée à la valeur zµ correspondant au seuil de
signification µ retenu. Z suit une distribution normale, c’est donc sur une table de
cette distribution que l’on trouvera zµ.
 Si l’on désire travailler avec un seuil de confiance (1- µ), un intervalle de confiance
pour la moyenne µ est obtenu à l’aide de l’expression : µ = XA +/- zα/2. sXA
 Dans le cas du test t, la valeur à tester est calculée de la même façon, mais la valeur
tα est lue dans la table de la loi de Student à (n-1) degrés de liberté (au-delà de 30
observations, la distribution de t est approximativement normale)
 Dans le cas d’une proportion (ou pourcentage), la démarche à utiliser est analogue.
Soit P la proportion « théorique », p la proportion observée et sp l’écart-type qui lui
est associé : sp = [p(1-p)/n]1/2 on calcule alors : z = |P-p| / sp

Exemple 1 :
- L’association des étudiants d’une université envisage d’ouvrir un ciné-club ; afin d’en
évaluer la fréquentation, elle a réalisé une enquête par sondage sur un échantillon de
400 individus.
Une moyenne de fréquentation de 10 séances par an et par individu a été obtenue
avec un écart-type égal à 20.
Au seuil de 5%, donnez l’intervalle de confiance de la moyenne de fréquentation
attendue (réelle) par étudiant, puis de la fréquentation globale annuelle (l’université
comprend 5000 étudiants). On donne zα/2 = 1,96
µ = XA +/- zα/2. sXA
Avec SXA = S/n1/2 = 20/4001/2 = 1
µ = 10 +/- 1,96 x 1 = 10 +/- 1,96
µ a 95 chances sur 100 de se situer dans la fourchette (ou intervalle de confiance)
[8,04 ; 11,96]
Si l’université comprend 5000 étudiant, une fréquentation globale de 50000 places
peut être attendue en moyenne ; la fréquentation globale annuelle a 95% de chances
de se situer dans l’intervalle [40200 ; 59800]
Exemple 2 :
- Répondre aux mêmes questions au cas où l’association se serait limitée à 21
interviews au lieu d’utiliser un échantillon de 400 personnes. On donne t µ = 2,086

Dans ce cas, la moyenne d’échantillon suit une loi de Student à 20 degrés de liberté
(n-1)
Donc µ = 10 +/- 2,086 x (20/211/2) = 10 +/- 9,10
µ a 95 chances sur 100 de se situer dans la fourchette |0,9 : 19,1]

Vous aimerez peut-être aussi