Vous êtes sur la page 1sur 15

Université Cadi Ayyad Filière : Eco. & Gest.

Faculté des Sc. juridiques, Option : Gestion d’entreprise


économiques et sociales – Matière : ADD
Marrakech Prof. : A. ELABJANI

Document de travail n° 1

LES OUTILS DE TRAITEMENT DE L’INFORMATION

Analyse Des Données avec applications sur SPSS

Année universitaire :2012/2013


• INTRODUCTION

 A PROPOS DE L’ADD
1. Un domaine très vaste qui :

Il renferme plusieurs méthodes et s’applique à plusieurs disciplines.


2. Elle vient après la collecte des données.
3. Elle représente un outil d’aide à la décision et un moyen de prévisions.

 LES OBJECTIFS
1. Comprendre la démarche de l’ADD

* partie théorique succincte.

* partie empirique.
2. Faire connaissance avec le logiciel SPSS.
3. Exécuter des programmes sur celui-ci.

 LA SELECTION DES METHODES


Celle-ci se fait principalement via trois critères de première importance dans
toute sorte d’études et/ou recherches:
1. Les objectifs de l’utilisateur (ou bien de la recherche).
2. Les variables utilisées (numériques, nominales,…)
3. Le type des études à mener.

 La Démarche dans le travail du statisticien


1. Conception: définition de la population, des unités, des caractères
(variables), questionnaires
2. Collecte des données: exécution de l’enquête
3. Apurement: vérification, contrôle, redressement, etc.
4. Analyse: statistique descriptive, analyse des données multidimensionnelle,
méthodes économétriques, etc.
5. Publication des résultats

Cette démarche peut être éventuellement reprise avec plus de détail sur ses
différentes étapes notamment dans le cadre d’une analyse empirique. Elle peut être
également schématisée comme suit :
 LES THEMES
1.1. Rappels sur l’analyse unidimensionnelle
L’analyse unidimensionnelle représente la forme la plus simple de l’étude
des données et des populations observées.

Elle fait l’objet de la statistique descriptive classique qui se base


généralement sur deux principales étapes :

▪ L’observation de la population (ou des individus) en utilisant un systéme de


collecte des informations;
▪ L’utilisation d’un seul caractère (quantitatif ou qualitatif) afin d’étudier les
unités statistiques observées.
• 1. Rappels sur l’analyse unidimensionnelle

Afin de mieux réduire les données et les populations observées, L’analyse


unidimensionnelle utilise plusieurs formes d’analyse dont on cite:

1. L’utilisation des tableaux et des variables statistiques;

2. Le recours à des représentations graphiques selon le(s) caractère(s)


(quantitatif ou qualitatif) utilisés;

3. La détermination des caractéristiques et des paramètres de position


(mode, médiane, moyenne,…) ou de dispersion (variance, écart type,..).

Exemples:
De scriptives

Erreur
RIS QUE Statistique standard
NA ISENTR non Moyenne ,33 ,33
Intervalle de confianc e à Borne inférieure -1,10
95% pour la m oyenne Borne supérieure
1,77

Moyenne tronquée à 5% ,
Médiane ,00
Variance ,333
Ecart-type ,58
Minimum 0
Maximum 1
Intervalle 1
Intervalle interquartil e ,
Asy métrie 1,732 1,225
Apl atissement , ,
oui Moyenne ,13 3,90E-02
Intervalle de confianc e à Borne inférieure 5,38E-02
95% pour la m oyenne Borne supérieure
,21

Moyenne tronquée à 5% 9,06E-02


Médiane ,00
Variance ,116
Ecart-type ,34
Minimum 0
Maximum 1
Intervalle 1
Intervalle interquartil e ,00
Asy métrie 2,224 ,276
Apl atissement 3,025 ,545

1.2. L’analyse bi-dimensionnelle

La deuxième forme de l’analyse des données est L’analyse bidimensionnelle


qui se base sur l’application simultannée de deux caratères différents dans la
représentation des unités statistiques.

* Le même raisonnement d’analyse unidimensionnelle peut être séparément


utilisé sur chacun des caractères;

* Les caractères peuvent être de même ou de différentes natures.

L’intérêt de l’analyse bidimensionnelle est essentiellement lié à l’éventuelle


liaison susceptible d’exister entre les deux variables prises en considération.

Plusieurs cas sont possibles:

1. Lorsque les deux caractères sont qualitatifs, on est conduit à une analyse
des tableaux de contingence croisant les deux variables statistiques;

Exemple: TRI croisés, la matrice des corrélations, anova, …


Exemple des TRI croisés :
Ta bleau croisé NAISENTR * RISQUE

RISQUE
non oui Total
NAISENTR oui Effectif 2 66 68
% dans NAISENTR 2,9% 97,1% 100,0%
% dans RISQUE 66,7% 86,8% 86,1%
% du total 2,5% 83,5% 86,1%
non Effectif 1 10 11
% dans NAISENTR 9,1% 90,9% 100,0%
% dans RISQUE 33,3% 13,2% 13,9%
% du total 1,3% 12,7% 13,9%
Total Effectif 3 76 79
% dans NAISENTR 3,8% 96,2% 100,0%
% dans RISQUE 100,0% 100,0% 100,0%
% du total 3,8% 96,2% 100,0%

Matrice de corrélations :

Corrélations

NA ISENTR RIS QUE


Corrélation de Pears on NA ISENTR 1,000 -,111
RIS QUE -,111 1,000
Significat ion (unilatérale) NA ISENTR , ,164
RIS QUE ,164 ,
N NA ISENTR 79 79
RIS QUE 79 79

La matrice de corrélation est en général :


- Diagonale en tant que matrice carrée.
- La diagonale est unitaire (coefficients de corrélation égaux à 1).
- Elle est symétrique par rapport à sa diagonale.
Analyse de la variance :

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression ,117 1 ,117 ,967 ,328a
Résidu 9,351 77 ,121
Total 9,468 78
a. Valeurs prédites : (constantes), RISQUE
b. Variable dépendante : NAISENTR
2. Lorsque l’un des deux caractères est quantitatif, on peut comparer la
moyenne de la variable quantitative aux modalités de l’autre variable;

Exemples :

Salaire Salaire Date de


courant courant naissanc e
Sexe Femme Sex e Femme $26,032 02/11/1956
$26,032
Homme $41,442 04/28/1957
Homme $41,442

Salaire
courant Dat e de naissance
Moyenne Moyenne Minimum
Sex e Femme $26,032 02/ 11/56 02/ 10/29
Homme $41,442 04/ 28/57 05/ 03/29

3. Lorsque les deux caractères sont quantitatifs, l’analyse doit porter sur la
corrélation entre les deux variables statistiques.
On parle, généralement, dans ce genre d’analyse de:
* la dépendance ou l’indépendance des deux caractères X et Y.
* la liaison fonctionnelle appelée également la régression linéaire.

En cas de régression, on peut mesurer:


- le poids de variation de l’une des variables sur l’autre (par estimation);
- l’intensité de corrélation en calculant le coefficient de corrélation tq. :
cov( X , Y )
R=
 X . Y
- La significativité de la corrélation en calculant le test de Fischer.
- La significativité des paramètres en calculant les tests de Student.
- etc.
Récapitulatif du modèle

Changement dans les statistiques


Erreur Modification
standard de Variation de F
Modèle R R-deux R-deux ajusté l'estimation de R-deux Variation de F ddl 1 ddl 2 signification
1 ,668a ,446 ,443 $5,871.76 ,446 189,427 2 471 ,000
a. Valeurs prédites : (constantes), Expérience passée (nombre de mois), Niveau d'éducation (nombre d'années passées à l'école)

Coeffici entsa

Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarité
Erreur
Modèle B standard Bêta t Signification Toléranc e VIF
1 (constante) -9902,786 1417,474 -6,986 ,000
Niveau d'éducation
(nombre d'années 1878,211 96, 717 ,688 19, 420 ,000 ,936 1,068
pas sées à l'éc ole)
Ex périence passée
16, 470 2,668 ,219 6,174 ,000 ,936 1,068
(nombre de mois)
a. Variable dépendant e : Salaire d'embauche

Plusieurs méthodes d’analyse peuvent être utilisées dans ce cadre.


Leur principal intérêt étant de travailler sur différents caractères pris au
même temps.
Ce qui doit traduire la réalité puisque les populations étudiées dépendent
réellement d’une multitude de variables.

3. L’analyse multidimensionnelle des données

Leurs points communs tiennent à :

 leur objectif visant la réduction des données afin d’en tirer facilement les

relations essentielles existantes entre les variables (Graphiques, tableaux,…);

 Dégager l’effet de tendance globale des données utilisées;

 Créer des regroupements entre individus ou entre variables;

 Le recours informatique qui en facilite énormément l’application même sur

des cas et des nombres irréalisables.


Les principales méthodes d’analyse à présenter à cet égard dont certaines

font partie des méthodes dites d’Analyses Factorielles simples :

 Les méthodes de régression multiple (Econométrie).


 L’Analyse en Composantes Principales (ACP).
 L’Analyse Factorielle des Correspondances (AFC).

1. L’Analyse de la régression multiple


Corrélations

NAISENTR RISQUE PARTENAI INDEPEND TRAVENTR STRESS AVENTRIS ARGENT AGE GAIN RESPONSA
Corrélation de Pears on NAISENTR 1,000 -,114 ,278 -,338 ,080 -,164 -,127 ,265 ,089 -,054 -,181
RISQUE -,114 1,000 ,056 -,122 ,090 ,051 ,066 ,062 -,031 -,044 ,114
PARTENAI ,278 ,056 1,000 -,008 -,033 ,098 -,081 ,099 -,119 -,122 -,112
INDEPEND -,338 -,122 -,008 1,000 ,004 ,244 ,057 -,126 -,062 -,027 ,147
TRAVENTR ,080 ,090 -,033 ,004 1,000 ,110 -,130 ,057 ,010 ,292 ,354
STRESS -,164 ,051 ,098 ,244 ,110 1,000 ,048 -,230 -,034 -,066 ,066
AVENTRIS -,127 ,066 -,081 ,057 -,130 ,048 1,000 ,013 -,059 -,041 ,127
ARGENT ,265 ,062 ,099 -,126 ,057 -,230 ,013 1,000 ,319 -,097 ,064
AGE ,089 -,031 -,119 -,062 ,010 -,034 -,059 ,319 1,000 -,070 -,005
GAIN -,054 -,044 -,122 -,027 ,292 -,066 -,041 -,097 -,070 1,000 ,220
RESPONSA -,181 ,114 -,112 ,147 ,354 ,066 ,127 ,064 -,005 ,220 1,000
Signification (unilatérale) NAISENTR , ,175 ,010 ,002 ,256 ,089 ,149 ,014 ,234 ,329 ,068
RISQUE ,175 , ,325 ,159 ,232 ,338 ,296 ,307 ,399 ,361 ,175
PARTENAI ,010 ,325 , ,475 ,393 ,212 ,255 ,210 ,165 ,158 ,179
INDEPEND ,002 ,159 ,475 , ,487 ,022 ,321 ,151 ,308 ,414 ,114
TRAVENTR ,256 ,232 ,393 ,487 , ,183 ,144 ,322 ,467 ,007 ,001
STRESS ,089 ,338 ,212 ,022 ,183 , ,349 ,029 ,389 ,294 ,294
AVENTRIS ,149 ,296 ,255 ,321 ,144 ,349 , ,456 ,314 ,370 ,149
ARGENT ,014 ,307 ,210 ,151 ,322 ,029 ,456 , ,004 ,215 ,299
AGE ,234 ,399 ,165 ,308 ,467 ,389 ,314 ,004 , ,284 ,484
GAIN ,329 ,361 ,158 ,414 ,007 ,294 ,370 ,215 ,284 , ,034
RESPONSA ,068 ,175 ,179 ,114 ,001 ,294 ,149 ,299 ,484 ,034 ,
N NAISENTR 69 69 69 69 69 69 69 69 69 69 69
RISQUE 69 69 69 69 69 69 69 69 69 69 69
PARTENAI 69 69 69 69 69 69 69 69 69 69 69
INDEPEND 69 69 69 69 69 69 69 69 69 69 69
TRAVENTR 69 69 69 69 69 69 69 69 69 69 69
STRESS 69 69 69 69 69 69 69 69 69 69 69
AVENTRIS 69 69 69 69 69 69 69 69 69 69 69
ARGENT 69 69 69 69 69 69 69 69 69 69 69
AGE 69 69 69 69 69 69 69 69 69 69 69
GAIN 69 69 69 69 69 69 69 69 69 69 69
RESPONSA 69 69 69 69 69 69 69 69 69 69 69
Coefficientsa

Coefficien
ts
Coefficients non standardi Intervalle de confiance à Statistiques de
standardisés sés 95% de B Corrélations colinéarité
Erreur Borne Borne Corrélation
Modèle B standard Bêta t Signification inférieure supérieure simple Partielle Partie Tolérance VIF
1 (constante) ,510 ,239 2,139 ,037 ,033 ,988
RISQUE -,291 ,196 -,168 -1,485 ,143 -,682 ,101 -,114 -,191 -,163 ,942 1,062
PARTENAI ,183 ,081 ,259 2,249 ,028 ,020 ,345 ,278 ,283 ,247 ,913 1,095
INDEPEND -,239 ,095 -,292 -2,503 ,015 -,430 -,048 -,338 -,312 -,275 ,888 1,127
TRAVENTR ,147 ,116 ,159 1,270 ,209 -,085 ,380 ,080 ,165 ,140 ,775 1,291
STRESS -6,28E-02 ,100 -,075 -,629 ,532 -,263 ,137 -,164 -,082 -,069 ,845 1,184
AVENTRIS -4,87E-02 ,143 -,039 -,341 ,734 -,334 ,237 -,127 -,045 -,038 ,928 1,077
ARGENT ,129 ,087 ,184 1,486 ,143 -,045 ,304 ,265 ,192 ,163 ,791 1,264
AGE 1,990E-02 ,085 ,028 ,234 ,816 -,150 ,190 ,089 ,031 ,026 ,859 1,164
GAIN -2,85E-02 ,085 -,040 -,337 ,738 -,198 ,141 -,054 -,044 -,037 ,853 1,172
RESPONSA -,139 ,124 -,139 -1,124 ,266 -,387 ,109 -,181 -,146 -,124 ,788 1,270
a. Variable dépendante : NAISENTR

Récapitulatif du modèleb

Changement dans les statistiques


Erreur Modification
standard de Variation de F Durbin-W
Modèle R R-deux R-deux ajusté l'estimation de R-deux Variation de F ddl 1 ddl 2 signification atson
1 ,546a ,298 ,177 ,32 ,298 2,467 10 58 ,016 2,025
a. Valeurs prédites : (constantes), RESPONSA, AGE, STRESS, RISQUE, AVENTRIS, PARTENAI, GAIN, INDEPEND, ARGENT, TRAVENTR
b. Variable dépendante : NAISENTR

2. L’Analyse en Composantes Principales


2.1. Caractéristiques
L’ACP est une méthode de description des tableaux de mesures, appelés
aussi tableaux «individus-caractères quantitatifs».
Elle représente la base de l’analyse des données et permet de de décrire les
relations:
- entre individus;
- entre les variables;
- entre les individus et les variables.
D’où son utilisation des nuages de points individus et variables.
• 3. L’analyse multidimensionnelle des données
2. L’Analyse en Composantes Principales

 entre individus:
L’ACP cherche à analyser les distances et les écarts séparant les unités

statistiques.

 entre les variables:

L’ACP s’interesse plus particulèrement aux corrélations entre les variables.

 entre les individus et les variables:

L’analyse doit porter sur la représentativité des individus par les variables

étudiées et dont on choisit logiquement les principales qui restituent une grande

part d’explication dans la variation des unités observées.


• 3. L’analyse multidimensionnelle des données
2. L’Analyse en Composantes Principales

Remarques:

1. En ACP, les données sont centrées et réduites, pour mieux apprécier les

distances entre les individus, et divisées par n pour permettre le calcul des

corrélations entre les variables.

2. L’ACP se base, dans son analyse, sur la visualisation graphique des données

(les nuages de points).

3. La dispersion des points d’un nuage par rapport à l’origine est appelée

inertie totale du nuage.


• 3. L’analyse multidimensionnelle des données
2. L’Analyse en Composantes Principales
L’ACP passe par des «photographies» (appelées aussi cartes factorielles) qui

représentent des projections des individus et des variables effectuées sur les

plans retenus.

Chaque plan factoriel est défini par 2 axes orthogonaux. Le taux d’inertie

d’un axe est la part de l’inertie totale expliquée par cet axe. Il indique le

pourcentage d’informations restituées par le même axe.

Chaque axe factoriel correspond à un facteur ou une composante principale

(variable importante).
• 3. L’analyse multidimensionnelle des données
2. L’Analyse en Composantes Principales
Exemple:
Individus Variable1 Variable2

1 3 500
2 9 700
3 4 1400
4 13 1900
5 8 1700
6 11 1000

Moy. 48 7200
8 1200
E.T. 3,559 509,902

2000
1800
1600
1400
Variable 1

1200
1000
800
600
400
200
0
0 2 4 6 8 10 12 14
Variable 2
L’ACP suppose de prendre pour une nouvelle origine le point G appelé centre
de gravité.
Individus Variable1 Variable2
1 -0,5735 -0,5604
2 +0,1147 -0,4003
3 -0,4588 +0,1601
4 +0,5735 +0,5604
5 0 +0,4003
6 +0,3441 -0,1601

0 0
Moy. 0 0
E.T. 1/6 1/6
 x² 1 1

C’est ainsi que les nouvelles coordonnées des individus en ACP deviennent
centrées et réduites.
Pour l’individu 3 par exemple, on a :
3
V = (4-8)/(3,5596) = -0,4588
1
3
V = (1400-1200)/(509,9026) = +0,1601
2
Avec le carré de la distance du point-individu 3 à G est égal à :
(-0,4588)² + (+0,1601)² = 0,2361.
Ce qui définit le carré de la distance du point-individu 3 au centre de gravité
G.

D’où, l’inertie totale du nuage est représentée par la somme des carrés des

distances de toutes les données (points-individus).

Elle mesure la dispersion des points autour du centre de gravité G.

Dans le cas d’une ACP normée, elle est égale au nombre de variables, çàd 2

dans notre cas.

L’intérêt essentiel de l’ACP est de déterminer l’axe principal du nuage dont les
distances entre les projections des points sont maximales.
Ce dernier est ainsi appelé l’axe factoriel n°1 lequel présente le meilleur taux
d’inertie en premier lieu.
Le second axe factoriel sera forcément représenté par un taux d’inertie
faible.
En conséquence, L’ACP transforme les variables V1 et V2 initialement corrélées
entre elles en axes factoriels appelés aussi composantes factorielles ou facteurs
principaux.

Généralement, ces derniers restituent une part importante de l’information


recherchée.
1.2. Application de l’ACP sur ordinateur:

L’application se fait globalement en passant par les étapes suivantes:


1. La saisie des données observées;
2. Le traitement des informations par le logiciel;
3. Celui-ci fournit les axes factoriels dans l’ordre décroissant des taux
d’inertie ainsi les tx d’inertie cumulés;
4. La sélection des principaux facteurs retenus (2 ou 3) pour 80% de l’inertie
totale;
5. La sélection se fait aussi à partir des représentations graphiques fournies
par le logiciel;
6. Interprétation des résultats dans le sens de la corrélation entre les
variables et la représentativité des individus observés.

Exemple:
Le cas de 15 Eses observées sur la base d’un ensemble de paramètres
économiques.
X1 X2 X3 X4 X5 X6
1 -14,20 14,50 1,55 -5,10 1,85 105
2 -13,70 14,00 1,50 -5,05 1,80 95
3 -12,60 15,80 1,65 -5,30 1,75 110
4 -12,80 16,00 1,80 -4,90 1,96 115
5 -13,00 15,10 1,90 -5,10 1,98 121
6 -12,40 13,80 1,85 -4,50 1,91 93
7 -13,50 14,30 1,80 -4,60 1,93 101
8 -12,20 15,20 1,85 -4,40 1,87 85
9 -12,10 10,30 1,65 -4,30 1,70 75
10 -12,00 11,10 1,75 -4,10 1,86 84
11 -11,20 10,30 1,80 -4,20 1,82 80
12 -11,50 11,40 1,85 -4,80 1,72 78
13 -11,50 12,30 1,90 -4,90 1,78 79
14 -10,80 11,00 1,80 -4,05 1,80 76
15 -11,60 10,50 1,90 -4,00 1,85 81

les résultats donnés par le logiciel sont récapitulés ainsi:

Axe Taux Taux d’inertie


factoriel d’inertie (%) cumulé (%)
1 59,3 59,3
2 25,2 84,5
3 10,0 94,5
4 2,6 97,1
…. … …

Les procédures de base dans l’analyse

Vous aimerez peut-être aussi