ADD Cours

Université Cadi Ayyad Filière : Eco. & Gest.
Faculté des Sc. juridiques, Option : Gestion d’entreprise

économiques et sociales – Matière : ADD
Marrakech Prof. : A. ELABJANI
Document de travail n° 1
LES OUTILS DE TRAITEMENT DE L’INFORMATION
Analyse Des Données avec applications sur SPSS
Année universitaire :2012/2013

• INTRODUCTION
 A PROPOS DE L’ADD
1. Un domaine très vaste qui :
Il renferme plusieurs méthodes et s’applique à plusieurs disciplines.

2. Elle vient après la collecte des données.
3. Elle représente un outil d’aide à la décision et un moyen de prévisions.
 LES OBJECTIFS
1. Comprendre la démarche de l’ADD
* partie théorique succincte.
* partie empirique.
2. Faire connaissance avec le logiciel SPSS.
3. Exécuter des programmes sur celui-ci.
 LA SELECTION DES METHODES

Celle-ci se fait principalement via trois critères de première importance dans
toute sorte d’études et/ou recherches:
1. Les objectifs de l’utilisateur (ou bien de la recherche).
2. Les variables utilisées (numériques, nominales,…)
3. Le type des études à mener.
 La Démarche dans le travail du statisticien

1. Conception: définition de la population, des unités, des caractères
(variables), questionnaires
2. Collecte des données: exécution de l’enquête
3. Apurement: vérification, contrôle, redressement, etc.
4. Analyse: statistique descriptive, analyse des données multidimensionnelle,
méthodes économétriques, etc.
5. Publication des résultats
Cette démarche peut être éventuellement reprise avec plus de détail sur ses
différentes étapes notamment dans le cadre d’une analyse empirique. Elle peut être
également schématisée comme suit :
 LES THEMES
1.1. Rappels sur l’analyse unidimensionnelle
L’analyse unidimensionnelle représente la forme la plus simple de l’étude
des données et des populations observées.
Elle fait l’objet de la statistique descriptive classique qui se base

généralement sur deux principales étapes :
▪ L’observation de la population (ou des individus) en utilisant un systéme de

collecte des informations;
▪ L’utilisation d’un seul caractère (quantitatif ou qualitatif) afin d’étudier les
unités statistiques observées.
• 1. Rappels sur l’analyse unidimensionnelle
Afin de mieux réduire les données et les populations observées, L’analyse

unidimensionnelle utilise plusieurs formes d’analyse dont on cite:
1. L’utilisation des tableaux et des variables statistiques;
2. Le recours à des représentations graphiques selon le(s) caractère(s)

(quantitatif ou qualitatif) utilisés;
3. La détermination des caractéristiques et des paramètres de position

(mode, médiane, moyenne,…) ou de dispersion (variance, écart type,..).
Exemples:
De scriptives
Erreur
RIS QUE Statistique standard
NA ISENTR non Moyenne ,33 ,33
Intervalle de confianc e à Borne inférieure -1,10
95% pour la m oyenne Borne supérieure
1,77
Moyenne tronquée à 5% ,
Médiane ,00
Variance ,333
Ecart-type ,58
Minimum 0
Maximum 1
Intervalle 1
Intervalle interquartil e ,
Asy métrie 1,732 1,225
Apl atissement , ,
oui Moyenne ,13 3,90E-02
Intervalle de confianc e à Borne inférieure 5,38E-02
95% pour la m oyenne Borne supérieure
,21
Moyenne tronquée à 5% 9,06E-02

Médiane ,00
Variance ,116
Ecart-type ,34
Minimum 0
Maximum 1
Intervalle 1
Intervalle interquartil e ,00
Asy métrie 2,224 ,276
Apl atissement 3,025 ,545
1.2. L’analyse bi-dimensionnelle
La deuxième forme de l’analyse des données est L’analyse bidimensionnelle

qui se base sur l’application simultannée de deux caratères différents dans la
représentation des unités statistiques.
* Le même raisonnement d’analyse unidimensionnelle peut être séparément

utilisé sur chacun des caractères;
* Les caractères peuvent être de même ou de différentes natures.
L’intérêt de l’analyse bidimensionnelle est essentiellement lié à l’éventuelle

liaison susceptible d’exister entre les deux variables prises en considération.
Plusieurs cas sont possibles:
1. Lorsque les deux caractères sont qualitatifs, on est conduit à une analyse
des tableaux de contingence croisant les deux variables statistiques;
Exemple: TRI croisés, la matrice des corrélations, anova, …

Exemple des TRI croisés :
Ta bleau croisé NAISENTR * RISQUE
RISQUE
non oui Total
NAISENTR oui Effectif 2 66 68
% dans NAISENTR 2,9% 97,1% 100,0%
% dans RISQUE 66,7% 86,8% 86,1%
% du total 2,5% 83,5% 86,1%
non Effectif 1 10 11
% dans NAISENTR 9,1% 90,9% 100,0%
% dans RISQUE 33,3% 13,2% 13,9%
% du total 1,3% 12,7% 13,9%
Total Effectif 3 76 79
% dans NAISENTR 3,8% 96,2% 100,0%
% dans RISQUE 100,0% 100,0% 100,0%
% du total 3,8% 96,2% 100,0%
Matrice de corrélations :
Corrélations
NA ISENTR RIS QUE

Corrélation de Pears on NA ISENTR 1,000 -,111
RIS QUE -,111 1,000
Significat ion (unilatérale) NA ISENTR , ,164
RIS QUE ,164 ,
N NA ISENTR 79 79
RIS QUE 79 79
La matrice de corrélation est en général :

- Diagonale en tant que matrice carrée.
- La diagonale est unitaire (coefficients de corrélation égaux à 1).
- Elle est symétrique par rapport à sa diagonale.
Analyse de la variance :
ANOVAb
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression ,117 1 ,117 ,967 ,328a
Résidu 9,351 77 ,121
Total 9,468 78
a. Valeurs prédites : (constantes), RISQUE
b. Variable dépendante : NAISENTR
2. Lorsque l’un des deux caractères est quantitatif, on peut comparer la
moyenne de la variable quantitative aux modalités de l’autre variable;
Exemples :
Salaire Salaire Date de

courant courant naissanc e
Sexe Femme Sex e Femme $26,032 02/11/1956
$26,032
Homme $41,442 04/28/1957
Homme $41,442
Salaire
courant Dat e de naissance
Moyenne Moyenne Minimum
Sex e Femme $26,032 02/ 11/56 02/ 10/29
Homme $41,442 04/ 28/57 05/ 03/29
3. Lorsque les deux caractères sont quantitatifs, l’analyse doit porter sur la
corrélation entre les deux variables statistiques.
On parle, généralement, dans ce genre d’analyse de:
* la dépendance ou l’indépendance des deux caractères X et Y.
* la liaison fonctionnelle appelée également la régression linéaire.
En cas de régression, on peut mesurer:

- le poids de variation de l’une des variables sur l’autre (par estimation);
- l’intensité de corrélation en calculant le coefficient de corrélation tq. :
cov( X , Y )
R=
 X . Y
- La significativité de la corrélation en calculant le test de Fischer.
- La significativité des paramètres en calculant les tests de Student.
- etc.
Récapitulatif du modèle
Changement dans les statistiques

Erreur Modification
standard de Variation de F
Modèle R R-deux R-deux ajusté l'estimation de R-deux Variation de F ddl 1 ddl 2 signification
1 ,668a ,446 ,443 $5,871.76 ,446 189,427 2 471 ,000
a. Valeurs prédites : (constantes), Expérience passée (nombre de mois), Niveau d'éducation (nombre d'années passées à l'école)
Coeffici entsa
Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarité
Erreur
Modèle B standard Bêta t Signification Toléranc e VIF
1 (constante) -9902,786 1417,474 -6,986 ,000
Niveau d'éducation
(nombre d'années 1878,211 96, 717 ,688 19, 420 ,000 ,936 1,068
pas sées à l'éc ole)
Ex périence passée
16, 470 2,668 ,219 6,174 ,000 ,936 1,068
(nombre de mois)
a. Variable dépendant e : Salaire d'embauche
Plusieurs méthodes d’analyse peuvent être utilisées dans ce cadre.

Leur principal intérêt étant de travailler sur différents caractères pris au
même temps.
Ce qui doit traduire la réalité puisque les populations étudiées dépendent
réellement d’une multitude de variables.
3. L’analyse multidimensionnelle des données
Leurs points communs tiennent à :
 leur objectif visant la réduction des données afin d’en tirer facilement les
relations essentielles existantes entre les variables (Graphiques, tableaux,…);
 Dégager l’effet de tendance globale des données utilisées;
 Créer des regroupements entre individus ou entre variables;
 Le recours informatique qui en facilite énormément l’application même sur
des cas et des nombres irréalisables.

Les principales méthodes d’analyse à présenter à cet égard dont certaines
font partie des méthodes dites d’Analyses Factorielles simples :
 Les méthodes de régression multiple (Econométrie).

 L’Analyse en Composantes Principales (ACP).
 L’Analyse Factorielle des Correspondances (AFC).
1. L’Analyse de la régression multiple

Corrélations
NAISENTR RISQUE PARTENAI INDEPEND TRAVENTR STRESS AVENTRIS ARGENT AGE GAIN RESPONSA
Corrélation de Pears on NAISENTR 1,000 -,114 ,278 -,338 ,080 -,164 -,127 ,265 ,089 -,054 -,181
RISQUE -,114 1,000 ,056 -,122 ,090 ,051 ,066 ,062 -,031 -,044 ,114
PARTENAI ,278 ,056 1,000 -,008 -,033 ,098 -,081 ,099 -,119 -,122 -,112
INDEPEND -,338 -,122 -,008 1,000 ,004 ,244 ,057 -,126 -,062 -,027 ,147
TRAVENTR ,080 ,090 -,033 ,004 1,000 ,110 -,130 ,057 ,010 ,292 ,354
STRESS -,164 ,051 ,098 ,244 ,110 1,000 ,048 -,230 -,034 -,066 ,066
AVENTRIS -,127 ,066 -,081 ,057 -,130 ,048 1,000 ,013 -,059 -,041 ,127
ARGENT ,265 ,062 ,099 -,126 ,057 -,230 ,013 1,000 ,319 -,097 ,064
AGE ,089 -,031 -,119 -,062 ,010 -,034 -,059 ,319 1,000 -,070 -,005
GAIN -,054 -,044 -,122 -,027 ,292 -,066 -,041 -,097 -,070 1,000 ,220
RESPONSA -,181 ,114 -,112 ,147 ,354 ,066 ,127 ,064 -,005 ,220 1,000
Signification (unilatérale) NAISENTR , ,175 ,010 ,002 ,256 ,089 ,149 ,014 ,234 ,329 ,068
RISQUE ,175 , ,325 ,159 ,232 ,338 ,296 ,307 ,399 ,361 ,175
PARTENAI ,010 ,325 , ,475 ,393 ,212 ,255 ,210 ,165 ,158 ,179
INDEPEND ,002 ,159 ,475 , ,487 ,022 ,321 ,151 ,308 ,414 ,114
TRAVENTR ,256 ,232 ,393 ,487 , ,183 ,144 ,322 ,467 ,007 ,001
STRESS ,089 ,338 ,212 ,022 ,183 , ,349 ,029 ,389 ,294 ,294
AVENTRIS ,149 ,296 ,255 ,321 ,144 ,349 , ,456 ,314 ,370 ,149
ARGENT ,014 ,307 ,210 ,151 ,322 ,029 ,456 , ,004 ,215 ,299
AGE ,234 ,399 ,165 ,308 ,467 ,389 ,314 ,004 , ,284 ,484
GAIN ,329 ,361 ,158 ,414 ,007 ,294 ,370 ,215 ,284 , ,034
RESPONSA ,068 ,175 ,179 ,114 ,001 ,294 ,149 ,299 ,484 ,034 ,
N NAISENTR 69 69 69 69 69 69 69 69 69 69 69
RISQUE 69 69 69 69 69 69 69 69 69 69 69
PARTENAI 69 69 69 69 69 69 69 69 69 69 69
INDEPEND 69 69 69 69 69 69 69 69 69 69 69
TRAVENTR 69 69 69 69 69 69 69 69 69 69 69
STRESS 69 69 69 69 69 69 69 69 69 69 69
AVENTRIS 69 69 69 69 69 69 69 69 69 69 69
ARGENT 69 69 69 69 69 69 69 69 69 69 69
AGE 69 69 69 69 69 69 69 69 69 69 69
GAIN 69 69 69 69 69 69 69 69 69 69 69
RESPONSA 69 69 69 69 69 69 69 69 69 69 69
Coefficientsa
Coefficien
ts
Coefficients non standardi Intervalle de confiance à Statistiques de
standardisés sés 95% de B Corrélations colinéarité
Erreur Borne Borne Corrélation
Modèle B standard Bêta t Signification inférieure supérieure simple Partielle Partie Tolérance VIF
1 (constante) ,510 ,239 2,139 ,037 ,033 ,988
RISQUE -,291 ,196 -,168 -1,485 ,143 -,682 ,101 -,114 -,191 -,163 ,942 1,062
PARTENAI ,183 ,081 ,259 2,249 ,028 ,020 ,345 ,278 ,283 ,247 ,913 1,095
INDEPEND -,239 ,095 -,292 -2,503 ,015 -,430 -,048 -,338 -,312 -,275 ,888 1,127
TRAVENTR ,147 ,116 ,159 1,270 ,209 -,085 ,380 ,080 ,165 ,140 ,775 1,291
STRESS -6,28E-02 ,100 -,075 -,629 ,532 -,263 ,137 -,164 -,082 -,069 ,845 1,184
AVENTRIS -4,87E-02 ,143 -,039 -,341 ,734 -,334 ,237 -,127 -,045 -,038 ,928 1,077
ARGENT ,129 ,087 ,184 1,486 ,143 -,045 ,304 ,265 ,192 ,163 ,791 1,264
AGE 1,990E-02 ,085 ,028 ,234 ,816 -,150 ,190 ,089 ,031 ,026 ,859 1,164
GAIN -2,85E-02 ,085 -,040 -,337 ,738 -,198 ,141 -,054 -,044 -,037 ,853 1,172
RESPONSA -,139 ,124 -,139 -1,124 ,266 -,387 ,109 -,181 -,146 -,124 ,788 1,270
a. Variable dépendante : NAISENTR
Récapitulatif du modèleb
Changement dans les statistiques

Erreur Modification
standard de Variation de F Durbin-W
Modèle R R-deux R-deux ajusté l'estimation de R-deux Variation de F ddl 1 ddl 2 signification atson
1 ,546a ,298 ,177 ,32 ,298 2,467 10 58 ,016 2,025
a. Valeurs prédites : (constantes), RESPONSA, AGE, STRESS, RISQUE, AVENTRIS, PARTENAI, GAIN, INDEPEND, ARGENT, TRAVENTR
b. Variable dépendante : NAISENTR
2. L’Analyse en Composantes Principales

2.1. Caractéristiques
L’ACP est une méthode de description des tableaux de mesures, appelés
aussi tableaux «individus-caractères quantitatifs».
Elle représente la base de l’analyse des données et permet de de décrire les
relations:
- entre individus;
- entre les variables;
- entre les individus et les variables.
D’où son utilisation des nuages de points individus et variables.
• 3. L’analyse multidimensionnelle des données
 entre individus:
L’ACP cherche à analyser les distances et les écarts séparant les unités
statistiques.
 entre les variables:
L’ACP s’interesse plus particulèrement aux corrélations entre les variables.
 entre les individus et les variables:
L’analyse doit porter sur la représentativité des individus par les variables
étudiées et dont on choisit logiquement les principales qui restituent une grande
part d’explication dans la variation des unités observées.

Remarques:
1. En ACP, les données sont centrées et réduites, pour mieux apprécier les
distances entre les individus, et divisées par n pour permettre le calcul des
corrélations entre les variables.
2. L’ACP se base, dans son analyse, sur la visualisation graphique des données
(les nuages de points).
3. La dispersion des points d’un nuage par rapport à l’origine est appelée
inertie totale du nuage.

L’ACP passe par des «photographies» (appelées aussi cartes factorielles) qui
représentent des projections des individus et des variables effectuées sur les
plans retenus.
Chaque plan factoriel est défini par 2 axes orthogonaux. Le taux d’inertie
d’un axe est la part de l’inertie totale expliquée par cet axe. Il indique le
pourcentage d’informations restituées par le même axe.
Chaque axe factoriel correspond à un facteur ou une composante principale
(variable importante).
Exemple:
Individus Variable1 Variable2
1 3 500
2 9 700
3 4 1400
4 13 1900
5 8 1700
6 11 1000
Moy. 48 7200
8 1200
E.T. 3,559 509,902
2000
1800
1600
1400
Variable 1
1200
1000
800
600
400
200
0
0 2 4 6 8 10 12 14
Variable 2
L’ACP suppose de prendre pour une nouvelle origine le point G appelé centre
de gravité.
Individus Variable1 Variable2
1 -0,5735 -0,5604
2 +0,1147 -0,4003
3 -0,4588 +0,1601
4 +0,5735 +0,5604
5 0 +0,4003
6 +0,3441 -0,1601
0 0
Moy. 0 0
E.T. 1/6 1/6
 x² 1 1
C’est ainsi que les nouvelles coordonnées des individus en ACP deviennent
centrées et réduites.
Pour l’individu 3 par exemple, on a :
3
V = (4-8)/(3,5596) = -0,4588
1
3
V = (1400-1200)/(509,9026) = +0,1601
2
Avec le carré de la distance du point-individu 3 à G est égal à :
(-0,4588)² + (+0,1601)² = 0,2361.
Ce qui définit le carré de la distance du point-individu 3 au centre de gravité
G.
D’où, l’inertie totale du nuage est représentée par la somme des carrés des
distances de toutes les données (points-individus).
Elle mesure la dispersion des points autour du centre de gravité G.
Dans le cas d’une ACP normée, elle est égale au nombre de variables, çàd 2
dans notre cas.
L’intérêt essentiel de l’ACP est de déterminer l’axe principal du nuage dont les
distances entre les projections des points sont maximales.
Ce dernier est ainsi appelé l’axe factoriel n°1 lequel présente le meilleur taux
d’inertie en premier lieu.
Le second axe factoriel sera forcément représenté par un taux d’inertie
faible.
En conséquence, L’ACP transforme les variables V1 et V2 initialement corrélées
entre elles en axes factoriels appelés aussi composantes factorielles ou facteurs
principaux.
Généralement, ces derniers restituent une part importante de l’information

recherchée.
1.2. Application de l’ACP sur ordinateur:
L’application se fait globalement en passant par les étapes suivantes:

1. La saisie des données observées;
2. Le traitement des informations par le logiciel;
3. Celui-ci fournit les axes factoriels dans l’ordre décroissant des taux
d’inertie ainsi les tx d’inertie cumulés;
4. La sélection des principaux facteurs retenus (2 ou 3) pour 80% de l’inertie
totale;
5. La sélection se fait aussi à partir des représentations graphiques fournies
par le logiciel;
6. Interprétation des résultats dans le sens de la corrélation entre les
variables et la représentativité des individus observés.
Exemple:
Le cas de 15 Eses observées sur la base d’un ensemble de paramètres
économiques.
X1 X2 X3 X4 X5 X6
1 -14,20 14,50 1,55 -5,10 1,85 105
2 -13,70 14,00 1,50 -5,05 1,80 95
3 -12,60 15,80 1,65 -5,30 1,75 110
4 -12,80 16,00 1,80 -4,90 1,96 115
5 -13,00 15,10 1,90 -5,10 1,98 121
6 -12,40 13,80 1,85 -4,50 1,91 93
7 -13,50 14,30 1,80 -4,60 1,93 101
8 -12,20 15,20 1,85 -4,40 1,87 85
9 -12,10 10,30 1,65 -4,30 1,70 75
10 -12,00 11,10 1,75 -4,10 1,86 84
11 -11,20 10,30 1,80 -4,20 1,82 80
12 -11,50 11,40 1,85 -4,80 1,72 78
13 -11,50 12,30 1,90 -4,90 1,78 79
14 -10,80 11,00 1,80 -4,05 1,80 76
15 -11,60 10,50 1,90 -4,00 1,85 81
les résultats donnés par le logiciel sont récapitulés ainsi:
Axe Taux Taux d’inertie

factoriel d’inertie (%) cumulé (%)
1 59,3 59,3
2 25,2 84,5
3 10,0 94,5
4 2,6 97,1
…. … …
Les procédures de base dans l’analyse

ADD Cours

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ADD Cours

Transféré par

Droits d'auteur :

Formats disponibles

Université Cadi Ayyad Filière : Eco. & Gest.

Faculté des Sc. juridiques, Option : Gestion d’entreprise

LES OUTILS DE TRAITEMENT DE L’INFORMATION

Analyse Des Données avec applications sur SPSS

Année universitaire :2012/2013

Il renferme plusieurs méthodes et s’applique à plusieurs disciplines.

* partie théorique succincte.

 LA SELECTION DES METHODES

 La Démarche dans le travail du statisticien

Elle fait l’objet de la statistique descriptive classique qui se base

▪ L’observation de la population (ou des individus) en utilisant un systéme de

Afin de mieux réduire les données et les populations observées, L’analyse

1. L’utilisation des tableaux et des variables statistiques;

2. Le recours à des représentations graphiques selon le(s) caractère(s)

3. La détermination des caractéristiques et des paramètres de position

Moyenne tronquée à 5% 9,06E-02

1.2. L’analyse bi-dimensionnelle

La deuxième forme de l’analyse des données est L’analyse bidimensionnelle

* Le même raisonnement d’analyse unidimensionnelle peut être séparément

* Les caractères peuvent être de même ou de différentes natures.

L’intérêt de l’analyse bidimensionnelle est essentiellement lié à l’éventuelle

Plusieurs cas sont possibles:

Exemple: TRI croisés, la matrice des corrélations, anova, …

NA ISENTR RIS QUE

La matrice de corrélation est en général :

Salaire Salaire Date de

En cas de régression, on peut mesurer:

Changement dans les statistiques

Plusieurs méthodes d’analyse peuvent être utilisées dans ce cadre.

3. L’analyse multidimensionnelle des données

Leurs points communs tiennent à :

relations essentielles existantes entre les variables (Graphiques, tableaux,…);

 Dégager l’effet de tendance globale des données utilisées;

 Créer des regroupements entre individus ou entre variables;

 Le recours informatique qui en facilite énormément l’application même sur

des cas et des nombres irréalisables.

font partie des méthodes dites d’Analyses Factorielles simples :

 Les méthodes de régression multiple (Econométrie).

1. L’Analyse de la régression multiple

Changement dans les statistiques

2. L’Analyse en Composantes Principales

 entre les variables:

L’ACP s’interesse plus particulèrement aux corrélations entre les variables.

 entre les individus et les variables:

part d’explication dans la variation des unités observées.

corrélations entre les variables.

(les nuages de points).

inertie totale du nuage.

pourcentage d’informations restituées par le même axe.

Chaque axe factoriel correspond à un facteur ou une composante principale

distances de toutes les données (points-individus).

Elle mesure la dispersion des points autour du centre de gravité G.

dans notre cas.

Généralement, ces derniers restituent une part importante de l’information

L’application se fait globalement en passant par les étapes suivantes:

les résultats donnés par le logiciel sont récapitulés ainsi:

Axe Taux Taux d’inertie

Les procédures de base dans l’analyse

Vous aimerez peut-être aussi