Académique Documents
Professionnel Documents
Culture Documents
RAPPORT
DE
PROJET :
Analyse De Données avec
SPSS
ENCADRÉ PAR
M.ATTOUBI
PRÉSENTÉ PAR
Imane Rahhali
Mohammed Kouddane
Soukaina Echaguer
Zineb Majidi
Boutaina Jib
Yasmine Lazhar
Table des matières :
Remerciements : ..................................................................................................................2
Introduction générale : .........................................................................................................3
Présentation de la première base de données : .................................................................4
ANALYSE EN COMPOSANTES PRINCIPALES : .................................................................5
ANALYSE TYPOLOGIQUE : ...............................................................................................13
Présentation de la deuxième base de données :..............................................................19
ANALYSE FACTORIELLE DES CORRESPONDANCES : .................................................24
Conclusion :........................................................................................................................32
Bibliographie et webographie : .........................................................................................33
1
Remerciements :
2
Introduction générale :
3
Présentation de la première base de données :
4
ANALYSE EN COMPOSANTES
PRINCIPALES :
5
L'analyse en composantes principales (ACP) est une méthode de la famille de
l'analyse des données et plus généralement de la statistique multi variée. Elle
consiste à transformer des variables liées entre elles (dites « corrélées » en
statistique) en de nouvelles variables décorrélées les unes des autres.
L’ACP permet une analyse des variables statistiques définies sur les
caractères étudiés. Elle permet de construire les variables artificielles (car non
mesurées mais calculées à partir des données) qui expliquent l'ensemble des
variables statistiques prises en compte dans l'ACP.
Principe de l’ACP :
6
Afin de mener une analyse en composantes principales sur notre base de données,
on doit d'abord vérifier les corrélations inter-variables à travers trois critères :
7
Indice KMO et test de Bartlett
L’indice KMO est de 0,641 et peut être qualifié de méritoire. Il nous indique que les
corrélations entre les variables sont de bonne qualité. Ensuite, le résultat du test de
sphéricité de Bartlett est significatif (tend vers 0). Nous pouvons donc rejeter
l’hypothèse nulle voulant que nos données proviennent d’une population pour
laquelle la matrice serait une matrice d’identité. Les corrélations ne sont donc pas
toutes égales à zéro.
La base de données vérifie les 3 conditions, on peut donc procéder à une analyse
en composantes principales.
Qualité de représentation
Initial Extraction
8
Variance totale expliquée
Composante Valeurs propres initiales Extraction Sommes des carrés des facteurs retenus
Ces deux composantes expliquent 82,6% de l'inertie totale soit une perte
d'information faible de 17,4%.
9
Matrice des composantesa
Composante
1 2
10
Diagramme
D'après la dispersion des individus (qui sont dans notre cas les 12 régions du
Royaume), on peut repérer 3 groupes :
Ce groupe est corrélé négativement avec le deuxième axe et neutre avec le premier
axe. On peut conclure que c'est un groupe de régions en situation sociale avilissante
et moyennement performantes sur le niveau économique.
11
Groupe 3 : Rabat-Salé-Kénitra, Tanger-Tétouan-Al Hoceima et Casablanca-Settat.
Le troisième groupe est corrélé positivement avec les 2 axes. C’est un groupe
regroupant les régions les plus favorisées du Royaume.
12
ANALYSE TYPOLOGIQUE :
13
L’analyse typologique correspond à un ensemble de méthodes
multidimensionnelles visant à prendre des éléments (sujets ou variables) provenant
de certains ensembles de données. Elle permet de répartir la population de l’enquête
en un nombre défini de sous-groupes aussi différents que possibles les uns des
autres et dans lesquels les individus sont aussi semblables que possible entre eux.
Les différentes méthodes d’analyse typologique partent des individus eux-mêmes et
essaient de les classer progressivement selon la ressemblance de leurs réponses
aux variables sélectionnées. Contrairement à la segmentation qui privilégie une seule
variable à expliquer, la typologie prend en compte toutes les variables choisies pour
l’analyse, sur le même plan.
Observations
12 100,0 0 ,0 12 100,0
14
En outre, la matrice de proximité présente les distances qui séparent les
régions. Les lignes et les colonnes de cette matrice sont les régions. Le chiffre
présenté est la distance euclidienne au carré. Cette matrice est triangulaire, c’est à
dire qu’elle est séparée par sa diagonale qui contient la valeur nulle (distance d’une
région par rapport à elle-même, égale à 0) et que la partie haute et la partie basse
présentent les mêmes données. Plus la distance entre deux régions est faible,
plus on peut facilement les agréger.
15
Ensuite, le logiciel se charge du calcul de distance entre les classes, et ceci à
travers la méthode de Ward qui permet de minimiser la variance intra classe pour
distinguer les classes homogènes et hétérogènes. Cela se fait à travers différents
calculs faits par SPSS et ceci nous donne donc la chaine des agrégations.
En effet, la distance entre les classes que le logiciel regroupe est affichée dans
la colonne des coefficients, et ceci selon un ordre croissant.
La chaîne des agrégations donne alors des informations sur les régions
combinées à chaque étape du processus de classification hiérarchique.
88 − 60,442
= 31,31%
88
88 − 37,414
= 57,48%
88
16
Qualité de la typologie en 5 classes :
88 − 24,156
= 72,55%
88
88 − 17,349
= 80,28%
88
17
Dans notre cas, il est présenté horizontalement et se lit donc de gauche à
droite. Les individus (Régions) sont en ligne (Observation). Le graphique présente
alors l’ordre dans lequel les regroupements d’individus ont été réalisés.
Les regroupements les plus intéressants sont ceux obtenus après un saut du
coefficient important, c’est-à-dire le découpage résultant du regroupement de deux
classes nettement plus éloignées que les précédentes (la grande distance entre les
deux étapes qui se suivent).
18
Case 1 : Tanger-Tétouan-Al Hoceima
Case 2 : Oriental
Case 3 : Fès-Meknès
Case 4 : Rabat-Salé-Kénitra
Case 5 : Béni Mellal-Khénifra
Case 6 : Casablanca-Settat
Case 7 : Marrakech-Safi
Case 8 : Drâa-Tafilalet
Case 9 : Souss-Massa
Case 10 : Guelmim-Oued Noun
Case 11 : Laâyoune-Saguia al Hamra
Case 12 : Dakhla-Oued ed Dahab
Groupe 5 : Casablanca-Settat.
75% (45) des interrogés sont vaccinés, 25% (15) ne le sont pas.
Question 2 : A quelle tranche d’âge appartenez-vous ?
20
Question 3 : Quel est le type de vaccin dont vous avez bénéficié ?
Pour les 12-17 ans :
Pfizer : 7
SinoPharm : 2
SinoPharm : 6
Pfizer : 2
J&J : 1
21
Pour les 36-55 ans :
22
A partir des résultats du questionnaire, la seconde base de données,
nécessaire à l’analyse factorielle des correspondances, a pu être établie :
23
ANALYSE FACTORIELLE DES
CORRESPONDANCES :
24
L’analyse factorielle des correspondances, notée AFC, est une analyse destinée
au traitement des tableaux de données qualitatives.
Principe :
Pour évaluer les ressemblances entre les modalités d’une même variable, on
réalise une ACP sur la matrice des profils lignes ou des profils colonnes.
Pour évaluer les proximités entre les modalités des deux variables, on étudie
le lien entre les deux ACP : ACP des profils lignes et ACP des profils
colonnes.
25
Tableau des correspondances
Tranchedage Typedevaccin
1 2 3 4 Marge active
1 0 2 7 0 9
2 0 6 2 1 9
3 2 7 0 0 9
4 6 3 0 0 9
5 7 2 0 0 9
Marge active 15 20 9 1 45
- Il est évident que la première tranche d'âge est le plus souvent vaccinée au troisième
type de vaccin : Pfizer.
- Une fréquence importante du deuxième type de vaccins à savoir SinoPharm pour la
deuxième et la troisième tranche d'âge soit respectivement 18-35 ans et 36-55 ans.
- La cadence élevée du premier type de vaccins (Astra Zeneca) pour les quatrième et
cinquième tranches d'âge soit respectivement 56-65 ans et +65 ans.
Mais ce n'est pas toujours le cas, surtout quand le nombre de l'échantillon est
énorme.
Profils lignes
Tranchedage Typedevaccin
1 2 3 4 Marge active
26
Ce tableau permet de comparer les types de vaccin.
Profils colonnes
Tranchedage Typedevaccin
1 2 3 4 Masse
27
Le graphique ci-dessus montre les relations entre les points lignes :
28
- Les 2 dimensions représentent parfaitement les données dans la mesure où elles
permettent de conserver 99,1 % de l'inertie totale.
- Toutes les colonnes sont bien représentées par les 2 dimensions à l'exception de la
colonne 4 (type de vaccin = Janssen).
29
La distance entre les points colonnes donne une mesure de leurs similitudes
ou dissemblance. Dans notre cas, les points colonnes ont des profils différents parce
que les distances sont importantes.
Pour évaluer les proximités entre les modalités des deux variables
(Tranchedage et typedevaccin), on étudie le lien entre les deux ACP (ACP des
profils lignes et des profils colonnes). Pour se faire, on superpose les deux ACP.
30
Dans le graphique ci-dessus, les lignes (les modalités de la variable tranche
d'âge) sont représentées par des points bleus et les colonnes (les modalités de la
variable types de vaccin) par des points verts.
Les modalités qui s'attirent sont celles qui se trouvent dans le même cadran.
- La première tranche d’âge (12-17 ans) est le plus souvent vaccinée au Pfizer, soit
le troisième type de vaccin.
-Les deuxième (18-35 ans) et troisième (36-55 ans) tranches d'âge sont le plus
souvent vaccinées au SinoPharm, soit le deuxième type de vaccin.
-Les quatrième (56-65 ans) et cinquième (+65 ans) tranches d’âge, quant à elles,
sont le plus souvent vaccinées à l’Astra Zeneca, soit le premier type de vaccin.
-Le quatrième et dernier type de vaccin, Janssen, est quant à lui isolé à cause de
son inefficacité et ses effets indésirables.
31
Conclusion :
Notre travail est scindé en deux parties. La première porte sur l’utilisation des
méthodes d’analyse de données sur des statistiques représentant les
caractéristiques des régions marocaines. La deuxième partie, quant à elle, est
consacrée à l’analyse des résultats d’un questionnaire représentant les différentes
tranches d’âge ainsi que le type de vaccin dont ils ont bénéficié.
32
Bibliographie et webographie :
https://www.regions-maroc.ma/indicateurs-des-regions/
https://www.hcp.ma/Les-comptes-regionaux-de-l-annee-2019_a2735.html
33