Vous êtes sur la page 1sur 34

2021/2022

RAPPORT
DE
PROJET :
Analyse De Données avec
SPSS

ENCADRÉ PAR
M.ATTOUBI

PRÉSENTÉ PAR
Imane Rahhali
Mohammed Kouddane
Soukaina Echaguer
Zineb Majidi
Boutaina Jib
Yasmine Lazhar
Table des matières :

Remerciements : ..................................................................................................................2
Introduction générale : .........................................................................................................3
Présentation de la première base de données : .................................................................4
ANALYSE EN COMPOSANTES PRINCIPALES : .................................................................5
ANALYSE TYPOLOGIQUE : ...............................................................................................13
Présentation de la deuxième base de données :..............................................................19
ANALYSE FACTORIELLE DES CORRESPONDANCES : .................................................24
Conclusion :........................................................................................................................32
Bibliographie et webographie : .........................................................................................33

1
Remerciements :

Parce que la reconnaissance est la mémoire du cœur, il parait opportun de


commencer ce rapport par des remerciements à M.ATTOUBI qui a eu la gentillesse
de nous enseigner tout au long de ce semestre et de faire de sa séance un moment
profitable, agréable et riche en informations.

2
Introduction générale :

L'analyse de la data est un outil stratégique qui permet de traiter un nombre


important de données et de dégager les informations pertinentes sur la base
desquelles les décisions sont prises. Pour analyser une base de données, une
solution SPSS s'avère la meilleure dans la mesure où elle offre une analyse
statistique avancée susceptible de décrypter l'information, de trouver de nouvelles
opportunités, d'améliorer l'efficacité et de minimiser les risques.

Notre étude dans le cadre de ce projet a pour but de répondre à deux


problématiques nationales : la classification des régions marocaines selon leurs
réalités économique et sociale d'une part et le type de vaccination contre la COVID-
19 en fonction de la tranche d'âge d'autre part.

3
Présentation de la première base de données :

La première base de données s'intéresse à la question régionale au Maroc.

Affichage des variables sur SPSS :

Cette base est extraite du site officiel du Haut-Commissariat au Plan (HCP).


Elle est relative à l'année 2019 et est purement quantitative. Elle va donc faire l'objet
de deux analyses : une analyse en composantes principales (ACP) et une analyse
typologique (AT).

4
ANALYSE EN COMPOSANTES
PRINCIPALES :

5
L'analyse en composantes principales (ACP) est une méthode de la famille de
l'analyse des données et plus généralement de la statistique multi variée. Elle
consiste à transformer des variables liées entre elles (dites « corrélées » en
statistique) en de nouvelles variables décorrélées les unes des autres.

C’est une technique d'analyse statistique, principalement descriptive,


consistant à représenter sous forme graphique le plus d'informations possibles
contenues dans un tableau. Elle permet ainsi de visualiser un espace à p dimensions
à l'aide d'espaces de dimensions plus petites.

L’ACP permet une analyse des variables statistiques définies sur les
caractères étudiés. Elle permet de construire les variables artificielles (car non
mesurées mais calculées à partir des données) qui expliquent l'ensemble des
variables statistiques prises en compte dans l'ACP.

Au niveau des individus, l'ACP fournit une méthode de représentation d'une


population afin de :

 Repérer des groupes d'individus homogènes vis à vis de l'ensemble des


caractères.
 Révéler des différences entre individus ou groupes d'individus, relativement à
l'ensemble des caractères .
 Réduire l'information qui permet de décrire la position d'un individu dans
l'ensemble de la population.
 Mettre en évidence des individus au comportement atypique.

Principe de l’ACP :

La réduction de l’espace de représentation des individus par la définition de


nouvelles variables « synthétiques » pour lesquelles la variance (inertie) est
maximale : les composantes principales.

6
Afin de mener une analyse en composantes principales sur notre base de données,
on doit d'abord vérifier les corrélations inter-variables à travers trois critères :

 La matrice de corrélation (la valeur absolue de la plupart des coefficients doit


être supérieure à 0,5) ;
 La mesure de précision de l'échantillonnage KMO (supérieure à 0,5) ;
 Le test de sphéricité de Bartlett (tend vers 0).

Les résultats de l'ACP sur SPSS :

D’après la matrice de corrélation, les variables semblent fortement corrélées puisque


la valeur absolue de la plupart des coefficients est supérieure à 0,5.

7
Indice KMO et test de Bartlett

Mesure de précision de l'échantillonnage de Kaiser-Meyer-Olkin. ,641

Khi-deux approximé 86,059

Test de sphéricité de Bartlett ddl 28


Signification de Bartlett ,000

L’indice KMO est de 0,641 et peut être qualifié de méritoire. Il nous indique que les
corrélations entre les variables sont de bonne qualité. Ensuite, le résultat du test de
sphéricité de Bartlett est significatif (tend vers 0). Nous pouvons donc rejeter
l’hypothèse nulle voulant que nos données proviennent d’une population pour
laquelle la matrice serait une matrice d’identité. Les corrélations ne sont donc pas
toutes égales à zéro.

La base de données vérifie les 3 conditions, on peut donc procéder à une analyse
en composantes principales.
Qualité de représentation

Initial Extraction

PIB 1,000 ,965

Txdecroissance 1,000 ,588

Contributionàlacroissance 1,000 ,549

Populationtotale 1,000 ,976

Densité 1,000 ,925

Txdurbanisation 1,000 ,830

Txdanalphabétisme 1,000 ,939

NBetablissementssanitaires 1,000 ,837

Méthode d'extraction : Analyse en composantes principales.

Toutes les variables sont bien représentées.

Premièrement, on doit faire le choix de la méthode d'extraction d'un minimum


de composantes qui permettent d'expliquer une grande partie de la variance. Pour se
faire, on doit analyser le tableau de la variance totale expliquée.

8
Variance totale expliquée

Composante Valeurs propres initiales Extraction Sommes des carrés des facteurs retenus

Total % de la variance % cumulés Total % de la variance % cumulés

1 4,312 53,903 53,903 4,312 53,903 53,903


2 2,295 28,689 82,592 2,295 28,689 82,592
3 ,824 10,294 92,886
4 ,305 3,817 96,703
5 ,141 1,765 98,468
6 ,085 1,060 99,528
7 ,022 ,272 99,799
8 ,016 ,201 100,000

Méthode d'extraction : Analyse en composantes principales.

On va retenir les deux premières composantes du fait qu'elles correspondent à


des valeurs propres supérieures à 1.

Ces deux composantes expliquent 82,6% de l'inertie totale soit une perte
d'information faible de 17,4%.

9
Matrice des composantesa

Composante

1 2

PIB ,914 ,360


Txdecroissance -,766 -,023
Contributionàlacroissance ,692 ,264

Populationtotale ,988 ,018


Densité ,906 ,322

Txdurbanisation -,206 ,887

Txdanalphabétisme ,264 -,932


NBetablissementssanitaires ,709 -,578

D'après la matrice des composantes, on constate que la première composante


principale présente une forte association positive avec le PIB, la contribution à la
croissance, la population totale et la densité ainsi qu'une association négative avec le
taux de croissance, on peut interpréter la composante comme étant principalement
une mesure de la performance économique de chaque région. La deuxième
composante présente une forte association positive avec le taux d'urbanisation et
une association négative avec le taux d'analphabétisme et mesure donc
principalement la situation sociale des régions en matière d'éducation et de la
tendance à l'urbanisation.

10
Diagramme

D'après la dispersion des individus (qui sont dans notre cas les 12 régions du
Royaume), on peut repérer 3 groupes :

Groupe 1 : Fès-Meknès, Béni Mellal-Khénifra, Marrakech-Safi, Drâa-Tafilalet et


Souss-Massa.

Ce groupe est corrélé négativement avec le deuxième axe et neutre avec le premier
axe. On peut conclure que c'est un groupe de régions en situation sociale avilissante
et moyennement performantes sur le niveau économique.

Groupe 2 : Oriental, Guelmim-Oued Noun, Laayoune-Saguia al Hamra et Dakhla-


Oued ed Dahab.

Le deuxième groupe est corrélé négativement avec le premier axe et positivement


avec le deuxième axe. C’est un groupe de régions en situation sociale décente mais
qui ne sont pas compétitives sur le plan économique.

11
Groupe 3 : Rabat-Salé-Kénitra, Tanger-Tétouan-Al Hoceima et Casablanca-Settat.

Le troisième groupe est corrélé positivement avec les 2 axes. C’est un groupe
regroupant les régions les plus favorisées du Royaume.

12
ANALYSE TYPOLOGIQUE :

13
L’analyse typologique correspond à un ensemble de méthodes
multidimensionnelles visant à prendre des éléments (sujets ou variables) provenant
de certains ensembles de données. Elle permet de répartir la population de l’enquête
en un nombre défini de sous-groupes aussi différents que possibles les uns des
autres et dans lesquels les individus sont aussi semblables que possible entre eux.
Les différentes méthodes d’analyse typologique partent des individus eux-mêmes et
essaient de les classer progressivement selon la ressemblance de leurs réponses
aux variables sélectionnées. Contrairement à la segmentation qui privilégie une seule
variable à expliquer, la typologie prend en compte toutes les variables choisies pour
l’analyse, sur le même plan.

Les résultats de l’AT :

Récapitulatif de traitement des observationsa

Observations

Valide Manquante Total

N Pourcentage N Pourcentage N Pourcentage

12 100,0 0 ,0 12 100,0

Ce tableau indique que la base de données est composée de 12 individus


(N=12) et qu’elle n’a aucune donnée manquante. Ainsi, tous les individus (les 12
régions marocaines) seront présents dans le reste de l’analyse, celle-ci étant
complète.

14
En outre, la matrice de proximité présente les distances qui séparent les
régions. Les lignes et les colonnes de cette matrice sont les régions. Le chiffre
présenté est la distance euclidienne au carré. Cette matrice est triangulaire, c’est à
dire qu’elle est séparée par sa diagonale qui contient la valeur nulle (distance d’une
région par rapport à elle-même, égale à 0) et que la partie haute et la partie basse
présentent les mêmes données. Plus la distance entre deux régions est faible,
plus on peut facilement les agréger.

15
Ensuite, le logiciel se charge du calcul de distance entre les classes, et ceci à
travers la méthode de Ward qui permet de minimiser la variance intra classe pour
distinguer les classes homogènes et hétérogènes. Cela se fait à travers différents
calculs faits par SPSS et ceci nous donne donc la chaine des agrégations.

En effet, la distance entre les classes que le logiciel regroupe est affichée dans
la colonne des coefficients, et ceci selon un ordre croissant.

La chaîne des agrégations donne alors des informations sur les régions
combinées à chaque étape du processus de classification hiérarchique.

On constate qu’on a un saut important entre l’étape 8 et l’étape 7 (environ


7,73%) et donc on choisit de s’arrêter à l’étape 8 avec une solution de 5 classes.
Pour mieux confirmer cela, on calcule la qualité de la typologie :

Qualité de la typologie en 3 classes :

88 − 60,442
= 31,31%
88

Qualité de la typologie en 4 classes :

88 − 37,414
= 57,48%
88

16
Qualité de la typologie en 5 classes :

88 − 24,156
= 72,55%
88

Qualité de la typologie en 6 classes :

88 − 17,349
= 80,28%
88

80,28% > 75%

Le diagramme en stalactite est une représentation graphique des résultats de


la classification.

17
Dans notre cas, il est présenté horizontalement et se lit donc de gauche à
droite. Les individus (Régions) sont en ligne (Observation). Le graphique présente
alors l’ordre dans lequel les regroupements d’individus ont été réalisés.

Une des limites de ce graphique est la difficulté de lecture des classements


réalisés.
Le 1ier regroupement concerne les individus 3, 7 et 9.
Le 2ème regroupement concerne les individus 11 et 12, et ainsi de suite.
L’arbre hiérarchique ou Dendrogramme est un outil graphique qui permet
d’exposer les résultats de la classification. Il met en évidence la composition des
différentes classes, ainsi que l'ordre dans lequel elles ont été formées.

Les regroupements les plus intéressants sont ceux obtenus après un saut du
coefficient important, c’est-à-dire le découpage résultant du regroupement de deux
classes nettement plus éloignées que les précédentes (la grande distance entre les
deux étapes qui se suivent).

18
Case 1 : Tanger-Tétouan-Al Hoceima
Case 2 : Oriental
Case 3 : Fès-Meknès
Case 4 : Rabat-Salé-Kénitra
Case 5 : Béni Mellal-Khénifra
Case 6 : Casablanca-Settat
Case 7 : Marrakech-Safi
Case 8 : Drâa-Tafilalet
Case 9 : Souss-Massa
Case 10 : Guelmim-Oued Noun
Case 11 : Laâyoune-Saguia al Hamra
Case 12 : Dakhla-Oued ed Dahab

D'après l'arbre hiérarchique, on peut distinguer 5 groupes :

 Groupe 1 : Fès-Meknès, Marrakech-Safi et Souss-Massa ;


 Groupe 2 : Tanger-Tétouan-Al Hoceima et Rabat-Salé-Kénitra ;
 Groupe 3 : Oriental, Guelmim-Oued Noun, Béni Mellal-Khénifra et Drâa-
Tafilalet ;
 Groupe 4 : Laâyoune-Saguia al Hamra et Dakhla-Oued ed Dahab ;

 Groupe 5 : Casablanca-Settat.

Enfin, d’après notre analyse typologique, on peut conclure qu’il existe 5


groupes de régions qui partagent les mêmes caractéristiques à la fois économiques
et sociales et cela à partir du tableau de l’agrégation, mais surtout de l’arbre
hiérarchique. Cette classification permet aux responsables d’avoir une vision claire
sur les axes d’amélioration.

Pour conclure cette première partie, l’analyse typologique permet de remédier


aux carences de l’analyse en composantes principales en termes de difficulté de
définir avec précision les groupes d’individus sur le diagramme, ceci à travers la
déclinaison ascendante dans l’arbre hiérarchique.

Présentation de la deuxième base de données :

Afin d’élaborer notre deuxième base de données, un questionnaire a été


préparé et distribué auprès de 60 personnes. Il comprend trois questions majeures :
19
 Êtes-vous vacciné ?
 À quelle tranche d'âge appartenez-vous ?
 Quel est le type de vaccin dont vous avez bénéficié ?

Les personnes ayant répondu négativement à la première question ne sont


pas concernées par le reste du questionnaire. Ainsi, 15 des personnes interrogées
ne sont pas vaccinées.

Les résultats du questionnaire se présentent comme suit :


Question 1 : Êtes-vous vacciné ?

75% (45) des interrogés sont vaccinés, 25% (15) ne le sont pas.
Question 2 : A quelle tranche d’âge appartenez-vous ?

Parmi les 45 personnes ayant déclaré s’être vaccinées :


- 9 (20%) sont âgées de 12 à 17 ans ;
- 9 (20%) sont âgées de 18 à 35 ans ;
- 9 (20%) sont âgées de 36 à 55 ans ;
- 9 (20%) sont âgées de 56 à 65 ans ;
- 9 (20%) sont âgées de plus de 65 ans ;

20
Question 3 : Quel est le type de vaccin dont vous avez bénéficié ?
 Pour les 12-17 ans :

Pfizer : 7
SinoPharm : 2

 Pour les 18-35 ans :

SinoPharm : 6
Pfizer : 2
J&J : 1

21
 Pour les 36-55 ans :

SinoPharm : 6 / Astra Zeneca : 3


 Pour les 56-65 ans :

Astra Zeneca : 6 / SinoPharm : 3


 Pour les + de 65 ans :

Astra Zeneca : 7 / SinoPharm : 2

22
A partir des résultats du questionnaire, la seconde base de données,
nécessaire à l’analyse factorielle des correspondances, a pu être établie :

Affichage des variables :

Les modalités de Tranchedage: Les modalités de Typedevaccin:


1 - 12-17 ans 1 - Astra Zeneca
2 - 18-35 ans 2 - SinoPharm
3 - 36-55 ans 3 - Pfizer
4 - 56-65 ans 4 - Janssen
5 - + 65 ans

23
ANALYSE FACTORIELLE DES
CORRESPONDANCES :

24
L’analyse factorielle des correspondances, notée AFC, est une analyse destinée
au traitement des tableaux de données qualitatives.

L’AFC a été introduite de façon complète dans les années 60 par JP


BENZECRI. L’AFC est une ACP. Les composantes principales sont toujours
obtenues à partir de la distance entre les différents points des nuages
multidimensionnels, mais les points ont des coordonnées qui ont subi une
transformation préalable permettant de conserver une métrique identique à celle de
l’ACP pour calculer ces distances.

Le but principal de l’AFC reste donc le même : lire l’information sur la


dépendance entre deux variables contenues dans un espace multidimensionnel par
une réduction de la dimension de cet espace tout en conservant un maximum de
l’information contenue dans l’espace de départ.

Les objectifs de l’AFC :

 Evaluer les ressemblances entre les modalités d’une même variable.

 Evaluer les proximités entre les modalités des deux variables.

 Analyser l’indépendance des deux variables.

Principe :

 Pour évaluer les ressemblances entre les modalités d’une même variable, on
réalise une ACP sur la matrice des profils lignes ou des profils colonnes.

 Pour évaluer les proximités entre les modalités des deux variables, on étudie
le lien entre les deux ACP : ACP des profils lignes et ACP des profils
colonnes.

Les résultats de l'AFC :

L'analyse factorielle des correspondances remplace un tableau de nombres


difficiles à analyser par une série de tableaux plus simples et qui constituent une
bonne approximation de celui-ci.

25
Tableau des correspondances
Tranchedage Typedevaccin
1 2 3 4 Marge active
1 0 2 7 0 9
2 0 6 2 1 9
3 2 7 0 0 9
4 6 3 0 0 9
5 7 2 0 0 9
Marge active 15 20 9 1 45

Le tableau des correspondances est un tableau réduit qui permet de présenter


simultanément et de manière croisée les modalités de deux variables (tranche d'âge
et type de vaccin). Par conséquent, il est facile d'inspecter et d'interpréter
visuellement les profils des lignes et des colonnes :

- Il est évident que la première tranche d'âge est le plus souvent vaccinée au troisième
type de vaccin : Pfizer.
- Une fréquence importante du deuxième type de vaccins à savoir SinoPharm pour la
deuxième et la troisième tranche d'âge soit respectivement 18-35 ans et 36-55 ans.
- La cadence élevée du premier type de vaccins (Astra Zeneca) pour les quatrième et
cinquième tranches d'âge soit respectivement 56-65 ans et +65 ans.

Mais ce n'est pas toujours le cas, surtout quand le nombre de l'échantillon est
énorme.

Ce tableau permet de comparer les tranches d'âge.

Profils lignes

Tranchedage Typedevaccin

1 2 3 4 Marge active

1 ,000 ,222 ,778 ,000 1,000

2 ,000 ,667 ,222 ,111 1,000

3 ,222 ,778 ,000 ,000 1,000

4 ,667 ,333 ,000 ,000 1,000

5 ,778 ,222 ,000 ,000 1,000

Masse ,333 ,444 ,200 ,022

77,8% des personnes interrogées appartenant à la première tranche d'âge (12-17


ans) ont été vaccinés au vaccin Pfizer, soit le troisième type de vaccin.

26
Ce tableau permet de comparer les types de vaccin.

Profils colonnes

Tranchedage Typedevaccin

1 2 3 4 Masse

1 ,000 ,100 ,778 ,000 ,200


2 ,000 ,300 ,222 1,000 ,200

3 ,133 ,350 ,000 ,000 ,200

4 ,400 ,150 ,000 ,000 ,200


5 ,467 ,100 ,000 ,000 ,200

Marge active 1,000 1,000 1,000 1,000

35% des personnes ayant bénéficié du deuxième type de vaccin (SinoPharm)


appartiennent à la troisième tranche d'âge (36-55 ans).

Pour évaluer les ressemblances entre modalités de la variable Tranchedage, on


réalise une ACP sur la matrice des profils lignes.

- Les 2 dimensions représentent parfaitement les données dans la mesure où elles


permettent de conserver 99,1 % de l'inertie totale.
- Les lignes sont bien représentées par les 2 dimensions.

27
Le graphique ci-dessus montre les relations entre les points lignes :

 Les lignes avec un profil similaire sont regroupées (exemple : 4 et 5)


 Les lignes corrélées négativement sont positionnés sur des côtés opposés de
l'origine du graphique (exemple : 1 et 3)
 La distance entre les points lignes et l'origine mesure la qualité des points
lignes sur le graphique. Les points lignes qui sont loin de l'origine sont bien
représentés sur le graphique.

Pour évaluer les ressemblances entre modalités de la variable Typedevaccin,


on réalise une ACP sur la matrice des profils colonnes.

28
- Les 2 dimensions représentent parfaitement les données dans la mesure où elles
permettent de conserver 99,1 % de l'inertie totale.

- Toutes les colonnes sont bien représentées par les 2 dimensions à l'exception de la
colonne 4 (type de vaccin = Janssen).

29
La distance entre les points colonnes donne une mesure de leurs similitudes
ou dissemblance. Dans notre cas, les points colonnes ont des profils différents parce
que les distances sont importantes.

Pour évaluer les proximités entre les modalités des deux variables
(Tranchedage et typedevaccin), on étudie le lien entre les deux ACP (ACP des
profils lignes et des profils colonnes). Pour se faire, on superpose les deux ACP.

Le graphique ci-dessous représente une analyse symétrique montrant les


profils lignes et colonnes simultanément dans un espace commun. Dans ce cas,
seule la distance entre les points lignes ou la distance entre les points colonnes peut
être vraiment interprétée.

30
Dans le graphique ci-dessus, les lignes (les modalités de la variable tranche
d'âge) sont représentées par des points bleus et les colonnes (les modalités de la
variable types de vaccin) par des points verts.

Les modalités qui s'attirent sont celles qui se trouvent dans le même cadran.

Les modalités qui se repoussent sont dans des cadrans opposés.

- La première tranche d’âge (12-17 ans) est le plus souvent vaccinée au Pfizer, soit
le troisième type de vaccin.

-Les deuxième (18-35 ans) et troisième (36-55 ans) tranches d'âge sont le plus
souvent vaccinées au SinoPharm, soit le deuxième type de vaccin.

-Les quatrième (56-65 ans) et cinquième (+65 ans) tranches d’âge, quant à elles,
sont le plus souvent vaccinées à l’Astra Zeneca, soit le premier type de vaccin.

-Le quatrième et dernier type de vaccin, Janssen, est quant à lui isolé à cause de
son inefficacité et ses effets indésirables.

31
Conclusion :

Nous avons, tout au long de ce projet, essayé d’atteindre l’objectif fixé, à


savoir trouver des méthodes d’analyses statistiques adéquates afin d’interpréter les
données récoltées.

Notre travail est scindé en deux parties. La première porte sur l’utilisation des
méthodes d’analyse de données sur des statistiques représentant les
caractéristiques des régions marocaines. La deuxième partie, quant à elle, est
consacrée à l’analyse des résultats d’un questionnaire représentant les différentes
tranches d’âge ainsi que le type de vaccin dont ils ont bénéficié.

Dans un premier temps, nous nous sommes intéressés à la classification des


régions, et ce, en appliquant la méthode d’analyse des données en composantes
principales (ACP). Ensuite, afin de déterminer des groupes avec plus de précision et
d’homogénéité, l’analyse typologique (AT) a été utilisée. Les résultats obtenus nous
ont amenés à la conclusion selon laquelle il existe des écarts importants entre les
régions.

En second lieu, nous avons réalisé une analyse factorielle des


correspondances (AFC) pour déterminer le type de vaccination contre la COVID-19
par tranches d’âge.

32
Bibliographie et webographie :

 https://www.regions-maroc.ma/indicateurs-des-regions/

 https://www.hcp.ma/Les-comptes-regionaux-de-l-annee-2019_a2735.html

 Questionnaire nécessaire à l’établissement de la BDD qualitative pour l’AFC :


https://docs.google.com/forms/d/1iXlFC4vZZYQW06lO2vAbT4q01YHn_0yGM
Ea0W_sMke8/viewform?edit_requested=true

33

Vous aimerez peut-être aussi