Vous êtes sur la page 1sur 20

1

2
3
Remerciement
Avant d’exposer notre travail nous tenons à témoigner de notre reconnaissance et

gratitudes aux personnes qui ont contribué par leur aide et soutien à la réalisation de ce

travail en nous portant conseil et bienveillance. Nos sincères remerciements sont

adressés à M. JAHIDI, notre professeur et encadrant pour l’intérêt et le

professionnalisme avec lesquels il a suivi la progression de notre travail. Nous le

remercions aussi pour leur aide et leur conseils fructueux qu’il n’a cessé de nous

prodiguer durant toute la durée de réalisation de notre analyse. Enfin nous remercions

tous ceux qui ont contribué de près ou de loin à l’élaboration de cette étude.

4
Présentation de l’étude
L’étude comporte 9 variables extraite d’une base de données qui porte sur l’évolution de covid-19.
Voici le lien de notre BDD ; https://www.xlstat.com/fr/covid

Le choix de la base de données


Le monde entier demeure sous l’emprise d’une crise sanitaire induite par le coronavirus, doublée d’une

méga crise et imposant une pause à tous les secteurs de notre vie en tant qu’êtres humains. Obligée de

vivre dans un confinement total ou partiel, l’humanité a passé des moments très singuliers de son

histoire, caractérisés par un impact multidimensionnel, qui entraînera certainement des répercussions

énormes et difficiles à prévoir sur son avenir.

L’étude sur les impacts sanitaires et socio-économiques de la COVID-19 en examine l’évolution de la

situation monde à la suite de la prise des mesures sanitaires d’urgence, tout en se penchant sur les

questions et les tendances émergentes, ainsi que sur les acteurs qui tracent les nouvelles lignes du

développement au niveau national. La présente étude examine une analyse et un constat sur covid

partout dans le monde entier et en marquant le jour ou en l’enregistrement des décès et des cas

5
Introduction

Il n’y a pas très longtemps, on ne pouvait pas traiter un tableau de 3000 lignes et 300 colonnes.
L’apparition et le développement des ordinateurs a du coup levé cet obstacle de calcul, et a permis la
conservation et l’exploitation des grandes masses de données. Cette amélioration continue de l’outil
informatique a fortement contribué au développement et à la vulgarisation de nombreuses méthodes
statistiques, devenues maintenant d’usage assez courant. Aujourd’hui, des vastes donnés d’enquêtes
sont dépouillées et, fournissent de grands tableaux qui se prêtent aisément à l’interprétation. Des
données issues d’investigations spécifiques sont rassemblées et constituent une masse importante et
apparemment indéchiffrable d’informations mais, qu’on peut désormais traiter sans difficultés.
Cependant, comment ‘’extraire les phénomènes, les lois, les connaissances que recèlent ces données
que nous ne pouvons appréhender directement. Les techniques qui sont essentiellement descriptives,
ont pour but de décrire, de réduire, de classer et de clarifier les données en tenant compte de nombreux
points de vue et d’étudier, en dégageant les grands traits, les liaisons, les ressemblances ou les
différences entre les variables ou groupes de variables. Les documents fournis sont qualifiés de
’synthétiques et percutants et valent souvent mieux qu’un long discours’’. Cette approche descriptive
et multidimensionnelle permet de dire que l’Analyse des Données, c’est de la ‘’statistique descriptive
perfectionnée’. L’analyse des données recouvre principalement deux ensembles de techniques : ‘’les
premières qui relèvent de la géométrie euclidienne et conduisent à l’extraction de valeurs et de vecteurs
propres, sont appelées ‘’analyses factorielles’’ ; les secondes, dites de ‘’classification automatique’’
sont caractérisées par le choix d’un indice de proximité et d’un algorithme d’agrégation ou de
désagrégation qui permettent d’obtenir une partition ou arbre de introduite comme aide à
l’interprétation d’une analyse factorielle. Le progiciel SPSS a été créé pour la gestion et l'analyse
statistique des données en sciences sociales. Il a été initialement lancé en 1968 par SPSS Inc., puis
acquis par IBM en 2009.Officiellement baptisé IBM SPSS Statistics, la plupart des utilisateurs
l'appellent encore SPSS. En tant que norme mondiale pour l'analyse de données en sciences sociales,
SPSS est très convoité en raison de son langage de commande simple et semblable à l'anglais et de son
manuel d'utilisation. SPSS est utilisé par les chercheurs en marché, les chercheurs en santé, les sociétés
d'enquête, les entités gouvernementales, les chercheurs en éducation, les organisations de marketing,
les mineurs de données et bien d'autres pour le traitement et l'analyse des données d'enquête. Les
chercheurs considèrent SPSS comme la meilleure solution de sa catégorie en matière d'analyse
statistique approfondie. Donc, on peut conclure que la fonction principale de SPSS est l’analyse de
données complexes à travers plusieurs programmes. Dans la suite de notre rapport nous allons présenter
le principe et l’intérêt de l’ACP et l’analyse typologique à partir d’un exemple simple, celui d’une
analyse de covid -19 dans diffèrent pays.

6
Analyse en composante principale

C’est l’ensemble de techniques multi variées qui ont pour but principal de réduire et de résumer les
données. C’est une technique d’interdépendance dans laquelle toutes les variables sont considérées
simultanément.
Quel est le principe de l’ACP ?
C’est la réduction de l’espace de représentation des individus par la définition de nouvelles
variables « synthétiques » pour lesquelles la variance (inertie) est maximale les composantes
principales.
Quels sont les objectifs de l’ACP ?
 Repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des caractères.
 Révéler des différences entre individus ou groupes d’individu, relativement à
l’ensemble des caractères.
 Réduire l’information qui permet de décrire la position d’un individu dans l’ensemble
de la population
Que permet l’ACP ?
 Elle permet une analyse des diverses variables statistiques définies sur les caractères
étudiés.
 Elle permet de construire des variables artificielles (car non mesurés mais calculés à
partir des données) qui expliquent l’ensemble des variables statistiques prises en
compte

Permet de :
 Afficher la moyenne, l’écart type et le nombre d’observations.
 Juger l’hétérogénéité des variables.

7
Interprétations
Dans ce cas, avec une moyenne de 334129,04 la variable total cases est la variable la plus
importante pour l’étude l’évolution de covid -19 dans le monde entier, contrairement au last death
qui procure la moyenne la plus faible 33.11
On remarque également l’absence de l’homogénéité, entre les variables chose qui implique une
certaine hétérogénéité dans l’évolution de covid entre les pays de notre analyse .

Interprétation
 La matrice de corrélation représente les corrélations des variables prises deux à deux. Les
variables ayant de fortes corrélations peuvent être synthétisées et regroupées en dimensions
homogènes. Pour ce faire, on ne retient que les corrélations en valeur absolue supérieure à 0.5
 Dans notre cas, on remarque qui il y a une forte corrélation entre quelques variables prises deux
a deux on prend par exemple la variable last cases qui est passablement corrélé avec maxdeath
0,580 en valeur absolue| et fortement corrèle avec Next days total cases 0 .88 et avec maxes
cases 0,893 et faiblement corrèles avec days avec 0.159.
 La variable total cases qui est assez bien corrélée avec la variable maxdeats (0.660 en valeur
absolue) et on remarque une forte corrélation avec la variable Maxe cases (0.943 en valeur
absolue) et avec la variable last cases (0.887 en valeur absolue)
 On remarque aussi que la variable totaldeaths est bien corrélée avec la variable maxDeaths
(0.748 en valeur absolue) et forte corrélée avec la variable total cases (0.950 en valeur absolue)
 On ce qui concerne la variable days on remarque qu’elle est faiblement corrélés avec tous les
variables à titre d’exemple total cases 0,213 total death 0,241 et last cases 0,159 en valeur
absolue ,
3 – Indice de kmo et test de barlette .
Ce test vise à détecter dans quelle mesure la matrice de corrélation diverge significativement de la
matrice unité (identité) car on ne peut pas effectuer une ACP que si les données présentent une certaine
redondance et les variables sont plus ou moins corrélées .

8
Interprétations
 L’indice KMO : 0,855 est excellent, ce qui implique que les corrélations partielles ne sont pas
trop importantes par rapport aux corrélations simples. La suppression de variable ne semble pas
nécessaire.
 Le test de sphéricité de Bartlett : la valeur de Khi deux est approximativement élevée et la
signification de Bartlett est proche de 0. Les variables sont suffisamment corrélées.
 D’après ces 3 conditions, on peut conclure que l’analyse en composantes principales est bonne
et réalisable.
4- Qualite de representation

Interprétation
Les extractions sont obtenues grâce à la sommation des cos² des deux composantes, aussi elles nous
permettent de vérifier la bonne représentation des variables. Ainsi plus la valeur de l’extraction est
proche de 1, plus la variable qui lui correspond est mieux représentée.
L’extraction représente la somme des corrélations au carré (1ère et 2ème composante) par rapport à la
variation initiale. Vu que les deux premières composantes ont une corrélation au carré respectivement
de 0,990 et 0,950 supérieures à 0,5 et donc proche du rayon du cercle de corrélation ce qui prouve les
variables sont bien représentées ce qui nous permet une bonne lecture de la carte.

9
5- la variance totale expliquée

Interprétation
Dans le tableau de la variance totale expliquée on ne retient que les valeurs propres qui sont supérieures
à 1, dans ce cas elles correspondent aux deux premières composantes qui sont équivalentes à 87.389%
de variance cumulée expliquée.
La première composante représente à elle seule 76.844% de variance expliquée car elle représente le
plus de variables et donc détient la plus grande part d’informations. Malgré la réduction de 9 variables
à 2 composantes la richesse de ces dernières en termes d’informations retenues dépasse les 75%.
6- Graphique des valeurs propres

Interprétation

10
Dans le screen plot, le « coude » des valeurs propres, les deux premières composantes sont suffisantes
pour notre analyse, vu qu’elles s’arrêtent exactement au niveau du coude (règle de Keizer).
7- la matrice des composantes

Interprétation
On sait que les variables contribuant le plus à la formation d’un axe sont celles dont les coordonnées
sur cet axe sont proches de 1 en valeur absolue.
La matrice des composantes nous permet de vérifier que le point est bien représenté graphiquement, et
ceci grâce aux deux composantes 1 et 2 pour ce, il faut les lever au carré et leur somme doit être
inférieur à 1.
La première composante principale est fortement corrélée avec toutes les variables à l’exception de la
variables days. Cette composante augmente avec l’augmentation de ces variables. La deuxième
composante est faiblement corrélée avec toutes les variables a l’exception de la première variable.
composante n’est pas corrélée avec la première composante, on peut dire que les deux composantes
sont indépendantes.
8- diagramme des composants

11
 Ce graphique ne permet pas de connaitre la qualité de représentation des individus. Pour
savoir la qualité de représentation de nos individus, on doit calculer les cos carrés. En
fait l’individu sera bien représenté lorsque le point est proche du plan principal, c’est-
à-dire la somme des cos carrés est proche de 1.

12
 Le nuage des individus représente les individus en prenant en compte les 2 axes
interprétés sur le diagramme des composantes.
 L’origine des axes (0.0) correspond à la moyenne. On remarque qu’il y’a une forte
concentration des individus autour de l’origine. Cependant on peut déduire quelques
conclusions : -les pays telles que United kingdom et France sont bien représentes donc
ils enregistrent plus de cas
 Pour l’amélioration de l’ACP on a opté pour une rotation on a obtenu ces résultats
 Kaiser. 0.855
 Khi deux 50.143
 Variance cumules 76.84% des donnes sont représentés par la première composantes

13
Interprétation
Le tableau des statistiques descriptives affiche la moyenne, l’écart type et le nombre d’observations
pour chaque variable. En se basant sur la moyenne uniquement, il sera difficile de déceler les
différences entre les variables étudiés et donner une explication objective. Quant à l’écart-type, il
correspond à une dispersion faible pour les variables last death et Max death aussi la variables days, et
à une grande dispersion pour le reste des variables.

Analyse typologique
Définition et objectifs :
L’analyse typologique vise à classer et à constituer des groupes d’individus ou d’objets décrits par un
ensemble de caractéristiques, et de répartir la population de l’enquête en un nombre défini de sous-
groupes les uns des autres et dans lesquels les individus sont semblables le plus possible entre eux, par
un ensemble de méthodes multidimensionnelles en prenant des éléments provenant de certains
ensembles de données pour regrouper dans des clusters de sujets ou variables similaires. Il existe
différents types d’analyse typologique. Les types les plus courants sont l’analyse hiérarchique et
l’analyse non hiérarchique. L’analyse hiérarchique tente d’identifier les groupes d’observations (ou de
variables) relativement homogènes basées sur des caractéristiques sélectionnées d’une manière
irrévocable, par des étapes progressives. L’analyse non hiérarchique cherche à identifier des groupes
d'observations relativement homogènes d'après des caractéristiques sélectionnées et un nombre de

14
classes connues à l’avance, au moyen d'un algorithme qui peut traiter de grands nombres
d'observations, et ce d’une manière révocable.

Matrice de proximité

 Ce tableau nous indique que l’analyse est faite sur l’ensemble des individus citées dans la
table

Chaine des agrégations

Interprétation
À travers cette matrice on révèle le distances existantes entre les différentes variables , et donc plus la
distance entre les deux variables est faible plus on peut facilement les agréger et donc appartenir à la
même classe .

15
Ward linkage.

Interprétation
 Dans cette étape on a rassemblé selon un ordre croissant les variables qui ont une faible
distance. Dans l’étape de l’apparition de la classe figure la dernière phase ou sont apparus
les groupes pour la dernière fois. Les coefficients représentent la somme des carrés intra-
classe de la typologie des 213 classes dont on dispose. La somme des carrés totales est1917

16
 Les regroupements les plus intéressant sont obtenus après un saut du coefficient important,
c’est à dire le découpage résultant du regroupement de deux classes nettement plus
éloignées que précédentes.
 Sur les bases de ces tableaux, on remarque que le saut est important entre la 130e et 131 e
étape, donc le nombre de classes à retenir est 129 comme maximum et 128 comme
minimum. La qualité de représentation est égale à (1917-48 ,7) /1917= 97.45 % ce qui est
supérieur à 0.75

Arbre hiérarchique.

L’arbre hiérarchique met en évidence le résultat de la chaîne des agrégations, la composition des
différentes classes, et montre la proximité des cas, ainsi que l’ordre dans lequel elles ont été formées.
Lors de la lecture de l’arbre hiérarchique on doit bien repérer ou lire le gain d’inertie intra-classe pour
trouver le seuil idéal
Les regroupements les plus intéressants sont ceux obtenus après un saut du coefficient important, c’est-
à-dire, un résultat du regroupement de deux classes nettement plus éloignées que les précédentes. Dans
notre cas, on observe un saut important au niveau des solutions sur 6 classes
Afin d’avoir une représentation graphique des résultats de la classification, on utilise la stalactite il est
lisible de gauche à droite horizontalement mais malheureusement parmi ses limites c’est la difficulté
de lecture des classes.

Dendrogramme
Le dendrogramme est un arbre qui affiche tous les groupes résultant du regroupement des observations
tirées de la chaine d agrégations en se basant sur le niveau de possession des mêmes critères et de
ressemblance.
On peut voir une confirmation des résultats tires du tableau des chaines d’agrégation dans le
dendrogramme.

17
18
Récapitulatif des observations

 On remarque que la classe 1 et 2 sont moins performants par rapport aux autres classes 3 et 4
avec une moyenne de 285.71 et 314.05
 La première et la 2 -ème classes représente les pays qui sont toucher par covid mais ils
enregistrent moins de cas et de décès par rapport aux pays qui sont représentés par la 3 -ème et
la 4 -ème classe

19
Conclusion
 Une analyse concise et bien fondée sur une thématique d’ampleur, c’était le fruit de notre travail

de groupe

 En premier lieu nous avons opté pour l’ACP qui nous a permet d’étudier les relations qui

existent entre les variables quantitatives.

 Ensuite nous avons passé à l AT qui nous a servi a prendre les variables provenant de certains

ensembles de donnes pour les regrouper dans des clusters types d’élément similaires variables

20

Vous aimerez peut-être aussi