Vous êtes sur la page 1sur 16

Compte Rendu :

Etude statistique pour COVID-19

Réaliser par : Encadrer par:


DAKIR Othman Prof : A.LAMNII
Nous voulons faire une étude statistique sur les nombres des morts du virus
« CORONA »avec les différentes ages.
Pour cela nous avons pris en ouvre quelque exemples d’âges dont les cas
confirmés son élevés. Pour chaque âge en va voir le taux de morte taux
Nous allons ce basé dans cette étude sur le logiciel Rstudio.

- Présentation du logiciel Rstudio.


En bref RStudio est un environnement de développement
gratuit, libre et multiplateforme pour R, un langage de
programmation utilisé pour le traitement de données et
l’analyse statistique.
L’étude statistique va nécessiter une base de données qu’on va la définir
sous la forme d’un tableau :

 La moyenne :

La moyenne est l'indicateur le plus simple pour résumer l'information fournie par un
ensemble de données statistiques : elle est égale à la somme de ces données divisée
par leur nombre. Elle peut donc être calculée en ne connaissant que ces deux
éléments, sans connaître toute la distribution.

Moyenne = Somme de toutes les valeurs d'observation ÷ nombre


d'observations

Dans logiciel R le calcul de la moyenne est effectué par la fonction


« Moy.xxxx » et Il va calcule la moyenne de chaque catégorie (lignes).
Pour la visualisation dans un repère(X, Y) en fait l’appelle a « plot ».

On observe que le taux moyenne du premier dimension pose une très


grand valeur ,elle est évidente car il représente le nombre de total des
cas alors que les taux moyennes des âges et presque proche mais pour
la dernière dimension il pose une valeur légèrement supérieur aux
autres cas
 L’écart type :

L'écart-type sert à mesurer la dispersion, ou l'étalement, d'un


ensemble de valeurs autour de leur moyenne. Plus l'écart-type est
faible, plus la population est homogène.

La forme générale :

logiciel R la syntaxe s’écrit comme suivant (sdnom=sapply(nom.sd) :

Le graphe correspondant :
On remarque une dispersion élevé au niveau du 1er élément aussi une m
faible dispersion dans les cinq derniers élément. Ce qui va nous mener à
dire que le totale des cas par rapport aux autres cas trouver sont très
disperser, les cas trouver avec les personne qui ont entre 0-17 et 15-44
sont moins dispersé dans le nuage et finalement les éléments restant de
tableau son corrélé entre eux.
 La matrice de covariance :

Une matrice de (variance/covariance) est une matrice carrée qui


comporte les variances et les covariances associées à plusieurs variables.
Les éléments de diagonale de la matrice contiennent les variances des
variables, tandis que les éléments hors diagonale contiennent les
covariances entre toutes les paires possibles de variables.

Une matrice de corrélation est utilisée pour évaluer la dépendance entre


plusieurs variables en même temps. Le résultat est une table contenant
les coefficients de corrélation entre chaque variable et les autres.

Forme générale :

Pratiquement dans logiciel la covariance s’exécute avec la forme


suivante :

Visualisation d’une matrice de corrélation avec Corrélogramme :


Interprétation on vois qu’il y a une forte corrélation entre les cas des
hommes trouvé et les cas des femmes ainsi pour les deux cas précèdent
et l’age entre 0-17

Après la récolte de toute l’information nécessaire en va placer en vas


attaquer la (ACP) analyse des composante principale.

- C’est quoi L’ACP


Définition : l’ACP permet de quantifier les corrélations entre les variables
du jeu de données. Des groupes de variables ayant des tendances
identiques sont identifiés sur le cercle des corrélations.

Dans un premier temps il est nécessaire de faire l’appelle à la bibliothèque


dans en peut appliquer l’ACP.
Puis en va visualiser la cercle de corrélation .

Les points les plus intéressants sont généralement ceux qui sont assez
proches d’un des axes, et assez loin de l’origine. Ces points sont bien
corrélés avec cet axe et sont les points explicatifs pour l’axe.

Pour interpréter ce que nous voyons sur le cercle il faut d’abord détecter
des variables fortement corrélées aux variables synthétiques et aussi
nous savons que le coefficient de corrélation varie entre 1 et -1 ainsi que
dans notre jeux de données il est remarquable qu’il y a de longueur de
flèche proche au rayon du cercle.

Les variables les plus corrélées pour le premier demi-cercle sont :

 X0.17 ans
 Female.D

 Male.D

Pour X15.44 ans dispersé par rapport aux 3 autres


Ce qui est intéressant ici, c’est d’interpréter l’axe 1. Ici, il se trouve que
toutes ces variables ont un “mode” commun, c’est-à-dire une notion qui
les unit.
Si l'on fait le même travail pour la seconde composante, on voit que les
variables les plus corrélées sont :
 X45.64 ans
 Total Death
 X65.74 ans

En grosso modo,
Ce qui différencie le plus les cours de notre échantillon, c’est leur
longueur. Ensuite, on trouve une deuxième tendance : il y a les
cas qui sont actif, et ceux qui sont en états critique.
 Les choix des valeurs propres
Pour accéder aux données de l’ACP il faut d’abord charger le package
« factoextra » puis en vas exécuter la décomposition de la valeur
singulière” qui examine les (covariances /corrélations) entre les individus.

Quand on effectue une pca, il nous retourne un vecteur de valeur propre


(eig) qui est plus petit que le nombre de colonnes de la matrice ou égale .
En peut considérer comme une matrice de valeur propre qui a le même
nombre de ligne de notre tableau.

 Le moment d’inertie

Ce moment d’inertie totale est un mesure de la dispersion du nuage des


individus par rapport `a son centre de gravité. Si ce moment d’inertie est
grand, cela signifie que le nuage est très dispersé, Alors que s’il est petit,
le nuage est canaliser sur son centre de gravité.

Forme générale :

Voici comment on affiche l’inertie pour chaque dimension avec R :

Cela nous permet de réduire le système en 3 dimensions principale qui


décrive le système avec moins d’éléments mais il garde la même
cohérence des informations.
 Diagramme

Il y a deux manières pour déterminer le nombre d’axes à prendre en


compte :

- Un critère “absolu” : ne retenir que les axes dont les valeurs propres
sont supérieures à 1 (c’est le critère de Kaiser).

Un critère “relatif” : retenir les valeurs propres qui “dominent” les autres,
en se référant au graphique en barres des valeurs propres.
Représentation sous la forme d’un graphique :

Dans la première partie des résultats, on retrouve les pourcentages


d’inertie (on parle aussi de valeurs propres ou d’eigen values) expliqués
par chaque axe, ainsi que les pourcentages cumulés

Ces pourcentages servent à définir le nombre d’axes à utiliser pour


représenter correctement les données. Les 2 premiers axes sont
incontestables. Le 3𝑒𝑚𝑒𝑒𝑡 4𝑒𝑚𝑒 peuvent être éliminés.
 Graphe des individus

si on visualise le premier graphe qui est baser sur l’axe 1 en constate que
ITALY occupé la première place
.

PS : “La ligne en pointillé rouge, sur le graphique ci-dessus, indique la


contribution moyenne attendue. Si la contribution des variables était
uniforme, la valeur attendue serait 1/length (variables). Pour une
composante donnée, une variable avec une contribution supérieure à
ce seuil pourrait être considérée comme importante pour contribuer à
la composante.

 L’espace des individus.

On s’intéresse donc essentiellement aux points bien représentés situés


loin du centre comme l’Italie pour l’axe 1 et l’Amérique pour l’axe 2. Si
deux points sont proche l’un de l’autre comme exemple Turquie,
Brazil, est probable que les réponses des individus qu’ils représentent
soient très similaires. Il faut cependant se méfier : il se peut que sur un
axe ils soient très proches, alors que sur un autre ils sont très loin l’un
de l’autre.
 La fonction ‘head’.

Il permette d'affichant qu'une petite partie de l'objet comme représenter


lorsqu’on a appliqué la fonction ‘head’ dans notre système les dimension
son diminué à 5 et les pays à 8 .

 La qualité des variables.

Cette méthode permet de visualiser la qualité de la représentation des


variables, La qualité de la représentation est évaluée par le cosinus carré.
Presque tous les variables sont mieux représentées sur DIM1 sauf la
France et Spain qui ont légèrement bien représenté sur DIM 2.

Conclusion :

Nous constations que l’ACP permet le centrage de système pour donner


plus de flexibilité au système aussi que l’étude de la liaison entre les
individus et les variable et le classement ainsi que réduire le nombre de
dimension d’un système