Académique Documents
Professionnel Documents
Culture Documents
Rapport Add PDF
Rapport Add PDF
ANALYSE
DE
DONNEES
RÉALISÉ PAR
Mohamed Amine El
Boukri 22007631
Errouani Anass 20007106
Mahouh Anas 20007285
Lakrad Salma 20006646
Zamzoum
Salma20006644
Groupe 6
ENCADRÉ PAR
M Atoubi El Mostafa
ZAMZOUM Salma 20006644 LAKRAD Salma 20006646
MAHOUH Anas
20007285
TABLE DE
MATIERES
3 AVANT-PROPOS
4 REMERCIEMENTS
5 INTRODUCTION
6 ANALYSEEN
PRINCIPALES
COMPOSANTES
14 AT YN PA OL LY OS EG I Q U E
AVANT-PROPOS
A- MATRICE DE CORRÉLATION
INTERPRÉTATION
La matrice de corrélation permet de savoir les variables de forte corrélation comme
le représente le tableau ci-dessous, il nous apparait que les variables sont
homogènes et d’où elles peuvent être regroupées
Les deux variables « Goals » et « shots » sont fortement corrélées égale à
0,900 cela montre que les Goals vient à partir des shots
Les deux variables « Assists » et « Passes » sont fortement corrélées égale à
0,826 cela montre que pour avoir des assists il faut faire beaucoup des passes
Les deux variables « Passes » et « Saves » sont fortement corrélées
négativement cela montre que l’un des équipes font beaucoup des passes et
l’autre équipe effectue des parades
B- INDICE KMO ET TEST DE BARTLETT
INTERPRÉTATION
L’indice de KMO nous donne une vue générale sur la qualité des données, dans
notre cas KMO=0,670 ce qui traduit que notre KMO est de qualité médiocre
Le Khi-deux est assez grand et sa signification est nulle. Donc, les variables sont
corrélées entre elles, on peut dire qu’on a des données de bonnes qualités et donc
appropriées à l’ACP
C- QUALITÉ DE REPRÉSENTATION
INTERPRÉTATION
Les extractions permettent de mesurer la qualité de représentation, elles doivent
être supérieur à 0,500 pour être bien visualiser au niveau de la carte des variables.
Dans notre cas on remarque que la plupart des variables ont une extraction
supérieure à 0,500 sauf « Saves » donc ils seront bien représentés au niveau de
notre carte.
D- VARIANCE TOTALE EXPLIQUÉE
INTERPRÉTATION
Le calcul de la variance des composantes permet de retenir celles qui ont un total
supérieur à 1. Notamment la première composante avec un total de 4,636 et la
deuxième composante avec un total de 1,269. Au niveau de Tableau des Variances
totales Expliquée, On remarque qu’à partir du deuxième axe, On obtient un
pourcentage cumulé d’information de 73,807%
Or l’objectif principale de l’analyse en composante est la réduction des axes,
puisque on a tendance à travailler qu’avec deux axes.
E- GRAPHIQUE DE VALEURS PROPRES
INTERPRÉTATION
Le graphique des valeurs propres présente un point d'inflexion projeté à la valeur 2,
donc d'après cette méthode on pourrait retenir 2 composantes principales
F- MATRICE DES COMPOSANTES
INTERPRÉTATION
La matrice permet d’expliquer la corrélation de chaque variable avec les deux
composantes extraites. La variable n’est significative que si sa valeur est supérieure
ou égale à « 0.5 ».
- La première composante principale est fortement corrélée avec les variables
« goals » ; « Shots », « Assists » ; « Saves » ; « Goals against » ; « Passes ».
Contrairement à la deuxième composante est qui sont parfaitement corrélée avec :
« yellowcards »et « unsuccessful tackles ».
G- DIAGRAMME DES COMPOSANTES
INTERPRÉTATION
Grâce à ce diagramme nous constatons qu’on a 3 groupes de variables qui ne nous
sont pas corrélées entre eux. La première composante est constituée de « Assists » ;
« Goals » ; « Shots » et « Passes », Cette composante nous donne les équipes qui
marques beaucoup des buts et détient plus de possession. La deuxième composante
est constituée de « Goalsagainst » et « Saves », cette composante regroupe les
petites équipes encaissent beaucoup de buts. Et finalement on « YellowCard »,
cette composante regroupe les équipes qui comites beaucoup de fautes
ANALYSE
TYPOLOGIQUE
L’analyse typologique est une méthode d’analyse de données, précisément
des groupes à variables multiples. Elle a pour objectif de construire des
groupes d’individus à compter des variables choisies, ainsi que constituer
des groupes d’individus appartenant aux mêmes groupes qui se ressemblent
au maximum, et que ces groupes soient les plus différents possibles les uns
des autres.
La matrice de proximité présente les distances existantes entre les cases , plus la
distance entre les variables est faibles plus on peut facilement les agréger .
Exemple 1 :
La distance entre Club Atlético de Madrid et Real Sociedad est de 0,828. En
effet, elle est relativement faible donc ils vont appartenir à la même classe.
Exemple 2 :
La distance entre Fc Barcelona et Elche CF est de 71,851. En effet, elle est
relativement forte donc ils ne peuvent pas appartenir à la même classe
B- LA CHAÎNE D'AGRÉGATION
Cette matrice permet d’avoir l’historique des regroupements. Elle réunit les
2classes les plus proches dans un même regroupement, la distance entre les 2
classes regroupés est affichée dans la colonne des coefficients.
Dans cette étape on a pu rassembler selon un ordre croissant les variables qui ont
une faible distance. Dans l’étape de l’apparition de la classe figure la dernière
phase ou sont apparus les groupes pour la dernière fois
Nous observons le saut le plus important au niveau de la colonne des coefficients
et nous remarquons que ce dernier est présent au niveau de la classe entre 18 et
19.
Qualité de la typologie est égale à (152 – 45.036) / 152 = 70,37 % Donc, on
prend une solution en 4 classes
C- LE STALACTITE
E- ANOVA A UN FACTEUR
L’ANOVA à un facteur cert à déterminer les variables qui ont contribué le plus au
regroupement. Elles correspondent aux variables ayant les plus grandes valeurs de
F.
La variable qui a contribué le plus est la variable Passes .
La variable ayant le moins contribué est la variable Unsuccessful tackles
Classement des variables du plus importante au moins importante :
1.Passes
2.Goals
3.Assissts
4.Shots
5.Saves
6.Goals against
7.Yellow cards
8.Unsuccessful tackles
Conclusion
Notre analyse de données nous a permis d’extraire une importante
quantité d’information de la base de données à travers l’analyse en
composantes et l’analyse typologique. Nous nous Sommes basés sur
des données de variables quantitatives discrètes. Cette base de
données nous à permet de classer les équipes au niveau de leur
rendement durant l’année en basent sur leurs buts et assists et shots
et Saves … ; dans un premier lieu l’analyse des composantes nous a
permis de voir les dimensions au niveau des variables choisies, et dans
un deuxième lieu nous a permis de regrouper les équipes qui ont des
caractères plus ou moins similaire (Real Madrid et Barcelona dans une
seule classe).