Vous êtes sur la page 1sur 17

CONTROLE CONTINU

ANALYSE
DE
DONNEES

RÉALISÉ PAR
Mohamed Amine El
Boukri 22007631
Errouani Anass 20007106
Mahouh Anas 20007285
Lakrad Salma 20006646
Zamzoum
Salma20006644
Groupe 6

ENCADRÉ PAR
M Atoubi El Mostafa
ZAMZOUM Salma 20006644 LAKRAD Salma 20006646

ERROUANI Anass 20007106 Mohamed Amine El Boukri 22007631

MAHOUH Anas
20007285
TABLE DE

MATIERES
3 AVANT-PROPOS

4 REMERCIEMENTS

5 INTRODUCTION

6 ANALYSEEN
PRINCIPALES
COMPOSANTES

14 AT YN PA OL LY OS EG I Q U E
AVANT-PROPOS

Fondée en 1994, première de son réseau, l’Ecole nationale de


Commerce et de Gestion de SETTAT, est une école supérieure
dotée d’un fort potentiel en matière de formation et
d’encadrement professionnel, grâce à un corps professoral
extrêmement compétent et engagé, L’ENCG SETTAT a su, sans
aucun doute, comment conserver son image et sa réputation non
seulement au niveau national, mais également sur un plan élargi à
l’international. Dans un autre contexte les lauréats de l’école font
depuis la création preuve d’aptitude à l’intégration aux
prestigieuses compagnies de la place.
Rigueur, capacité à fédérer, réactivité et capacité de décision
constituent les maîtres-mots de chaque étudiant de l’Ecole
Nationale de Commerce et de Gestion de SETTAT.
En effet, dans le cadre de la concrétisation des éléments apportés
au niveau du cours d’analyse des données au sein de l’école,
nous, les étudiants de la 3ème année avons été amenés à effectuer
un rapport d’analyse dont l’objet est de développer un esprit
d’observation dans l’optique de validation des acquis
d’enseignement.
REMERCIEMENTS

Ce travail a été rendu possible grâce à l’accompagnement


pédagogique inconditionnel de notre cher professeur M.Atoubi El
Mostafa . A cet égard, nous tenons à lui exprimer nos sincères
sentiments de reconnaissance, respect et dévouement pour ses
conseils, sa disponibilité et cette opportunité qui nous a permis
d’allier la théorie à la pratique dans une optique de validation des
acquis appris en cours.
Notre gratitude va également à toute personne qui a contribué de
loin ou de prés à la réussite de cette recherche.
INTRODUCTION
L’analyse des données (ADD) est apparue avec le développement des
ordinateurs dans une optique de conservation et d’exploitation des grandes
masses de données sous forme de grands tableaux qui se prêtent aisément
à l’interprétation.
Dans le cadre de l’apprentissage de cette matière en semestre 5 au sein de
l’Ecole Nationale de Commerce et de Gestion de SETTAT, nous avons
mené une étude qui porte sur l’analyse du championnat espagnol qui se
déroulera chaque année et qui est dominé principalement par le FC
Barcelone et le Real Madrid.
En ce qui concerne les variables à exploiter nous avons choisi en premier
lieu GOALS qui se traduit par But, cadre qui délimite le but au football, au
hand-ball, au rugby, etc. Le deuxième indicateur est Shoots qui est
synonyme de tir, pour le troisième indicateur Assists, il se définie par une
passe gagnante, passe décisive. Puis on trouve le quatrième indicateur
Saves qui indique l’arrêt du ballon par le gardien. Pour l’indicateur
Yellowcards qui se traduit par le carton jaune qui est un avertissement
délivré à un joueur par l'arbitre. Pour les derniers indicateurs on a Goals
against, Passes et UnsuccessfulTackles.
Dans le présent rapport d’analyse nous allons tout d’abord présenter le
contexte de l’étude et définir les termes, ensuite nous allons effectuer à
l’ACP (analyse en composantes principales), l’AT (analyse typologique) et
enfin l’interprétation des résultats.
ANALYSE EN
COMPOSANTES
PRINCIPALES

A- MATRICE DE CORRÉLATION
INTERPRÉTATION
La matrice de corrélation permet de savoir les variables de forte corrélation comme
le représente le tableau ci-dessous, il nous apparait que les variables sont
homogènes et d’où elles peuvent être regroupées
 Les deux variables « Goals » et « shots » sont fortement corrélées égale à
0,900 cela montre que les Goals vient à partir des shots
 Les deux variables « Assists » et « Passes » sont fortement corrélées égale à
0,826 cela montre que pour avoir des assists il faut faire beaucoup des passes
 Les deux variables « Passes » et « Saves » sont fortement corrélées
négativement cela montre que l’un des équipes font beaucoup des passes et
l’autre équipe effectue des parades
B- INDICE KMO ET TEST DE BARTLETT

INTERPRÉTATION
L’indice de KMO nous donne une vue générale sur la qualité des données, dans
notre cas KMO=0,670 ce qui traduit que notre KMO est de qualité médiocre
Le Khi-deux est assez grand et sa signification est nulle. Donc, les variables sont
corrélées entre elles, on peut dire qu’on a des données de bonnes qualités et donc
appropriées à l’ACP

C- QUALITÉ DE REPRÉSENTATION

INTERPRÉTATION
Les extractions permettent de mesurer la qualité de représentation, elles doivent
être supérieur à 0,500 pour être bien visualiser au niveau de la carte des variables.
Dans notre cas on remarque que la plupart des variables ont une extraction
supérieure à 0,500 sauf « Saves » donc ils seront bien représentés au niveau de
notre carte.
D- VARIANCE TOTALE EXPLIQUÉE

INTERPRÉTATION
Le calcul de la variance des composantes permet de retenir celles qui ont un total
supérieur à 1. Notamment la première composante avec un total de 4,636 et la
deuxième composante avec un total de 1,269. Au niveau de Tableau des Variances
totales Expliquée, On remarque qu’à partir du deuxième axe, On obtient un
pourcentage cumulé d’information de 73,807%
Or l’objectif principale de l’analyse en composante est la réduction des axes,
puisque on a tendance à travailler qu’avec deux axes.
E- GRAPHIQUE DE VALEURS PROPRES

INTERPRÉTATION
Le graphique des valeurs propres présente un point d'inflexion projeté à la valeur 2,
donc d'après cette méthode on pourrait retenir 2 composantes principales
F- MATRICE DES COMPOSANTES

INTERPRÉTATION
La matrice permet d’expliquer la corrélation de chaque variable avec les deux
composantes extraites. La variable n’est significative que si sa valeur est supérieure
ou égale à « 0.5 ».
- La première composante principale est fortement corrélée avec les variables
« goals » ; « Shots », « Assists » ; « Saves » ; « Goals against » ; « Passes ».
Contrairement à la deuxième composante est qui sont parfaitement corrélée avec :
« yellowcards »et « unsuccessful tackles ».
G- DIAGRAMME DES COMPOSANTES
INTERPRÉTATION
Grâce à ce diagramme nous constatons qu’on a 3 groupes de variables qui ne nous
sont pas corrélées entre eux. La première composante est constituée de « Assists » ;
« Goals » ; « Shots » et « Passes », Cette composante nous donne les équipes qui
marques beaucoup des buts et détient plus de possession. La deuxième composante
est constituée de « Goalsagainst » et « Saves », cette composante regroupe les
petites équipes encaissent beaucoup de buts. Et finalement on « YellowCard »,
cette composante regroupe les équipes qui comites beaucoup de fautes
ANALYSE
TYPOLOGIQUE
L’analyse typologique est une méthode d’analyse de données, précisément
des groupes à variables multiples. Elle a pour objectif de construire des
groupes d’individus à compter des variables choisies, ainsi que constituer
des groupes d’individus appartenant aux mêmes groupes qui se ressemblent
au maximum, et que ces groupes soient les plus différents possibles les uns
des autres.

A- MATRICE DES PROXIMITÉS

La matrice de proximité présente les distances existantes entre les cases , plus la
distance entre les variables est faibles plus on peut facilement les agréger .
Exemple 1 :
La distance entre Club Atlético de Madrid et Real Sociedad est de 0,828. En
effet, elle est relativement faible donc ils vont appartenir à la même classe.
Exemple 2 :
La distance entre Fc Barcelona et Elche CF est de 71,851. En effet, elle est
relativement forte donc ils ne peuvent pas appartenir à la même classe
B- LA CHAÎNE D'AGRÉGATION

Cette matrice permet d’avoir l’historique des regroupements. Elle réunit les
2classes les plus proches dans un même regroupement, la distance entre les 2
classes regroupés est affichée dans la colonne des coefficients.
Dans cette étape on a pu rassembler selon un ordre croissant les variables qui ont
une faible distance. Dans l’étape de l’apparition de la classe figure la dernière
phase ou sont apparus les groupes pour la dernière fois
Nous observons le saut le plus important au niveau de la colonne des coefficients
et nous remarquons que ce dernier est présent au niveau de la classe entre 18 et
19.
Qualité de la typologie est égale à (152 – 45.036) / 152 = 70,37 % Donc, on
prend une solution en 4 classes
C- LE STALACTITE

Le diagramme en stalactite (cycle plot) est une représentation graphique des


résultats de la classification.
Dans notre cas le graphique présente l’ordre dans lequel les regroupements des
équipes ont été réalisés. C’est une représentation graphique des résultats de
classification. On peut voir directement notre solution en 4 classes à travers la
stalactite.
D- L'ARBRE
HIÉRARCHIQUE

L’arbre hiérarchique ou Dendrogramme est un outil graphique qui permet d’exposer


les résultats de la classification. S’il est présenté horizontalement, il se lit de gauche à
droite. Les lignes verticales représentent les groupes qui se rejoignent. La position de
la ligne sur l’échelle indique les distances auxquelles les groupes sont joints. A partir
de la chaîne de régression et du dendrogramme on répartit équipe en 4 classes

E- ANOVA A UN FACTEUR
L’ANOVA à un facteur cert à déterminer les variables qui ont contribué le plus au
regroupement. Elles correspondent aux variables ayant les plus grandes valeurs de
F.
La variable qui a contribué le plus est la variable Passes .
La variable ayant le moins contribué est la variable Unsuccessful tackles
Classement des variables du plus importante au moins importante :
1.Passes
2.Goals
3.Assissts
4.Shots
5.Saves
6.Goals against
7.Yellow cards
8.Unsuccessful tackles
Conclusion
Notre analyse de données nous a permis d’extraire une importante
quantité d’information de la base de données à travers l’analyse en
composantes et l’analyse typologique. Nous nous Sommes basés sur
des données de variables quantitatives discrètes. Cette base de
données nous à permet de classer les équipes au niveau de leur
rendement durant l’année en basent sur leurs buts et assists et shots
et Saves … ; dans un premier lieu l’analyse des composantes nous a
permis de voir les dimensions au niveau des variables choisies, et dans
un deuxième lieu nous a permis de regrouper les équipes qui ont des
caractères plus ou moins similaire (Real Madrid et Barcelona dans une
seule classe).

Vous aimerez peut-être aussi