Vous êtes sur la page 1sur 10

Rapport analyse des données

REALISE PAR :
TAHA SALILI
AYA TASCOUR
IHSSANE TAQUI
DOUAE
KARDADY
AYA TASCOUR 21009061

Ihssane Taqui 21008795

Douae Kardady 21009193

Salili Taha 21009163


AVANT PROPOS :

Avant d’entamer ce travail, nous tenons tout d’abord à exprimer notre gratitude au
corpsprofessoral et administratif de l'École Nationale de Commerce et de gestion de Settat,
pour leur formation et leur encadrement durant nos études.

Nous tenons à remercier chaleureusement Mr ATTOUBI , qui en tant que professeur et


encadrant, a toujours été à notre écoute tout au long de la réalisation de ce projet, son aide,
conseils, remarques, informations et encadrement étaient vitaux pour la réussite de ce travail.

Nous tenons également à remercier toute personne ayant contribuée de près ou de loin dans
ce travail. Ce travail s’est déroulé dans un environnement collaboratif où les responsabilités
sont distribuées, la motivation est débordante et les dimensions humaines sont
omniprésentes. À tous ces intervenants, nous présentons nos remerciements, notre respect, et
notre gratitude
REMERCIEMENTS :

Contribuer à ce travail académique au sein d'un groupe d’étudiants en S5 dans le cadre du


module outils d'aide à la décision et plus précisément au niveau de l'analyse de données à
l'École nationale de commerce et de gestion de Settat, constitue un élément enrichissant pour
concrétiser nos acquis.

Ce travail est une opportunité qui nous permet de se pencher sur la réalité du monde
professionnel et ses enjeux, renforcer notre travail d'équipe et concrétiser nos efforts pour un
travail à la hauteur.

Enfin, un climat d'échange durant ce travail qui apportait énormément tant sur le plan
professionnel que personnel. En effet, nous avons vu naitre en chacun d'entre nous
l'appartenance, de la patience, de la compétence consolidée ainsi qu'un sens de responsabilité
INTRODUCTION :

L’analyse des données (ADD) est apparue avec le développement des ordinateurs dans une
optique de conservation et d’exploitation des grandes masses de données sous forme de
grands tableaux qui se prêtent aisément à l’interprétation. Dans le cadre de l’apprentissage de
cette matière en semestre 5 au sein de l’Ecole Nationale de Commerce et de Gestion de
SETTAT, nous avons mené une étude qui porte sur l’analyse d’une base de données des
clients d’une banque.

En ce qui concerne les variables à exploiter nous avons choisi en premier lieu le nombre de
clients, solde, retraits, numéro de découvert etc.

Dans le présent rapport d’analyse nous allons tout d’abord présenter le contexte de l’étude et
définir les termes, ensuite nous allons effectuer à l’ACP (analyse en composantes
principales), l’AT (analyse typologique) et enfin l’interprétation des résultats.

METHODE ACP ( analyse en composantes principales ) :


L'Analyse en Composantes Principales (ACP) ou Principal Component Analysis (PCA) en
anglais, est l'une des méthodes d'analyse de données multivariées les plus utilisées. Elle
permet d’explorer des jeux de données multidimensionnels constitués de variables
quantitatives. Elle est largement utilisée en biostatistique, marketing, sciences sociales et
bien d’autres domaines.
L’ACP peut être considérée comme une méthode de projection qui permet de projeter les
observations depuis l'espace à p dimensions des p variables vers un espace à k dimensions (k
< p) tel qu'un maximum d'information soit conservée (l'information est ici mesurée au travers
de la variance totale du nuage de points) sur les premières dimensions. Si l'information
associée aux 2 ou 3 premiers axes représente un pourcentage suffisant de la variabilité totale
du nuage de points, on pourra représenter les observations sur un graphique à 2 ou 3
dimensions, facilitant ainsi grandement l'interprétation.
L’ACP permet de :
 Repérer des groupes d'individus, homogènes vis à vis de l'ensemble des caractères.
 Révéler des différences entre individus ou groupes d'individus, relativement à
l'ensemble des caractères.
 Réduire l'information qui permet de décrire la position d'un individu dans l'ensemble
de la population.
 Mettre en évidence des individus au comportement atypique.

Matrice de corrélation

nbpr ndec SOLDE depo nemp memp vadd retr

Corrélation nbpr 1,000 -,393 ,111 ,140 ,775 ,503 ,297 ,766

ndec -,393 1,000 -,331 -,467 -,179 -,319 -,395 -,241

SOLDE ,111 -,331 1,000 ,729 -,290 ,109 ,652 -,163

depo ,140 -,467 ,729 1,000 -,331 ,344 ,890 -,140


nemp ,775 -,179 -,290 -,331 1,000 ,333 -,211 ,774

memp ,503 -,319 ,109 ,344 ,333 1,000 ,323 ,457

vadd ,297 -,395 ,652 ,890 -,211 ,323 1,000 -,055

retr ,766 -,241 -,163 -,140 ,774 ,457 -,055 1,000

La matrice de corrélation indique les valeurs de corrélation, qui mesurent le degré de relation
linéaire entre chaque paire de variables. Les valeurs de corrélation peuvent être comprises
entre -1 et +1. Si les deux variables ont tendance à augmenter et à diminuer en même temps,
la valeur de corrélation est positive. Lorsqu'une variable augmente alors que l'autre diminue,
la valeur de corrélation est négative.

A-MATRICE DE CORRELATION :

Interprétation :

La matrice de corrélation permet de savoir les variables de forte corrélation comme le


représente le tableau ci-dessous, il nous apparaît que les variables sont homogènes et d’où
elle peuvent être regroupées.
Pour notre cas, on peut constater des corrélations notamment entre :
Une corrélation positive, entre « nombre de produits » et « nombre d’emprunts » qui se
chiffrent à 0,775.
Un autre cas qui reflète la corrélation positive, la corrélation entre « SOLDE » et « dépôt »
qui s’affiche à 0,729 .
Dans le cadre d’une analyse approfondie, on peut ajouter d’autres cas de corrélation positive
puisque c’est le cas disponible pour notre matrice, la corrélation positive entre « valeur
ajoutée » et « dépôt » qui a atteint 0,890 .
Pour le cas d’une corrélation substantielle, on remarque la variable « nombre d’emprunts »
qui affiche une corrélation substantielle avec la variable « retrait », qui illustre un coefficient
de corrélation de 0,774,
On ajoute un autre cas de corrélation c’est le cas de la variable « montant d’emprunts » avec
« nombre de produits », qui affiche une corrélation faiblement significative d’une valeur de
0,503.
B- Indice KMO et test de BARLETT :

Indice KMO et test de Bartlett


Mesure de précision de l'échantillonnage de Kaiser-Meyer-
,645
Olkin.
Khi-deux approximé 185,604
Test de sphéricité de Bartlett ddl 36
Signification de Bartlett ,000

La mesure Kaiser-Meyer-Olkin de l'adéquation de l'échantillonnage est une statistique qui


indique la proportion de variance dans vos variables qui peut être causée par des facteurs
sous-jacents. Les valeurs élevées (proches de 1, 0) indiquent généralement qu'une analyse
factorielle peut être utile avec vos données. Si la valeur est inférieure à 0,50, les résultats de
l'analyse factorielle ne seront probablement pas très utiles.

Le test de sphéricité de Bartlett teste l'hypothèse selon laquelle votre matrice de corrélation
est une matrice d'identité, ce qui indiquerait que vos variables ne sont pas liées et donc ne
conviennent pas pour la détection de structure. Des valeurs faibles (inférieures à 0,05) du
niveau de signification indiquent qu'une analyse factorielle peut être utile avec vos données.

Interprétation :

Le test vient pour confirmer la corrélation entre nos variables, ainsi que le khi-deux
approximé atteint une valeur assez significative statistiquement parlant le khi-deux est grand
puisque la signification est quasiment nulle, ce qui nous permet de rejeter l’hypothèse de
l’indépendance entre les variables, de plus le KMO se stabilise à une valeur de 0,645 qui
est bonne pour un ACP.
Ce qui affirme une autre fois la corrélation entre les variables.
CONCLUSION :

Pour traduire nos acquis en termes de la matière de l’analyse de données en travail concret, il
faut d’abord trouver une base de données qui est :
• Récente.
• Correcte et Vérifiée.
• Adaptée au sujet de notre étude.
Après avoir retrouvé la bonne base de données, une nouvelle étape vient ensuite, mais avant
qu’on puisse l’entamer, il faut tout d’abord maitriser un logiciel qui est nouveau, complexe,
mais extrêmement performant : le fameux SPSS.
SPSS by IBM, constituait au début un immense obstacle pour notre équipe, vu la difficulté de
manipulation et navigation du logiciel, ce n’est qu’en suivant les conseils et les consignes de
notre professeur et cher encadrant Mr ATTOUBI , ainsi qu’en faisant d’énormes efforts,
qu’on a pu avancer dans notre ambitieux projet.
Enfin, on souhaite exprimer notre immense joie et fierté d’avoir réalisé un travail aussi
détaillé et profond que celui-ci, dans une durée très limitée, et on espère que ce projet sera à
la hauteur des attentes.

Vous aimerez peut-être aussi