Vous êtes sur la page 1sur 31

Table des abrviations

Liste des figures

Sommaire

Rsum

Introduction

CRISP-DM
CRISP-DM est un modle de processus qui offre un aperu du cycle de
vie du Data Mining. Il comporte six phases qui sont la comprhension du
problme, la comprhension des donnes, la prparation des donnes, la
modlisation, lvaluation et le dploiement.

Phase 1 : Comprhension du problme


Face lexpansion de lindustrie cinmatographique, un grand df
visant axer les dcisions sur les besoins des consommateurs poussent les
diffrentes industries adapter au mieux leurs stratgies.
Par ailleurs, la complexit dune prise de dcision base sur un flm,
facteur tant trs subjectif, ncessite une bonne modlisation afn de
garantir laboutissement aux rsultats convoits.
Cest dans cette optique que lanalyse des valuations de flms prend
tout son sens, et que la prvision de leurs revenus devient primordiale. Notre
tude concerne prcisment ces deux aspects : une analyse descriptive
dtaille des valuations des productions cinmatographiques ainsi quune
tude prdictive porte sur les revenus gnrs.
Enfn, et face une base de donnes de comportant 10197
enregistrements de flms et de revenus, 4090 et 95321 enregistrements de
directeurs et dacteurs respectivement, 20 genres, 72 pays, ainsi que
855598 valuations, le Data Mining savre plus que ncessaire pour mettre
en vidence des informations dissimules par le volume de donnes et est
indispensable dans le but dextrapoler de nouvelles informations partir des
donnes prsentes.

Conclusion de la premire phase :

Il a t question dans cette partie de se pencher sur la comprhension


du problme travers la description de son contexte gnral, puis la
dtermination des objectifs stratgiques et oprationnels du Data Mining.

Phase 2 : Comprhension des donnes


Dans cette tape, il est question dtudier les donnes disponibles pour
le processus de Data Mining. Cette tude comporte trois sous-phases
fondamentales suivantes :

La collecte de donnes : Il sagit de traiter les entres de flms


provenant de lIMDb (Internet Movie Database : par excellence la base
de donnes cinmatographiques dinternet) et des systmes de
critique de flm signs Rotten Tomatoes.
Ces donnes sont stockes dans divers fchiers :
- Movies.dat : contenant des informations sur les flms de la base
-

de donnes.
Movie_genres.dat : contenant les genres des flms.
Movie_revenus.dat : contenant les revenus par flms.
Movie_directors.dat : contenant les directeurs des flms.
Movie_actors.dat : contenant les actrices et acteurs principaux

des flms et des informations supplmentaires.


Movie_countries.dat : contenant les pays dorigine des flms.
Movie_locations.dat : contenant les zones de ralisation des
flms.

Lexploration des donnes : Etape dans laquelle une supposition


quant aux donnes dentre a t faite, et suggre quil est suppos
admis

que

les

conditions

de

non-redondance,

de

fabilit,

de

cohrence, de pertinence et dautres conditions daudit de qualit sont


bien vrifes.

La description des donnes : Passant par le parcours des donnes


et llaboration du dictionnaire de donnes ci-dessous.

Conclusion de la seconde phase :


9

Dans cette partie, nous nous sommes penchs sur ltude des donnes
disponibles pour le Data Mining. Cette tude a t tablie en trois tapes
savoir la collecte, la description et lexploration des donnes.

Phase 3 : Prparation des donnes


La phase de prparation des donnes englobe toutes les activits de
construction du jeu de donnes fnal partir des donnes brutes de dpart.
-

Collecte des donnes initiales :


Nettoyage de donnes :

10

Phase 4 : Modlisation
Cette phase consiste slectionner et tester diffrentes techniques
de modlisation sur les donnes choisies afn doptimiser le modle ou les
connaissances obtenues par ces techniques. Dans notre cas, nous avons
opt dillustrer le ct descriptif visant analyser les valuations au travers
dune modlisation K-means et dune tude dun Golden Age (ge idal)
et de modliser le problme prdictif dobservation des revenus avec 2
algorithmes (Rseaux de neurones & Arbres de dcision), le tout sous SPSS
Modeler.

1) Analyse descriptive : K-means

Notre modle gnr partir dune fusion de donnes auparavant fltres et


dbarrasses de toute information non utile nous permet dans un premier
lieu de fait laudit de qualit sur ces donnes, ainsi que la classifcation par Kmeans aprs traitement des valeurs manquantes.
11

Laudit nous confre toute information de qualit et dtendue sur chaque


donne utilise ainsi quun graphe de visualisation de la rpartition de
chacune.
Nous remarquons que le nombre de ratings valides est de 9957 alors que
le nombre d ID valides est de 10197 : ce qui implique une ncessit de
traitement de valeurs manquantes.

12

La fgure ci-dessus dtaille le processus de merging (fusion) des donnes


issus de fchiers diffrents, et ce en employant uniquement lidentifant
comme cl de fusion.

La fenetre ce-dessus, reli au Node type nous a permis de choisir les


types de donnes et leur direction par rapport au Node K-means : toute
les entre sont en direction in .

13

Pour le node k-means , on a choisis 5 puis 4 clusters, et on la execut en


mode Expert .
Les fgures ci-dessous montrent les rsultats obtenus :

14

En premier lieu, nous avons fait une classifcation K-means par rapport
aux valuations des utilisateurs avec 5 clusters, nous remarquons que le
cluster 4, cluster 3 et le cluster 1 restent prsentent des caractristiques
semblables, et cette classifcation ne permet pas de formuler une
diffrenciation net et claire entre les 5 clusters

15

Avec un k-means 4 cluster nous constatons que nous pouvons classifer


nos valuations par rapports aux flms en 4 groupes :
-Cluster 1 : reprsente des flms avec un ratings et scores elevs que ce soit
pour les valuations des critiques, des top critiques, ou de laudiance : ainsi
ce sont des flms apprci par tout le monde.
-Cluster 2 : dfnit une catgorie apprci par tout le monde en dehors des
top critiques vus quils ont obtenus un score moyen par ces derniers.
-Cluster 3 : dfnit une catgorie de flms non apprci par toutes catgories
dutilisateurs

confondues.

-Cluster 4 : dfnie une catgorie non apprci par une grande parties des
utilisateurs (audience et critiques) mais ayant tout de mme russis a
intresser les top critiques qui lui ont offert un score moyen.

2) Analyse Descriptive : A la recherche du Golden


Age

16

Notre deuxime analyse descriptives des donnes, nous avons procd tout dabord
a une prparation de donne pour discrtisation des donnes continues ( anne de
sortie dun flm, et ratings ). Ce qui nous a permis danalyser les donne par rapport
a un axe temporelle, afn de vrifer la thorie dexistence dun Golden Age pour
les flms, ou, quel que soit le nombres des valuations obtenues, le nombres
dutilisateurs satisfait par rapport lensemble des flms dpasse les nombres des
utilisateurs indiffrents ou insatisfaits.

La fgure ci-dessus montre la modlisation sur SPSS Modeler.


On a commenc par lextraction des donne depuis la source movies.dat puis
nous avions discrtis les donnes et remplac les donnes manquante par la
moyenne des valeurs. Par la suite nous avions gnr la sortie suivante :

17

Nous constatons par la suite, lexistence dun Golden Age pour les flms : de la
dcade 3 jusquau la dcade 7

3) Analyse Prdictive : Arbres de dcision


Notre analyse prdictive consiste en la prdiction des catgories revenues des flms
(donne continue pralablement discrtis en 4 catgories : Revenues dpassant
500M$, Revenus entre 500M$ et 100M$, Revenus entre 100M$ et 40M$, Revenus
infrieur 40M$).
Cette prdiction est faite a partir des valuations, et scores des flms sur des site
web tel Internet Movies DataBase (IMDB) ou Rotten Tomattoes (RT).
Cette analyse nous permettrai dlaborer une mthode de prdiction des scores de
flms avant leur sorties au march mais juste aprs la sortie des synopsis et
leur publication sur des sites web tel RT et IMDB et a partir des ractions des
utilisateurs par rapports a ces synopsis ou bandes dannonces .
En premier lieu cette analyse prdictive est faite en ayant recours aux arbres de
dcisions comme le montre la fgure ci-dessous reprsentant la modlisation sur
SPSS Modeler :

18

Nos donnes en t rparties, comme le montre la fgure ci-dessous, en donne


dapprentissage (50%) et donnes de test (50%).
En appliquant lalgorithme de larbre de dcision C5.0 nous obtenons, un arbre de
dcisions comme le montre les deux fgures ci-dessous.

19

Notre arbre a une profondeur de 9 niveau, comme on le voit ci-dessous (rsultat du


node analysis )

20

Ci-dessous un aperu de lalgorithme obtenue :

Grace au node analysis nous obtenons les informations suivantes sur le testing
de lalgorithme obtenue :

Dans le cas dequilibrage de lensemble de donne (avec une valeur alatoire de


0.3 pour les revenus suprieur a 500M $ ) . La fgure ci-dessous montre que 94,32%
des rsultat obtenue aprs aplication de lalgorithme appris sur lensemble de test
est correct, alors quon a un taux derreur de 5%.

21

La fgure ci-dessous montre les rsultats obtenus aprs application de lalgorithmes


dduit sur lensemble de test dans le cas de non quilibrage de donnes. On
constate que la performance de ce dernier est meilleure que celle de lalgorithme
avec quilibrage vu quil reprsente un taux derreur de 3%.
La fgures suivantes sont celles de la matrice de coincidences dans les deux cas
(avec et sans quilibrage) on remarque ayant obtenue de meilleur performances
par rapport a la catgorie revenue > 500M$ dans le cas dapprentissage aprs
quilibrage de donnes :

22

4) Analyse prdictive : Rseaux de neurones


Lobjective de cette analyse est , lusage dune deuxime mthode notamment les
rseaux de neurones- pour la prdiction des revenues dun flm a partir des
ractions des utilisateurs sur les sites IMDB et RT. La fgure ci-dessous montre la
modlisation sur SPSS Modeler :

23

Nous partitionnant cette fois notre ensemble de donne, aprs prpartion, en 3


sous ensemble comme le montre la fgure ci-dessous :

Nous choisissant par la suite, dapplique lalgorithme de reseaux de neurones sur


lensemble dapprentissage et cela en mode Expert.

24

Grace au node analysis nous obtenons un graphique dtaillant la contribution de


chaque variable dans la prdiction des rsultats comme le montre la fgure
suivante :

25

Aprs application des rsultats dapprentissage sur lensemble de test nous


obtenons un taux de russite de 96% comme on le constate dans le fgure
suivante :

26

Lapplication de lalgorithme obtenue sur lensemble de validation nous permet


dobtenir la matrice de coincidence suivante :

Phase 5 : Evaluation des rsultats


A ce stade nous pouvons constater que les modles crs sont techniquement
corrects en fonction des critres de russite du Data Mining et que larbre de
dcision reste le meilleur en terme de prcision comme le montres les trois fgures
suivantes :

27

La courbe correspondante la valeur prdite de modalit >500M $ avec larbre


de dcision C5.0 sloigne le plus de la ligne de rfrence et a une pente
strictement positive.
Ltude propose nous mne ainsi, vers une prdiction des revenues des flms en
prochaine sortie, a partir des ractions des utilisateurs sur Internet Movies DataBase
et Rotten Tomattoes.

Conclusion de la 5me phase :


Dans cette partie, nous avons dune part valu les rsultats obtenus de notre
tude, et dautre part choisi le meilleur modle en terme de prcision et de
performance.

28

Phase 6 : Dploiement
En gnral, le dploiement est le processus consistant utiliser les nouvelles
connaissances pour apporter des amliorations au sein de lentreprise. Dans notre
cas, il consiste appliquer le modle choisit- celui de larbre de dcision C5.0- de
nouvelle donnes sur les sites dinteraction propos des flms en prochaines sortie,
et la prdiction en consquent des revenue des flms en question.
Ci-dessous, une exemple de maquette quon a modlis sous SPSS Modeler et qui
prsente un exemple de dploiement de notre modle.

29

Conclusion
Pour conclure, notre projet consiste principalement a mettre en uvre les
techniques de DataMining sur la base de la mthodologe CRISP-DM pour la
prdiction des revenues de flms a partir des raction des internautes sur IMDB et
Rotten Tomattoes, principales siteweb de rating et scoring des flm en prochaine
sortie.
Nous avions galement fait une analyse descriptive sur les donnes extraite des
deux site web sit ci-dessus, a nous a permit de faire un clustering des flms selon
les valuations et scores des diffrents internautes, comme a nous a permit de
vrifer la thorie dexistence dun Golden Age pour les flms.
Nous avons cr, suite a notre analyse prdictive, des modles prdictifs qui se sont
rvls efficaces.
Nous avions russis a trouver un modle traduisant la prdiction de la russite ou
echec dun flm et en perspective, on pourrait incluer dautres lments a notre
analyse, tel la prise en compte du type de flm, directeurs et acteurs, locations et
pays etc.

30

Phase 6 ; Dploiement

31