Vous êtes sur la page 1sur 11

Guide InsideBIGDATA de

l’analyse prédictive
par Daniel D. Gutierrez

Présenté par
Guide de l’analyse prédictive

Définition de l’analyse prédictive Sommaire


L’analyse prédictive, parfois appelée analyse Définition de l’analyse prédictive. . . . . . . 2
avancée, est un terme utilisé pour décrire une
série de techniques analytiques et statistiques Histoire de l’analyse prédictive. . . . . . . . . 2
permettant de prédire des actions ou des com- Utilisations métier de l’analyse
portements futurs. Dans les entreprises, l’ana- prédictive . . . . . . . . . . . . . . . . . . . . . . . . . . 3
lyse prédictive est utilisée pour prendre des déci- Les classes dans l’analyse prédictive . . . . 4
sions proactives et déterminer des actions, au
moyen de modèles statistiques permettant de Les logiciels d’analyse prédictive . . . . . . . 6
découvrir des schémas dans des données histo- R : le logiciel de choix pour l’analyse
riques et transactionnelles, dans le but d’identi- prédictive. . . . . . . . . . . . . . . . . . . . . . . . . . . 7
fier des risques potentiels et des opportunités. L’accès aux données pour l’analyse
prédictive. . . . . . . . . . . . . . . . . . . . . . . . . . . 8
L’analyse prédictive intègre plusieurs activités
que nous allons explorer dans le présent docu- L’analyse exploratoire des données. . . . . 8
ment  : l’accès aux données, l’analyse explora-
La modélisation prédictive . . . . . . . . . . . 10
toire des données et la visualisation, l’élabora-
tion d’hypothèses et de modèles de données, Le déploiement en production. . . . . . . . 11
l’application de modèles prédictifs, ainsi que l’es- Conclusion. . . . . . . . . . . . . . . . . . . . . . . . . 11
timation et/ou la prédiction de résultats futurs.

Histoire de l’analyse prédictive


L’analyse prédictive moderne est née dans les an- affaires que via des rapports statiques par lots.
nées 1940, lorsque les gouvernements ont commencé Aujourd’hui, l’analyse prédictive a finalement investi la
à employer les premiers modèles informatiques (simu- majorité des entreprises, qui y ont recours au quotidien
lations de Monte-Carlo, modèles informatiques pour dans des cas d’utilisation toujours plus nombreux. Ce
réseaux de neurones, programmation linéaire) pour phénomène de plus en plus répandu a été engendré par
décoder les messages allemands pendant la Deuxième les réalités d’une économie mondiale, les entreprises
guerre mondiale, à automatiser le ciblage des armes n’ayant de cesse de se constituer un avantage concur-
antiaériennes utilisées contre les avions ennemis et à rentiel, et il a pu se développer grâce à d’importantes
recourir aux simulations informatiques pour prédire le innovations technologiques.
comportement des réactions nucléaires en chaîne du
projet Manhattan. Dans les années 1960, les entreprises Ces innovations regroupent notamment des perfor-
et les établissements de recherche sont entrés dans l’ère mances informatiques plus évolutives, les bases de don-
de la commercialisation de l’analyse avec la programma- nées relationnelles, les nouvelles technologies Big Data
tion non linéaire, et de la résolution heuristique de pro- comme Hadoop et les logiciels d’analyse en libre service
blèmes via l’informatique : premiers modèles capables qui placent les données et les modèles prédictifs entre
de prévoir les conditions météorologiques, résoudre le les mains des décideurs de premier plan. Tout cela a per-
« problème du plus court chemin » pour améliorer les mis aux entreprises de rester en concurrence sur fond
questions de transport aérien et de logistique et appli- d’innovation analytique.
quer la modélisation prédictive aux demandes de cré- Tout d’abord, les entreprises ont adopté l’analyse simple
dit en fonction des risques. Puis dans les années 1970– et la découverte des données pour comprendre l’état de
1990, l’analyse a été utilisée de façon plus répandue dans leurs activités et examiner en profondeur les données
les entreprises et l’analyse prescriptive en temps réel est afin de comprendre les « pourquoi » cachés derrière ces
devenue réalité dans les startups technologiques. Toute- dernières. En se familiarisant petit à petit avec leurs don-
fois, l’analyse prédictive est largement restée l’apanage nées, elles comprennent qu’il est possible de dépasser
des statisticiens et n’a été introduite dans le monde des encore leurs concurrents grâce à l’analyse avancée.

2
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

Utilisations métier de l’analyse prédictive


Il est évidemment nécessaire d’utiliser l’analyse prédictive d’identité, les fausses demandes d’indemnisations, etc.
dans l’entreprise, car elle offre une analyse plus intelligente, • Optimisation des campagnes de vente  : permet aux
qui permet d’optimiser les prises de décision, d’accroître la vendeurs de modéliser les résultats des campagnes sur
compétitivité sur le marché, d’envisager plus directement la base d’une analyse approfondie des comportements,
les opportunités du marché et les menaces, de réduire l’in- des préférences et des données de profil des clients.
certitude et de gérer les risques, d’amener une approche
de planification et d’action proactives, de découvrir des • Analyse marketing et clientèle : recueille des données
schémas judicieux et des moyens d’anticiper et de réagir issues du marketing numérique, des médias sociaux,
aux tendances émergentes. des centres d’appels, des applications mobiles, etc.
et utilise les informations relatives à ce qu’ont fait les
L’analyse quantitative avancée a prouvé sa pertinence dans clients dans le passé pour évaluer ce qu’ils vont faire
de très nombreux secteurs et domaines représentatifs. De dans le futur.
nombreux problèmes de l’entreprise peuvent être résolus, • Analyse RH  : permet aux entreprises d’analyser le
dans diverses catégories, grâce à l’analyse prédictive. En passé et de regarder vers le futur afin de repérer des
voici quelques exemples : tendances dans les facteurs clés liés aux départs volon-
• Prévisions des ventes : elles prédisent ce que vous pou- taires, aux absences et autres sources de risque, ainsi
vez attendre tel mois ou tel trimestre, en fonction de que d’identifier des tendances dans les compétences
l’historique de vos taux de conversion, autrement dit ce requises par rapport aux ressources utilisées.
qu’a été le pourcentage de gains de votre équipe com- • Gestion des risques  : permet de prédire le meilleur
merciale par le passé pour des opportunités similaires, portefeuille afin de maximiser le retour sur le modèle
en combinaison avec le pipeline des ventes actuelles, d’évaluation des actifs financiers et l’évaluation des
c’est-à-dire le nombre d’opportunités sur lesquelles tra- risques de probabilité pour générer des prévisions
vaille votre équipe sur la période considérée. exactes.
• Détection des fraudes  : permet de repérer les de-
Le cœur de l’analyse prédictive se fonde sur la capture
mandes de crédit inappropriées, les transactions frau- des relations entre des points de données issues du
duleuses réalisées hors ligne et en ligne, les usurpations passé et sur l’utilisation de ces relations pour prédire les

En matière de prévision des ventes, l’analyse prédictive fournit des réponses ciblées pertinentes à un
vaste éventail d’utilisateurs métier afin de les aider à améliorer les prises de décision. Image reproduite
avec l’aimable autorisation de TIBCO Spotfire.
3
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

Les classes dans l’analyse prédictive


résultats futurs. Afin de pouvoir faire des prédictions
sur la base d’un ensemble de données spécifique, La classification est un autre type
on utilise une ou plusieurs variables prédictives pour
prédire une variable réponse. Sous sa forme la plus d’analyse prédictive communé-
simple, l’analyse prédictive est un support permet- ment utilisé. Elle fait intervenir une
tant d’établir des prévisions pour la prise de décision
en entreprise. Pour des exigences plus complexes, variable réponse qualitative. Cette
on utilise des techniques d’analyse prédictive avan- méthode examine un ensemble de
cées afin d’orienter les processus stratégiques de données dans lequel chaque obser-
l’entreprise. Cette section vous présente une vue
d’ensemble des principales catégories de l’analyse vation contient des informations sur
prédictive : l’apprentissage supervisé et l’apprentis- la variable réponse ainsi que sur les
sage non supervisé.
variables prédictives.
L’apprentissage supervisé est divisé en deux grandes
catégories  : la régression pour les réponses quan- peut être partagée en trois classes ou catégo-
titatives (une valeur numérique), par exemple le ries : salaire élevé, salaire moyen et bas salaire.
Cette méthode examine un ensemble de don-
La régression est la forme la plus nées dans lequel chaque observation contient
des informations sur la variable réponse ainsi
courante de l’analyse prédictive. Elle que sur les variables prédictives. Supposons
fait intervenir une variable réponse qu’un analyste souhaite pouvoir classifier
l’échelle salariale de personnes n’appartenant
quantitative (ce que vous tentez de pas à l’ensemble de données, en fonction des
prédire). caractéristiques associées à ces personnes, par
exemple l’âge, le sexe et la profession. Cette
tâche de classification se déroulerait de la ma-
nombre de kilomètres par litre d’essence pour une nière suivante  : examiner l’ensemble de don-
voiture donnée, et la classification pour les réponses nées contenant les variables prédictives et la
qui peuvent uniquement prendre quelques valeurs variable réponse déjà classifiée, l’échelle sala-
connues, telles que « vrai » ou « faux ». riale. L’algorithme apprend ainsi les combinai-
• Régression  : la régression est la forme la plus sons de variables associées à tel ou tel niveau
de l’échelle salariale. Cet ensemble de don-
courante de l’analyse prédictive. Elle fait inter-
nées est appelé l’ensemble d’apprentissage.
venir une variable réponse quantitative (ce que L’algorithme examinerait ensuite les nouvelles
vous tentez de prédire), par exemple le prix de observations pour lesquelles aucune infor-
vente d’une maison, selon une série de variables mation sur l’échelle salariale n’est disponible.
prédictives (nombre de mètres carrés, nombre Sur la base des classifications dans l’ensemble
de chambres, revenus moyens dans le voisinage d’apprentissage, l’algorithme attribuerait des
selon les données de recensement...). La rela- classifications aux nouvelles observations. Par
tion entre le prix de vente et les prédicteurs de exemple, une directrice marketing de 51  ans
l’ensemble d’apprentissage fournirait un modèle pourrait être classée dans l’échelon des reve-
prédictif. nus élevés.
Les méthodes de régression, y compris celles Les types de méthodes de classification sont
nombreux  : régression logistique, arbres de
mentionnées ci-dessus, sont nombreuses  : ré-
décision, machines à vecteurs de support,
gression linéaire multivariée, régression polyno- forêts aléatoires, k plus proches voisins, naïve
miale, arbres de régression, pour n’en citer que bayésienne, etc.
quelques-unes.
L’apprentissage non supervisé permet de tirer des
• Classification  : la classification est un autre
type d’analyse prédictive communément uti- conclusions à partir d’ensembles de données compo-
lisé. Elle fait intervenir une variable réponse sés de données en entrée sans réponses étiquetées.
qualitative, par exemple l’échelle salariale, qui La méthode d’apprentissage non supervisé la plus

4
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

courante est l’analyse de clusters, qui est utilisée pour le cas avec l’apprentissage non supervisé ; nous
l’analyse exploratoire des données afin de trouver des ne disposons pas de variables réponse indiquant
schémas cachés ou des groupes de données. si un client est ou non un acheteur fréquent. En
• Clustering  : les techniques non supervisées revanche, nous pouvons tenter de regrouper les
comme le clustering nous aident à comprendre clients en fonction des variables afin d’identifier
les relations entre les variables ou entre les ob- des groupes de clients distincts.
servations en déterminant si elles tombent dans Il existe d’autres types d’apprentissage statis-
des groupes relativement distincts. Par exemple, tique non supervisé, notamment le clustering
dans une analyse de segmentation de la clien- par les k-moyennes, le groupement hiérar-
tèle, nous pouvons observer plusieurs variables : chique, l’analyse en composantes principales,
sexe, âge, code postal, revenus, etc. Nous pen- etc.
sons que les clients tombent dans différents
groupes, comme les acheteurs fréquents et les
acheteurs occasionnels. Une analyse par clas-
sification serait possible si l’historique d’achat
des clients était disponible, mais cela n’est pas

Le clustering montre les relations entre les variables ou entre les observations en déterminant si elles tombent
dans des groupes relativement distincts. Image reproduite avec l’aimable autorisation de TIBCO Spotfire.

5
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

Les logiciels d’analyse prédictive problèmes métier rencontrés par les utilisateurs, ainsi
que la possibilité d’appliquer ces algorithmes avec
Il existe un vaste choix d’outils d’analyse prédictive, flexibilité, lorsque cela est nécessaire. L’extensibilité
mais tous ne sont pas équivalents. Les logiciels diffèrent permettant d’intégrer facilement de nouvelles mé-
énormément en termes de fonctionnalités et de facilité thodes d’analyse au fil de leur disponibilité est éga-
d’utilisation. Toutes les solutions ne permettent pas de lement essentielle pour pouvoir maximiser l’avantage
répondre à tous les types de besoins d’analyse avancée. concurrentiel. Un critère important dans le choix de
Différentes catégories d’utilisateurs ont recours à l’ana- l’outil approprié est l’assurance que l’ensemble de
lyse : certains ont besoin de créer des modèles statis- fonctionnalités correspond aux caractéristiques des
tiques, d’autres ont simplement besoin de les utiliser. données de votre entreprise et que vos analystes de
données y trouveront des avantages. L’outil approprié
Pour l’utilisateur avancé, le choix de l’outil est important
combine de puissantes fonctionnalités d’intégration
car il porte sur la possibilité de remettre les modèles pro-
et de transformation des données, des fonctionnali-
priétaires aux utilisateurs métier (les décideurs de pre-
tés d’exploration, des algorithmes d’analyse, le tout
mier plan) de sorte qu’ils puissent agir de manière com-
dans une interface intuitive. En substance, il existe
pétitive grâce à l’analyse prédictive, tout en gommant la
trois ingrédients importants pour réussir la recette
complexité de ces modèles propriétaires. de l’analyse prédictive  : (i) l’expert en données crée
le modèle le plus concurrentiel, (ii) l’auteur de l’ap-
Les outils efficaces d’analyse pré- plication analytique intègre le modèle concurrentiel
dictive offrent une grande variété dans l’application analytique et (iii) l’utilisateur métier
d’algorithmes et de méthodes en emploie le modèle concurrentiel dans le cadre du flux
support de toutes les caractéristiques normal de son travail.
de données et des problèmes métier Voici une petite liste des caractéristiques et aspects
rencontrés par les utilisateurs, ainsi à prendre en compte lors de l’évaluation d’un outil
que la possibilité d’appliquer ces d’analyse prédictive :
algorithmes avec flexibilité, lorsque • Examinez les fonctionnalités de traitement de l’outil
cela est nécessaire. permettant de répondre aux besoins du cycle de
l’analyse prédictive : data munging, analyse explo-
Dans les entreprises, les utilisateurs possèdent les ratoire des données, techniques de modélisation
connaissances nécessaires pour comprendre la réponse prédictive telles que prévision, clustering, création
qu’ils attendent de l’analyse prédictive  ; mais paral- de scores, ainsi que l’évaluation de modèles.
lèlement, ils n’ont pas besoin de ces modèles, ne les • Trouvez un outil qui permet de combiner les
recherchent pas ou ne peuvent pas les développer eux- connaissances de l’analyste sur l’entreprise et les
mêmes. L’outil idéal fournit donc une méthode simple données avec les outils et les procédures prédéfi-
pour placer le savoir-faire des experts en données aux nies, ainsi que des workflows graphiques pour sim-
mains des décideurs de premier plan, souvent sous plifier et rationaliser les étapes menant de la prépa-
la forme d’une application analytique guidée, avec le ration à la prédiction.
modèle prédictif discrètement encapsulé. Cela permet • Un bon outil doit aisément s’intégrer aux sources
d’utiliser l’analyse avancée selon les meilleures pratiques de données requises pour répondre aux questions
(autrement dit, d’éliminer le risque que l’entreprise tente stratégiques de l’entreprise.
de développer ses propres modèles) et autorise un large
déploiement d’une recette secrète d’analyse. • L’outil doit être immédiatement utilisable par toutes
les catégories d’utilisateurs  : utilisateurs métier,
Lorsque vous choisissez l’outil idéal pour votre entre- analystes métier, analystes de données, experts en
prise, vous devez vous assurer qu’il propose un vaste données, développeurs d’applications et adminis-
éventail de fonctionnalités  : options prêtes à l’emploi trateurs système.
pour les problèmes les plus simples ou fonctionnalité • Envisagez des outils qui permettent autant que pos-
statistique ultra avancée destinée aux experts en don- sible aux professionnels informatiques et aux ex-
nées. Cela permet ainsi d’intégrer des modèles com- perts en données d’éviter de devoir configurer une
pétitifs aux tableaux de bord d’analyse des utilisateurs
intégration avec des sources de données multiples.
métier, pour leur utilisation quotidienne.
Les outils efficaces d’analyse prédictive offrent une
grande variété d’algorithmes et de méthodes en sup-
port de toutes les caractéristiques de données et des

6
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

Choisir un outil fiable, c’est s’assurer de disposer d’une


vaste palette de fonctionnalités d’analyse prédictive : Le moteur R open source présente
des plus simples, telles que les courbes de tendance et
un outil de prévision, jusqu’à l’exploitation de tout un
un seul problème, sa limitation inhé-
écosystème de fonctionnalités statistiques pour créer rente en tant qu’environnement de
et exécuter tout type de modèle statistique ou d’al- production évolutif. On sait que R est
gorithme. Les algorithmes standard/prêts à l’emploi
ne vous feront gagner aucun avantage concurrentiel basé sur la mémoire, autrement dit
dès lors que vos concurrents commenceront à utiliser qu’il peut uniquement être exécuté
ces mêmes outils. Vous avez besoin de ces outils pour
créer vos propres modèles propriétaires qui vous per-
dans les limites de son environne-
mettront de générer cet avantage concurrentiel en ment de calcul.
exploitant les actifs de données de votre entreprise.
Choisir les meilleures pratiques, c’est choisir une solu- namique, constituée de groupes locaux, de cours en
tion qui intègre l’analyse prédictive sur l’ensemble du ligne et de blogs sur des aspects spécifiques (voir les
processus de décision analytique, ce qui permet de principaux blogs via le portail : r-bloggers.com).
l’incorporer, le cas échéant, à des tableaux de bord Le logiciel R open source est le premier choix logique
en libre service et à la découverte exploratoire des pour la modélisation prédictive, étant donné que
données. Par cette orientation, l’analyse avancée est cet environnement statistique contient plusieurs
accessible à tous les utilisateurs analytiques, à qui algorithmes dans le paquet R de base ainsi que des
elle procure les outils nécessaires pour identifier de paquets supplémentaires avec fonctionnalités éten-
nouvelles opportunités, gérer les risques et réagir dues.
rapidement aux événements imprévus. En outre, les • Régression linéaire avec lm()
professionnels responsables des départements sen-
• Régression logique avec glm()
sibles et des processus globaux ont la possibilité de
poser immédiatement et intuitivement des questions • Régression avec régularisation avec le paquet
et d’obtenir des réponses à partir de leurs données. glmnet
Ils anticipent ainsi sur ce qui est à venir et prennent • Réseaux de neurones avec nnet()
des mesures rapides en toute connaissance de cause. • Machines à vecteurs de support avec le
paquet e1071
R : le logiciel de choix pour • Modèles bayésiens naïfs avec le paquet e1071

l’analyse prédictive • Classification selon les k plus proches voisins


avec la fonction knn() du paquet de classes
Même si les choix sont multiples en matière d’exé- • Arbres de décision avec tree()
cution des tâches liées à l’analyse de données, à la
modélisation des données et à l’analyse prédictive, • Ensembles d’arbres avec le paquet randomFo-
R  est aujourd’hui devenu un incontournable. Cela rest
s’explique par le fait que R est largement utilisé dans • Gradient boosting avec le paquet gbm
le monde universitaire plutôt que dans les produits • Clustering avec kmeans(), hclust()
commerciaux comme SAS et SPSS  ; les nouveaux
diplômés entrent en effet dans ce secteur avec de Le moteur R open source présente un seul problème,
solides connaissances de R. sa limitation inhérente en tant qu’environnement
de production évolutif. On sait que R est basé sur la
De vifs débats ont actuellement lieu entre la commu- mémoire, autrement dit qu’il peut uniquement être
nauté des utilisateurs de R et les communautés SAS exécuté dans les limites de son environnement de
et Python, sur la question de savoir quel est le meil- calcul. En matière de bonnes pratiques, la bonne poli-
leur outil pour la science des données. L’utilisation tique pour implémenter R en production consisterait
de R se justifie aisément, notamment en raison de sa à s’appuyer sur une plateforme commerciale adaptée
disponibilité en open source gratuit, d’un environne- à l’entreprise pour exécuter le langage R, par exemple
ment d’analyse extensible largement utilisé, de plus TERR (TIBCO Enterprise Runtime for R), afin de pou-
de 5 000 paquets disponibles sur CRAN pour étendre voir bénéficier des énormes avantages de R, tout en
les fonctionnalités de  R et de fonctionnalités de vi- évitant les problèmes d’évolutivité.
sualisation de premier ordre avec ggplot2. En outre,
R s’entoure d’une communauté d’utilisateurs très dy-

7
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

L’accès aux données pour Parmi les étapes de préparation à


l’analyse prédictive l’analyse prédictive, il est essentiel
Le processus d’analyse prédictive est alimenté par les de devenir intimement familier des
actifs de données de l’entreprise. Quant aux outils,
ils doivent faciliter l’intégration à différents types de
données, un processus qu’on appelle
sources de données utilisées pour répondre aux ques- l’analyse exploratoire des données
tions stratégiques de l’entreprise. Une analyse prédic- (EDA).
tive fiable implique l’accès à des bases de données ana-
lytiques et relationnelles, cubes OLAP, fichiers plats et
applications d’entreprise. L’analyse prédictive peut faire L’analyse exploratoire des données
appel aux aspects suivants de l’intégration de données : Parmi les étapes de préparation à l’analyse prédictive,
• des sources de données structurées comme les il est essentiel de devenir intimement familier des
bases de données SQL classiques et les entrepôts données, un processus qu’on appelle l’analyse explo-
de données déjà utilisés par l’entreprise ; ratoire des données (EDA). La sélection du modèle
• des sources de données non structurées comme repose impérativement sur une compréhension claire
les médias sociaux, les e-mails, etc. ; des données, autrement dit sur le choix de l’algo-
rithme d’analyse prédictive approprié pour résoudre
• des données tierces externes issues d’éditeurs les problèmes de votre entreprise. Pour une explo-
comme Salesforce. ration initiale des données, divers types de logiciels
Avec les outils d’analyse prédictive, l’intégration à peuvent être utilisés par différents utilisateurs.
des sources de données multiples doit être rapide et L’une des façons de parvenir à ce niveau de familia-
directe, et ne doit pas nécessiter d’intervention appro- rité consiste à s’appuyer sur les nombreuses fonction-
fondie des professionnels informatiques ou des experts nalités de l’environnement statistique  R  : résumés
en données. numériques, graphiques, agrégations, distributions,
Les utilisateurs doivent avoir la flexibilité de combiner densités, examen de tous les niveaux de variables
rapidement leurs propres magasins de données privés, factorielles et application de méthodes statistiques
comme des feuilles de calcul Excel ou des bases de don- générales. D’autres outils peuvent également être
nées Access, avec les magasins de données de l’entre- utilisés avec efficacité pour l’EDA  : TIBCO  Spotfire,
prise, comme Hadoop ou les connecteurs d’application SAS, SPSS, Statistica, Matlab, entre autres. Les logi-
cloud (Hadoop/Hive, Netezza, HANA, Teradata, etc.). La ciels statistiques, tels que R, permettent à l’utilisateur
prise en charge de l’analyse in-database, in-memory et d’explorer et de visualiser les données avec beaucoup
à la demande via des connecteurs directs sont toutes de flexibilité, mais nécessitent un niveau élevé de
des fonctionnalités qui gagnent en importance dans le connaissance des scripts.
paysage de l’analyse prédictive.
Lorsque l’analyse exploratoire est
Avec R  open source, les coûts initiaux restent faibles rigoureuse, elle permet d’obtenir des
pour un vaste accès aux données de l’entreprise car
ce logiciel possède de nombreux paquets permet- informations importantes sur l’histoire
tant d’accéder à de nombreuses sources de données, que vos données vous racontent et
par exemple des bases de données ODBC, Excel, CSV, sur la meilleure façon de les utiliser
Twitter, Google Analytics, pour n’en citer que quelques-
unes. pour réaliser des prédictions exactes.
L’idéal est de vous assurer que votre solution d’analyse La suite R open source comporte beaucoup de méca-
prédictive offre un accès à tous les types de sources de nismes de visualisation pour l’EDA, par exemple histo-
données pour que vous puissiez combiner (mashup) grammes, boîtes à moustaches, diagrammes à barres,
les données à votre guise afin d’obtenir une vue holis- nuages de points, cartes thermiques etc. utilisant la
tique de l’entreprise, de préférence sans codage et sans bibliothèque ggplot2. L’utilisation de ces outils permet
avoir recours aux équipes informatiques. Grâce à cette d’avoir une compréhension approfondie des données
fonctionnalité, les utilisateurs pourront extraire les pré- employées pour l’analyse prédictive. Lorsque l’ana-
cieuses informations qui leur permettront de prendre lyse exploratoire est rigoureuse, elle permet d’obtenir
des décisions éclairées en temps réel. des informations importantes sur l’histoire que vos

8
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

données vous racontent et sur la meilleure façon de nées et d’analyse prédictive sur la même plateforme
les utiliser pour réaliser des prédictions exactes. analytique est une pratique idéale pour procurer
aux utilisateurs la transparence nécessaire lorsqu’ils
Une autre méthode utilisée pour l’EDA est un logi-
passent d’une tâche d’analyse à une autre, tout en as-
ciel de découverte de données. Avec TIBCO  Spotfire,
surant un coût total d’acquisition plus intéressant.
par exemple, la découverte de données permet à
une grande diversité d’utilisateurs d’explorer visuelle-
ment leurs données et de les comprendre, même sans
Avec TIBCO Spotfire, par exemple,
connaissances statistiques approfondies. Ils peuvent la découverte de données permet
effectuer des tâches EDA avancées qui leur procurent à une grande diversité d’utilisateurs
ainsi un niveau supplémentaire de discernement sur d’explorer visuellement leurs don-
les données, sans nécessiter l’assistance des services
informatiques ou des experts en données.
nées et de les comprendre, même
sans connaissances statistiques ap-
Combiner les fonctionnalités de découverte des don-
profondies.

Les logiciels de découverte des données offrent une interface d’analyse riche et interactive pour l’EDA, avec accès
aux données, manipulation des données et composition d’analyses. Image reproduite avec l’aimable autorisation de
TIBCO Spotfire.

9
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

La modélisation prédictive points à prendre en compte lors du choix de la tech-


nique à utiliser, en fonction de vos données et du pro-
L’utilisation de l’analyse prédictive implique la com- blème à résoudre.
préhension et la préparation des données, la défini-
• Lorsque les données sont groupées par observa-
tion du modèle prédictif et le respect du processus
tions, les outils tels que l’analyse de clusters, les
prédictif. Les modèles prédictifs peuvent prendre
règles d’association et les k plus proches voisins
diverses formes et tailles, selon leur complexité et
fournissent habituellement les meilleurs résul-
l’application pour laquelle ils sont conçus. La première
tats.
étape consiste à comprendre les questions auxquelles
vous essayez d’apporter une réponse pour votre en- • Utiliser la classification pour séparer les données
treprise. Le niveau de détail et de complexité de vos en classes en fonction de la variable réponse
questions va augmenter tandis que vous progresse- – classes binaires comme Vrai ou Faux, ainsi que
rez dans le processus d’analyse. Voici les principales situations multi-classes.
étapes du processus d’analyse prédictive : • Utiliser la régression unique, multiple et polyno-
• définir les résultats et les livrables du projet, miale lorsque vous tentez d’effectuer une pré-
indiquer la portée de l’effort, établir les objectifs diction plutôt qu’une classification.
métier et identifier les ensembles de données à • Si les données sont de mauvaise qualité ou en
utiliser ; nombre limité, les tests A/B sont appropriés. A
• réaliser une collecte de données et comprendre titre d’exemple, les tests A/B sont des expériences
les données ; statistiques qui vous aident à décider si une
modification a un réel impact sur votre produit.
• effectuer le data munging – le processus d’ins-
pection, de nettoyage et de transformation des
données ;
• faire appel à l’analyse exploratoire des données
(EDA) – utiliser des techniques graphiques dans
le but de découvrir des informations utiles et
de parvenir à des conclusions. Appliquer des Le processus d’analyse prédictive
statistiques pour valider des suppositions, hypo-
thèses et tests en utilisant des techniques statis- Définir Fixer les buts, définir les
tiques standard ; le problème à objectifs métier et identifier
résoudre les ensembles de données
• appliquer des principes de modélisation pour
avoir la possibilité de créer automatiquement
des modèles prédictifs précis sur le futur ; Réaliser une collecte de
Collecte des données données et comprendre les
• évaluer le modèle choisi afin d’en vérifier la fia- données
bilité et effectuer des corrections à mi-parcours.
Tester les modèles sur les données existantes
Nettoyer et transformer les
et appliquer des prédictions aux nouvelles don- Data munging données en préparation de
nées ; l’analyse
• choisir une option de déploiement pour étendre
les résultats analytiques à la prise de décision Utiliser des graphiques pour
Analyse exploratoire découvrir les informations
quotidienne et pour obtenir les résultats en au- des données pertinentes
tomatisant les décisions sur la base de la modé- Appliquer des statistiques
lisation.
Chacune des étapes ci-dessus peut être considérée Modélisation Créer des modèles prédictifs
des données précis sur l’avenir
comme étant itérative et peut être revue si néces-
saire. Il faut noter que l’étape du data munging est
souvent très longue selon le niveau de propreté des
Evaluation Vérifier la fiabilité du modèle
données entrantes  ; elle peut représenter jusqu’à
et faire des ajustements
70 % du temps total du projet. du modèle
Les caractéristiques des données peuvent souvent
vous aider à déterminer les techniques de modélisa- Déployer le modèle dans
Déploiement l’environnement de
tion prédictive les mieux appropriées aux besoins de
production
l’analyste des données. Voici un certain nombre de
10
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com
Guide de l’analyse prédictive

Le déploiement en production Avec un logiciel d’analyse prédictive, vous pouvez :


• transformer les données en indices prédictifs
Dans l’échéancier du projet d’analyse prédic- permettant de guider vos grandes décisions et
tive, l’étape finale consiste à déterminer la ma- interactions ;
nière idéale de déployer la solution dans un en-
vironnement de production. La préoccupation • prédire ce que les clients souhaitent et feront
majeure est l’utilisation de R  open source sur ensuite pour augmenter la rentabilité et la
des ensembles de données volumineux pour les- rétention ;
quels la performance est importante. Le moteur  R • maximiser la productivité de vos ressources
open source n’a pas été créé pour les entreprises. humaines et de vos processus ;
Le déploiement de R  open source peut être problé- • augmenter la valeur de vos actifs de données ;
matique pour les raisons suivantes :
• détecter et éviter les menaces de sécurité et
• mauvaise gestion de la mémoire : R ne recycle les fraudes avant qu’elles n’impactent votre
pas bien la mémoire, donc l’utilisation de cette entreprise ;
dernière peut augmenter plus rapidement, ce
qui peut engendrer des saturations pour mé- • effectuer une analyse statistique, notamment
moire insuffisante, ainsi qu’une performance analyse de régression, classification et analyse
non linéaire due à un nombre accru de requêtes de clusters ;
de récupération de mémoire, et un échange • mesurer l’impact sur les médias sociaux de vos
(swapping) plus important ; produits, services et campagnes marketing.
• risque de déploiement de l’open source avec
licence  GPL  : les éditeurs de logiciels ne sont
pas autorisés à intégrer ni redistribuer R  open A propos de TIBCO Spotfire
source avec aucun logiciel commercial fermé.
TIBCO Spotfire® est la solution d’analyse du géant des infrastructures
Pour éviter ces problèmes, les analystes choisiront et du décisionnel, TIBCO Software. Tableaux de bord interactifs et
souvent de convertir leur solution R dans un environ- découverte des données, analyse prédictive et en temps réel, les logi-
nement de programmation différent comme C++ ou ciels intuitifs de Spotfire offrent un environnement incroyablement
Python. Toutefois, ce parcours est loin d’être optimal rapide et flexible permettant de visualiser et d’analyser vos données.
puisqu’il requiert un nouveau codage et de nouveaux Au fil de l’évolution de vos besoins en analyse, nos fonctionnalités
tests conséquents. adaptées à l’entreprise peuvent être déclinées en toute transpa-
rence ; vous pouvez ainsi être le premier informé et le premier à agir.
L’idéal serait d’utiliser une solution  R commerciale
adaptée à l’entreprise, comme le logiciel TERR (TIBCO TIBCO Spotfire possède une longue et riche expérience en matière
Enterprise Runtime for  R), pour contourner les limi- d’analyse prédictive. Avec Spotfire, vous pouvez développer vos
tations ci-dessus et constituer un environnement de propres modèles propriétaires et exploiter vos investissements en
production robuste. Etant donné que de nombreuses solutions R, S+, SAS, MATLAB et en solutions d’analyse in-database
entreprises possèdent déjà en interne des modèles de sources de données Big Data, telles que Teradata Aster. Spotfire
prédictifs hérités, il est également recommandé de propose également un environnement R commercial, TERR (TIBCO
vérifier que votre plateforme d’analyse prend en Enterprise Runtime for R), qui a été créé intégralement afin d’étendre
la portée de R à l’entreprise et de le rendre plus rapide, plus évolutif
charge les modèles TERR, R open source, S+, MATLAB
et capable de traiter la mémoire de manière bien plus efficace que le
et SAS, afin de bénéficier d’un écosystème d’analyse
moteur R open source.
prédictive.
TIBCO contribue régulièrement à la communauté R, notamment par
Conclusion ses retours transmis à l’équipe de développement R Core Team, et
présente une large compatibilité avec les fonctions R et un nombre
Dans le présent guide, nous avons examiné comment croissant de paquets CRAN (actuellement plus de 1800). La société
l’analyse prédictive aide votre entreprise à prédire avec teste régulièrement TERR avec de très nombreux paquets R et conti-
assurance ce qui va se passer, de manière à ce que nue d’étendre TERR pour une plus grande couverture de R. TERR peut
vous puissiez prendre des décisions plus intelligentes et être utilisé dans RStudio, l’IDE populaire de R, et s’intègre par ailleurs
améliorer les résultats de l’entreprise. Il est important entièrement aux solutions TIBCO Spotfire, ainsi qu’aux produits Com-
d’adopter une solution d’analyse prédictive qui réponde plex Event Processing de TIBCO, comme TIBCO Streambase.
aux besoins spécifiques de différents utilisateurs et à Pour en savoir plus sur TIBCO Spotfire et TERR, rendez-vous sur
différentes compétences, qu’il s’agisse de débutants, spotfire.com
d’analystes confirmés ou d’experts en données.

11
www.insidebigdata.com | 508-259-8570 | Kevin@insideHPC.com

Vous aimerez peut-être aussi