Vous êtes sur la page 1sur 17
Analyse quantitative des données 1 – Des données à l’analyse : quels outils pour quels
Analyse quantitative des données
1 – Des données à l’analyse :
quels outils pour quels types
d’analyses ?
JL Ferrier – IEP Aix - 2007
1 – Des données à l’analyse : quels outils pour quels types d’analyses ? 1.1
1 – Des données à l’analyse : quels outils
pour quels types d’analyses ?
1.1 Analyse et système
d’information
JL Ferrier – IEP Aix - 2006
Position du problème • Analyser les données. • D’où proviennent les données ? Sont-elles collectées
Position du problème
• Analyser les données.
• D’où proviennent les données ? Sont-elles collectées pour une analyse particulière, ou
s’agit-il de travailler sur des informations déjà disponibles ?
• Quelle analyse en faire ? Pour valider des hypothèses ? Pour « explorer » sans
hypothèse préalable ?
• La démarche traditionnelle en sciences humaines est généralement la suivante :
• Formulation d’une hypothèse.
• Elaboration d’indicateurs quantitatifs (indices synthétiques, statistiques, …) visant à
valider ou invalider cette hypothèse.
• Elaboration d’une démarche pour collecter les données.
• Synthèse et conclusion.
• techniques d’enquête.
• La démarche d’analyse est cependant liée à l’architecture des systèmes
d’information
• Les données sont présentes à l’intérieur des systèmes d’information sans collecte
spécifique.
• Ex : les données comptables permettent d’obtenir des informations sur la stratégie
commerciale d’une entreprise, voire ses procédés de production.
• Cette profusion de données a inspiré des méthodes originales, très éloignées de
l’enquête utilisée en sciences sociales.
Trois sous-systèmes Les organisations sont perçues comme des systèmes, en interaction avec leur environnement
Trois sous-systèmes
Les organisations sont perçues
comme des systèmes, en
interaction avec leur
environnement (clients,
fournisseurs, état, concurrents …)
Aide à la décision
Système de
pilotage
Système
Environnement
d’information
Environnement
Informatique de
gestion
Système opérant
Des modifications profondes du SI • Pour décider mieux Besoin d’intégrer divers systèmes d’information.
Des modifications profondes du SI
• Pour décider mieux Besoin d’intégrer divers
systèmes d’information.
Comptabilité
Paye
Stocks
CRM
GRH
Production
ERP (enterprise resource planning, ou progiciel de gestion intégré)
Autres SI : Délocalisations, fusions acquisitions …
Des modifications profondes du SI • Pour décider mieux Besoin de présenter des données de
Des modifications profondes du SI
• Pour décider mieux Besoin de présenter des
données de plus en plus complexes.
• Naissance d’analyses de plus en plus fines,
bâties sur les possibilités de l’informatique.
• Emergence d’un nouveau SI, bâti sur l’aide à la
décision.
• Structure complexe, qui se résume en 3
couches.
Schéma d’un SI décisionnel
Schéma d’un SI décisionnel
Fonctions du SI décisionnel • Alimentation : • Extraction des données sources. • Transformation des
Fonctions du SI décisionnel
• Alimentation :
• Extraction des données sources.
• Transformation des données (mises au format,
calculs).
• Stockage
• Stocker les données épurées, agrégées,
historisées, classées par thèmes.
• Datawarehouse = entrepôt de données.
• Restitution
• Tableaux de bord
• Analyses
Analyses • Statistique : • Analyse de base, réalisée sur un tableur ou un outil
Analyses
• Statistique :
• Analyse de base, réalisée sur un tableur ou un outil
plus puissant.
• « Analyse quantitative des données »
• Algorithmes complexes, possibles uniquement
grâce à l’informatique.
• Analyse plus subtile que les statistiques.
• Permet de visualiser, de synthétiser de manière
claire et élégante de nombreux « facteurs ».
• Data Mining
• Propose des outils supplémentaires (réseaux
neuronaux, pattern recognition …)
1 – Des données à l’analyse : quels outils pour quels types d’analyses ? 1.2
1 – Des données à l’analyse : quels outils
pour quels types d’analyses ?
1.2 La statistique
JL Ferrier – IEP Aix - 2005
1.2 - Statistique • « Statistique », le mot a été inventé en Allemagne au
1.2 - Statistique
• «
Statistique
»,
le
mot
a
été
inventé en
Allemagne au XVIII ème siècle pour désigner
l’ensemble
des
renseignements
principalement quantitatifs — devant servir aux
administrations publiques.
• Début : premiers recensements (Napoléon).
• Idée de synthèse.
• Paramètres permettant de décrire, comparer
des populations.
1.2 statistique • La statistique se scinde en deux matières : • La statistique descriptive
1.2 statistique
• La statistique se scinde en deux matières :
• La statistique descriptive
• La statistique inférentielle
1.2.1 – statistique descriptive • Décrit un phénomène à l’aide de mesures, permettant d’appréhender sa
1.2.1 – statistique descriptive
• Décrit un phénomène à l’aide de mesures,
permettant d’appréhender sa distribution sur
l’ensemble de la population étudiée.
• Idée : résumer l’ensemble des mesures en
quelques indicateurs
• Mesures de tendance centrale (mode,
médiane, moyenne)
• Mesures de position (quartiles, quintiles,
centiles …)
1.2.1 – statistique descriptive • Mesures de dispersion (écart moyen, écart-type, …) • Mesures
1.2.1 – statistique descriptive
• Mesures de dispersion (écart moyen,
écart-type, …)
• Mesures d’association (covariance,
corrélation …)
1.2.1 – statistique descriptive ENSEMBLE 140 • Nombreux outils graphiques : courbes, 120 nuages, histogrammes
1.2.1 – statistique descriptive
ENSEMBLE
140
• Nombreux outils graphiques :
courbes,
120
nuages, histogrammes …
100
80
60
40
20
Sigma = 2,57
Moyenne = 10,9
0
N = 700,00
3,0
5,0
7,0
9,0
11,0
13,0
15,0
17,0
19,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
ENSEMBLE
Fréquence
1.2.2 – statistique inférentielle • L’inférence statistique : déduire (inférer) les caractéristiques d’une
1.2.2 – statistique inférentielle
• L’inférence statistique : déduire (inférer)
les caractéristiques d’une population, ou
confirmer des suppositions à son sujet,
à partir de l’étude d’un échantillon.
• Modèles probabilistes : dans quelle
mesure l’échantillon est-il « conforme »
à la population ?
1.2.2 – statistique inférentielle • Deux techniques : • L’estimation. Permet d’estimer un paramètre (une
1.2.2 – statistique inférentielle
• Deux techniques :
• L’estimation. Permet d’estimer un paramètre
(une moyenne par exemple) sur l’ensemble
d’une population à partir de celui mesuré sur
un échantillon, dans un certain « intervalle de
confiance »
• Les tests. Permettent de vérifier si une
hypothèse faite sur une population est
contredite par l’étude d’un échantillon pris au
hasard.
.2.3 – Utilisation des statistiques • Méthodologie fondamentale en sciences. • Permettent d’avoir des bases
.2.3 – Utilisation des statistiques
• Méthodologie fondamentale en
sciences.
• Permettent d’avoir des bases solides
pour vérifier une hypothèse, de mettre
en place une démarche scientifique.
• Utilisées dans tous les domaines,
même les plus inattendus.
1.2.3 – Utilisation des statistiques • évidemment, on déploiera les statistiques lors de sondages, notamment
1.2.3 – Utilisation des statistiques
• évidemment, on déploiera les
statistiques lors de sondages,
notamment de sondages d’opinion.
• Même les archives peuvent être
sondées (méthode courante en
histoire).
1 – Des données à l’analyse : quels outils pour quels types d’analyses ? 1.3
1 – Des données à l’analyse : quels outils
pour quels types d’analyses ?
1.3 L’AQD
JL Ferrier – IEP Aix - 2005
1.3 – AQD L’analyse quantitative de données est née de la conjonction de : •
1.3 – AQD
L’analyse quantitative de données est
née de la conjonction de :
• La possibilité de réaliser des calculs
massifs grâce à l’informatique
• La nécessité de croiser de nombreuses
variables
1.3 – AQD On étudiera deux techniques : • L’analyse en composantes principales • L’analyse
1.3 – AQD
On étudiera deux techniques :
• L’analyse en composantes principales
• L’analyse factorielle
• Dans les deux cas l’idée est la même
1.3 – AQD • On part d’un problème multidimensionnel où chaque individu est décrit par
1.3 – AQD
• On part d’un problème multidimensionnel où
chaque individu est décrit par un ensemble de
variables (par exemple, poids, taille, taux de
cholestérol, profession, intention de vote,
salaire, sexe, ….)
• On essaie de passer d’un espace à N
dimensions à un graphique bidimensionnel
1.3 – AQD • Les outils mathématiques utilisés viennent de l’algèbre linéaire (calcul matriciel) •
1.3 – AQD
• Les outils mathématiques utilisés
viennent de l’algèbre linéaire (calcul
matriciel)
• Les calculs sont très lourds en terme de
complexité algorithmique : on est obligé
d’employer des ordinateurs.
• Logiciels : SAS, SPSS …
1 – Des données à l’analyse : quels outils pour quels types d’analyses ? 1.4
1 – Des données à l’analyse : quels outils
pour quels types d’analyses ?
1.4 Le Data Mining
JL Ferrier – IEP Aix - 2005
1.4 – Le data mining • Les données informatisées sont de plus en plus nombreuses
1.4 – Le data mining
• Les données informatisées sont de plus
en plus nombreuses dans les
entreprises.
• Elles sont contenues dans des bases de
données, pour la plupart issues de la
technologie « relationnelle ».
• Ceci permet d’accéder à des quantités
énormes, qui sont normalisées.
1.4 – Le data mining On déploie des algorithmes complexes pour analyser ces données :
1.4 – Le data mining
On déploie des algorithmes complexes pour
analyser ces données :
• Des techniques d’AQD (ACP par exemple).
• Des techniques venant de l’IA. On peut
assimiler chaque observation à un point dans
un espace multidimensionnel. A partir de là, on
pourra faire du « pattern recognition » (à l’aide
de réseaux neuronaux par exemple).
1.4 – Le data mining • Ces calculs sont très longs et ne peuvent être
1.4 – Le data mining
• Ces calculs sont très longs et ne peuvent être
faits lors de l’exploitation.
• Différence fondamentale avec l’AQD :
• L’AQD va permettre de vérifier une hypothèse
(démarche scientifique).
• Le data mining ne nécessite pas de formuler des
hypothèses préalables.
• Ceci explique le terme « fouille de données »
(« chercher un diamant dans une mine de
charbon »).
1.4 – Le data mining • Exemple : une comptabilité d’entreprise est reliée à une
1.4 – Le data mining
• Exemple : une comptabilité d’entreprise
est reliée à une base relationnelle.
• On analyse les données concernant les
ventes, en les rapprochant d’informations
démographiques (âge, sexe …)
généralement recueillies à l’aide de
cartes de paiement ou de fidélité
(croisements possibles aux USA sur les
fichiers bancaires).
1.4 – Le data mining • Le système de data mining a permis de rapprocher
1.4 – Le data mining
• Le système de data mining a permis de
rapprocher les pics de ventes de couche pour
bébé, aux ventes de bière, auprès d’une
population d’hommes de 20 à 30 ans, pères de
famille, et ce en fin de journée.
• On pourrait en tirer certaines conclusions
intéressantes … (sans commentaire).
• L’entreprise a immédiatement réaménagé ses
rayons en plaçant des bières à proximité des
couches, et a bien sûr vu ses ventes de
canettes augmenter …
1.4 – Le data mining • L’exemple précédent n’est pas une boutade. • Les bases
1.4 – Le data mining
• L’exemple précédent n’est pas une boutade.
• Les bases relationnelles les plus importantes
en terme de volume concernent les systèmes
comptables (imaginons la quantité de tickets
de caisse émis par un hypermarché en un
mois …)
• Les profits réalisables avec ces techniques
sont potentiellement énormes.
• C’est un secteur porteur en terme d’emploi.
1.4 – Le data mining • Les domaines d’application sont nombreux : • Recherche médicale
1.4 – Le data mining
• Les domaines d’application sont
nombreux :
• Recherche médicale
• Assurance
• Marketing
• Chimie
• Science politique
• …
Bibliographie 3 manuels simples : • Les statistiques, une approche nouvelle – Sanders- Allard –
Bibliographie
3 manuels simples :
• Les statistiques, une approche nouvelle – Sanders-
Allard – McGraw Hill
•Initiation à l’analyse des données – J. de Lagarde –
Dunod
•Introduction au Data Mining – M. Jambu - Eyrolles
Webographie • http://www.inrialpes.fr/sel/index.html un tutorial interactif sur les statistiquess fait par l’INRIA.
Webographie
• http://www.inrialpes.fr/sel/index.html un tutorial interactif sur les
statistiquess fait par l’INRIA.
• http://trochim.human.cornell.edu/tutorial/TUTORIAL.HTM un site
fait par des étudiants en sciences humaines.
http://www.micheloud.com/FXM/COR/intro.htm un bon cours
d’analyse des données (français)
• http://cons-dev.univ-lyon1.fr/Enseignement/Stat/St.html tests non
paramétriques (français)
• http://193.48.37.48/~douillet/cours/stats/stats.html un cours de
statistiques (français)
• http://www.lsp.ups-tlse.fr/Besse/enseignement.html de bons
articles en français sur le data mining (un peu difficile)
• http://ocw.mit.edu/index.html site des cours en ligne du MIT
(anglais).