Vous êtes sur la page 1sur 17

Analyse quantitative des donnes

1 Des donnes lanalyse :


quels outils pour quels types
danalyses ?

JL Ferrier IEP Aix - 2007

1 Des donnes lanalyse : quels outils


pour quels types danalyses ?

1.1 Analyse et systme


dinformation

JL Ferrier IEP Aix - 2006

1
Position du problme
Analyser les donnes.
Do proviennent les donnes ? Sont-elles collectes pour une analyse particulire, ou
sagit-il de travailler sur des informations dj disponibles ?
Quelle analyse en faire ? Pour valider des hypothses ? Pour explorer sans
hypothse pralable ?
La dmarche traditionnelle en sciences humaines est gnralement la suivante :
Formulation dune hypothse.
Elaboration dindicateurs quantitatifs (indices synthtiques, statistiques, ) visant
valider ou invalider cette hypothse.
Elaboration dune dmarche pour collecter les donnes.
Synthse et conclusion.
techniques denqute.
La dmarche danalyse est cependant lie larchitecture des systmes
dinformation
Les donnes sont prsentes lintrieur des systmes dinformation sans collecte
spcifique.
Ex : les donnes comptables permettent dobtenir des informations sur la stratgie
commerciale dune entreprise, voire ses procds de production.
Cette profusion de donnes a inspir des mthodes originales, trs loignes de
lenqute utilise en sciences sociales.

Trois sous-systmes
Les organisations sont perues
comme des systmes, en
interaction avec leur
Aide la dcision
environnement (clients,
fournisseurs, tat, concurrents ) Systme de
pilotage

Systme
Environnement dinformation Environnement

Informatique de
gestion
Systme oprant

2
Des modifications profondes du SI
Pour dcider mieux Besoin dintgrer divers
systmes dinformation.

Comptabilit Paye Stocks CRM GRH Production

ERP (enterprise resource planning, ou progiciel de gestion intgr)

Autres SI : Dlocalisations, fusions acquisitions

Des modifications profondes du SI


Pour dcider mieux Besoin de prsenter des
donnes de plus en plus complexes.
Naissance danalyses de plus en plus fines,
bties sur les possibilits de linformatique.
Emergence dun nouveau SI, bti sur laide la
dcision.
Structure complexe, qui se rsume en 3
couches.

3
Schma dun SI dcisionnel

Fonctions du SI dcisionnel
Alimentation :
Extraction des donnes sources.
Transformation des donnes (mises au format,
calculs).
Stockage
Stocker les donnes pures, agrges,
historises, classes par thmes.
Datawarehouse = entrept de donnes.
Restitution
Tableaux de bord
Analyses

4
Analyses
Statistique :
Analyse de base, ralise sur un tableur ou un outil
plus puissant.
Analyse quantitative des donnes
Algorithmes complexes, possibles uniquement
grce linformatique.
Analyse plus subtile que les statistiques.
Permet de visualiser, de synthtiser de manire
claire et lgante de nombreux facteurs .
Data Mining
Propose des outils supplmentaires (rseaux
neuronaux, pattern recognition )

1 Des donnes lanalyse : quels outils


pour quels types danalyses ?

1.2 La statistique

JL Ferrier IEP Aix - 2005

5
1.2 - Statistique
Statistique , le mot a t invent en
Allemagne au XVIIIme sicle pour dsigner
lensemble des renseignements
principalement quantitatifs devant servir aux
administrations publiques.
Dbut : premiers recensements (Napolon).
Ide de synthse.
Paramtres permettant de dcrire, comparer
des populations.

1.2 statistique

La statistique se scinde en deux matires :


La statistique descriptive
La statistique infrentielle

6
1.2.1 statistique descriptive

Dcrit un phnomne laide de mesures,


permettant dapprhender sa distribution sur
lensemble de la population tudie.
Ide : rsumer lensemble des mesures en
quelques indicateurs
Mesures de tendance centrale (mode,
mdiane, moyenne)
Mesures de position (quartiles, quintiles,
centiles )

1.2.1 statistique descriptive

Mesures de dispersion (cart moyen,


cart-type, )
Mesures dassociation (covariance,
corrlation )

7
1.2.1 statistique descriptive

ENSEMBLE
Nombreux outils graphiques : courbes,
140

nuages, histogrammes
120

100

80

60

40
Frquence

Sigma = 2,57
20
Moyenne = 10,9
0 N = 700,00
3,0 5,0 7,0 9,0 11,0 13,0 15,0 17,0 19,0
4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0

ENSEMBLE

1.2.2 statistique infrentielle

Linfrence statistique : dduire (infrer)


les caractristiques dune population, ou
confirmer des suppositions son sujet,
partir de ltude dun chantillon.
Modles probabilistes : dans quelle
mesure lchantillon est-il conforme
la population ?

8
1.2.2 statistique infrentielle

Deux techniques :
Lestimation. Permet destimer un paramtre
(une moyenne par exemple) sur lensemble
dune population partir de celui mesur sur
un chantillon, dans un certain intervalle de
confiance
Les tests. Permettent de vrifier si une
hypothse faite sur une population est
contredite par ltude dun chantillon pris au
hasard.

1.2.3 Utilisation des statistiques

Mthodologie fondamentale en
sciences.
Permettent davoir des bases solides
pour vrifier une hypothse, de mettre
en place une dmarche scientifique.
Utilises dans tous les domaines,
mme les plus inattendus.

9
1.2.3 Utilisation des statistiques

videmment, on dploiera les


statistiques lors de sondages,
notamment de sondages dopinion.
Mme les archives peuvent tre
sondes (mthode courante en
histoire).

1 Des donnes lanalyse : quels outils


pour quels types danalyses ?

1.3 LAQD

JL Ferrier IEP Aix - 2005

10
1.3 AQD

Lanalyse quantitative de donnes est


ne de la conjonction de :
La possibilit de raliser des calculs
massifs grce linformatique
La ncessit de croiser de nombreuses
variables

1.3 AQD

On tudiera deux techniques :


Lanalyse en composantes principales
Lanalyse factorielle

Dans les deux cas lide est la mme

11
1.3 AQD

On part dun problme multidimensionnel o


chaque individu est dcrit par un ensemble de
variables (par exemple, poids, taille, taux de
cholestrol, profession, intention de vote,
salaire, sexe, .)
On essaie de passer dun espace N
dimensions un graphique bidimensionnel

1.3 AQD

Les outils mathmatiques utiliss


viennent de lalgbre linaire (calcul
matriciel)
Les calculs sont trs lourds en terme de
complexit algorithmique : on est oblig
demployer des ordinateurs.
Logiciels : SAS, SPSS

12
1 Des donnes lanalyse : quels outils
pour quels types danalyses ?

1.4 Le Data Mining

JL Ferrier IEP Aix - 2005

1.4 Le data mining

Les donnes informatises sont de plus


en plus nombreuses dans les
entreprises.
Elles sont contenues dans des bases de
donnes, pour la plupart issues de la
technologie relationnelle .
Ceci permet daccder des quantits
normes, qui sont normalises.

13
1.4 Le data mining

On dploie des algorithmes complexes pour


analyser ces donnes :
Des techniques dAQD (ACP par exemple).
Des techniques venant de lIA. On peut
assimiler chaque observation un point dans
un espace multidimensionnel. A partir de l, on
pourra faire du pattern recognition ( laide
de rseaux neuronaux par exemple).

1.4 Le data mining

Ces calculs sont trs longs et ne peuvent tre


faits lors de lexploitation.
Diffrence fondamentale avec lAQD :
LAQD va permettre de vrifier une hypothse
(dmarche scientifique).
Le data mining ne ncessite pas de formuler des
hypothses pralables.
Ceci explique le terme fouille de donnes
( chercher un diamant dans une mine de
charbon ).

14
1.4 Le data mining

Exemple : une comptabilit dentreprise


est relie une base relationnelle.
On analyse les donnes concernant les
ventes, en les rapprochant dinformations
dmographiques (ge, sexe )
gnralement recueillies laide de
cartes de paiement ou de fidlit
(croisements possibles aux USA sur les
fichiers bancaires).

1.4 Le data mining

Le systme de data mining a permis de


rapprocher les pics de ventes de couche pour
bb, aux ventes de bire, auprs dune
population dhommes de 20 30 ans, pres de
famille, et ce en fin de journe.
On pourrait en tirer certaines conclusions
intressantes (sans commentaire).
Lentreprise a immdiatement ramnag ses
rayons en plaant des bires proximit des
couches, et a bien sr vu ses ventes de
canettes augmenter

15
1.4 Le data mining

Lexemple prcdent nest pas une boutade.


Les bases relationnelles les plus importantes
en terme de volume concernent les systmes
comptables (imaginons la quantit de tickets
de caisse mis par un hypermarch en un
mois )
Les profits ralisables avec ces techniques
sont potentiellement normes.
Cest un secteur porteur en terme demploi.

1.4 Le data mining

Les domaines dapplication sont


nombreux :
Recherche mdicale
Assurance
Marketing
Chimie
Science politique

16
Bibliographie
3 manuels simples :
Les statistiques, une approche nouvelle Sanders-
Allard McGraw Hill
Initiation lanalyse des donnes J. de Lagarde
Dunod
Introduction au Data Mining M. Jambu - Eyrolles

Webographie
http://www.inrialpes.fr/sel/index.html un tutorial interactif sur les
statistiquess fait par lINRIA.
http://trochim.human.cornell.edu/tutorial/TUTORIAL.HTM un site
fait par des tudiants en sciences humaines.
http://www.micheloud.com/FXM/COR/intro.htm un bon cours
danalyse des donnes (franais)
http://cons-dev.univ-lyon1.fr/Enseignement/Stat/St.html tests non
paramtriques (franais)
http://193.48.37.48/~douillet/cours/stats/stats.html un cours de
statistiques (franais)
http://www.lsp.ups-tlse.fr/Besse/enseignement.html de bons
articles en franais sur le data mining (un peu difficile)
http://ocw.mit.edu/index.html site des cours en ligne du MIT
(anglais).

17