Vous êtes sur la page 1sur 53

Formation en Analyse des Donnes

Prsenter par: GUINDO SIDIKI, Ingnieur Statisticien Economiste, Enseignant lENSEA Sngal. mail: guindosidiki@yahoo.fr Cl: +221 77 168 95 60

PLAN DE LA FORMATION
1. Prsentation des participants

2. Prsentation du SESRIC 3. Introduction et objectif de la formation 4. Notions lmentaires de traitement statistique des donnes 5. Principe danalyse des donnes multidimensionnelles, 6. Analyse en Composantes Principales. 7. Analyse des correspondances multiples 8. Mthodes de classification 9. Construction dun indicateur composite par ACP.

Prsentation des participants

Nom et Prnom, Profil de formation ou poste occup, etc.

Prsentation du SESRIC
Voir diapo SESRIC

INTRODUCTION ET OBJECTIF

Les points abords dans lintroduction


1. 2. 3. 4.

Objectif de la formation Dure Difficults Logiciels utiliss

1. Objectif de la formation
Introduction ou rvision des diffrentes mthodes danalyse des donnes. Voir cette formation comme un cadre dchange. finalit: apprendre mettre en uvre lessentiel des mthodes danalyse des donnes.

2. Dure
La formation stale sur 4 jours. La contrainte de dure fait quelle sera

surtout pratique.

3. Difficults

Contraintes de temps Htrognit des participants (en

termes de formation, de domaine


dactivit, etc.)

4. Logiciels utiliss
Nous utiliserons:

SPAD ET EXCEL.

Fin introduction

Notions lmentaires de traitement statistique des donnes

Les points abords


1. Domaines dapplication du traitement des donnes. 2. Dmarche dans le travail du statisticien. 3. Quelques lments de la statistique descriptive.

1. Domaines dapplication du traitement des


donnes.

Dmographie , conomie, tudes de march


Assurances, Agriculture, Finance, Transport , Communications etc.

2. Dmarche dans le travail du statisticien.

Conception: dfinition de la population, des units, des caractres (variables), questionnaires

Collecte des donnes: excution de lenqute

Apurement: vrification, contrle, redressement


Analyse: statistique descriptive, analyse des donnes multidimensionnelle, mthodes conomtriques, etc.

Publication des rsultats

3. Quelques lments de la statistique descriptive.

La description des donnes par la statistique descriptive utilise des indicateurs simples:

3. Quelques lments de la statistique descriptive.

Tendance centrale ou position


Dispersion Forme Concentration

Tendance centrale ou position ou localisation

Mdiane Mode Moyenne

Dispersion

tendue cart-type Coefficient de variation

Forme
Coefficient

dasymtrie Coefficient daplatissement

Concentration

Courbe de concentration Coefficient de Gini Mdiale

FIN de quelques lments de la statistique descriptive.

Principe dADD

Les points abords

Les limites de la statistique descriptive


Le principe dADD

Limites de la statistique descriptive La statistique descriptive tudie une, deux ou trois variables. On sintresse aux caractristiques de tendance centrale, de dispersion, de forme, les liaisons entre deux variables.

Limites de la statistique descriptive


Cependant, le statisticien peut se trouver devant un tableau contenant plusieurs variables et individus. Dans ce tableau, il cherche dgager par exemple le tendance globale des donnes.

Limites de la statistique descriptive


Par exemple: les variables qui sont lies, les individus qui se ressemble. Par exemple: regrouper les individus suivant leur proximit au vue des variables.

Limite de la statistique descriptive


Dans ces situations, la statistique descriptive reste limite. On passe donc aux mthodes danalyse des donnes multidimensionnelles: cest la grande statistique descriptive .

Limite de la statistique descriptive


Les mthodes ADD sont donc pour la plupart des temps des mthodes descriptives (il existe quelques mthodes ayant en partie des objectifs explicatifs). Fin limite de la statistique descriptive

2. Principe gnrale dADD


Exemple introductif: On dispose de deux variables: revenu et consommation sur 100 mnages. Voir tableau

2. Principe gnrale dADD


MENAGE REVENU 1 10 2 25 3 12 4 7 5 26 6 5 . 30 . 24 . 10 . 8 . 15 99 12 100 17 CONSOMMATION 9 20 10 5 17 5 30 14 4 6 8 8 12

2. Principe gnrale dADD

35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35

2. Principe gnrale dADD


Si nous avons trois variables : Revenu,
Consommation et nombre personnes dans le mnage.

On peut faire un graphique trois dimensions.

2. Principe gnrale dADD


Si nous avons plusieurs variables (par exemple plus de 15 ) sur plusieurs individus alors on ne peut plus faire des graphique 15 dimensions.

Do lutilisation des mthodes de projection.

2. Principe gnrale dADD


Projeter: cest faire de bonne photo. On se pose donc la question de savoir sur quelle direction projeter.

2. Principe gnrale dADD

2. Principe gnrale dADD


Les diffrents types de tableaux:
Tableau de variables quantitatives dcrit sur des individus. Tableau croisant deux variables qualitatives. Tableau de variables qualitatives dcrit sur les individus. Autre type de tableaux (tableau de paquets de variables).

2. Principe gnrale dADD


Les mthodes danalyse des donnes suivant le type de tableau:

Tableau de variables quantitatives dcrit sur des individus


(ACP) Tableau croisant deux variables qualitatives (AFC). Tableau de variables qualitatives dcrit sur les individus (ACM). Autre type de tableaux (tableau de paquets de variables): les mthodes AFM

2. Principe gnrale dADD


De limage la ralit: les outils dinterprtation.
Ce que nous observons sur les photos peuvent tre trompeuse. Il nous faut des outils daide

interprtation.

2. Principe gnrale dADD


Les outils:
Les Cosinus carr: (CO2), qualit de la reprsentation. Le contribution (CTR): permet de mesurer la part

des variables ou individus dans la formation des


axes. Disto: distance dun individu lindividu moyen.

2. Principe gnrale dADD

Cette formation va consister lapplication des


mthodes : ACP, ACM, CLASSIFICATION, EXEMPLE
DE CONSTRUCTION DINDICATEUR COMPOSITE.

Fin principe gnrale dADD

Analyse en composantes principales (ACP)


Les points abords
Objectif de lACP
Nuage des individus, nuage des variables Prsentation du tableau de lexercice Premire mise en pratique de lACP. Elments supplmentaires, lments actifs.

Objectif de lACP
On est suppos tre devant un tableau de variables
quantitatives dcrit par des individus. Sur ce tableau, on veut savoir quelles sont les variables qui sont lie entre elles, quels sont les individus qui se ressembles.

Nuage des individus, nuage des variables:

On prsentera deux nuages, celui des


variables et celui des individus.

Prsentation du tableau de lexercice

Voir fichier Excel. Ncessit dune normalisation.

Premire mise en pratique de lACP

Prsentation sommaire de SPAD.


Importation des donnes Lancer une premire analyse.

Elments supplmentaires, lments actifs.

Mettre certains individus en supplmentaires. Interprter les rsultats.

Analyse des correspondances multiples (ACM)

Les points abords


Objectif de lACM Prsentation du tableau de lexercice Lien entre ACM et ACP.

Interprtation des rsultats.

Objectif de lACM
On est suppos tre devant un tableau de variables qualitatives individus. dcrit par des

Sur

ce

tableau,

on

veut

savoir

les

diffrents regroupement suivant certains

aspects.

Prsentation du tableau de lexercice

Voir fichier Excel.


Le tableau disjonctif complet, le tableau de BURT.

Lien entre ACM et ACP.

Mme principe de base (projection).


ACM = 2ACP sur le tableau

disjonctif complet.

Interprtation des rsultats.

Mise en uvre de la mthode Interprtation des rsultats.

Les mthodes de classification


Les points abords
Objectif de la classification explosion combinatoire Les deux grandes mthodes de classification Description des classes

Objectif de la classification
On est suppos tre devant un tableau de

variables quantitatives ou qualitatives mlang


(en termes de la nature des variables). On cherche regrouper les individus qui se ressembles. On se pose deux questions: combien de groupe

former, o mettre les coupures.

Explosion combinatoire

Idalement, il sagit de former toutes les


partitions fin de choisir la meilleures. Cette situation aboutie une explosion combinatoire. Do les mthodes hirarchiques ou non hirarchiques.

Les deux grandes mthodes de classification

La CAH, La CDH.
Les mthodes de partitionnement

Description des classes.

Les variables quantitatives. Les variances qualitatives Les axes dune autre analyse.

Les individus types.

Mise en uvre de la mthode.

Application des mthodes classification sur le tableau de lexercice.