Vous êtes sur la page 1sur 21

Ecole Supérieure des Sciences de Gestion

Analyse des données

Anis Bey
Maître de conférence en Informatique
Objectif du cours
• Initiation aux diverses méthodes d’analyse statistique

• Acquérir les connaissances techniques de base en traitement des


données

• Traiter et décrire l’information contenue dans des grands


ensembles de données

• Savoir interpréter les tables et graphiques issus de ces méthodes

• Maîtriser et appliquer certains outils usuels d’analyse des données

• Comprendre les mécanismes qui justifient l’emploi de telle ou telle


méthode

• Interpréter et expliquer les outputs des outils statistiques utilisés


Programme
1. Introduction générale

2. Le language R

3. Résumer des données sous forme de tableaux et graphiques

4. Les méthodes numériques et caractéristiques de forme et de


concentration

5. Principes de base des méthodes factorielles

6. L’analyse en composantes principales

7. L’analyses des correspondances

8. Introduction aux méthodes de classification

9. L’analyse discriminante
Déroulement
• Cours et TP

• Du 20/12 au 04/02 EAD (plutôt des cours)

• Du 04/02 au 30/03 Enseignement en présentiel (plutôt des TPs)

• Evaluation : mini projet pratique


Introductions
Introduction
L’analyse des données est un sous domaine des statistiques qui
se préoccupe de la description de données conjointes. On cherche
par ces méthodes à donner les liens pouvant exister entre les
différentes données et à en tirer une information statistique qui
permet de décrire de façon plus succincte les principales
informations contenues dans ces données
Historique de l’analyse des données

• 1663 – John Graunt visait à comprendre la peste bubonique et à


créer un système d’alerte en enregistrant les décès à Londres.
• 1887 – Herman Hollerith construit une machine qui organise les
données du recensement en lisant des cartes perforées.
• 1937 – Après l'adoption de la loi sur la sécurité sociale, IBM est venu
avec un système pour gérer les informations de 29 millions de
personnes.
• 1943 – Les Britanniques ont créé la première machine informatique,
Colosse, pour trouver des motifs et déchiffrer les codes nazis.
• 1965 – Le Gouvernement des États-Unis construit le premier
centre de données pour stocker les données des citoyens.
Historique de l’analyse des données
• 1989 – Tim Berners-Lee a inventé le World Wide Web.
• 1995 – Au monde premier supercalculateur a été construit.
• 1997 – Bleu profond, un ordinateur de jeu d'échecs développé par
IBM, défait le champion du monde Garry Kasparov.
• 2005 – Roger Mougalas est venu avec le terme Big Data. C'est
aussi l'année où Hadoop a été créé. A ce jour, il reste l'un des plus
populaires outils dans Analyse des données et la gestion des
données volumineuses.
• 2009 – Le gouvernement indien a construit le la plus grande base
de données biométrique au monde – il stocke les balayages d'iris,
les empreintes digitales et les photographies de 1,2 milliard de
personnes.
Importance de l’analyse des données

Travaux de recherche Entreprise


Applications de l’analyse des données

• MARKETING NUMÉRIQUE EFFICACE

• GESTION DES RESSOURCES HUMAINES

• ÉVALUATIONS DU PORTEFEUILLE

• ANALYSE NUMÉRIQUE

• SÉCURITÉ
Les types d’analyse des
données
Les différents types d’analyse

Analyse de text Analyse diagnostique


pourquoi est-ce arrivé?

Analyse descriptive Analyse prédictive


que s'est-il passé? que pourrait-il se passer dans le futur?

Analyse inférentielle Analyse prescriptive


Comment devrions-nous réagir à
ces événements futurs possibles?
Cycle d’utilisation
Le language R

«R est un langage de programmation et un logiciel libre destiné


aux statistiques et à la science des données soutenu par la R
Foundation for Statistical Computing. Il fait partie de la liste des
paquets GNU3 et est écrit en C (langage), Fortran et R.»

Wikipédia
Les données
Rappel

Lors de toute étude statistique, il est nécessaire de décrire et explorer


les données avant d’en tirer de quelconques lois ou modèles prédictifs.

Dans beaucoup de situations, les données sont trop nombreuses


pour pouvoir être visualisables (nombre de caractéristiques trop
élevées)

Il est alors nécessaire d’extraire l’information pertinente qu’elles


contiennent —-> ADD répondent à ce besoin.
Les grandes familles des méthodes
Les données
Les données sont les faits et les chiffres qui sont collectés, analysés et
résumés pour pouvoir ensuite être interprétées, toutes les données
collectées dans une étude particulière forment l’ensemble de données de
l’étude.
STATISTIQUES DESCRIPTIVES
EN R
Quelques fonctions très utiles

> str(survey)
> is.na(survey)
> dim(survey)
> names(survey)
> subset(survey, survey$Age)
Statistique descriptive en R

Indicateur Commande
Moyenne mean(survey$Height, na.rm=T)
Mode sort(table(survey$Height),decreasing=T)[1]
Médiane median(survey$Height,na.rm=T)
Variance corrigée var(survey$Height,na.rm=T)
Écart-type corrigé sd(survey$Height,na.rm=T)
Quantile d’ordre p quantile(survey$Height,p,na.rm=T,type=1)
Étendue diff(range(survey$Height,na.rm=T))
Étendue
interquartile IQR(survey$Height,na.rm=T)
Résumé summary(survey$Height,na.rm=T)

Vous aimerez peut-être aussi