Académique Documents
Professionnel Documents
Culture Documents
1
Université de Lomé, Boulevard Gnassingbé Eyadema 01 BP 1515 Lomé -TOGO
2
École Polytechnique de Lomé
26 juin 2023
Les objectifs du cours
Introduction générale des données et du Big Data
Collecte, transformation et normalisation des données
Introduction à l’analyse de données
Introduction I
L’invention de l’informatique et de l’internet ont permis aux humains de collecter et
d’entreposer des données dans divers domaines afin de les exploiter pour répondre aux objectifs
économiques, sociaux, environnementaux etc...
La collection des données est un processus de réunification des informations homogènes ou non
dans un domaine afin d’extraire des connaissances de ces informations et résoudre un problème
précis posé.
Dans le cas précis de google, après la collecte des données, il y a l’étape du triage ou encore du
nettoyage des données consistant à ne tenir compte que des informations utiles au problème
posé et rejeter les informations inutiles.
Après le triage des données, il y a l’étape du traitement ou modélisation des données consistant
à identifier un modèle mathématique qui permet de confirmer qu’une zone des États-Unis est
atteinte par cette maladie. Il est important de trouver un modèle mathématique pour cette
2 / 92
Les objectifs du cours
Introduction générale des données et du Big Data
Collecte, transformation et normalisation des données
Introduction à l’analyse de données
Introduction II
tâche parce que les recherches peuvent venir de toutes les zones sans que ces zones soient
réellement atteintes par ce virus. C’est l’étape de la modélisation.
Après la collecte des données, suivie du nettoyage et de la modélisation, il reste une dernière
étape qui est la communication des résultats exploitables par les décideurs (les agents de santé,
les politiques etc..). La communication des données est une étape très importante dans le cycle
de vie d’un projet en big data ou en data science. Cette étape consiste à présenter des tableaux
ou figures destinés aux décideurs pour leurs compréhensions du phénomène étudié.
3 / 92
Les objectifs du cours
Introduction générale des données et du Big Data
Collecte, transformation et normalisation des données
Introduction à l’analyse de données
Plan de la présentation
4 / 92
Les objectifs du cours
Introduction générale des données et du Big Data
Collecte, transformation et normalisation des données
Introduction à l’analyse de données
5 / 92
Les objectifs du cours
Introduction générale des données et du Big Data
Collecte, transformation et normalisation des données
Introduction à l’analyse de données
DATA COLLECTION
•Data architecture
•Data Basis
•API
•Server
•Data security
DATA
COMMUNICATION DATA CLEANING
•KPI
•ETL
•Decisions
•Spark
•Results sharings
•Report
DATA
DATA VISUALIZATION
•Tableau DATA STORAGE
•PowerBI •Mysql
•Excel •PostgreSQL
•Dashbord •Hadoop
•NoSQL
•Files
DATA MODELLING
•AI
•Predictive analytics
•Time series forecasting
•Multivariate analysis
•Text mining
•Large Language modelling
6 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
7 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
Définition d’une donnée dans un cadre de Système de Gestion de Bases de Données (SGBD)
Dans le cadre de SGBD , une donnée est une information inscrite dans une base de données en
vue de son exploitation ultérieure. Dans ce contexte, les données sont organisées par colonnes
dans les tables de données, elles mêmes stockées dans une base de données.
8 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
Exemples de données
1- Un ingénieur
ID Nom Prénom Age Diplôme Salaire Moyenne Bac Moyenne BEPC .....
Client Adresse Date d'achat Article Prix Quantité Remise (%) .....
ID (FCFA)
9 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
Exemples de données
Amazone: <<Data science is the study of data to extract meaningful insights for business.
It is a multidisciplinary approach that combines principles and practices.>>
10 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
Le domaine de la science des données a été confronté aux techniques à utiliser pour traiter
certaines informations collectées sur différents secteurs d’activités. Pour harmoniser ces
techniques selon les informations collectées, il a été défini les types de données. Grâce à cette
définition, on distingue ces types de données :
Comme exemple de donnée quantitative, on peut citer l’âge d’une personne qui se compte à
travers le nombre d’années. La taille d’une personne est une donnée quantitative qui se mesure
par le mètre.
Pour reconnaître une donnée quantitative, il faut se demander si cette donnée peut être calculée
à travers les fonctions mathématiques classiques comme la moyenne, l’addition et la
soustraction. Si ces calculs basiques ne sont pas applicables sur cette donnée, il faut l’exclure
dans la classe des données quantitatives.
Les données quantitatives peuvent être issues des observations, peuvent être générées par des
simulations mathématiques et peuvent être également crées.
Pour construire des modèles mathématiques sur les données quantitatives, il faut utilise les
méthodes quantitatives qui se résument généralement par l’estimation d’une fonction
mathématique.
11 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
Soit Y une variable aléatoire qualitative décrivant une population. Le domaine Dom(Y ) est
défini par K modalités ak avec k = 1 : K où K ∈ N. On note dans ce cas
Dom(Y ) = {ak ; k = 1 : K , K ∈ N}.
Une donnée qualitative est un texte ou mot qualifiant quelque chose. Il est impossible
d’appliquer à cette donnée une fonction mathématique numérique sauf dans un cadre de
récodage de cette donnée.
Comme exemple de donnée qualitative, nous pouvons citer les sept (7) jours de la semaine, les
12 mois de l’année, le sexe d’un individu, la couleur d’un object, etc...
On a deux catégories de données qualitatives : les données binomiale appelées encore processus
de Bernoulli et les données multinomiales. Les données binomiales ont deux modalités et les
données multinomiales ont plusieurs modalités. Dans le domaine de la science de données, les
méthodes de traitement des données binomiales sont généralisées pour s’appliquer aux données
multinomiales.
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
Caractéristiques Description
de la donnée
Nom Une donnée doit avoir un nom qui permet de la distinguer des autres données dans une table ou
dans un base de données.
Type Il faut clairement définir le type de donnée que l’on cherche à traiter. Est-ce une donnée numérique
(mesurable), une donnée de comptage, une donnée catégorielle (donnée qualitative) ou une donnée
texte ? Les systèmes de gestion de bases de données sont conçus de telle façon qu’il est obligatoire
de préciser les types de données avant de pouvoir stocker ces données. De même, en machine
learning, il faut toujours préciser les types de données que l’on cherche à modéliser.
Domaine des Il faut toujours identifier le domaine dans lequel se situent les valeurs de la donnée que l’on traite.
valeurs Pour une donnée quantitative par exemple, le domaine peut être un intervalle ou tout l’ensemble
R ou N. Une personne en théorie ne peut pas vivre au delà de 150 ans : ceci signifie que pour la
donnée âge le domaine des valeurs peut être l’intervalle [0; 150].
L’espace disque Quand on parle de l’espace disque c’est le nombre de bit ou d’octet sur lequel la donnée va
être stocké. Puisque il est difficile de déterminer cela au préalable, on utilise la méthode de la
longueur de la donnée. L’âge par exemple est un entier qui ne peut être représenté qu’avec au
plus 3 chiffres. Pour cela dans une table de données on définira l’âge comme INT(3) ce qui signifie
interger(3). On reviendra sur cela dans la suite de ce cours.
Calculs Il est toujours nécessaire d’identifier les types de calculs possibles à appliquer sur cette donnée.
14 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
15 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
16 / 92
Les objectifs du cours
C’est quoi une donnée ?
Introduction générale des données et du Big Data
Les différents types de données
Collecte, transformation et normalisation des données
Caractériser une donnée
Introduction à l’analyse de données
17 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
18 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Introduction
Depuis 1990 les bases de données relationnelles ont été introduites de manière massive dans les
entreprises. Les bases de données sont implémentées et gérées par les systèmes de gestion de
bases de données. On compte aujourd’hui plusieurs systèmes de gestion des bases de données
comme : Oracle, MySQL, PostegreSQL, MongoDDB, etc...
Dans ce cours, nous donnerons quelques concepts de modélisation, d’implémentation des bases
de données dans un système de gestion de base de donnée. Particulièrement, nous allons nous
concentrer sur la conception et l’implémentation d’une base de donnée sous PostegreSQL. Il
faut préciser que le nombre d’heures accordées à ce cours ne nous permettra pas de voir des
concepts avancés sur les bases de données.
le système
d'information de
l'entreprise
BD1
BD2
BD3
19 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Définitions
Définition d’une base de données
Une base de données est un ensemble structuré d’informations mis à la disposition d’un
ensemble d’utilisateurs.
Le principal rôle d’une base de données c’est d’assurer le stockage et l’exploitation des données
générées dans une organisation. Pour assurer ce rôle, une base de données doit permettre :
la centralisation de l’information
l’indépendance des données et des traitements
le partage des données :
• confidentialité : le système de la base de données doit pouvoir reconnaître celui qui s’est connecté
sur le système et aussi être capable de vérifier les autorisations accordées à celui-ci sur le système
• accès concurrents : plusieurs personnes doivent avoir la possible d’accéder, de modifier ou d’y
insérer une information au même moment. Dans ce cas on parle d’accès concurrent des
transactions. Cet accès concurrent doit vérifier la propriété ACID :
* Atomicité : instructions de même types considérées comme une seule.
* Cohérence : passage d’un état cohérent à un autre état cohérent
* Isolation : assurer l’isolation des instructions entre elles
* Durabilité : une instruction de mise à jour perdure en cas de panne après la fin de la transaction.
Intégrité des données : contrainte d’intégrité
Cohérence des données : une transaction doit être soit complète ou soit incomplète. Dans
le premier cas la transaction est validée (modification de la base) et on parle de Commit.
Dans le deuxième cas la transaction est annulée et on parle de Rollback.
Sécurité des données : la sécurité des données est si importante que les bases de données
des organisations doivent être conçues de telle sorte que ce principe ne soit jamais violé.
Utilisation par les nom informaticiens : une base de donnée doit faciliter l’accès aux
données à tous acteurs dans une entreprise
20 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
CONTRÔLE
Interface
Gestion de vues
DICTIONNAIRE
Intégrité
Autorisation d'accès
RESULTATS STATISTIQUES
TRAITEMENT DES
REQUÊTES
Optimisation DONNEES
Plan d'exécution
Contrôle d'exécution
Exécution opérateurs
INDEX
SECURITE
Accès concurrents
Journalisation
21 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
REEL
SCHEMA Représentation du monde réel
CONCEPTUEL Non redondant
Validé par des traitements
E
R Répartition physique des données
SCHEMA choix des unités physiques de
N PHYSIQUE stockage, taille des blocs et des fichiers
choix des paramètres physiques de
E
stockage
22 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Dans un SGBD quand on prend une BD, il comprend un ensemble de tables qui traduisent le
schéma conceptuel qui a été au préalable pensé. Ces tables sont des représentations physiques
des entités qui sont impliquées dans la problématique initiale exprimée par les utilisateurs des
données contenues dans la BD. Il existe un lien d’association entre ces tables.
Le modèle conceptuel des données est une description du réel au niveau conceptuel sans tenir
compte des contraintes du SGBD. Dans ce cas, le réel est décrit comme un ensemble d’entités
et d’associations entre entités. Une entité est identifiée à travers ses caractéristiques que l’on
appelle encore attributs.
En exemple, un ETUDIANT est une entité ayant comme attributs le N° d’étudiant (N°E), le
Nom, le Prénom et la date de naissance (DateNaiss).
Définition d’entité
Une entité est un élément abstrait ou concret du monde réel pourvu d’une existence propre et
représentant de l’intérêt pour le système étudié.
ETUDIANT
N°E
Une entité ETUDIANT a une représentation graphique définie par : Nom
Prénom
DateNaiss
23 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
EPREUVE
ETUDIANT
CodeEpreuve
N°E 1,n 1,n
PASSER NomEpreuve
Nom CreditEpreuve
Prenom R
NbreHeureEpreuve
DateNaiss
1,1
PROPOSER
ENSEIGNANT
N°Mat 1 1,n
NomEns
PrenomEns
DateNaissEns
GradeEns
24 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
25 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
26 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
27 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
28 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
29 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
30 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
31 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
32 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
33 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
34 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
35 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
36 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
37 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
38 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Nom Description
Alias
bigint int8 Entier signé sur huit octets
bigserial serial8 Entier sur huit octets à incrémentation automatique
bit [ (n) ] Suite de bits de longueur fixe
bit varying [ (n) ] varbit[ (n) ] Suite de bits de longueur variable
boolean bool Booléen (Vrai/Faux)
box Boîte rectangulaire dans le plan
bytea Donnée binaire (« tableau d’octets »)
character [ (n) ] char[ (n) ] Chaîne de caractères de longueur fixe
character varying[ (n) ] varchar[ (n) ] Chaîne de caractères de longueur variable
cidr Adresse réseau IPv4 ou IPv6
circle Cercle dans le plan
date Date du calendrier (année, mois, jour)
double precision float8 Nombre à virgule flottante de double précision (sur huit octets)
inet Adresse d’ordinateur IPv4 ou IPv6
integer int, int4 Entier signé sur quatre octets
interval [ champs ][ (p) Intervalle de temps
]
json Données texte JSON
jsonb Données binaires JSON, décomposées line Droite (infinie) dans le plan lseg Segment de droite
dans le plan
money Montant monétaire
numeric [ (p, s) ] decimal[ (p, s) ] Nombre exact dont la précision peut être spécifiée
path Chemin géométrique dans le plan
39 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Nom Description
Alias
g_lsn Séquence numérique de journal (Log Sequence Number) de PostgreSQL
point Point géométrique dans le plan
polygon Chemin géométrique fermé dans le plan
real float4 Nombre à virgule flottante de simple précision (sur quatre octets)
smallint int2 Entier signé sur deux octets
smallserial serial2 Entier sur deux octets à incrémentation automatique
serial serial4 Entier sur quatre octets à incrémentation automatique
text Chaîne de caractères de longueur variable
time [ (p) ] [ without Heure du jour (pas du fuseau horaire)
time zone ]
time [ (p) ] with time- timetz Heure du jour, avec fuseau horaire
zone
timestamp [ (p) ] [ wi- Date et heure (pas du fuseau horaire)
thout time zone ]
timestamp [ (p) with timestamptz Date et heure, avec fuseau horaire
time zone]
tsquery requête pour la recherche plein texte
tsvector document pour la recherche plein texte
txid_snapshot image de l’identifiant de transaction au niveau utilisateur
uuid identifiant unique universel
xml données XML
40 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
41 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Comme nous l’avions déjà mentionné, les contraintes d’intégrité permettent d’assurer une
cohérence entre les tables et les valeurs des données dans une base de données.
Sous PostgreSQL, voici comme ces contraintes sont déclrées :
Clé primaire (rappel, une seule par table) :
CONSTRAINT nomcontrainte PRIMARY KEY (Nom_attribut1[, Nom_attribut2]...)
Contrainte d’intégrité référentielle (clé étrangère) :
CONSTRAINT nomcontrainte FOREIGN KEY (Nom_attribut1[, Nom_attribut2]...)
REFERENCES Nom_table [(nom_attribut)]
Contrainte sur les valeurs permises pour l’attribut :
CONSTRAINT nomcontrainte CHECK ( Condition)
Contrainte d’unicité :
CONSTRAINT nomcontrainte UNIQUE (Nom_attribut1[, Nom_attribut2]...)
42 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
44 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
NB : Pour aller plus loin en programmation SQL sous PostgreSQL, veuillez consulter la
documentation entière de PostgreSQL : https://docs.postgresql.fr/15/pg15.pdf
45 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Installation de PostgreSQL
Télécharger et installer PostgreSQL en choisissant un lien de téléchargement selon la version de
votre système d’exploitation :
Installer sur les nouvelles versions de windows :
https://www.pgadmin.org/download/pgadmin-4-windows
Installer sur windows 7 :
https://www.postgresql.org/download
46 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Présentation globale I
Nous avons vu dans le chapitre précédent que l’on peut collecter et archiver des données sur une
problématique en utilisant les bases de données. La collecte de données peut se faire également
à travers internet par des formulaires. Pour créer les formulaires sur internet on peut utiliser
plusieurs technologies telles PHP/HTML/SQL, Shiny/HTML/SQL
https://pypi.org/project/shiny/. Dans le cadre de ce cours, nous allons étudier comment
collecter les données sur internet en utilisant Shiny/HTML/SQL. Shiny est un langage qui
utilise les technologies comme R ou Python en interagissant avec javascript afin de créer des
questionnaires. Dans le contexte de ce cours, nous allons utiliser Shiny for Python. Cela veut
dire que nous utiliserons Python pour créer une application de Shiny. Nous allons utiliser aussi
parfois HTML pour améliorer nos page web et SQL pour intégrer les données collectées dans
nos bases de données qui seront crées pour la circonstance.
47 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Présentation globale II
48 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
49 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
50 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Installation de Shiny I
Installer Shiny
pip install shiny
Vous pourriez avoir besoin de forcer l’installation des versions mises à jour des packages de shiny
en utilisant le code :
pip install –upgrade shiny htmltools
51 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Installation de Shiny II
Conda
# Créer un environnement conda nommé ’myenv’.
conda create –name myenv
# Activer l’environnement virtuel.
conda activate myenv
Installer Shiny
conda install -c conda-forge shiny
Vous pourriez avoir besoin de forcer l’installation des versions mises à jour des packages de shiny
en utilisant le code :
conda update -c conda-forge shiny
3 Compilation :
création de l’application dans le répertoire nom_app
shiny create nom_app
lancer l’application en exécutant cette commdance sur le terminal shell :
shiny run –reload
Le code –reload veut dire que les changements apportés aux fichiers dans le répertoire de
l’application vont forcer le processus de Python à lancer l’application en rafraîchissant la page du
navigateur.
52 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
Pour collecter ou afficher une information à travers un input ou un output sur un interface
utilisateur UI, les fonctions de collecte ou d’affichage doivent être précédées de la mention ui..
Ex : afin de recueillir la date de naissance à travers la fonction input_date on utilisera le code
ui.input_date(id="idDateNaiss", label="Saisissez votre date de naissance :"). De même, pour
afficher un tableau à travers la fonction output_table sur la page web de l’UI, on pourra utiliser
le code ui.output_table(id="idTableOutput").
Configuration du serveur
Le serveur shiny est la partie où s’effectuent tous les calculs et les traitements de données. En
exemple, une figure statistique affichée sur une page d’une application shiny a été d’abord
générée sur le serveur avant d’être envoyée sur la page web à travers un object output.
En général, pour déclarer le serveur, on utilise le terme server. Sous Python, server est une
fonction qui prendre comme arguments :
input : c’est à travers cet argument que le serveur reçoit toutes les données rentrées dans le
formulaire de la page web.
output : cet argument a pour rôle de collecter et d’envoyer à l’interface utilisateur toutes les
informations que le serveur a traitées et qui ont besoin d’être affichées sur l’application web.
session : cet argument permet d’avoir les informations utilisateur quand quelqu’un se
connecte à l’application. Comme exemples d’informations qu’on peut avoir, on peut citer
l’heure de connection, le type de navigateur, le lieu de connection, etc..
Pour déclarer le serveur afin de traiter les informations envoyées par l’UI, on utilise le code
suivant
def server(input, output, session) :
···
···
Enfin, pour lancer l’application dans un navigateur, on utilise le code suivant qui combine le
code de l’UI à celui du serveur :
app = App(app_ui, server)
54 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
input
output
UI
Lancement de l'application
SERVER dans un navigateur
55 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
56 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
action validation d’une action en cli- ui.input_action_button(id, label, *, icon=None, width=None, **kwargs)
quant sur un bouton icon :l’icône utilisé comme bouton.
kwargs : d’autres arguments à intégrer dans le bouton.
57 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
NB : Au niveau du serveur pour créer un output, on utilise le code @render.*, * prenant les
valeurs suivantes plot, table, image, text, ui. On verra comment cela s’applique en pratique.
58 / 92
Les objectifs du cours
Introduction générale des données et du Big Data Bases de données relationnelles
Collecte, transformation et normalisation des données Collecter les données à travers internet
Introduction à l’analyse de données
59 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
60 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Objectifs du chapitre
Jusqu’à maintenant nous avons vu comment créer une base de donnée, intégrer et manipulation
des données et collecter les données par internet.
Dans cette partie de cours nous sommes intéressés de pouvoir comprendre les informations
qualitatives et quantitatives qui peuvent être utilisées pour les entreprises qui cherchent à
améliorer leurs activités économiques et commerciales à travers les données.
En général, dans une entreprise, en fonction des demandes, plusieurs types d’analyses de
données peuvent se présenter. Du simple niveau au niveau le plus complexe, on peut trouver
l’analyse descriptive de données, l’analyse exploratoire des données et la modélisation prédictive
des données que l’on désigne sous le nom machine learning.
L’objective donc de ce cours est de permettre aux étudiant de savoir travailler sur un projet de
data science, de l’étape de compréhension des données à l’étape de livraison d’un logiciel de
machine learning.
Dans ce cours nous allons :
faire des rappels mathématiques qui aideront à comprendre la suite
apprendre à comprendre une données
enfin à construire des modèles de machine learning.
61 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
On note Mn,p (R) l’ensemble des matrices à n lignes et p colonnes et à coefficients réels.
On rappelle qu’une matrice est la représentation d’une application linéaire de E vers F (avec
dim(E)=n et dim(F)=p) pour les bases de E et F spécifiées (on considérera les bases
canoniques de E et F ).
Définition 4.1
Pour toute matrice A ∈ Mn,p (R), la matrice transposée de A notée AT = A0 est la matrice
dans Mp,n (R) telle que (AT )ji = aij ∀i ∈ {1, · · · , n} et j ∈ {1, · · · , p}
62 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
On a A = (A1 , A2 , · · · , Ap ).
1 Produit matriciel
La matrice C = A × B est valide si et seulement si A ∈ Mn,p (R) et B ∈ Mp,q (R).
Pp
Dans ce cas, C ∈ Mn,q (R) et Cij = a b
k=1 ik kj
= Ai × Bj .
2 Trace d’une matrice On appelle trace d’une
Pn matrice A ∈ Mn,n (R) notée tr (A) la somme
des éléments diagonaux de A : tr (A) = a
i ii
63 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
3 Inverse d’une matrie Une matrice A ∈ Mn,n (R) est inversible si et seulement si il existe
une matrice A−1 telle que AA−1 = In avec In une matrice identité.
Proposition 4.1
Un matrice A est inversible si son déterminant det(A) 6= 0.
Propriété 4.1
Pour toute matrice A ∈ Mn,n (R), on a :
(a) (AT )−1 = (A−1 )T si A−1 existe
(b) (AB)−1 = B −1 A−1 si A−1 , B −1 et AB existent
1
(c) det(A−1 ) = det(A) si A−1 existe.
(d) (AB)T = B T AT si AB existent
64 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Définition 4.2
Soit A ∈ Mn,n (R).
on dit que A est une matrice régulière, respectivement singulière, si et seulement si
det(A) 6= 0, respectivement si et seulement si det(A) = 0.
A est dite idempotente si et seulement si A2 = A. Ceci entraine que An = A
A est orthogonale si et seulement si AT = A−1
Définition 4.3
Soit x ∈ Rn un vecteur colonne et A ∈ Mn,n (R).
L’application x 7−→ x T Ax est appelée forme quadratique associée à A
Proposition 4.2
Une matrice réelle et symétrique possède une base orthonormée de vecteurs propres.
Corollaire : A est symétrique et définie positive si et seulement si toutes ses valeurs propres sont
strictement positives
65 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Définition 4.4
Soit L(E , F ) un ensemble d’applications linéaires de E dans F avec E et F des espaces
vectoriels. Soit A ∈ L(E , F ).
On appelle noyau de A noté Ker (A), l’ensemble des éléments qui ont pour image zéro :
Ker (A) = {x ∈ E , Ax = 0}.
66 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Définition 4.5
Soit W un sous-espace vectoriel de R2 et P une matrice Mp,p (R). P est une projection
M − orthogonale sur W si et seulement si
Im(P)=W
∀y ∈ Rp , < Py , y − Py >M = 0.
Proposition 4.3
P est une projection M − orthogonal sur W = Im(P) si et seulement si P 2 = P et P T M = MP.
67 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Outils de probabilité I
de valeurs dans Rp ou soit une variable aléatoire de valeurs dans R. On notera par x une
réalisation de X . Si X est un vecteur, alors
x1
.
x = ..
xp
68 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Outils de probabilité II
Proposition 4.4
∀A ∈ Mn,p (R) et b ∈ Rn , on a
E (AX + b) = AE (X ) + b
Var (AX + b) = Var (AX ) = AVar (X )AT
69 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Pp
Xj ∼ N (0, 1) =⇒ j=1
Xj2 ∼ Xn2 avec Xp2 une distribution de chi-deux à p degré de
liberté.
X ∼ N (0, 1) et Y ∼ Yq2 avec X et Y indépendants =⇒ V = X
Y ∼ Tq avec Tq une loi de
q
student à q degré de liberté
X
X ∼ Xp2 et Y ∼ Yq2 avec X indépendant de Y =⇒ W = p
Y ∼ Fp,q où Fp,q est la loi de
q
Fisher à p et q degré de liberté.
Proposition 4.5
Si X est un vecteur gaussien dans Rp alors Xj est une variable aléatoire de loi normale
∀j ∈ {1, 2, · · · , p}
70 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Outils de probabilité IV
Proposition 4.6
Si X1 , X2 , · · · , Xp sont des variables aléatoires de loi normale et indépendantes, le vecteur
X T = (X1 , X2 , · · · , Xp ) est gaussien.
Probabilité bayésienne : Soit X et Y deux variables aléatoires. La règle de Bayes est définie par
P(X /Y )P(Y ) = P(Y /X )P(X ).
P(Y = y ) = P(Y = y /X = x )P(X = x ).
P
x
Indépendance :
71 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Outils de probabilité V
Si X est un vecteur gaussien tel que det(Σ) 6= 0 alors Xi est indépendant de Xj avec i 6= j
si et seulement si cov (Xi , Xj ) = 0.
Si cov (Xi , Xj ) = 0 on dit que Xi et Xj sont non corrélées.
X et Y sont deux variables aléatoires indépendantes ⇐⇒ fX ,Y (x , y ) = fX (x )fY (y ),
∀x , y ∈ R ⇐⇒ pour toutes fonctions h, g mesurables, E (h(X )g(Y )] = E [f (X )]E [g(Y )].
X indépendante de Y entraîne que X et Y sont non corrélées. La réciproque est fausse.
échantillon univarié : Soit X ∈ R une variable aléatoire et x sa réalisation. Soit Ω une
population dont les unités statistiques sont décrites par X . En prenant Ωn un échantillon de
n individus de Ω, on note xi (i ∈ {1, · · · , n}) n réalisation de X . En supposant que tous les
xi sont mutuellement Qn indépendants, la densité de probabilité jointe des xi est :
f (x1 , · · · , xn ) = i=1 fX (xi )
échantillon multivarié : d’après ce qui vient de précéder, si X est un vecteur aléatoire
X = (X1 , · · · , Xp )T et x une réalisation de X alors la densité de probabilité
Qp jointe des xi
sachant qu’elles sont mutuellement indépendantes est f (x1 , · · · , xp ) = i=1 fX (xi ). De
plus si X est un Q vecteur gaussien (X1 , · · · , Xp sont indépendantes), alors
n Qp
f (x1 , · · · , xn ) = i=1 j=1 fX (xij ).
72 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Présentation I
1 si xi ≤ x
n
I(xi ≤ x ) =
0 si xi > x
quantile : le quantile est l’inverse de la fonction de répartition et est notée
F −1 (q) = min{x /F (x ) ≥ q}
densité de probabilité : cet indicateur permet de deviner la loi de probabilité de X .Cela a une
importance capitale dans la modélisation d’une variable numérique que l’on cherche à prédire. En
pratique, la loi de la densité de probabilité est cherchée à travers l’histogramme.
Pn empirique : En notant µ la moyenne de X , son estimateur empirique est
la moyenne
µ̂ = n1 xi .
i=1
73 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Présentation II
Si X a deux catégories (m = 2), on peut modéliser X comme une variable de Bernoulli qui
prend deux valeurs distinctes 1 et 0 selon le schéma
1 si = a1
X () = .
0 si = a2
74 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Présentation III
Maintenant nous considérons que m > 2 c’est-à-dire Dom(X ) = {a1 , a2 , · · · , am }. Nous pouvons
modéliser X avec une variable de Bernoulli m − dimensionnel notée X = (A1 , A2 , · · · , Am )T avec
Ak une variable de Bernoulli de probabilité pk dénotant la probabilité d’observation de la modalité
ak . On a donc que si X = ak , alors Ak = 1 et Al = 0 pour tout k 6= l. Les valeurs de la variable
aléatoire sont donc l’ensemble {0, 1}m . Ainsi, nous pouvons définir xk = (xk1 , xk2 , · · · , xkm )
comme une réalisation du vecteur aléatoire X de telle sorte que
z k−1
}| { z m−k
}| { n
1 si k = l
X = ak ⇐⇒ X = (0, · · · , 0, 1, 0, · · · , 0) ⇐⇒ xkl =
0 si k 6= l
75 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Présentation IV
Puisque les ak forment une partition de Dom(X ) alors les variables Ak sont indépendantes. La
densité de probabilité de X est définie donc par
m m
Y Y
xkl (1−xkl )
P(X = xk ) = f (xk ) = f (xk1 , xk2 , · · · , xkm ) = fAk (xkl ) = p (1 − p) = pk
l=1 l=1
76 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Le machine learning ou encore l’apprentissage par ordinateur est un processus de création des
modèles mathématiques par ordinateur en vue de résoudre une tâche T complexe en utilisant
les données. Pour réussir la résolution de la tâche T , l’apprentissage doit permettre de trouver le
modèle mathématique approprié qui est une fonction f qui prend en entrée par exemple une
donnée x ∈ Rp pour fournir un résultat f (x ). Les valeurs de f (x ) dépendent de la problématique
que la tâche T est associée.
En machine learning, la tâche T peut être une une tâche de classification, classification aevc
des données d’entrée manquantes, de régression, de traduction, de détection d’anomalie,de
d’imputation des valeurs manquantes, de débruitage et d’estimation de densité.
Les algorithmes de machine learning peuvent être classés en deux familles à savoir
l’apprentissage supervisé et non supervisé.
77 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Figure 4.1 – Figure illustrant la relation linéaire entre la vitesse de la voiture et la distance parcourue
78 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
f : X ∈ Rp −→ Y ∈R
x 7−→ y = f (x1 , x2 , · · · , xp ) + .
est un terme d’erreurs représentant tout ce que les variables X1 , X2 , · · · , Xp n’expliquent pas.
y = β0 + β1 x1 + β2 x2 + · · · + βp xp +
avec βj les paramètres ou encore les coefficients de régression. Si on suppose que est une
réalisation d’une variable aléatoire, il faut avant d’estimer les coefficients de régression connaître
la loi de probabilité de . on parle de régression linéaire car le modèle ci-dessus est linéaire par
rapport aux coefficients βj .
Par exemple,
l’équation y = β0 + β1 x1 + β2 x12 + est un modèle de régression linéaire par rapport aux
coefficients β0 , β1 , β2
79 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Observation :
Sur la sous-population Ωn , on observe x1 , x2 , · · · , xn n réalisation de X associées à
y1 , y2 , · · · , yn , n réalisations de Y . Le processus de collecte de y1 , y2 , · · · , yn , est fait de telle
façon qu’à chaque fois qu’une réalisation xi est observée, on observe la réalisationyi . On dit que
yi est une réalisation de Y conditionnellement à xi .
80 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Inférence statistique I
Proposition 4.7
Sous l’hypothèse du modèle de régression linéaire, β̂MCO est unique et est
β̂MCO = (X T X )−1 X T Y
Remarque : Puisque Y est une variable aléatoire et que (X T X )−1 X T ∈ Mp+1,n (R) est une
matrice réelle donc β̂MCO est un vecteur aléatoire de valeurs dans Rp+1 .
Exemple : Dans le cas d’une régression linéaire simple, ∀i ∈ {1, 2, · · · , n}, posons
yi = axi + b + i avec E (i ) = 0, cov (i , j ) = 0 si i 6= j et cov (i , j ) = 1 si i = j. Calculer
les coefficients a et b.
Proposition 4.8
(a) β̂MCO est un estimateur sans biais de β c’est-à-dire que E (β̂MCO ) = β
(b) Var (β̂MCO ) = σ 2 (X T X )−1 .
81 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Inférence statistique II
2 Prédiction de y et résidus :
L’estimateur β̂MCO de β permet de calculer les valeurs prédites de l’observation yn+1 selon
le modèle ŷn+1 = Xn+1 β̂MCO = Xn+1 (X T X )−1 X T Y avec Xn+1 le vecteur
(xn+1,1 ; xn+1,2 ; · · · ; xn+1,p ).
RSS est appelée Residuals Sum of Squares ou encore la somme des carrés résiduels.
On a à la fin que :
82 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
RSS = Y T (I − H)Y
Proposition 4.9
2
On a E (RSS) = (n − p − 1)σMCO . Par conséquent,
2
(a) σMCO = RSS
n−p−1
(b) on peut estimer la matrice de variance-covariance de β̂MCO par
2 Y T (I−H)Y
Var (β̂MCO ) = σMCO (X T X )−1 = n−p−1 (X X )
RSS T −1
= n−p−1 (X T X )−1
3 Coefficient de détermination :
1
.
Soit H1 la matrice de projection sur le vecteur 1n = .. ∈ Rn (la première colonne de
1
X ).
On a H1 = 1n (1T n 1n )
−1 . Comme 1 ∈ Im(X ), alors H (I − H ) = 0. Alors, pour tout Y à
n 1 1
valeurs dans Rn , on a :
H1 Y = 1n Y ,
Pn
avec Y = n
i=1
( à démontrer).
83 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Inférence statistique IV
H1 HY = H1 Ŷ = Ŷ 1n =⇒ Y = Ŷ
Proposition 4.10
On a la décomposition suivante :
n n n
X X X
(yi − y i )2 = (ŷi − ŷ i )2 + ˆ2i
|i=1 {z } i=1
|i=1
{z }
TSS RSS
Définition 4.6
On appelle coefficient de détermination, la grandeur (sans unité)
RSS σŷ2
R2 = 1 − =
TSS TSS
Interprétation
(a) Si R 2 = 1 alors RSS = 0 et donc Y ∈ Im(X ) et alors Ŷ = Y
(b) Si R 2 est proche de 0, on a des résidus élevés et donc le modèle est inadapté.
84 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Rappel
Dans un modèle linéaire,
on a supposé que la variable aléatoire Y à valeurs dans R vérifie les
n
Y = X β +
hypothèses suivantes : E () = 0
Var () = σ2 I .
n
Dans ce modèle, aucune hypothèse n’a été faite sur la loi de .
Dans le modèle gaussien, on suppose que est un vecteur gaussien. Dans ce cas, le modèle
ci-dessus devient un modèle gaussien.
(a) Comme Y = X β + , alors Y est aussi un vecteur gaussien. De plus, d’après ce qui a
précédé, Y est une variable normale d’espérance X β et de variance σ 2 In .
(b) Comme epsilon est un vecteur gaussien et comme cov (i , j ) = 0 pour tout i 6= j alors les
i sont indépendantes alors que dans le premier modèle linéaire de régression, on a vait
seulement une non-corrélation.
85 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
86 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Références I
87 / 92
Introduction
Les objectifs du cours
Rappels des outils mathématiques
Introduction générale des données et du Big Data
Analyse descriptive des données
Collecte, transformation et normalisation des données
Introduction au machine learning
Introduction à l’analyse de données
Alerting
Je vous remercie
88 / 92