Académique Documents
Professionnel Documents
Culture Documents
Moumenaniss Adr
Moumenaniss Adr
net/publication/334234006
CITATIONS READS
0 7,570
1 author:
Aniss Moumen
Université Ibn Tofail
112 PUBLICATIONS 229 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
2ND INTERNATIONAL CONFERENCE ON BIG DATA, MODELLING AND MACHINE LEARNING (BML'21) View project
All content following this page was uploaded by Aniss Moumen on 04 July 2019.
Descriptive
Quantitative
DONNÉE Approche Analytique CONNAISSANCE
Qualitative
RECHERCHE
UNE RECHERCHE EST UNE COLLECTE DES
(Travaux antérieurs)
STRUCTURÉ
NON
2
E
E
INTRODUCTION À LA RECHERCHE SCIENTIFIQUE
Primaire
Données structurées
Quantitative Tableaux (Variable
quantitative, Variable
Données qualitative)
3
ETUDE QUANTITATIVE/QUALITATIVE
Comparaison
Qualitative Quantitative
Objectif Comprendre qualitativement Quantifier les données et généraliser
(subjective) les raisons et les les résultats à partir de l’échantillon
motivations de la population concernée
Echantillon Taille réduite Taille représentative
Collecte de données Non structurée (Texte,Vidéo, Structurée
Audio, Image…) (Enquêtes,Tableaux…)
Analyse de donnée Non statistique (pas de moyen, ou Statistique (Descriptive,
de %) Inferentielle…)
Résultat Elaborer un début de Recommander une ligne d’action
compréhension définitive
Mots clés Probabilité, risque, prédictif, contrôle Complexité, contexte, signification,
Statistiques, réplication, objectiviste, perception, compréhension, subjectiviste,
taille, Corrélations profondeur, ouvert, dynamique
METHODOLOGIE SCIENTIFIQUE
Etude
Résultats,
Etat d’art ou documentaire
Interprétation
revue de
, Discussion et
littérature
Conclusion
Modèle
théorique
Etude
Exploratoire
Collecte &
Méthodologie
Analyse des
de recherche
données
Démarche Quanti/Quali,
Expériences….
DE LA REVUE DE LITTÉRATURE AU MODÈLE THÉORIQUE
Modèle théorique
Revue de littérature
ETAPES DE LA CONCEPTION DU MODÈLE DE RECHERCHE
Revue de littérature
Etude exploratoire
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
ÉCHANTILLON Problème
POPULATION
Enquête/Expérimentation
OBSERVATION Analyse
ANALYSE DESCRIPTIVE
Interprétation
GÉNERALISATION Publication
ANALYSE INFÉRENTIELLE
9
DU MODÈLE DE RECHERCHE AU MODÈLE STATISTIQUE
Modélisation statistique :
Exemple :
Nous cherchons à décrire le poids d’une variété de pomme de terre. Nous présentons une
manière compliquée et une manière simple d’aboutir à notre objectif. La manière
compliquée est de mesurer le poids de toutes les pommes de terre appartenant à cette
variété à travers le monde et d’afficher les données sur un grand tableau Excel en guise de
description de ce poids. La manière simple est de sélectionner un échantillon représentatif
de 30 pommes de terre de cette variété, de calculer la moyenne et l’écart type de cet
échantillon et d’utiliser uniquement ces deux chiffres pour décrire approximativement le
poids de cette variété. Représenter une quantité par une moyenne et un écart type est un
cas très simple de modélisation. 10
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
Dans nos recherches, nos variables VD, VI, VC…et leurs relations, ne sont que des
hypothèses de recherche, à retenir ou pas, à l’issue de l’analyse des données
collectées suite aux travaux de terrain, laboratoire, expérimentation, simulation….
Un modèle est : une représentation idéalisée de la réalité, fait des hypothèses
explicites sur les processus étudiés ; ses hypothèses à vérifier ; permet un
raisonnement abstrait.
11
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
Variables :
ON DISTINGUE :
Variable contrôlé (VC) : est toute variable indépendante exclue de la situation de recherche par
le chercheur, dans le but d’isoler l’effet de la variable indépendante (de recherche)– elle est utilisée
pour agir sur la variance en situation de corrélation entreVD etVI.
Variable intermédiaire : n'est pas un phénomène en soi, mais plutôt un concept scientifique qui a
pour but d'établir une relation entre deux ou plusieurs phénomènes (X et Y), c’est à l’intermédiaire
des deux variables « Indépendante et dépendante ». La variable intermédiaire n’est pas 12
directement observables (exemple : variable modératrice, médiatrice et latente)
ANALYSE DE DONNÉE
Définitions :
Objectifs :
13
ANALYSE DE DONNÉE
Définitions :
14
ANALYSE DE DONNÉE
Méthode d’analyse :
Méthodes d’analyse
des données
Statistique descriptive
(moyenne, fréquence,
Analyse factorielle Classification
variance, corrélation,
graphiques)
Analyse factorielle : Technique d'analyse Régression : En statistique, la régression est une technique
statistique multivariée qui utilise les corrélations entre qui permet d'analyser la relation mathématique entre
les diverses variables afin de déterminer les deux variables (régression simple) ou plus. 15
dimensions ou facteurs que représentent ces
variables.
ANALYSE DE DONNÉE
Variables
SYNTHÈSE
Choix de la
Définition de la Cadre de Taille de
méthode
population l’échantillonnage l’échantillon
d’échantillonnage
Exemple d’échantillon
Etude
documentaire
Modèle
théorique
Etude
Exploratoire >> l’échantillon doit être représentatif de la population
>> la méthode de choix de l’échantillon et sa taille doivent
être argumenter ce qu’on appel le plan
Echantillonnage d’échantillonnage
18
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
Échantillon représentatif : Dans une recherche scientifique, se dit d'un échantillon qui conserve
les caractéristiques ou les propriétés de la population, tant sur le plan de sa composition (proportion
des caractéristiques) que de sa complexité (nombre des caractéristiques).
En principe, seule la sélection au hasard des sujets garantit un haut degré de représentativité de
l'échantillon. Cependant, le hasard fait mieux les choses lorsque le nombre de sujets de l'échantillon
est grand.
19
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
Cadre de
l’échantillonnage
Aléatoire simple
Systématique
Choix de la méthode Oui Probabiliste Stratifié
d’échantillonnage
Grappes
Liste de la Phases multiples
Taille de population ? De convenance
l’échantillon De jugement
Boule de neige
Non Non-probabiliste
Par quota
Pré-test de
l’appareil de mesure Volontaire
Structurée aléatoire
Travail de terrain…
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
Travail de terrain…
Du modèle théorique au modèle statistique
Travail de terrain…
Du modèle théorique au modèle statistique
Cadre de
l’échantillonnage AMOS PLS
Pré-test de
l’appareil de mesure
Travail de terrain…
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
>> 25
ECHANTILLONNAGE
>>
Analyse multi-variées
Modélisation 26
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE & ANALYSE DE DONNÉE
ÉCHANTILLON Problème
POPULATION
Enquête
OBSERVATION Analyse
ANALYSE DESCRIPTIVE
Interprétation
GÉNERALISATION Publication
ANALYSE INFÉRENTIELLE
27
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE & ANALYSE DE DONNÉE
Dans nos recherches, nos variables VD, VI, VC…et leurs relations, ne sont que des
hypothèses de recherche, à retenir ou pas, à l’issue de l’analyse des données
collectées suite aux travaux de terrain, laboratoire, expérimentation, simulation….
l’objectif premier d’une analyse de ces données (approche quantitative) , EST LE
TEST DES HYPOTHÈSES Les premiers test à faire :
-1 est ce que les données collectées sont suffisant? TEST DE
REPRÉSENTATIVITÉ ?
-2 est ce que notre appareil de mesure est fiable ? PRÉ-TEST
28
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
Rappel – Statistique
Vocabulaire Statistique
Théorie Réalité
Plusieurs phénomène naturel suit un modèle mathématique appelé loi normale (loi de
Laplace – Gauss). C’est l’une des lois de probabilités les plus adaptées pour modéliser des
phénomènes naturels issus de plusieurs évènements aléatoires, exemple :
Quasiment tout ce qui est humain : taille, poids, pousse des cheveux, des ongles, paramètres
biologiques, durée du sommeil, etc.
Quasiment tout le vivant : taille et poids des graines, vitesse de pousse, rendement à l'hectare, poids
des animaux, etc.
Toute la production industrielle de masse : prenons des balles de tennis, donc le poids, la résistance à
29
l'usure, la pression, etc.
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
Rappel – Statistique
Vocabulaire Statistique
SUPPOSANT QUE N
EST LE NOMBRE DES
ÉCHANTILLONS
D’UNE POPULATION
CONFORME À LA LOI
NORMALE,
A PARTIR DE QUELLE
VALEUR DE N, ON
DEVRAIT S’ARRÊTER
? EN PRATIQUE,
QUAND N EST
SUPÉRIEUR À
« 30 »
LA LOI NORMALE
EST UTILISÉE POUR
LE TEST DE
REPRÉSENTATIVITÉ &
DU PRÉ-TEST
30
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
Test graphique
paramétrique (plus fort) : distributions
statistiques supposées dans les données. Il
Test d’hypothèse faut vérifié la validité.
Adapté pour les échantillons importants
(>30)
Numérique
35
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
36
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
37
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
Test d’hypothèse
Paramétrique Non-paramétrique
Table de
Comparaison
Comparaison contingence Test sur le Test des
de la variance Khi-deux
de la moyenne & Test Khi- rang signes
et ANOVA
deux
En fonction de nos objectifs de recherche et sa méthodologie, Nous pouvons appliquer ces tests , soit à
UN ÉCHANTILLON UNIQUE OU À DEUX ÉCHANTILLONS (SIMILAIRES OU
DIFFÉRENTS)
COMPARAISON
DE LA MOYENNE
39
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
SYNTHÈSE
40
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
Arbre de décision
41
LOGICIELS
Logiciels :
Libre Propriétaire
42
LOGICIELS
Langage R :
John Chambers
Implémentations du R | R Consotium :
GNU R
44
LOGICIELS
Quelques utilisateurs du R :
Rstudio :
Versions :
- RStudio Desktop,
- RStudio Server (Serveur Linux/navigateur web)
URL : www.rstudio.com
OS :
Microsoft Windows, OS X et GNU/Linux
Technologies :
Code source de RStudio a été écrit en langage C++. L’Interface graphique
est sous Qt.
46
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
47
ANALYSE DE DONNEE AVEC R/RSTUDIO
Download
https://www.rstudio.com/products/rstudio/download
48
ANALYSE DE DONNEE AVEC R/RSTUDIO
49
ANALYSE DE DONNEE AVEC R/RSTUDIO
50
ANALYSE DE DONNEE AVEC R/RSTUDIO
Barre de menu
Workspace
Fichiers
Courbes
Packages
Console R
51
ANALYSE DE DONNEE AVEC R/RSTUDIO
52
ANALYSE DE DONNEE AVEC R/RSTUDIO
AIDE
Pour avoir de l’aide sur une fonction, la commande est :
Help (commande)
? commande
53
ANALYSE DE DONNEE AVEC R/RSTUDIO
Auto complétion
54
ANALYSE DE DONNEE AVEC R/RSTUDIO
55
ANALYSE DE DONNEE AVEC R/RSTUDIO
56
ANALYSE DE DONNEE AVEC R/RSTUDIO
Extensions
Pour utiliser une extension il faut :
1- Installer l’extension avec la commande :
install.packages (nom de l’extension)
Exemples d’extensions
ade4: Analysis of Ecological Data: Exploratory and Euclidean Autres commandes :
Methods in Environmental Sciences Mettre à jour l’extension : update.packages()
tidyverse: Easily Install and Load the 'Tidyverse' Supprimer l’extension : remove.packages("ade4")
58
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
ATELIER 1
SAISIE ET CODIFICATION DES
DONNÉES -
EXPLORATION DES DONNÉES –
TRANSFORMATION - GRAPHIQUES
59
ANALYSE DE DONNEE AVEC R/RSTUDIO
Exemple
60
ANALYSE DE DONNEE AVEC R/RSTUDIO
certains noms sont réservés par R pour son usage interne et doivent être
évités. Exemple : c , q , t , C , D , F , I , T , max , min …
R est sensible à la caste, il fait la différence entre majuscule et minuscule
61
ANALYSE DE DONNEE AVEC R/RSTUDIO
Vecteur ou Tableau :
C’est une zone mémoire contenant un ensemble de données de même nature (numérique,
caractère…)
62
ANALYSE DE DONNEE AVEC R/RSTUDIO
Vecteur ou Tableau :
C’est une zone mémoire contenant un ensemble de données de même nature (numérique,
caractère…)
EXEMPLE
64
ANALYSE DE DONNEE AVEC R/RSTUDIO
65
ANALYSE DE DONNEE AVEC R/RSTUDIO
66
ANALYSE DE DONNEE AVEC R/RSTUDIO
67
ANALYSE DE DONNEE AVEC R/RSTUDIO
68
ANALYSE DE DONNEE AVEC R/RSTUDIO
Avec la concaténation de deux vecteurs ou plus on peut construire un tableau ou Data Frame
69
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Cette recherche a pour but de comparer le revenu annuel moyen des hommes et des femmes.
« Les chercheurs de cette étude croient que les hommes ont un revenu moyen supérieur à celui
des femmes même si ces dernières ont un niveau de scolarité équivalent à celui des hommes ».
Cette hypothèse est-elle vraie ? Le tableau qui suit présente les résultats d’une enquête par
questionnaire réalisée auprès de 15 hommes et 15 femmes sélectionnés accidentellement sur
les quais du métro de Montréal (n=30).
(source : http://pagesped.cahuntsic.ca/sc_sociales/psy/methosite)
Réflexion
71
ANALYSE DE DONNEE AVEC R/RSTUDIO
R Commander
“R Commander” est une extention R, sous licence GNU GPL, développer par John
Fox du departement de sociologie de l’univerité McMaster. “Rcmdr” est similaire à
l’interface graphique de SPSS avec des menus permettant de réaliser différent analyse et des
productions graphiques au niveau de la console R, sans écrire presque aucune ligne de code
R.
Installation :
install.packages(“Rcmdr", dep = TRUE)
Utilisation :
library(Rcmdr)
73
ANALYSE DE DONNEE AVEC R/RSTUDIO
74
ANALYSE DE DONNEE AVEC R/RSTUDIO
75
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
R Commander
R commander permet de réaliser plusieurs analyses statistiques (descriptive uni-varié/bi-varié,
multi-varié, test d’hypothèse, régression et classification….)
Après installation et lancement du « R Commander », nous allons passer à l’atelier. Il s’agit de
réaliser les étapes ci-dessous, pour confirmer ou rejeter l’hypothèse de l’atelier :
Test de
comparaison
Importation des Test de Test de des moyennes
Nettoyage
données normalité représentativité sur deux
échantillons
indépendants
Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes ont un
revenu moyen supérieur à celui des femmes même si ces dernières ont un niveau de scolarité
& fonction équivalent à celui des hommes ».
76
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
H1 : Il y a pas de différence significative entre le nombre des Hommes & Femmes dans l’échantillon
H2 : Il y a pas de différence significative entre les années scolaires des Hommes et Femmes
H3 : Il y a pas de différence significative entre la répartition des hommes et femmes par fonction
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
2 Les différents
formats pris
en compte par
R Commander
3
4 Nommé la dataset, puis préciser l’emplacement des noms des
variables et la conversion de la variable texte en variable
5
catégorielle (factor) et enfin préciser l’indicateur de la valeur
78
manquante, si ils en existent
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
Génération de la
commande R
Résultats de l’exécution de la
commande sur la console RStudio
79
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
2 4
Résultats de l’exécution de la
commande sur la console RStudio
Génération de la
commande R pour
la détection des
3 valeurs
manquantes
80
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
Pas de valeur
aberrante
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
1
3
4
2
5
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
84
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
P-value > 5 % H0
accepté Il y a pas de
différence significative
entre la moyenne de la
population et la moyenne
de l’échantillon Test
de représentativité
OK !
85
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
86
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
87
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
1
2
88
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants