Moumenaniss Adr

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/334234006
Analyse de donnée avec R, à l’aide de l’extension R Commander
Presentation · July 2019
CITATIONS READS
0 7,570
1 author:
Aniss Moumen
Université Ibn Tofail
112 PUBLICATIONS 229 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
2ND INTERNATIONAL CONFERENCE ON BIG DATA, MODELLING AND MACHINE LEARNING (BML'21) View project
Morocco Journal of Quantitative and Qualitative Research View project
All content following this page was uploaded by Aniss Moumen on 04 July 2019.
The user has requested enhancement of the downloaded file.

Atelier 3 : Analyse des données avec R & Testes
d'hypothèses
Pr. Aniss MOUMEN, ENSA Kénitra, UIT, Maroc
INTRODUCTION À LA RECHERCHE SCIENTIFIQUE
Descriptive
Quantitative
DONNÉE Approche Analytique CONNAISSANCE
Qualitative
RECHERCHE
UNE RECHERCHE EST UNE COLLECTE DES
(Travaux antérieurs)
DONNÉES FIABLES, PUIS UNE ANALYSE, UNE

(Mesuré, créé)
SECONDAIRE
CRITIQUE ET UNE INTERPRÉTATION, POUR

PRIMAIRE
DÉCOUVRIR UNE NOUVELLE

CONNAISSANCE
QUELLES SONT VOS TÂCHES ?
DONNÉE REHCHERCHE CONNAISSANCE

STRUCTURÉ
STRUCTURÉ
NON
Collecter Lire Synthétiser
2
E
E
INTRODUCTION À LA RECHERCHE SCIENTIFIQUE
Données non structurées

Qualitative
(Texte, Image, Sons, Vidéo…)
Primaire
Données structurées
Quantitative Tableaux (Variable
quantitative, Variable
Données qualitative)
Travaux antérieur (revue

Secondaire
de littérature)
DONNÉE REHCHERCHE CONNAISSANCE
Collecter Lire Synthétiser
3
ETUDE QUANTITATIVE/QUALITATIVE
Comparaison
Qualitative Quantitative
Objectif Comprendre qualitativement Quantifier les données et généraliser
(subjective) les raisons et les les résultats à partir de l’échantillon
motivations de la population concernée
Echantillon Taille réduite Taille représentative
Collecte de données Non structurée (Texte,Vidéo, Structurée
Audio, Image…) (Enquêtes,Tableaux…)
Analyse de donnée Non statistique (pas de moyen, ou Statistique (Descriptive,
de %) Inferentielle…)
Résultat Elaborer un début de Recommander une ligne d’action
compréhension définitive
Mots clés Probabilité, risque, prédictif, contrôle Complexité, contexte, signification,
Statistiques, réplication, objectiviste, perception, compréhension, subjectiviste,
taille, Corrélations profondeur, ouvert, dynamique
METHODOLOGIE SCIENTIFIQUE
Les étapes de la recherche (Démarche) :

Observation, phénomène
nouveau, perspective,
Formuler le
problème limite, validation….
Etude
Résultats,
Etat d’art ou documentaire
Interprétation
revue de
, Discussion et
littérature
Conclusion
Modèle
théorique
Etude
Exploratoire
Collecte &
Méthodologie
Analyse des
de recherche
données
Démarche Quanti/Quali,
Expériences….
DE LA REVUE DE LITTÉRATURE AU MODÈLE THÉORIQUE
VARIABLES MODÈLE VARIABLES A

EXPLIQUER
EXPLICATIFS
Xi F(Xi) Yi
Modèle théorique
Un modèle théorique est issue de la revue de littérature réalisée, en identifiant selon

les auteurs et références, les variables et leurs relations, pour essayer d’expliquer le
phénomène ou problématique de l’étude.
La revue systémique, permet d’apporter un fort argumentaire aux choix des

variables de recherche, via le choix du Protocol d’élaboration de la revue de littérature
ETAPES DE LA CONCEPTION DU MODÈLE DE RECHERCHE

EXPLICATIFS F(Xi) EXPLIQUER
Xi Yi
Revue de littérature
ETAPES DE LA CONCEPTION DU MODÈLE DE RECHERCHE

EXPLICATIFS F(Xi) EXPLIQUER
Xi Yi
Revue de littérature
Etude exploratoire
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE
Etapes d’une étude statistique :
ÉCHANTILLON Problème
POPULATION
Enquête/Expérimentation
OBSERVATION Analyse
ANALYSE DESCRIPTIVE
Interprétation
GÉNERALISATION Publication
ANALYSE INFÉRENTIELLE
9
DU MODÈLE DE RECHERCHE AU MODÈLE STATISTIQUE
Modélisation statistique :
La modélisation statistique est une manière simplifiée et formalisée mathématiquement

d’approximer la réalité, en d’autres termes, de décrire les processus qui génèrent vos
données. Optionnellement, elle permet de faire des prédictions à partir de cette
approximation. Le modèle statistique est l’équation mathématique utilisée.
Exemple :
Nous cherchons à décrire le poids d’une variété de pomme de terre. Nous présentons une
manière compliquée et une manière simple d’aboutir à notre objectif. La manière
compliquée est de mesurer le poids de toutes les pommes de terre appartenant à cette
variété à travers le monde et d’afficher les données sur un grand tableau Excel en guise de
description de ce poids. La manière simple est de sélectionner un échantillon représentatif
de 30 pommes de terre de cette variété, de calculer la moyenne et l’écart type de cet
échantillon et d’utiliser uniquement ces deux chiffres pour décrire approximativement le
poids de cette variété. Représenter une quantité par une moyenne et un écart type est un
cas très simple de modélisation. 10
Modèle statistique : Structure
VARIABLE V MODELE V VARIABLE DE

D’ENTRÉE i jV SORTIE
V
Xi i j Yi
VARIABLE VARIABLE
INDEPENDANTE DEPENDANTE
(VI) (VD)
RELATION ENTRE LES VARIABLES D’ENTRÉE ET
LES VARIABLES DE SORTIE
Dans nos recherches, nos variables VD, VI, VC…et leurs relations, ne sont que des
hypothèses de recherche, à retenir ou pas, à l’issue de l’analyse des données
collectées suite aux travaux de terrain, laboratoire, expérimentation, simulation….
Un modèle est : une représentation idéalisée de la réalité, fait des hypothèses
explicites sur les processus étudiés ; ses hypothèses à vérifier ; permet un
raisonnement abstrait.
11
Variables :
ON DISTINGUE :
Variable Indépendante (VI) ou exogène : C’est le phénomène ou le facteur présumé

responsable du phénomène étudié (variable dépendante). la VI est la variable X, variable
explicative.
Variable Dépendante (VD) ou endogènes : Variable observée/décrite et mesurée/évaluée

qui peut être modifiée par la variable indépendante. la VD est la variable Y, la variable
expliquée, la variable mesurée.
Variable contrôlé (VC) : est toute variable indépendante exclue de la situation de recherche par
le chercheur, dans le but d’isoler l’effet de la variable indépendante (de recherche)– elle est utilisée
pour agir sur la variance en situation de corrélation entreVD etVI.
Variable intermédiaire : n'est pas un phénomène en soi, mais plutôt un concept scientifique qui a
pour but d'établir une relation entre deux ou plusieurs phénomènes (X et Y), c’est à l’intermédiaire
des deux variables « Indépendante et dépendante ». La variable intermédiaire n’est pas 12
directement observables (exemple : variable modératrice, médiatrice et latente)
ANALYSE DE DONNÉE
Définitions :
L’analyse de donnée est l’ensemble des techniques (statistiques)

utilisées pour le traitement des données (volumineux grand tableau).
Objectifs :
Visualisation des données dans l’espace le plus réduit possible
Regroupement ou classification dans tout l’espace
Source :Arnaud MARTIN, 2004, «L'analyse de données»
13
ANALYSE DE DONNÉE
Définitions :
Les méthodes statistiques sont employées soit pour :
- -> Explorer les données (nommée statistique exploratoire).
- -> Prédire un comportement (nommée statistique prédictive ou

décisionnelle ou encore inférentielle).
La statistique exploratoire s'appuie sur des techniques descriptives et

graphiques. Elle est généralement décrite par la statistique descriptive qui
regroupe des méthodes exploratoires simples, uni- ou bidimensionnelle
(moyenne, variance, corrélation, ...) et la multidimensionnelle.
Source :Arnaud MARTIN, 2004, «L'analyse de données»
14
ANALYSE DE DONNÉE
Méthode d’analyse :
Méthodes d’analyse
des données
Statistique descriptive
(moyenne, fréquence,
Analyse factorielle Classification
variance, corrélation,
graphiques)
Analyse de Analyse Factorielle de

Composante Principale Correspondance Régression linaire Régression logistique
(Quanti) (Quali)
Analyse factorielle : Technique d'analyse Régression : En statistique, la régression est une technique
statistique multivariée qui utilise les corrélations entre qui permet d'analyser la relation mathématique entre
les diverses variables afin de déterminer les deux variables (régression simple) ou plus. 15
dimensions ou facteurs que représentent ces
variables.
ANALYSE DE DONNÉE
Variables
Une variable = une colonne

Un individu = une ligne
L’échantillon = {individu}
Modalité = la valeur que
peut prendre une variable
16
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE & ANALYSE DE DONNÉE
SYNTHÈSE
Choix de la
Définition de la Cadre de Taille de
méthode
population l’échantillonnage l’échantillon
d’échantillonnage
Nettoyage des Saisie et codification

données : données des données – Pré-test de
manquantes, Transformation - l’appareil de
Travail de terrain…
données aberrante, mesure – Analyse de
Test de Exploration des fiabilité
représentativité données - Graphiques
Tests des hypothèses

• Tests de normalité
• Tests sur l’échantillon Réduction des
Prédiction Classification
unique/deux données
échantillons
• Tests d’association
17
Exemple d’échantillon
Observation, phénomène ÉCHANTILLON

nouveau, perspective,
limite, validation….
Etude
documentaire
Modèle
théorique
Etude
Exploratoire >> l’échantillon doit être représentatif de la population
>> la méthode de choix de l’échantillon et sa taille doivent
être argumenter ce qu’on appel le plan
Echantillonnage d’échantillonnage
18
Échantillon représentatif : Dans une recherche scientifique, se dit d'un échantillon qui conserve
les caractéristiques ou les propriétés de la population, tant sur le plan de sa composition (proportion
des caractéristiques) que de sa complexité (nombre des caractéristiques).
En principe, seule la sélection au hasard des sujets garantit un haut degré de représentativité de
l'échantillon. Cependant, le hasard fait mieux les choses lorsque le nombre de sujets de l'échantillon
est grand.
19
PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Définition de la Choix de la méthode de l’échantillonnage >> Comment ?
population
Cadre de
l’échantillonnage
Aléatoire simple
Systématique
Choix de la méthode Oui Probabiliste Stratifié
Grappes
Liste de la Phases multiples
Taille de population ? De convenance
l’échantillon De jugement
Boule de neige
Non Non-probabiliste
Par quota
Pré-test de
l’appareil de mesure Volontaire
Structurée aléatoire

Définition de la Choix de la méthode de l’échantillonnage >> Comment
population choisir ?
Argumentaire
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste
-La liste de la population

Choix de la méthode
d’échantillonnage -Disponibilité de la liste n’est pas connu d’avance
de population -Travaux antérieurs similaires
-Si la taille de l’échantillon
Taille de obtenu est importante
l’échantillon Niveau de confiance est
important et la marge
Pré-test de d’erreur est moindre.
l’appareil de mesure -Si le choix des répondants
est resté aléatoire
Du modèle théorique au modèle statistique

Définition de la Taille de l’échantillon
population
Plan d’échantillonnage
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste
Taille de l’échantillon (E) est une fonction du : (1) % des chances

Choix de la méthode qu’un individu répond (A) ou pas (B) (en général 0.5), (2) Marge
d’échantillonnage d’erreur (ER) si la même question est reposée pour un autre
échantillon (3%, 5%...), (3) Niveau de confiance (Z) (trois niveaux :
Taille de 99%, 95% et 68%)
l’échantillon
A× B
Pré-test de
E= 2
l’appareil de mesure  ER 
 
 Z 

Définition de la Taille de l’échantillon – Exemples (à chance égale A = B = 0.5)
population
Taille de l’échantillon Niveau de confiance Marge d’erreur

Cadre de
l’échantillonnage 2 450 99% 1%
261 97% 3%
Choix de la méthode 251 95% 3%
90 95% 5%
46 68% 5%
Taille de
l’échantillon
Le seuil est fonction du niveau de confiance et marge d’erreur
plus il est important (proche de 200), plus c’est bien
Pré-test de
l’appareil de mesure En fonction du but de la recherche, cadre théorique et la catégorie
de modélisation à utiliser

Définition de la Taille de l’échantillon – en fonction du cadre théorique,
population modèle et but de recherche
Cadre de
l’échantillonnage AMOS PLS
Fort (Science exacte, Flexible (Social,

Choix de la méthode Cadre théorique
Eco-gestion…) humaine…)
But de la recherche
Confirmatoire/Explicatif Prédictive/Exploratoire
Taille de Seuil sur la taille de
l’échantillon
l’échantillon Large (plus de 200) Petit (plus de 30)
Pré-test de
l’appareil de mesure
PROCESSUS (2) : DU TERRAIN A L’ANALYSE DE DONNE

Saisie : Il s’agit de regrouper les réponses des répondants dans des tableaux
>>
Codification : pour les réponses à multiple choix, il s’agit de convertir
l’échelle de mesure textuelle en y attribuant une valeur numérique (Femme 0,
Homme 1)
Travail de terrain RQ : ces deux phases de saisie et de codification, peuvent être faite aussi lors de
l’intégration des données, au niveau du logiciel d’analyse de donnée SPSS
Intégration ou importation des données : Soit que les données sont à saisir
Saisie manuellement au niveau du logiciel d’analyse de donnée ou à importer depuis un fichier
externe (Excel…)
Analyse de donnée : Il s’agit des différents opérations effectuées sur les
Codification données, permettant d’avoir une vue et une visualisation synthétique de ces
données.
Exploration des données : Les données manquantes &redondantes
Intégration des données Epuration des données statistique descriptive uni-variée
1er test : Test de normalité, Test de représentativité
Tests d’hypothèse – H0 et H1
Analyse de donnée Corrélation/Régression/Analyse factorielle
Modèle statistique
>> 25
ECHANTILLONNAGE
PROCESSUS (3) : DE L’ANALYSE DE DONNE A LA MODELISATION
>>
Nettoyage des données AMOS PLS

(Modèle basé sur (modèle basé sur la
la covariance) variance)
Analyses uni-variées Fort (Science exacte, Flexible (Social,
Cadre théorique
Eco-gestion…) humaine…)
But de la recherche
Confirmatoire/Explicatif Prédictive/Exploratoire
Analyses bi-variées Seuil sur la taille de
l’échantillon Large (plus de 200) Petite (plus de 30)
Analyse multi-variées
Modélisation 26
Etapes d’une étude statistique :
ÉCHANTILLON Problème
POPULATION
Enquête
OBSERVATION Analyse
ANALYSE DESCRIPTIVE
Interprétation
GÉNERALISATION Publication
ANALYSE INFÉRENTIELLE
27
Réflexion : quelles sont vos variables ?
Dans nos recherches, nos variables VD, VI, VC…et leurs relations, ne sont que des
hypothèses de recherche, à retenir ou pas, à l’issue de l’analyse des données
collectées suite aux travaux de terrain, laboratoire, expérimentation, simulation….
l’objectif premier d’une analyse de ces données (approche quantitative) , EST LE
TEST DES HYPOTHÈSES Les premiers test à faire :
-1 est ce que les données collectées sont suffisant? TEST DE
REPRÉSENTATIVITÉ ?
-2 est ce que notre appareil de mesure est fiable ? PRÉ-TEST
28
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES
Rappel – Statistique
Vocabulaire Statistique
Théorie Réalité
Plusieurs phénomène naturel suit un modèle mathématique appelé loi normale (loi de
Laplace – Gauss). C’est l’une des lois de probabilités les plus adaptées pour modéliser des
phénomènes naturels issus de plusieurs évènements aléatoires, exemple :
Quasiment tout ce qui est humain : taille, poids, pousse des cheveux, des ongles, paramètres
biologiques, durée du sommeil, etc.
Quasiment tout le vivant : taille et poids des graines, vitesse de pousse, rendement à l'hectare, poids
des animaux, etc.
Toute la production industrielle de masse : prenons des balles de tennis, donc le poids, la résistance à
29
l'usure, la pression, etc.
Rappel – Statistique
Vocabulaire Statistique
SUPPOSANT QUE N
EST LE NOMBRE DES
ÉCHANTILLONS
D’UNE POPULATION
CONFORME À LA LOI
NORMALE,
A PARTIR DE QUELLE
VALEUR DE N, ON
DEVRAIT S’ARRÊTER
? EN PRATIQUE,
QUAND N EST
SUPÉRIEUR À
« 30 »
LA LOI NORMALE
EST UTILISÉE POUR
LE TEST DE
REPRÉSENTATIVITÉ &
DU PRÉ-TEST
30
Rappel Statistique - Test d’hypothèse

Seuil de signification du test d’hypothèse
La valeur de P (P-value) correspond à la Probabilité de commettre une erreur lorsque l'on prend
une décision statistique (probabilité critique). Elle correspond au risque de se tromper en
rejetant l'hypothèse nulle. Généralement, Il y a trois niveaux de significativité alpha : 5%, 1%
ou 0,1 %(en général on choisie 5%).
Avec R , il s’agit de comparé la valeur de

p-value
RÈGLE D’OR POUR UN ALPHA DE 5%

Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%) H0 est rejeté (H1 est accepté) 31
Rappel Statistique - Test d’hypothèse

RÈGLE D’OR POUR UN ALPHA DE 5%
Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%) H0 est rejetée (H1 est acceptée)
Remarque : Le choix du niveau de H0 n’est pas à rejeter

significativité est conventionnel et dépend
du domaine d’application.
Dans certaine discipline du science exacte,
on peut exiger un niveau de H0 est rejetée
significativité inférieur à 0,1 % (voir
moins de 0.01%) impacte sur la taille
de l’échantillon la méthode proposée par
« Neyman-Pearson »: consiste à fixer
d’avance la p-value, soit à l’issue des travaux
antérieurs ou d’une étude de cas (pilote),
pour estimer la taille de l’échantillon.
32
S est l’écart type, I.C est l’intervalle de confiance
Rappel Statistique – Test d’hypothèse
Test graphique
paramétrique (plus fort) : distributions
statistiques supposées dans les données. Il
Test d’hypothèse faut vérifié la validité.
Adapté pour les échantillons importants
(>30)
Numérique
non paramétrique : ne se basant pas sur

des distributions statistiques
Adapté pour les échantillons moins
importants (<30)
1) Le passage de la population à l’échantillon, suppose que le choix

Estimation
de l’ Erreur
des échantillons est resté aléatoire ou quasi-aléatoire.
2) Le retour de l’échantillon vers la population, se fait soit en
supposant que la distribution des données dans toute la
population, suit une loi connue (test paramétrique) d’avance ou
pas (test non paramétrique). 33
Les tests paramétriques, visent à tester l’adéquation de la loi de

distribution observée des variables aléatoires sur l’échantillon par
rapport à la loi de distribution statistique connue et préétablit
(supposée) de la population (soit la loi normale ou ses
approximations).
Le but est de comparer les paramètres observés par rapport aux

Test paramétrique paramètres théoriques , pour faire des généralisations depuis
l’échantillon vers la population, avec une estimation de
l’erreur. Il y a une contrainte sur l’ homogénéité de la
variance.
Ces tests dépendent des catégories des données (variables) issues

de l’échantillon : Quantitative ou Qualitative ou les deux à
la fois. Deux variables ou plus.
34
Comparaison de la moyenne : Comparaison

Comparaison de la d’une moyenne observée sur un échantillon issu
moyenne d’une population de moyenne inconnue (µ) à une
valeur moyenne théorique connue (µH0) d’une
population de référence. Ou comparaison des
Comparaison de la
Test paramétrique variance ou moyennes sur deux échantillons.
ANOVA Comparaison de la variance : comparaison de
l’homogénéité de la variation des variables entre
un, deux ou plusieurs échantillons.
Khi-deux Test Khi-deux : utiliser pour déterminer la nature
d'une répartition statistique, par rapport à une
distribution théorique.
35
Les tests non paramétriques, ne nécessitent pas une hypothèse sur

la distribution statistique des données. Donc on fait pas de test sur les
moyennes, variances…
Le but de ce test reste le même que les tests paramétriques, c’est-

à-dire, on vérifie nos hypothèses par rapport aux seuils de
Test non paramétrique significativité alpha, en choisissant l’un des tests
Ces tests sont plutôt adaptés aux petits échantillons (<30) et

quand nos variables sont plutôt qualitative : Nominal et Ordinal.
On générale, si on a un échantillon important et qu’on a une
estimation sur la distribution des données dans la population, on
choisie d’effectuer des tests paramétriques.
36
Table de contingence et test Khi-deux : permet de

représenter la répartition d’effectifs d’un échantillon
Tests de rang en fonction de la valeur d’une observation. Et on utilise
le test Khi-deux pour les variables qualitatives.
Test sur le rang : il s’agit de comparer le rang plutôt
Test sur la que la valeur, des variables aléatoire, dans un
Test non échantillon qui ne suit pas la loi normale (ou
médiane (Test
paramétrique
des signes) approximé). Il existe plusieurs tests : Test de Wilcoxon,
Test de Kruskal etWallis,Test de Spearman.
Table de Test des signes : Appliquer dans le cas des
contingence et échantillons appariés, Il utilise les signes + et -, au lieu
Test de Khi-2 de données quantitatives. Il est particulièrement utile
dans les cas où il n'est possible que de ranger l'un par
rapport à l'autre les membres de chaque paire.
37
Test d’hypothèse
Paramétrique Non-paramétrique
Table de
Comparaison
Comparaison contingence Test sur le Test des
de la variance Khi-deux
de la moyenne & Test Khi- rang signes
et ANOVA
deux
En fonction de nos objectifs de recherche et sa méthodologie, Nous pouvons appliquer ces tests , soit à
UN ÉCHANTILLON UNIQUE OU À DEUX ÉCHANTILLONS (SIMILAIRES OU
DIFFÉRENTS)
EXEMPLES D’APPLICATION DES TESTS D’HYPOTHÈSE :

Comparaison de la performance avant et après l’application d’une nouvelle méthode d’apprentissage sur
un même groupe d’étudiant, ou encore l’application de la même expérience sur deux groupes
d’étudiants 38
ECHANTILLONS INDÉPENDANTS ECHANTILLONS APPARIÉS
On a deux sous groupes du même Pour le même échantillon on répète la

échantillon prise de mesure en deux moments
différents
COMPARAISON
DE LA MOYENNE
39
SYNTHÈSE
PROCÉDURE DU TEST D’HYPOTHÈSE
Choix du test Définition de

Choix du test adéquats en l’intervalle de Calcul du p-
en fonction de fonction des Détermination confiance et value &
la distribution variables : des hypothèses niveau de comparaison Interprétation
de continue, H0 et H1 significativité
l’échantillon nominale, α
ordinale α
40
Arbre de décision
41
LOGICIELS
Logiciels :
Libre Propriétaire
42
LOGICIELS
Langage R :
John Chambers
R est un langage de programmation dédié aux statistiques et au Data Science.

R est le dérivé du langage S, crée par John Chambers aux laboratoires BELL.
En 1993, Le projet R est né, comme un projet de Recherche de Ross
Ihaka et Robert Gentleman (Université d'Auckland, Nouvelle-Zélande).
En1997, Création de l'équipe de développement de R.
En 2000, La 1ére version du R 1.0.0, est publié.
En 2003, la R Foundation for Statistical Computing est créée.
En 2015, les entreprises IBM, Microsoft, Rstudio… créent le R
Consortium pour soutenir et financer la communauté du R.
URL du projet R : https://www.r-project.org/
URL du CRAN (Comprehensive R Archive Network) du projet R :
https://cran.r-project.org/
Fonctionnalités les plus connus (plus de 200 packages) :
• Manipulation de données
• Visualisation de données
• Communication
• Application Web
43
LOGICIELS
Implémentations du R | R Consotium :
GNU R
44
LOGICIELS
Quelques utilisateurs du R :
Korkrid Kyle Akepanidtaworn, ‘LSESU a Taste of R

Language Workshop’
ACADGILD Webinar - Get your feet wet with Business Analytics

45
LOGICIELS
Rstudio :
RStudio est un environnement de développement multiplateforme pour R,

sous la licence libre AGPLv3, ou une licence commerciale (abonnement
annuel).
Versions :
- RStudio Desktop,
- RStudio Server (Serveur Linux/navigateur web)
URL : www.rstudio.com
OS :
Microsoft Windows, OS X et GNU/Linux
Technologies :
Code source de RStudio a été écrit en langage C++. L’Interface graphique
est sous Qt.
46
ANALYSE DE DONNEE AVEC R/RSTUDIO
Ateliers pratiques :
47
Ateliers pratiques > Téléchargement
Download
https://www.rstudio.com/products/rstudio/download
48
Ateliers pratiques > Installation
49
Ateliers pratiques > Installation
50
Ateliers pratiques > Découverte :
Barre de menu
Workspace
Fichiers
Courbes
Packages
Console R
51
52
AIDE
Pour avoir de l’aide sur une fonction, la commande est :
Help (commande)
? commande
53
Auto complétion
C’est une fonctionnalité du Rstudio, vous permet en saisissant quelques lettre de

fonction d’avoir une liste des choix des fonctions existantes.
On peut faire appel au l’auto-complétion avec « Tabulation » à coté des premiers

lettre de notre fonction saisie
54
Mode Script (R Script)
Pour conserver la liste des commandes et le traitement à réaliser, on peut écrire

dans un fichier séparer l’ensemble des commandes et l’enregistrer pour un usage
ultérieur.
55

R Script
56

Extensions
R est un logiciel libre, plusieurs développeur contribue en développant des
modules ou extensions (ou packages) en langage R (R Script), pour réaliser
différents traitements et analyses statistiques des données.
Ils existent plus de 6500 extension, diffuser par le CRAN
(https://cran.rstudio.com/)
Exemple Science social :
http://cran.rproject.org/web/views/SocialSciences.html
bucky Bucky's Archive for Data

Analysis in the Social Sciences
ess Download Data from the

European Social Survey on
the Fly
sjPlot Data Visualization for
Statistics in Social Science 57
Extensions
Pour utiliser une extension il faut :
1- Installer l’extension avec la commande :
install.packages (nom de l’extension)
Exemple : install.packages("ade4", dep = TRUE)

Installer l’extension ade4 avec ses dépendances
2- charger l’extension avec la commande : library (nom de l’extension)
library(ade4)
À exécuter à chaque session
Exemples d’extensions
ade4: Analysis of Ecological Data: Exploratory and Euclidean Autres commandes :
Methods in Environmental Sciences Mettre à jour l’extension : update.packages()
tidyverse: Easily Install and Load the 'Tidyverse' Supprimer l’extension : remove.packages("ade4")
58
ATELIER 1
SAISIE ET CODIFICATION DES
DONNÉES -
EXPLORATION DES DONNÉES –
TRANSFORMATION - GRAPHIQUES
59
Exemple
R Console En utilisant les flèches Haut et Bas du

clavier , vous pouvez naviguer dans
l’historique des commandes
tapées précédemment.
On peut alors annuler la commande en

utilisant la touche Echap ou Esc
60

Variable ou Objet
Une variable c’est une zone mémoire pour le stockage des données, d’autres variables... Pour
pouvoir la réutiliser par la suite
Il existe 2 opérateurs d’assignation

sous R = , <-
certains noms sont réservés par R pour son usage interne et doivent être
évités. Exemple : c , q , t , C , D , F , I , T , max , min …
R est sensible à la caste, il fait la différence entre majuscule et minuscule
61
Vecteur ou Tableau :
C’est une zone mémoire contenant un ensemble de données de même nature (numérique,
caractère…)
Un vecteur  une colonne dans

un tableau Excel, puis les données
sont les lignes
62
Vecteur ou Tableau :
C’est une zone mémoire contenant un ensemble de données de même nature (numérique,
caractère…)
On crée un vecteur avec

la commande c (valeur1 ,
valeur2,….)
Indexation : quand on veut récupérer la valeur
Un vecteur  une colonne dans un
contenue dans une position du vecteur
tableau Excel, avec plusieurs lignes (les
données)
Une variable  une colonne dans un
tableau d’une ligne uniquement
-[ 1] et [20], c’est la position de la donnée

dans le vecteur
- On peut appliquer toute les opérations
arithmétiques comme pour les objets 63

Fonction & arguments:
Une fonction permet de réaliser une traitement spécifique, exemple la

moyenne, max, min…
Une fonction se caractérise par :

- Nom
- Arguments (ce qu’il y a entre parenthèse de la fonction)
- Résultats (la/les valeurs de retour de la fonction)
EXEMPLE
64

Vecteur ou tableau
Contenant des chaines de caractères
Pour les chaines de caractères, On crée un vecteur avec la commande

c (‘’chaine1’’ , ‘’chaine2’’,….)
ou avec
c(‘chaine1’,’chaine2’,….)
65
Transformation de la variable de type chaine de caractère à une variable

qualitative (factor)
Pour transformer une variable ou vecteur, vers une variable “factor” ou

catégorielle (qualitative), on peut utiliser la fonction « factor() »
66

Mise en forme
Pour mettre en forme une variable ou tableau, on peut utiliser la

fonction « format() »
67
Quelques fonctions de base
Utiliser l’aide pour avoir plus d’information sur les fonctions
68
Data Frame ou Tableau
Avec la concaténation de deux vecteurs ou plus on peut construire un tableau ou Data Frame
69
Atelier 3 : Tests des hypothèses

Atelier 2 : Nettoyage des • Tests de normalité
données > données manquantes,
• Tests sur l’échantillon unique/deux
données aberrante, Test de
échantillons
représentativité
• Tests d’association
70
Ateliers pratiques > Etude de cas
Le but de cette recherche
Cette recherche a pour but de comparer le revenu annuel moyen des hommes et des femmes.
« Les chercheurs de cette étude croient que les hommes ont un revenu moyen supérieur à celui
des femmes même si ces dernières ont un niveau de scolarité équivalent à celui des hommes ».
Cette hypothèse est-elle vraie ? Le tableau qui suit présente les résultats d’une enquête par
questionnaire réalisée auprès de 15 hommes et 15 femmes sélectionnés accidentellement sur
les quais du métro de Montréal (n=30).
(source : http://pagesped.cahuntsic.ca/sc_sociales/psy/methosite)
Réflexion
71
Participantes Sexe Age Scolarité Fonction Revenuen$ Questionno1

1 1 45 17 1 56784 1
2 2 22 14 3 34342 2
3 1 47 19 1 67564 2
4 2 23 17 3 23456 1
5 1 40 13 2 56453 2
6 2 41 17 2 45634 2
« Les chercheurs de cette étude 7
8
2
2
37
23
18
17
2
3
56789
23443
2
1
croient que les hommes ont un 9
10
2
1
25
45
16
16
3
1
36544
89098
2
1
revenu moyen supérieur à 11
12
1
1
47
30
17
18
1
1
76876
67875
2
2
celui des femmes même si ces 13 2 22 14 3 34564 2
14 1 28 14 2 43221 2
dernières ont un niveau de 15 2 28 14 2 45654 2
16 1 31 18 2 67567 1
scolarité & fonction équivalent 17 1 25 19 2 52567 1
18 2 55 17 3 25678 2
à celui des hommes » (*). 19 2 30 17 1 57567 2
20 1 22 11 3 34567 2
Question 1 : Selon vous, y-a-t’il 21 1 22 19 3 43567 2
une différence entre les revenus 22
23
1
1
21
24
12
16
3
2
43234
67897
2
1
des hommes et des femmes ? 24 1 22 14 2 45654 2
(*) Données issues et adaptés du site 25 1 27 15 1 52123 2
26 2 24 15 1 63454 2
http://pagesped.cahuntsic.ca/sc_sociales/psy/ 27 2 20 2 3 34444 1
methosite/accueil.htm 28 2 18 13 3 43445 2
29 2 22 17 1 64567 72 1
30 2 22 18 1 59878 2
Atelier pratique > R Commander :
R Commander
“R Commander” est une extention R, sous licence GNU GPL, développer par John
Fox du departement de sociologie de l’univerité McMaster. “Rcmdr” est similaire à
l’interface graphique de SPSS avec des menus permettant de réaliser différent analyse et des
productions graphiques au niveau de la console R, sans écrire presque aucune ligne de code
R.
Installation :
install.packages(“Rcmdr", dep = TRUE)
Utilisation :
library(Rcmdr)
73
74
75
R Commander
R commander permet de réaliser plusieurs analyses statistiques (descriptive uni-varié/bi-varié,
multi-varié, test d’hypothèse, régression et classification….)
Après installation et lancement du « R Commander », nous allons passer à l’atelier. Il s’agit de
réaliser les étapes ci-dessous, pour confirmer ou rejeter l’hypothèse de l’atelier :
Test de
comparaison
Importation des Test de Test de des moyennes
Nettoyage
données normalité représentativité sur deux
échantillons
indépendants
Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes ont un
revenu moyen supérieur à celui des femmes même si ces dernières ont un niveau de scolarité
& fonction équivalent à celui des hommes ».
76
Hypothèse de recherche & les sous-hypothèses

Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes (H) ont un Revenu
Moyen (RM) supérieur à celui des femmes (F) même si ces dernières ont un niveau de scolarité & fonction
équivalent à celui des hommes ».
D’où on devrait d’abord tester les hypothèses suivantes :
H1 : Il y a pas de différence significative entre le nombre des Hommes & Femmes dans l’échantillon
H2 : Il y a pas de différence significative entre les années scolaires des Hommes et Femmes
H3 : Il y a pas de différence significative entre la répartition des hommes et femmes par fonction
Après, on devrait tester l’hypothèse :

H4 : Il y a une différence significative entre la moyenne du revenu des hommes et celui des femmes
Tous ces hypothèses de recherche, il faut les traduire en hypothèse statistique

H1 : l’hypothèse alternative et H0 : l’hypothèse nul, pour chacune des hypothèses de recherche
puis appliquer la règle d’or pour accepter ou rejeté l’hypothèse (p-value > 5% H0
accepté, si p-value < 5% H1 accepté)
77
Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
2 Les différents
formats pris
en compte par
R Commander
3
4 Nommé la dataset, puis préciser l’emplacement des noms des
variables et la conversion de la variable texte en variable
5
catégorielle (factor) et enfin préciser l’indicateur de la valeur
78
manquante, si ils en existent
Test de comparaison
indépendants
Génération de la
commande R
Résultats de l’exécution de la
commande sur la console RStudio
79
Test de comparaison
indépendants
2 4
Résultats de l’exécution de la
commande sur la console RStudio
Génération de la
commande R pour
la détection des
3 valeurs
manquantes
80
Test de comparaison
indépendants
Test de comparaison
indépendants
Pas de valeur
aberrante
Test de comparaison
indépendants
1
3
4
2
5
p-value > 5 % H0 accepté

Il n’y pas de différence significative
entre la loi normale et la distribution
83
du revenu Normalité OK
Test de comparaison
indépendants
Nous disposons d’une

information sur la
1 2 population le
3
revenu moyen dans la
population est de
50000
84
Test de comparaison
indépendants
P-value > 5 % H0
accepté Il y a pas de
différence significative
entre la moyenne de la
population et la moyenne
de l’échantillon Test
de représentativité
OK !
85
Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants
86
Test de
comparaison des
deux échantillons
indépendants
H0 est retenu il y a pas de différence

significative entre la moyenne des années
scolaire des femmes et celui des hommes.
idem pour la fonction
87
Test de
comparaison des
deux échantillons
indépendants
1
2
88
Test de
comparaison des
deux échantillons
indépendants
P-value < 5 % H1 est retenu il y a

une différence significative entre la
moyenne des revenus des hommes et celui
des femmes. Et en plus, la moyenne du
revenu des hommes (group 1) est
supérieur à celui des femmes (group 2)
89
Enseignant-Chercheur d’Informatique (depuis 2018)
ENSA de Kenitra /Université Ibn Tofail/Département Informatique,
Logistique et Mathématique
Filière Informatique/Laboratoire Génie des Systèmes
Email : amoumen@gmail.com
Expériences professionnels (Depuis 2002 à 2018) :
Aniss MOUMEN
Ingénieur & Consultant IT auprès des entreprises (ATOS, CGI, IBM, STCR,
Mundiapolis…)
Intérêts de recherche
Thèmes : Système d’Information – Sciences des données - Programmation
scientifique – Big-data – Social Computing
Domaines d’application : Ressources naturelles, Sciences de Gestion &Social
Cela signifie que vous êtes libre de recopier / modifier / redistribuer les contenus à condition
que vous citiez la source et que vos modifications soient elle-même distribuées sous la même
licence (autorisant ainsi d’autres à pouvoir réutiliser à leur tour vos ajouts).
REMERCIEMENT
L'auteur de ce document, remercie l'ensemble des participants et organisateurs des Open
Séminaire. Tous les remerciements à ceux qui ont contribué à l'élaboration de ce document
(d’une manière directe ou indirecte).
CITATION
Pour citer ce document : Aniss MOUMEN, 2019, «Analyse de donnée avec R, à l’aide de
l’extension R Commander », présenté lors du congrès international VARENA 2019, Faculté
des Sciences de Rabat, 26-28 Juin 2019, Rabat, Maroc.
Pour télécharger cette
présentation
V2019
View publication stats
Atelier 3 : Analyse des données avec R & Testes

d'hypothèses
Pr. Aniss MOUMEN, ENSA Kénitra, UIT, Maroc

Moumenaniss Adr

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Moumenaniss Adr

Transféré par

Droits d'auteur :

Formats disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Analyse de donnée avec R, à l’aide de l’extension R Commander

Presentation · July 2019

Morocco Journal of Quantitative and Qualitative Research View project

The user has requested enhancement of the downloaded file.

DONNÉES FIABLES, PUIS UNE ANALYSE, UNE

CRITIQUE ET UNE INTERPRÉTATION, POUR

DÉCOUVRIR UNE NOUVELLE

QUELLES SONT VOS TÂCHES ?

DONNÉE REHCHERCHE CONNAISSANCE

Collecter Lire Synthétiser

Données non structurées

Travaux antérieur (revue

DONNÉE REHCHERCHE CONNAISSANCE

Collecter Lire Synthétiser

Les étapes de la recherche (Démarche) :

VARIABLES MODÈLE VARIABLES A

Un modèle théorique est issue de la revue de littérature réalisée, en identifiant selon

La revue systémique, permet d’apporter un fort argumentaire aux choix des

VARIABLES MODÈLE VARIABLES A

VARIABLES MODÈLE VARIABLES A

Etapes d’une étude statistique :

La modélisation statistique est une manière simplifiée et formalisée mathématiquement

Modèle statistique : Structure

VARIABLE V MODELE V VARIABLE DE

Variable Indépendante (VI) ou exogène : C’est le phénomène ou le facteur présumé

Variable Dépendante (VD) ou endogènes : Variable observée/décrite et mesurée/évaluée

L’analyse de donnée est l’ensemble des techniques (statistiques)

Visualisation des données dans l’espace le plus réduit possible

Regroupement ou classification dans tout l’espace

Source :Arnaud MARTIN, 2004, «L'analyse de données»

Les méthodes statistiques sont employées soit pour :

- -> Explorer les données (nommée statistique exploratoire).

- -> Prédire un comportement (nommée statistique prédictive ou

La statistique exploratoire s'appuie sur des techniques descriptives et

Source :Arnaud MARTIN, 2004, «L'analyse de données»

Analyse de Analyse Factorielle de

Une variable = une colonne

Nettoyage des Saisie et codification

Tests des hypothèses

Observation, phénomène ÉCHANTILLON

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

-La liste de la population

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Taille de l’échantillon (E) est une fonction du : (1) % des chances

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Taille de l’échantillon Niveau de confiance Marge d’erreur

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN

Fort (Science exacte, Flexible (Social,

PROCESSUS (2) : DU TERRAIN A L’ANALYSE DE DONNE

PROCESSUS (3) : DE L’ANALYSE DE DONNE A LA MODELISATION

Nettoyage des données AMOS PLS

Etapes d’une étude statistique :

Réflexion : quelles sont vos variables ?

Rappel Statistique - Test d’hypothèse

Avec R , il s’agit de comparé la valeur de

RÈGLE D’OR POUR UN ALPHA DE 5%

Rappel Statistique - Test d’hypothèse

Remarque : Le choix du niveau de H0 n’est pas à rejeter

Rappel Statistique – Test d’hypothèse

non paramétrique : ne se basant pas sur

1) Le passage de la population à l’échantillon, suppose que le choix

Rappel Statistique – Test d’hypothèse