Vous êtes sur la page 1sur 94

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/334234006

Analyse de donnée avec R, à l’aide de l’extension R Commander

Presentation · July 2019

CITATIONS READS

0 7,570

1 author:

Aniss Moumen
Université Ibn Tofail
112 PUBLICATIONS   229 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

2ND INTERNATIONAL CONFERENCE ON BIG DATA, MODELLING AND MACHINE LEARNING (BML'21) View project

Morocco Journal of Quantitative and Qualitative Research View project

All content following this page was uploaded by Aniss Moumen on 04 July 2019.

The user has requested enhancement of the downloaded file.


Atelier 3 : Analyse des données avec R & Testes
d'hypothèses
Pr. Aniss MOUMEN, ENSA Kénitra, UIT, Maroc
INTRODUCTION À LA RECHERCHE SCIENTIFIQUE

Descriptive
Quantitative
DONNÉE Approche Analytique CONNAISSANCE
Qualitative

RECHERCHE
UNE RECHERCHE EST UNE COLLECTE DES
(Travaux antérieurs)

DONNÉES FIABLES, PUIS UNE ANALYSE, UNE


(Mesuré, créé)
SECONDAIRE

CRITIQUE ET UNE INTERPRÉTATION, POUR


PRIMAIRE

DÉCOUVRIR UNE NOUVELLE


CONNAISSANCE

QUELLES SONT VOS TÂCHES ?

DONNÉE REHCHERCHE CONNAISSANCE


STRUCTURÉ

STRUCTURÉ
NON

Collecter Lire Synthétiser

2
E

E
INTRODUCTION À LA RECHERCHE SCIENTIFIQUE

Données non structurées


Qualitative
(Texte, Image, Sons, Vidéo…)

Primaire
Données structurées
Quantitative Tableaux (Variable
quantitative, Variable
Données qualitative)

Travaux antérieur (revue


Secondaire
de littérature)

DONNÉE REHCHERCHE CONNAISSANCE

Collecter Lire Synthétiser

3
ETUDE QUANTITATIVE/QUALITATIVE

Comparaison

Qualitative Quantitative
Objectif Comprendre qualitativement Quantifier les données et généraliser
(subjective) les raisons et les les résultats à partir de l’échantillon
motivations de la population concernée
Echantillon Taille réduite Taille représentative
Collecte de données Non structurée (Texte,Vidéo, Structurée
Audio, Image…) (Enquêtes,Tableaux…)
Analyse de donnée Non statistique (pas de moyen, ou Statistique (Descriptive,
de %) Inferentielle…)
Résultat Elaborer un début de Recommander une ligne d’action
compréhension définitive
Mots clés Probabilité, risque, prédictif, contrôle Complexité, contexte, signification,
Statistiques, réplication, objectiviste, perception, compréhension, subjectiviste,
taille, Corrélations profondeur, ouvert, dynamique
METHODOLOGIE SCIENTIFIQUE

Les étapes de la recherche (Démarche) :


Observation, phénomène
nouveau, perspective,
Formuler le
problème limite, validation….

Etude
Résultats,
Etat d’art ou documentaire
Interprétation
revue de
, Discussion et
littérature
Conclusion
Modèle
théorique

Etude
Exploratoire
Collecte &
Méthodologie
Analyse des
de recherche
données
Démarche Quanti/Quali,
Expériences….
DE LA REVUE DE LITTÉRATURE AU MODÈLE THÉORIQUE

VARIABLES MODÈLE VARIABLES A


EXPLIQUER
EXPLICATIFS
Xi F(Xi) Yi

Modèle théorique

Un modèle théorique est issue de la revue de littérature réalisée, en identifiant selon


les auteurs et références, les variables et leurs relations, pour essayer d’expliquer le
phénomène ou problématique de l’étude.

La revue systémique, permet d’apporter un fort argumentaire aux choix des


variables de recherche, via le choix du Protocol d’élaboration de la revue de littérature
ETAPES DE LA CONCEPTION DU MODÈLE DE RECHERCHE

VARIABLES MODÈLE VARIABLES A


EXPLICATIFS F(Xi) EXPLIQUER
Xi Yi

Revue de littérature
ETAPES DE LA CONCEPTION DU MODÈLE DE RECHERCHE

VARIABLES MODÈLE VARIABLES A


EXPLICATIFS F(Xi) EXPLIQUER
Xi Yi

Revue de littérature

Etude exploratoire
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

Etapes d’une étude statistique :

ÉCHANTILLON Problème
POPULATION

Enquête/Expérimentation

OBSERVATION Analyse
ANALYSE DESCRIPTIVE

Interprétation

GÉNERALISATION Publication
ANALYSE INFÉRENTIELLE
9
DU MODÈLE DE RECHERCHE AU MODÈLE STATISTIQUE

Modélisation statistique :

La modélisation statistique est une manière simplifiée et formalisée mathématiquement


d’approximer la réalité, en d’autres termes, de décrire les processus qui génèrent vos
données. Optionnellement, elle permet de faire des prédictions à partir de cette
approximation. Le modèle statistique est l’équation mathématique utilisée.

Exemple :
Nous cherchons à décrire le poids d’une variété de pomme de terre. Nous présentons une
manière compliquée et une manière simple d’aboutir à notre objectif. La manière
compliquée est de mesurer le poids de toutes les pommes de terre appartenant à cette
variété à travers le monde et d’afficher les données sur un grand tableau Excel en guise de
description de ce poids. La manière simple est de sélectionner un échantillon représentatif
de 30 pommes de terre de cette variété, de calculer la moyenne et l’écart type de cet
échantillon et d’utiliser uniquement ces deux chiffres pour décrire approximativement le
poids de cette variété. Représenter une quantité par une moyenne et un écart type est un
cas très simple de modélisation. 10
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

Modèle statistique : Structure

VARIABLE V MODELE V VARIABLE DE


D’ENTRÉE i jV SORTIE
V
Xi i j Yi
VARIABLE VARIABLE
INDEPENDANTE DEPENDANTE
(VI) (VD)
RELATION ENTRE LES VARIABLES D’ENTRÉE ET
LES VARIABLES DE SORTIE

Dans nos recherches, nos variables VD, VI, VC…et leurs relations, ne sont que des
hypothèses de recherche, à retenir ou pas, à l’issue de l’analyse des données
collectées suite aux travaux de terrain, laboratoire, expérimentation, simulation….
Un modèle est : une représentation idéalisée de la réalité, fait des hypothèses
explicites sur les processus étudiés ; ses hypothèses à vérifier ; permet un
raisonnement abstrait.

11
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

Variables :

ON DISTINGUE :

Variable Indépendante (VI) ou exogène : C’est le phénomène ou le facteur présumé


responsable du phénomène étudié (variable dépendante). la VI est la variable X, variable
explicative.

Variable Dépendante (VD) ou endogènes : Variable observée/décrite et mesurée/évaluée


qui peut être modifiée par la variable indépendante. la VD est la variable Y, la variable
expliquée, la variable mesurée.

Variable contrôlé (VC) : est toute variable indépendante exclue de la situation de recherche par
le chercheur, dans le but d’isoler l’effet de la variable indépendante (de recherche)– elle est utilisée
pour agir sur la variance en situation de corrélation entreVD etVI.

Variable intermédiaire : n'est pas un phénomène en soi, mais plutôt un concept scientifique qui a
pour but d'établir une relation entre deux ou plusieurs phénomènes (X et Y), c’est à l’intermédiaire
des deux variables « Indépendante et dépendante ». La variable intermédiaire n’est pas 12
directement observables (exemple : variable modératrice, médiatrice et latente)
ANALYSE DE DONNÉE

Définitions :

L’analyse de donnée est l’ensemble des techniques (statistiques)


utilisées pour le traitement des données (volumineux grand tableau).

Objectifs :

Visualisation des données dans l’espace le plus réduit possible

Regroupement ou classification dans tout l’espace

Source :Arnaud MARTIN, 2004, «L'analyse de données»

13
ANALYSE DE DONNÉE

Définitions :

Les méthodes statistiques sont employées soit pour :

- -> Explorer les données (nommée statistique exploratoire).

- -> Prédire un comportement (nommée statistique prédictive ou


décisionnelle ou encore inférentielle).

La statistique exploratoire s'appuie sur des techniques descriptives et


graphiques. Elle est généralement décrite par la statistique descriptive qui
regroupe des méthodes exploratoires simples, uni- ou bidimensionnelle
(moyenne, variance, corrélation, ...) et la multidimensionnelle.

Source :Arnaud MARTIN, 2004, «L'analyse de données»

14
ANALYSE DE DONNÉE

Méthode d’analyse :

Méthodes d’analyse
des données

Statistique descriptive
(moyenne, fréquence,
Analyse factorielle Classification
variance, corrélation,
graphiques)

Analyse de Analyse Factorielle de


Composante Principale Correspondance Régression linaire Régression logistique
(Quanti) (Quali)

Analyse factorielle : Technique d'analyse Régression : En statistique, la régression est une technique
statistique multivariée qui utilise les corrélations entre qui permet d'analyser la relation mathématique entre
les diverses variables afin de déterminer les deux variables (régression simple) ou plus. 15
dimensions ou facteurs que représentent ces
variables.
ANALYSE DE DONNÉE

Variables

Une variable = une colonne


Un individu = une ligne
L’échantillon = {individu}
Modalité = la valeur que
peut prendre une variable
16
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE & ANALYSE DE DONNÉE

SYNTHÈSE

Choix de la
Définition de la Cadre de Taille de
méthode
population l’échantillonnage l’échantillon
d’échantillonnage

Nettoyage des Saisie et codification


données : données des données – Pré-test de
manquantes, Transformation - l’appareil de
Travail de terrain…
données aberrante, mesure – Analyse de
Test de Exploration des fiabilité
représentativité données - Graphiques

Tests des hypothèses


• Tests de normalité
• Tests sur l’échantillon Réduction des
Prédiction Classification
unique/deux données
échantillons
• Tests d’association
17
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

Exemple d’échantillon

Observation, phénomène ÉCHANTILLON


nouveau, perspective,
limite, validation….

Etude
documentaire

Modèle
théorique

Etude
Exploratoire >> l’échantillon doit être représentatif de la population
>> la méthode de choix de l’échantillon et sa taille doivent
être argumenter ce qu’on appel le plan
Echantillonnage d’échantillonnage
18
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

Échantillon représentatif : Dans une recherche scientifique, se dit d'un échantillon qui conserve
les caractéristiques ou les propriétés de la population, tant sur le plan de sa composition (proportion
des caractéristiques) que de sa complexité (nombre des caractéristiques).
En principe, seule la sélection au hasard des sujets garantit un haut degré de représentativité de
l'échantillon. Cependant, le hasard fait mieux les choses lorsque le nombre de sujets de l'échantillon
est grand.

19
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la Choix de la méthode de l’échantillonnage >> Comment ?
population

Cadre de
l’échantillonnage
Aléatoire simple
Systématique
Choix de la méthode Oui Probabiliste Stratifié
d’échantillonnage
Grappes
Liste de la Phases multiples
Taille de population ? De convenance
l’échantillon De jugement
Boule de neige
Non Non-probabiliste
Par quota
Pré-test de
l’appareil de mesure Volontaire
Structurée aléatoire

Travail de terrain…
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la Choix de la méthode de l’échantillonnage >> Comment
population choisir ?
Argumentaire
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste

-La liste de la population


Choix de la méthode
d’échantillonnage -Disponibilité de la liste n’est pas connu d’avance
de population -Travaux antérieurs similaires
-Si la taille de l’échantillon
Taille de obtenu est importante
l’échantillon Niveau de confiance est
important et la marge
Pré-test de d’erreur est moindre.
l’appareil de mesure -Si le choix des répondants
est resté aléatoire

Travail de terrain…
Du modèle théorique au modèle statistique

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la Taille de l’échantillon
population
Plan d’échantillonnage
Cadre de
l’échantillonnage Probabiliste Non-Probabiliste

Taille de l’échantillon (E) est une fonction du : (1) % des chances


Choix de la méthode qu’un individu répond (A) ou pas (B) (en général 0.5), (2) Marge
d’échantillonnage d’erreur (ER) si la même question est reposée pour un autre
échantillon (3%, 5%...), (3) Niveau de confiance (Z) (trois niveaux :
Taille de 99%, 95% et 68%)
l’échantillon
A× B
Pré-test de
E= 2
l’appareil de mesure  ER 
 
 Z 
Travail de terrain…
Du modèle théorique au modèle statistique

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la Taille de l’échantillon – Exemples (à chance égale A = B = 0.5)
population

Taille de l’échantillon Niveau de confiance Marge d’erreur


Cadre de
l’échantillonnage 2 450 99% 1%
261 97% 3%
Choix de la méthode 251 95% 3%
d’échantillonnage
90 95% 5%
46 68% 5%
Taille de
l’échantillon
Le seuil est fonction du niveau de confiance et marge d’erreur
plus il est important (proche de 200), plus c’est bien
Pré-test de
l’appareil de mesure En fonction du but de la recherche, cadre théorique et la catégorie
de modélisation à utiliser

Travail de terrain…
Du modèle théorique au modèle statistique

PROCESSUS : DE L’ÉCHANTILLONNAGE AU TERRAIN


Définition de la Taille de l’échantillon – en fonction du cadre théorique,
population modèle et but de recherche

Cadre de
l’échantillonnage AMOS PLS

Fort (Science exacte, Flexible (Social,


Choix de la méthode Cadre théorique
d’échantillonnage
Eco-gestion…) humaine…)
But de la recherche
Confirmatoire/Explicatif Prédictive/Exploratoire
Taille de Seuil sur la taille de
l’échantillon
l’échantillon Large (plus de 200) Petit (plus de 30)

Pré-test de
l’appareil de mesure

Travail de terrain…
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE

PROCESSUS (2) : DU TERRAIN A L’ANALYSE DE DONNE


Saisie : Il s’agit de regrouper les réponses des répondants dans des tableaux
>>
Codification : pour les réponses à multiple choix, il s’agit de convertir
l’échelle de mesure textuelle en y attribuant une valeur numérique (Femme 0,
Homme 1)
Travail de terrain RQ : ces deux phases de saisie et de codification, peuvent être faite aussi lors de
l’intégration des données, au niveau du logiciel d’analyse de donnée SPSS
Intégration ou importation des données : Soit que les données sont à saisir
Saisie manuellement au niveau du logiciel d’analyse de donnée ou à importer depuis un fichier
externe (Excel…)
Analyse de donnée : Il s’agit des différents opérations effectuées sur les
Codification données, permettant d’avoir une vue et une visualisation synthétique de ces
données.
Exploration des données : Les données manquantes &redondantes
Intégration des données Epuration des données statistique descriptive uni-variée
1er test : Test de normalité, Test de représentativité
Tests d’hypothèse – H0 et H1
Analyse de donnée Corrélation/Régression/Analyse factorielle
Modèle statistique

>> 25
ECHANTILLONNAGE

PROCESSUS (3) : DE L’ANALYSE DE DONNE A LA MODELISATION

>>

Nettoyage des données AMOS PLS


(Modèle basé sur (modèle basé sur la
la covariance) variance)
Analyses uni-variées Fort (Science exacte, Flexible (Social,
Cadre théorique
Eco-gestion…) humaine…)
But de la recherche
Confirmatoire/Explicatif Prédictive/Exploratoire
Analyses bi-variées Seuil sur la taille de
l’échantillon Large (plus de 200) Petite (plus de 30)

Analyse multi-variées

Modélisation 26
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE & ANALYSE DE DONNÉE

Etapes d’une étude statistique :

ÉCHANTILLON Problème
POPULATION

Enquête

OBSERVATION Analyse
ANALYSE DESCRIPTIVE

Interprétation

GÉNERALISATION Publication
ANALYSE INFÉRENTIELLE
27
DU MODÈLE THÉORIQUE AU MODÈLE STATISTIQUE & ANALYSE DE DONNÉE

Réflexion : quelles sont vos variables ?

Dans nos recherches, nos variables VD, VI, VC…et leurs relations, ne sont que des
hypothèses de recherche, à retenir ou pas, à l’issue de l’analyse des données
collectées suite aux travaux de terrain, laboratoire, expérimentation, simulation….
l’objectif premier d’une analyse de ces données (approche quantitative) , EST LE
TEST DES HYPOTHÈSES Les premiers test à faire :
-1 est ce que les données collectées sont suffisant? TEST DE
REPRÉSENTATIVITÉ ?
-2 est ce que notre appareil de mesure est fiable ? PRÉ-TEST
28
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel – Statistique
Vocabulaire Statistique
Théorie Réalité

Plusieurs phénomène naturel suit un modèle mathématique appelé loi normale (loi de
Laplace – Gauss). C’est l’une des lois de probabilités les plus adaptées pour modéliser des
phénomènes naturels issus de plusieurs évènements aléatoires, exemple :
Quasiment tout ce qui est humain : taille, poids, pousse des cheveux, des ongles, paramètres
biologiques, durée du sommeil, etc.
Quasiment tout le vivant : taille et poids des graines, vitesse de pousse, rendement à l'hectare, poids
des animaux, etc.
Toute la production industrielle de masse : prenons des balles de tennis, donc le poids, la résistance à
29
l'usure, la pression, etc.
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel – Statistique
Vocabulaire Statistique
SUPPOSANT QUE N
EST LE NOMBRE DES
ÉCHANTILLONS
D’UNE POPULATION
CONFORME À LA LOI
NORMALE,
A PARTIR DE QUELLE
VALEUR DE N, ON
DEVRAIT S’ARRÊTER
? EN PRATIQUE,
QUAND N EST
SUPÉRIEUR À
« 30 »
LA LOI NORMALE
EST UTILISÉE POUR
LE TEST DE
REPRÉSENTATIVITÉ &
DU PRÉ-TEST
30
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique - Test d’hypothèse


Seuil de signification du test d’hypothèse
La valeur de P (P-value) correspond à la Probabilité de commettre une erreur lorsque l'on prend
une décision statistique (probabilité critique). Elle correspond au risque de se tromper en
rejetant l'hypothèse nulle. Généralement, Il y a trois niveaux de significativité alpha : 5%, 1%
ou 0,1 %(en général on choisie 5%).

Avec R , il s’agit de comparé la valeur de


p-value

RÈGLE D’OR POUR UN ALPHA DE 5%


Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%) H0 est rejeté (H1 est accepté) 31
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique - Test d’hypothèse


RÈGLE D’OR POUR UN ALPHA DE 5%
Si Sig. > 0.05 (5%) H0 n’est pas à rejeter (H1 est rejeté)
Si Sig. ≤ 0.05 (5%) H0 est rejetée (H1 est acceptée)

Remarque : Le choix du niveau de H0 n’est pas à rejeter


significativité est conventionnel et dépend
du domaine d’application.
Dans certaine discipline du science exacte,
on peut exiger un niveau de H0 est rejetée
significativité inférieur à 0,1 % (voir
moins de 0.01%) impacte sur la taille
de l’échantillon la méthode proposée par
« Neyman-Pearson »: consiste à fixer
d’avance la p-value, soit à l’issue des travaux
antérieurs ou d’une étude de cas (pilote),
pour estimer la taille de l’échantillon.
32
S est l’écart type, I.C est l’intervalle de confiance
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique – Test d’hypothèse

Test graphique
paramétrique (plus fort) : distributions
statistiques supposées dans les données. Il
Test d’hypothèse faut vérifié la validité.
Adapté pour les échantillons importants
(>30)
Numérique

non paramétrique : ne se basant pas sur


des distributions statistiques
Adapté pour les échantillons moins
importants (<30)

1) Le passage de la population à l’échantillon, suppose que le choix


Estimation
de l’ Erreur
des échantillons est resté aléatoire ou quasi-aléatoire.
2) Le retour de l’échantillon vers la population, se fait soit en
supposant que la distribution des données dans toute la
population, suit une loi connue (test paramétrique) d’avance ou
pas (test non paramétrique). 33
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique – Test d’hypothèse

Les tests paramétriques, visent à tester l’adéquation de la loi de


distribution observée des variables aléatoires sur l’échantillon par
rapport à la loi de distribution statistique connue et préétablit
(supposée) de la population (soit la loi normale ou ses
approximations).

Le but est de comparer les paramètres observés par rapport aux


Test paramétrique paramètres théoriques , pour faire des généralisations depuis
l’échantillon vers la population, avec une estimation de
l’erreur. Il y a une contrainte sur l’ homogénéité de la
variance.

Ces tests dépendent des catégories des données (variables) issues


de l’échantillon : Quantitative ou Qualitative ou les deux à
la fois. Deux variables ou plus.
34
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique – Test d’hypothèse

Comparaison de la moyenne : Comparaison


Comparaison de la d’une moyenne observée sur un échantillon issu
moyenne d’une population de moyenne inconnue (µ) à une
valeur moyenne théorique connue (µH0) d’une
population de référence. Ou comparaison des
Comparaison de la
Test paramétrique variance ou moyennes sur deux échantillons.
ANOVA Comparaison de la variance : comparaison de
l’homogénéité de la variation des variables entre
un, deux ou plusieurs échantillons.
Khi-deux Test Khi-deux : utiliser pour déterminer la nature
d'une répartition statistique, par rapport à une
distribution théorique.

35
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique – Test d’hypothèse

Les tests non paramétriques, ne nécessitent pas une hypothèse sur


la distribution statistique des données. Donc on fait pas de test sur les
moyennes, variances…

Le but de ce test reste le même que les tests paramétriques, c’est-


à-dire, on vérifie nos hypothèses par rapport aux seuils de
Test non paramétrique significativité alpha, en choisissant l’un des tests

Ces tests sont plutôt adaptés aux petits échantillons (<30) et


quand nos variables sont plutôt qualitative : Nominal et Ordinal.
On générale, si on a un échantillon important et qu’on a une
estimation sur la distribution des données dans la population, on
choisie d’effectuer des tests paramétriques.

36
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique – Test d’hypothèse

Table de contingence et test Khi-deux : permet de


représenter la répartition d’effectifs d’un échantillon
Tests de rang en fonction de la valeur d’une observation. Et on utilise
le test Khi-deux pour les variables qualitatives.
Test sur le rang : il s’agit de comparer le rang plutôt
Test sur la que la valeur, des variables aléatoire, dans un
Test non échantillon qui ne suit pas la loi normale (ou
médiane (Test
paramétrique
des signes) approximé). Il existe plusieurs tests : Test de Wilcoxon,
Test de Kruskal etWallis,Test de Spearman.
Table de Test des signes : Appliquer dans le cas des
contingence et échantillons appariés, Il utilise les signes + et -, au lieu
Test de Khi-2 de données quantitatives. Il est particulièrement utile
dans les cas où il n'est possible que de ranger l'un par
rapport à l'autre les membres de chaque paire.

37
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique – Test d’hypothèse

Test d’hypothèse

Paramétrique Non-paramétrique

Table de
Comparaison
Comparaison contingence Test sur le Test des
de la variance Khi-deux
de la moyenne & Test Khi- rang signes
et ANOVA
deux
En fonction de nos objectifs de recherche et sa méthodologie, Nous pouvons appliquer ces tests , soit à
UN ÉCHANTILLON UNIQUE OU À DEUX ÉCHANTILLONS (SIMILAIRES OU
DIFFÉRENTS)

EXEMPLES D’APPLICATION DES TESTS D’HYPOTHÈSE :


Comparaison de la performance avant et après l’application d’une nouvelle méthode d’apprentissage sur
un même groupe d’étudiant, ou encore l’application de la même expérience sur deux groupes
d’étudiants 38
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Rappel Statistique – Test d’hypothèse

ECHANTILLONS INDÉPENDANTS ECHANTILLONS APPARIÉS

On a deux sous groupes du même Pour le même échantillon on répète la


échantillon prise de mesure en deux moments
différents

COMPARAISON
DE LA MOYENNE
39
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

SYNTHÈSE

PROCÉDURE DU TEST D’HYPOTHÈSE

Choix du test Définition de


Choix du test adéquats en l’intervalle de Calcul du p-
en fonction de fonction des Détermination confiance et value &
la distribution variables : des hypothèses niveau de comparaison Interprétation
de continue, H0 et H1 significativité
l’échantillon nominale, α
ordinale α

40
ANALYSE DE DONNÉE – RAPPELS STATISTIQUES

Arbre de décision

41
LOGICIELS

Logiciels :

Libre Propriétaire

42
LOGICIELS

Langage R :

John Chambers

R est un langage de programmation dédié aux statistiques et au Data Science.


R est le dérivé du langage S, crée par John Chambers aux laboratoires BELL.
En 1993, Le projet R est né, comme un projet de Recherche de Ross
Ihaka et Robert Gentleman (Université d'Auckland, Nouvelle-Zélande).
En1997, Création de l'équipe de développement de R.
En 2000, La 1ére version du R 1.0.0, est publié.
En 2003, la R Foundation for Statistical Computing est créée.
En 2015, les entreprises IBM, Microsoft, Rstudio… créent le R
Consortium pour soutenir et financer la communauté du R.
URL du projet R : https://www.r-project.org/
URL du CRAN (Comprehensive R Archive Network) du projet R :
https://cran.r-project.org/
Fonctionnalités les plus connus (plus de 200 packages) :
• Manipulation de données
• Visualisation de données
• Communication
• Application Web
43
LOGICIELS

Implémentations du R | R Consotium :

GNU R

44
LOGICIELS

Quelques utilisateurs du R :

Korkrid Kyle Akepanidtaworn, ‘LSESU a Taste of R


Language Workshop’

ACADGILD Webinar - Get your feet wet with Business Analytics


45
LOGICIELS

Rstudio :

RStudio est un environnement de développement multiplateforme pour R,


sous la licence libre AGPLv3, ou une licence commerciale (abonnement
annuel).

Versions :
- RStudio Desktop,
- RStudio Server (Serveur Linux/navigateur web)

URL : www.rstudio.com

OS :
Microsoft Windows, OS X et GNU/Linux

Technologies :
Code source de RStudio a été écrit en langage C++. L’Interface graphique
est sous Qt.
46
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

47
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Téléchargement

Download
https://www.rstudio.com/products/rstudio/download

48
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Installation

49
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Installation

50
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Barre de menu

Workspace

Fichiers
Courbes
Packages
Console R

51
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

52
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

AIDE
Pour avoir de l’aide sur une fonction, la commande est :
Help (commande)
? commande

53
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Auto complétion

C’est une fonctionnalité du Rstudio, vous permet en saisissant quelques lettre de


fonction d’avoir une liste des choix des fonctions existantes.

On peut faire appel au l’auto-complétion avec « Tabulation » à coté des premiers


lettre de notre fonction saisie

54
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Mode Script (R Script)

Pour conserver la liste des commandes et le traitement à réaliser, on peut écrire


dans un fichier séparer l’ensemble des commandes et l’enregistrer pour un usage
ultérieur.

55
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :


R Script

56
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :


Extensions
R est un logiciel libre, plusieurs développeur contribue en développant des
modules ou extensions (ou packages) en langage R (R Script), pour réaliser
différents traitements et analyses statistiques des données.
Ils existent plus de 6500 extension, diffuser par le CRAN
(https://cran.rstudio.com/)
Exemple Science social :
http://cran.rproject.org/web/views/SocialSciences.html

bucky Bucky's Archive for Data


Analysis in the Social Sciences

ess Download Data from the


European Social Survey on
the Fly
sjPlot Data Visualization for
Statistics in Social Science 57
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Extensions
Pour utiliser une extension il faut :
1- Installer l’extension avec la commande :
install.packages (nom de l’extension)

Exemple : install.packages("ade4", dep = TRUE)


Installer l’extension ade4 avec ses dépendances
2- charger l’extension avec la commande : library (nom de l’extension)
library(ade4)
À exécuter à chaque session

Exemples d’extensions
ade4: Analysis of Ecological Data: Exploratory and Euclidean Autres commandes :
Methods in Environmental Sciences Mettre à jour l’extension : update.packages()
tidyverse: Easily Install and Load the 'Tidyverse' Supprimer l’extension : remove.packages("ade4")

58
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

ATELIER 1
SAISIE ET CODIFICATION DES
DONNÉES -
EXPLORATION DES DONNÉES –
TRANSFORMATION - GRAPHIQUES
59
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Exemple

R Console En utilisant les flèches Haut et Bas du


clavier , vous pouvez naviguer dans
l’historique des commandes
tapées précédemment.

On peut alors annuler la commande en


utilisant la touche Echap ou Esc

60
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :


Variable ou Objet
Une variable c’est une zone mémoire pour le stockage des données, d’autres variables... Pour
pouvoir la réutiliser par la suite

Il existe 2 opérateurs d’assignation


sous R = , <-

certains noms sont réservés par R pour son usage interne et doivent être
évités. Exemple : c , q , t , C , D , F , I , T , max , min …
R est sensible à la caste, il fait la différence entre majuscule et minuscule
61
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Vecteur ou Tableau :
C’est une zone mémoire contenant un ensemble de données de même nature (numérique,
caractère…)

Un vecteur  une colonne dans


un tableau Excel, puis les données
sont les lignes

62
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Vecteur ou Tableau :
C’est une zone mémoire contenant un ensemble de données de même nature (numérique,
caractère…)

On crée un vecteur avec


la commande c (valeur1 ,
valeur2,….)
Indexation : quand on veut récupérer la valeur
Un vecteur  une colonne dans un
contenue dans une position du vecteur
tableau Excel, avec plusieurs lignes (les
données)
Une variable  une colonne dans un
tableau d’une ligne uniquement

-[ 1] et [20], c’est la position de la donnée


dans le vecteur
- On peut appliquer toute les opérations
arithmétiques comme pour les objets 63
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :


Fonction & arguments:

Une fonction permet de réaliser une traitement spécifique, exemple la


moyenne, max, min…

Une fonction se caractérise par :


- Nom
- Arguments (ce qu’il y a entre parenthèse de la fonction)
- Résultats (la/les valeurs de retour de la fonction)

EXEMPLE

64
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :


Vecteur ou tableau
Contenant des chaines de caractères

Pour les chaines de caractères, On crée un vecteur avec la commande


c (‘’chaine1’’ , ‘’chaine2’’,….)
ou avec
c(‘chaine1’,’chaine2’,….)

65
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Transformation de la variable de type chaine de caractère à une variable


qualitative (factor)

Pour transformer une variable ou vecteur, vers une variable “factor” ou


catégorielle (qualitative), on peut utiliser la fonction « factor() »

66
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :


Mise en forme

Pour mettre en forme une variable ou tableau, on peut utiliser la


fonction « format() »

67
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Quelques fonctions de base

Utiliser l’aide pour avoir plus d’information sur les fonctions

68
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Découverte :

Data Frame ou Tableau

Avec la concaténation de deux vecteurs ou plus on peut construire un tableau ou Data Frame

69
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Atelier 3 : Tests des hypothèses


Atelier 2 : Nettoyage des • Tests de normalité
données > données manquantes,
• Tests sur l’échantillon unique/deux
données aberrante, Test de
échantillons
représentativité
• Tests d’association
70
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques > Etude de cas

Le but de cette recherche

Cette recherche a pour but de comparer le revenu annuel moyen des hommes et des femmes.

« Les chercheurs de cette étude croient que les hommes ont un revenu moyen supérieur à celui
des femmes même si ces dernières ont un niveau de scolarité équivalent à celui des hommes ».

Cette hypothèse est-elle vraie ? Le tableau qui suit présente les résultats d’une enquête par
questionnaire réalisée auprès de 15 hommes et 15 femmes sélectionnés accidentellement sur
les quais du métro de Montréal (n=30).
(source : http://pagesped.cahuntsic.ca/sc_sociales/psy/methosite)

Réflexion
71
ANALYSE DE DONNEE AVEC R/RSTUDIO

Participantes Sexe Age Scolarité Fonction Revenuen$ Questionno1


1 1 45 17 1 56784 1
2 2 22 14 3 34342 2
3 1 47 19 1 67564 2
4 2 23 17 3 23456 1
5 1 40 13 2 56453 2
6 2 41 17 2 45634 2
« Les chercheurs de cette étude 7
8
2
2
37
23
18
17
2
3
56789
23443
2
1
croient que les hommes ont un 9
10
2
1
25
45
16
16
3
1
36544
89098
2
1
revenu moyen supérieur à 11
12
1
1
47
30
17
18
1
1
76876
67875
2
2
celui des femmes même si ces 13 2 22 14 3 34564 2
14 1 28 14 2 43221 2
dernières ont un niveau de 15 2 28 14 2 45654 2
16 1 31 18 2 67567 1
scolarité & fonction équivalent 17 1 25 19 2 52567 1
18 2 55 17 3 25678 2
à celui des hommes » (*). 19 2 30 17 1 57567 2
20 1 22 11 3 34567 2
Question 1 : Selon vous, y-a-t’il 21 1 22 19 3 43567 2
une différence entre les revenus 22
23
1
1
21
24
12
16
3
2
43234
67897
2
1
des hommes et des femmes ? 24 1 22 14 2 45654 2
(*) Données issues et adaptés du site 25 1 27 15 1 52123 2
26 2 24 15 1 63454 2
http://pagesped.cahuntsic.ca/sc_sociales/psy/ 27 2 20 2 3 34444 1
methosite/accueil.htm 28 2 18 13 3 43445 2
29 2 22 17 1 64567 72 1
30 2 22 18 1 59878 2
ANALYSE DE DONNEE AVEC R/RSTUDIO

Atelier pratique > R Commander :

R Commander

“R Commander” est une extention R, sous licence GNU GPL, développer par John
Fox du departement de sociologie de l’univerité McMaster. “Rcmdr” est similaire à
l’interface graphique de SPSS avec des menus permettant de réaliser différent analyse et des
productions graphiques au niveau de la console R, sans écrire presque aucune ligne de code
R.

Installation :
install.packages(“Rcmdr", dep = TRUE)
Utilisation :
library(Rcmdr)

73
ANALYSE DE DONNEE AVEC R/RSTUDIO

Atelier pratique > R Commander :

74
ANALYSE DE DONNEE AVEC R/RSTUDIO

Atelier pratique > R Commander :

75
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

R Commander
R commander permet de réaliser plusieurs analyses statistiques (descriptive uni-varié/bi-varié,
multi-varié, test d’hypothèse, régression et classification….)
Après installation et lancement du « R Commander », nous allons passer à l’atelier. Il s’agit de
réaliser les étapes ci-dessous, pour confirmer ou rejeter l’hypothèse de l’atelier :

Test de
comparaison
Importation des Test de Test de des moyennes
Nettoyage
données normalité représentativité sur deux
échantillons
indépendants

Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes ont un
revenu moyen supérieur à celui des femmes même si ces dernières ont un niveau de scolarité
& fonction équivalent à celui des hommes ».
76
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Hypothèse de recherche & les sous-hypothèses


Hypothèse de recherche : « Les chercheurs de cette étude croient que les hommes (H) ont un Revenu
Moyen (RM) supérieur à celui des femmes (F) même si ces dernières ont un niveau de scolarité & fonction
équivalent à celui des hommes ».

D’où on devrait d’abord tester les hypothèses suivantes :

H1 : Il y a pas de différence significative entre le nombre des Hommes & Femmes dans l’échantillon
H2 : Il y a pas de différence significative entre les années scolaires des Hommes et Femmes
H3 : Il y a pas de différence significative entre la répartition des hommes et femmes par fonction

Après, on devrait tester l’hypothèse :


H4 : Il y a une différence significative entre la moyenne du revenu des hommes et celui des femmes

Tous ces hypothèses de recherche, il faut les traduire en hypothèse statistique


H1 : l’hypothèse alternative et H0 : l’hypothèse nul, pour chacune des hypothèses de recherche
puis appliquer la règle d’or pour accepter ou rejeté l’hypothèse (p-value > 5% H0
accepté, si p-value < 5% H1 accepté)
77
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants

2 Les différents
formats pris
en compte par
R Commander
3
4 Nommé la dataset, puis préciser l’emplacement des noms des
variables et la conversion de la variable texte en variable
5
catégorielle (factor) et enfin préciser l’indicateur de la valeur
78
manquante, si ils en existent
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants

Génération de la
commande R

Résultats de l’exécution de la
commande sur la console RStudio

79
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants

2 4
Résultats de l’exécution de la
commande sur la console RStudio

Génération de la
commande R pour
la détection des
3 valeurs
manquantes
80
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants

Pas de valeur
aberrante
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants

1
3
4

2
5

p-value > 5 % H0 accepté


Il n’y pas de différence significative
entre la loi normale et la distribution
83
du revenu Normalité OK
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants

Nous disposons d’une


information sur la
1 2 population le
3
revenu moyen dans la
population est de
50000

84
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de comparaison
Importation des Test de des moyennes sur
Nettoyage Test de normalité
données représentativité deux échantillons
indépendants

P-value > 5 % H0
accepté Il y a pas de
différence significative
entre la moyenne de la
population et la moyenne
de l’échantillon Test
de représentativité
OK !

85
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

86
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

H0 est retenu il y a pas de différence


significative entre la moyenne des années
scolaire des femmes et celui des hommes.
idem pour la fonction

87
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

1
2

88
ANALYSE DE DONNEE AVEC R/RSTUDIO

Ateliers pratiques :

Test de
comparaison des
Importation des Test de
Nettoyage Test de normalité moyennes sur
données représentativité
deux échantillons
indépendants

P-value < 5 % H1 est retenu il y a


une différence significative entre la
moyenne des revenus des hommes et celui
des femmes. Et en plus, la moyenne du
revenu des hommes (group 1) est
supérieur à celui des femmes (group 2)
89
Enseignant-Chercheur d’Informatique (depuis 2018)
ENSA de Kenitra /Université Ibn Tofail/Département Informatique,
Logistique et Mathématique
Filière Informatique/Laboratoire Génie des Systèmes
Email : amoumen@gmail.com
Expériences professionnels (Depuis 2002 à 2018) :
Aniss MOUMEN
Ingénieur & Consultant IT auprès des entreprises (ATOS, CGI, IBM, STCR,
Mundiapolis…)
Intérêts de recherche
Thèmes : Système d’Information – Sciences des données - Programmation
scientifique – Big-data – Social Computing
Domaines d’application : Ressources naturelles, Sciences de Gestion &Social
Cela signifie que vous êtes libre de recopier / modifier / redistribuer les contenus à condition
que vous citiez la source et que vos modifications soient elle-même distribuées sous la même
licence (autorisant ainsi d’autres à pouvoir réutiliser à leur tour vos ajouts).
REMERCIEMENT
L'auteur de ce document, remercie l'ensemble des participants et organisateurs des Open
Séminaire. Tous les remerciements à ceux qui ont contribué à l'élaboration de ce document
(d’une manière directe ou indirecte).
CITATION
Pour citer ce document : Aniss MOUMEN, 2019, «Analyse de donnée avec R, à l’aide de
l’extension R Commander », présenté lors du congrès international VARENA 2019, Faculté
des Sciences de Rabat, 26-28 Juin 2019, Rabat, Maroc.
Pour télécharger cette
présentation
V2019
View publication stats

Atelier 3 : Analyse des données avec R & Testes


d'hypothèses
Pr. Aniss MOUMEN, ENSA Kénitra, UIT, Maroc

Vous aimerez peut-être aussi