Vous êtes sur la page 1sur 22

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/357850600

Initiation à l'utilisation du logiciel R

Presentation · January 2023


DOI: 10.13140/RG.2.2.16938.08641/1

CITATIONS READS

0 1,825

1 author:

Sami Mestiri
Faculté des Sciences Économiques et de Gestion de Mahdia
61 PUBLICATIONS 29 CITATIONS

SEE PROFILE

All content following this page was uploaded by Sami Mestiri on 29 September 2023.

The user has requested enhancement of the downloaded file.


Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Outils et Logiciel statistiques


3me M.Q
Chapitre1 : Initiation à l’utilisation du logiciel R

Sami Mestiri
Faculté des sciences économiques et de gestion de Mahdia,
Email : mestirisami2007 ∂ gmail.com

2022-2023

1 2
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Introduction Présentation du logiciel R


J R a été initialement créé, en 1996, par Robert
J En informatique, un logiciel est un ensemble de Gentleman et Ross Ihaka du département de
séquences d’instructions interprétables par une statistique de l’Université d’ Auckland en Nouvelle
machine. Zélande.
J Les séquences d’instructions appelées programmes J Il est conçu pour pouvoir être utilisé avec les
ainsi que les données du logiciel sont ordinairement systèmes d’exploitation Unix, Linux, Windows et
structurées en fichiers. MacOS.
JLes langages de programmation permettent de J R est à la fois un langage de programmation et un
décrire d’une part les structures des données qui progiciel de fonctions statistiques.
seront manipulées par l’appareil informatique. J La version de base de R contient déjà un grand
JLes programmes étant d’ordinaire écrits, lus, nombre de fonctions statistiques et graphiques
compris et modifiés par une équipe de programmeurs. permettant, par exemple, de calculer une moyenne ou
3
une variance ou de tracer un histogramme. 4
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Présentation du logiciel R Présentation du logiciel R


En effet R possède :
J Un système efficace de manipulation et de
J R est un langage et logiciel qui permet de réaliser stockage des données.
des analyses statistiques.
J Différents opérateurs pour le calcul sur tableaux,
J Il comporte des moyens qui rendent possibles la en particulier les matrices.
manipulation des données, les calculs et les
représentations graphiques. J Un grand nombre d’outils pour l’analyse des
données et les méthodes statistiques.
JIl a aussi la possibilité d’exécuter des programmes
stockes dans des fichiers textes. J Des moyens graphiques pour visualiser les analyses.
J Un langage de programmation simple et
performant.
5 6
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Installation du logiciel R L’environnement de travail


J R est un logiciel libre qui est distribuée sous les
termes de la GNU Public Licence . JPour lancer R, on doit cliquer sur l’icône de
raccourci R.
J R possède un site officiel à l’adresse
http ://www.R-project.org/. JLorsque le logiciel R est lancé, il apparaît une
nouvelle interface (Rgui) comportant une fenêtre
La démarche à suivre est : intérieure (R console).
J Aller sur la page correspondant au lien Download,
CRAN. J R est un logiciel de commandes en ligne,
c’est-à-dire que les instructions sont données les unes
J Télécharger le fichier d’installation. à la suite des autres.
J Lancer le programme SetupR.exe. J Dans la console s’affichent les résultats.
J Suivre les instructions affichées à l’écran.
7 8
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

L’environnement de travail Manipulations simples

J Les commandes en ligne sont écrites sur "R script"


J R peut être utilisé pour réaliser des calculs simples.
ensuite elles sont exécutées sur un espace de travail
Si on tape :
"R console" ou ("workspace").
5+4
J R est un langage orienté objet càd que les R retourne :
instructions peut être stocké dans des objets qui 9
pourront être à leur tour utilisés par la suite. J Cette réponse signifie que le résultat est un
JPour pouvoir donner une instruction, l’utilisateur vecteur dont la première coordonnée est ‘9’.
doit " avoir la main " càd que le logiciel doit être (R ne connait pas les scalaires, il considère ces
prêt à la recevoir. C’est le cas lorsque le prompt ( " derniers comme des vecteurs de longueur 1).
< ") est visible.
9 10
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Manipulations simples Manipulations simples


J Le résultat ’9’ est juste retourne à l’écran, il n’est J On sépare les différentes commandes par des
pas stocké en mémoire. points virgules ‘ ;’ ou par des sauts de ligne.
a = 3; b = 2
JOn peut créer ou écraser des objets grâce à
l’opérateur d’affectation. J Pour ajouter des commentaires, on utilise le
x= 5+4 symbole dièse #.
> a # Donne la valeur de a
J Le contenu d’un objet est visible en tapant son
nom : JLorsqu’une commande n’est pas complète à la fin
x d’une ligne, R retourne un prompt différent ‘+’
jusqu’ à ce que la commande soit complétée.
J R fait la différence entre les majuscules et les
3-
minuscules. (Ainsi ‘A’ et ‘a’ représentent deux objets
+2
différents)
11 1 12
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Les données avec R Création d’un vecteur

J On appelle objets, les entités créées et


manipulées par R. J Les vecteurs sont les types de données les plus
élémentaires dans R. Les formes les plus simples
J Les objets peuvent être vecteur, facteur, array, sont : numeric, character et logical (TRUE ou
matrice, data.frame, ou une liste. FALSE) :
J Pour stocker un objet dans la mémoire, il faut J Pour créer un vecteur on peut utiliser la fonction
commencer par le créer (souvent à l’aide d’une c().
fonction), puis indiquer à R de le stocker en x = c(10,32,25,50,43)
attribuant un nom. x
J Nom d’objet = objet. [1] 10 32 25 50 43
Exemple : a = 2
13 14
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Création d’un vecteur Manipulation des vecteurs

J seq() (séquence) généré une série de nombres x= c(10,32,25,50,43)


équidistants. x
seq(from=n, to=m, by=t). sort(x) # classer les éléments d’un vecteur
s= seq(1,10,0.8) [1] 10 25 32 43 50
s order(x) # donner les indices des éléments du vecteur
1.0 1.8 2.6 3.4 4.2 5.0 5.8 6.6 7.4 8.2 9.0 9.8 [1] 1 3 2 5 4
J c() : concaténation de un ou plusieurs vecteurs : sum(x) # sommer les éléments du vecteur
c(1, 5, 6, 9) [1] 160
1 5 6 9 length(x) # donner la longueur d’un vecteur
c(1 :5, seq(10, 20, 2)) [1] 5

15 16
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Manipulation des vecteurs Création d’une matrice

J La fonction cbind() (column bind) permet de créer


J Une particularité de R est que les éléments d’un la matrice à partir de vecteurs en colonnes :
vecteur peuvent avoir des noms. x =1:5
J La fonction names() permet en effet d’associer une y =x ∗2
étiquette à chacun des éléments d’un vecteur : A = cbind(x, y )
names(y) = c("a","b","c","d","e") x y
x [1] 1.00 2.00
a b c d e [2] 2.00 4.00
10 32 25 50 43 [3] 3.00 6.00
[4] 4.00 8.00
[5] 5.00 10.00
17 18
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Création d’une matrice Création d’une matrice

J La fonction rbind() (row bind) permet de créer la J La fonction matrix() permet de créer une matrice
matrice à partir de vecteurs en lignes : , en spécifiant en arguments le nombre de lignes :
x =1:5 M = matrix(c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), nrow =
y =x ∗2 2, ncol = 5)
B = rbind(x, y )
[, 1] [, 2] [, 3] [, 4] [, 5]
[, 1] [, 2] [, 3] [, 4] [, 5]
x 1.00 3.00 5.00 7.00 9.00
x 1.00 2.00 3.00 4.00 5.00
y 2.00 4.00 6.00 8.00 10.00
y 2.00 4.00 6.00 8.00 10.00

19 20
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Opérations sur les matrices Création d’un facteur

J La fonction factor() permet créer un vecteur


J Dimension : dim(mat) donne le nombre de ligne et composé par les modalités d’une variable qualitatives
celui de colonne de la matrice mat. ou discrètes ).
Exemple : dim(M) J La fonction as.factor() s’utilise pour convertir un
J Le produit de deux matrices s’écrit avec vecteur numérique en un facteur.
l’opérateur %*%. v = c(1, 2, 1, 2, 1)
mat1 = matrix(1 :10,ncol=2) a = as.factor (v )
mat2 = matrix(1 :10,nrow=2,byrow=T) f = factor (v , labels = c(”oui”, ”non”))
mat = mat1 %*% mat2 f
mat [1] oui non oui non oui
Levels : oui non
21 22
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Création d’un data frame Les data.frame


J nous allons créer une petit base de données avec
J La fonction data.frame () permet de regrouper, ou
les noms, les salaires et les dates de départ de
concaténer, au sein d’un même objet :
quelques employés :
(i) le vecteur de la ou les variable(s) mesurée(s)
employe =
(dépendante(s)),
c(”AlibnSalh”, ”AfefHmida”, ”fayzabnamor ”)
(ii) les vecteurs de classification (facteurs),
salaire = c(21000, 23400, 26800)
(iii) d’autres données appariées aux précédentes (e.g.
startdate = as.Date(c(”2010 − 11 − 1”, ”2008 −
nom ou n du sujet).
3 − 25”, ”2007 − 3 − 14”))
J Les éléments du data.frame seront accessible à
employe.data =
l’aide de l’opérateur $ accolé au nom du data.frame.
data.frame(employe, salaire, startdate)
La seule contrainte est que les vecteurs doivent être
La sortie de ceci est une base de données,
de même taille.
employe.data.
23 24
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Objets en mémoire Demander de l’aide

J La fonction ls() permet de lister les objets en


mémoire. J En savoir plus sur une fonction
ls() help.search("title")

J Effacer les objets en mémoire ?mean


rm(a,b) J Comment importe-t-on des fichiers textes ?
J Effacer tous les objets ?read.table
rm(list=ls())

25 26
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Programmation avec R

Outils et Logiciel statistiques


3me M.Q
Chapitre 2 : Structures de contrôle et Itérations avec le logiciel 1-Structures conditionnelles if ()
R
2- Boucle for()
Sami Mestiri
3- Boucle while()
Faculté des sciences économiques et de gestion de Mahdia,
Université de Monastir, Tunisie. 4- Fonctions
mestirisami2007 ∂ gmail.com

2019-2120

27 28
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

1- Structures conditionnelles if ()

J La syntaxe
if (condition) {instructions} permet de calculer les instructions
x = 10
uniquement si la condition est vraie.
if (condition) {A}else{B} calcule les instructions A si la condition
if(x >= 0) {
est vraie et les instructions B sinon. cat(x, "est supérieur ou égal à 0")
Par exemple, } else{
if (x>0) y=x*log(x) else y=0 cat(x, "est inférieur à 0")
Remarque : Si les instructions se limitent à un seul calcul comme }
dans cet exemple on peut utiliser la fonction ifelse
y=ifelse(x>0,x*log(x),0)

29 30
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

2- Boucle for()

J Création du vecteur x
x = 1 :10
for (variable in suite) expression Afficher le vecteur x
Exécuter expression successivement pour chaque print(x)
valeur de variable contenue dans suite. Encore ici, on 1 2 3 4 5 6 7 8 9 10
for() pour parcourir le vecteur x
groupera les expressions dans des accolades . À noter Le programme calcule la somme des éléments de x
que suite n’a pas à être composée de nombres s =0
consécutifs, ni même de nombres, en fait. for(i in 1 :length(x)){ s = s + x[i]
} # Affiche la somme des éléments de x
print(s)
55

31 32
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

3- Boucle while() while, Exemple

z =0
while (condition) expression
while(z < 5)
Exécuter expression tant que condition est vraie. Si
{
condition est fausse lors de l’entrée dans la boucle,
z =z +1
celle-ci n’est pas exécutée. Une boucle while n’est par
message(z)
conséquent pas nécessairement toujours exécutée.
}

33 34
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Les structures de contrôle

J Création du vecteur y
y = 1 :10
Afficher le vecteur y
# While() pour parcourir le vecteur y Les structures de contrôle sont des commandes qui
# Le programme calcule la somme des éléments de y permettent de :
i =1 - Déterminer le flux d’exécution d’un programme.
s =0
while (i <= length(y)/2) { s = s + y [i]
- Choisir entre des blocs de code.
i=i+1 - Répéter de commandes ou sortie forcée.
}
# Affiche la somme des éléments de y
print(s)
15

35 36
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Exécution conditionnelle multiples Exemple

Après un examen, les possibilités sont les suivantes : si vous avez


if. ( test. expression1) { moins de 12, vous avez une mention, "Passable". Si vous avez
statement1 entre 12 et 14, vous avez une mention " Assez Bien". Si vous plus
} else if ( test. expression2) { 14, vous avez une mention, "Bien".
statement2 note=16
} else if ( test .expression3) { if ( note <12) {
statement3 print (" Passable ")
} else } else if (12< note & note< 14){
statement4 print (" Assez bien " )
} else
print (" Bien ")

37 38
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

ifelse ifelse, Exemples

ifelse(condition, expression.vrai, expression.faux) (


Exemple 1 :
ifelse(test, yes, no)) x = rnorm(100)
Fonction vectorielle qui retourne un vecteur de la y = ifelse(x>0, 1, -1)
même longueur que condition formé ainsi : pour Exemple 2
ages = c(12, 18, 32, 2, 4)
chaque élément TRUE de condition on choisit names(ages) =c(’Jane’,’Ed’,’Bob’,’Joe’,’Liz’)
l’élément correspondant de expression.vrai et pour voter = ifelse (ages < 18,’minor’,’voter’)
chaque élément FALSE on choisit l’élément voter
correspondant de expression.faux.

39 40
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Boucles, Exemple 1 Boucles, Exemple 2

Après un examen, les possibilités sont les suivantes : si vous avez Après un examen, les possibilités sont les suivantes : si vous avez
moins de 12, vous avez une mention, "Passable". Si vous avez moins de 8, vous étés refusé. Si vous avez plus de 10, vous étés
entre 12 et 14, vous avez une mention " AssezBien". Si vous plus réussi. Si vous avez entre 8 et 10, vous pouvez présenter un examen
14, vous avez une mention, "Bien". de rattrapage deux semaines plus tard.
note=c(6,12.5,14,7) note=c(6,12.5,14,7)
for (i in 1 :4) { for (i in 1 :4) {
if (note[i]<12) { print ("Passable")} else if(12<= note[i]& if (note[i]<8) { print ("refusé")} else if(8<= note[i]& note[i]<10) {
note[i]<14) { print ("rattrapage") }
print ("Assez Bien") } else print ("reussi")
else print ("Bien") }
}

41 42
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

4- Fonctions Structure générale pour créer des fonctions

J Création du vecteur v
La syntaxe générale de définition d’une fonction est la suivante :
v = c(1, 4, 9, 16, 25, 36) nom-fonction= function(arg1,arg2...)
J Fonction racine carrée {
sqrt(v) blocs d’instructions
}
JCréation du vecteur Z Les accolades permettent de séparer les instructions par rapport à
z =c(-1, 4, -9, 16, -25, 36) la signature de la fonction, les crochets, eux permettent de spécifies
J Fonction valeur absolue valeurs par défaut des arguments de façon facultative.

abs(z)

43 44
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Création d’une fonction Exemples

Exemple 1 : Simulation de la fonction f (x) = x 2 :


J Créer la Fonction somme carre=function(x) { x*x}
carre(2)
somme = function(x, y){ Exemple 2 : Définissant la moyenne d’un vecteur :
return(x+y) moyenne.vec = function(x) {
} s=sum(x) ; # Somme des éléments de x
n=length(x) ; # Nombre des éléments de x
# Somme de 10 et 15 res=round(s/n,2) ; # résultat arrondi
somme(10, 15) return(res)
}

45 46
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

La fonction fix()

Outils et Logiciel statistiques


Par l’intermédiaire d’un éditeur de texte grâce à la fonction fix() : 3me M.Q
fix(moyenne.vect) Chapitre 3 :Statistiques descriptives avec le logiciel R
Cette commande lance un éditeur de texte qui travaille avec le
système R et qui permet de définir des fonctions. Le code de la
fonction est écrit à partir de l’éditeur. Sami Mestiri
La fonction return() permet de spécifier le résultat de la fonction,
lorsque l’instruction correspondante à return n’est pas utilisée, R Faculté des sciences économiques et de gestion de Mahdia,
Université de Monastir, Tunisie.
retourne le résultat de la dernière expression évaluée dans la mestirisami2007 ∂ gmail.com
fonction.
2019-2020

47 48
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Population et échantillon

Les concepts de base statistique

J La Statistique : une méthode qui consiste à réunir des données


Variable qualitative nominale chiffrées sur des ensembles nombreux, puis à les analyser et à les
interpréter. C’est l’étude des variations observables.
J Les données : ce sont constituées par l’ensemble des
Variable quantitative discrète observations (tableaux, fichiers, données primaires).
J L’observation : est une valeur prise par la variable sur une unité
statistique.
Variable quantitative continue

49 50
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Population et échantillon Variables statistiques

JVariables statistiques : sont des opérations qui associés a chaque


J La population : Ensemble de tous les individus ou objets dont
unité statistique une propriété, une modalité. On distingue les :
cherchent une ou plusieurs caractéristiques. et qui sera soumis à
Variable qualitative : La variable est dite qualitative quand les
une analyse statistique. Chaque élément de cet ensemble est un
modalités sont des catégories.
individu ou unité statistique.
– Variable qualitative nominale : La variable est dite qualitative
J L’échantillon : C’est un sous ensemble constitué d’un ou plusieurs
nominale quand les modalité ne peuvent pas être ordonnées.
individus relevé dans une population mère par un choix au hasard.
– Variable qualitative ordinale : La variable est dite qualitative
Le nombre d’individus dans l’échantillon est la taille de l’échantillon.
ordinale quand les modalités peuvent être ordonnées.

51 52
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Variables statistiques Variable qualitative nominale

Variable quantitative : Une variable est dite quantitative si Une variable qualitative nominale a des valeurs distinctes qui ne
toutes ses valeurs possibles sont numériques. peuvent pas être ordonnées. On note J le nombre de valeurs
– Variable quantitative discrète : si l’ensemble des valeurs possibles distinctes ou modalités. Les valeurs distinctes sont notées
est dénombrable. x1 , ..., xj , ..., xJ . On appelle effectif d’une modalité ou d’une valeur
– Variable quantitative continue : si l’ensemble des valeurs possibles distincte, le nombre de fois que cette modalité (ou valeur distincte)
est continu. apparait. On note nj l’effectif de la modalité xj . La fréquence d’une
-On appelle série statistique la suite des valeurs prises par une modalité est l’effectif divisé par le nombre d’unités d’observation.
variable X sur les unités d’observation. nj
Le nombre d’unités d’observation est note n. fj = , j = 1, .., J
n
Les valeurs de la variable X sont notées x1 , ..., xi , ..., xn .

53 54
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Exemple Diagramme en barres

Un échantillon est composé de 20 personnes, on s’intéresse à leurs


états civil qui est une variable qualitative. Figure : Diagramme en barres des effectifs
x=c(2,2,4,1,1,2,1,1,1,2,1,2,3,2,3,4,1,1,1,2)
y=factor(x,labels=c("Celibataire","marié","veuf","divorcé"))
T1=table(y)
V1=c(T1)
Celibataire Divorce Marie Veuf
9 2 7 7 2
ss= data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
Celibataire 9 0.45
Divorce 2 0.1
Marie 7 0.35 En langage R
Veuf 2 0.1 m=max(V1)
barplot(T1, ylim=c(0,m+1),col=rainbow(4))
55 56
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Diagramme en secteurs. le tableau statistique

Une variable discrète a un domaine dénombrable.


Exemple : Un quartier est composé de 50 ménages, et la variable
Z représente le nombre de personnes par ménage. Comme pour les
variables qualitatives ordinales, on peut calculer les effectifs, les
effectifs cumulés, les fréquences, les fréquences cumulées.
xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
Figure : Diagramme en secteurs des fréquences
8 2 50 0.04 1.00
50 1.00
En langage R
pie(T1,col=rainbow(4))
57 58
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

En langage R Diagramme en bâtonnets des effectifs

Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
T4=table(Z)
T4=c(T4)
data.frame(Eff=T4,EffCum=cumsum(T4),Freq=T4
sum(T4),FreqCum=cumsum(T4/sum(T4)))
Eff EffCum Freq FreqCum
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90 Figure : Diagramme en bâtonnets des effectifs
6 3 48 0.06 0.96
8 2 50 0.04 1.00 En langage R
plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)
59 60
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Fonction de répartition Fonction de répartition

Les fréquences cumulées sont représentées au moyen de la fonction


de répartition. Cette fonction, présentée en Figure ,est définie de R
dans [0, 1] et vaut :

 0 x < x1
F (x) = F x < x < xj+1 (1)
 j j
1 xJ < x
En langage R
plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

61 62
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu
Figure : Fonction de répartition d’une variable quantitative discrète
Variable quantitative continue Exemple
Une variable quantitative continue peut prendre une infinité de On mesure la taille en centimètres de 50 élèves d’une classe.
valeurs possibles. Le domaine de la variable est alors R ou un S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
intervalle de R.Cependant, pour faire des représentations 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162,
graphiques et construire le tableau statistique, il faut procéder à des 162,162,163,164,164,164,164,165,166,167,168,168,168,169,169,
regroupements en classes. 170,171,171,171,171)
Le tableau regroupé en classe est souvent appelé distribution M=cut(S, c(150,155,160,165,170,175) ,right = FALSE)
groupée. Si [cj− ; cj+ [ désigne la classe j, on note, de manière T5=table(M)
générale : T5c=c(T5)
– cj− la borne inferieure de la classe j, data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c
–cj+ la borne superieure de la classe j, /sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
[cj− , cj+ [ Eff EffCum Freq FreqCum
– cj = (cj+ + cj− )/2 le centre de la classe j,
[150, 155[ 8 8 0.16 0.16
–aj = cj+ − cj− l’amplitude de la classe j,
[155, 160[ 14 22 0.28 0.44
– nj l’effectif de la classe j,
[160, 165[ 15 37 0.30 0.74
– Nj l’effectif cumulé de la classe j,
[165, 170[ 8 45 0.16 0.90
– fj la fréquence de la classe j,
[170, 175[ 5 50 0.10 1.00
– Fj la fréquence cumulée de la classe j.
63
50 1.00 64
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

L’histogramme des fréquences La fonction de répartition

La fonction de répartition F(x) est une fonction de R dans [0, 1],


qui est définie par :

x < c1−

 0
fj


F (x) = Fj−1 + c + −c − (x − cj ) cj− ≤ x < cj+ (2)
j j
cJ− ≤ x

1

En langage R
y= c(0,0,cumsum(T5c/sum(T5c)),1) x=
c(148,151,155,159,163,167,171,175) plot(x,y,type="b"

En langage R
hist(S,breaks=c(150,155,160,165,170,175), freq=FALSE,
xlab="",ylab="",main="",xaxt = "n")
65 66
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

La fonction de répartition

Figure : Fonction de répartition d’une distribution groupée


67 68
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

La régression linéaire

Outils et Logiciel statistiques


3me M.Q -Le modèle linéaire simple est : yi = β0 + β1 xi + εi
Chapitre 4 Estimation d’un modèle linéaire avec le logiciel R -Pour estimer une régression linéaire, par la méthode
des MCO, on utilise la fonction lm().
Sami Mestiri
-Exemple : x=rnorm(50) ; y=0.5*round(x,3)+2.8
mod1=lm(x∼y)
Faculté des sciences économiques et de gestion de Mahdia,
Université de Monastir, Tunisie. -Tapez mod1, summary(mod1), plot(mod1)
mestirisami2007 ∂ gmail.com
Pour le tableau d’analyse de la variance on tape :
2019-2020 anova.lm(mod1)

69 70
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Exemple 1 : Problème cardiaque La base de données


Coeur Age Taux Angine
p 46 144 0
J Les données comportant 20 observations, une p 62 154 1
variable d’intérêt et 3 variables prédictives. p 35 156 1
a 67 160 0
J L’objectif est de prédire la présence ou l’absence a 65 140 0
d’un problème cardiaque (Coeur) à partir de son Age p 49 126 0
a 47 143 0
, du Taux maximum de pression sanguine et a 58 165 0
l’occurrence d’une Angine de poitrine. a 57 115 1
a 59 145 0
J Les variables de l’étude : a 44 175 0
a 41 153 0
Y : Coeur ("présence" = "p" et "absence" = p 50 126 1
"a")(binaire) a 54 152 0
a 52 169 0
X1 : Age (quantitative ) a 57 168 1
X2 : Taux maximum de sanguine, (quantitative ) a 50 158 0
p 49 139 0
X3 : Angine de poitrine (binaire ) a 44 170 0
71 a 49 171 0 72
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Importation des données Statistiques descriptives des variables

J Il faut d’abord préparer la base de données sous


xls. J Pour avoir les statistiques de toutes les variables
Ensuite, Il faut enregistrer les données sous forme de la base, la commande est simplement :
"txt" (exemple "base.txt"), on la place par défaut summary(base)
dans "Documents" ou mes documents dans les J La variable "Coeur" n’est pas numérique ) "Ind :
versions antérieures de Windows. numérique et binaire". La commande de
J Pour importer des données on peut utiliser la transformation est :
fonction : tab1$Ind= numeric(20)
tab1=read.table(file="base.txt", header=T). for (i in 1 :20) if (tab1$Coeur[i] == "p")
tab1$Ind[i] <- 1 else tab1$Ind[i] =0
J Ensuite, pour visualiser la base, la commande
est :base
73 74
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Matrice des corrélations des variables Régression linéaire

On souhaite expliquer "Ind" en fonctions du reste des


J Il faut d’abord sélectionner uniquement les variables. Régression linéaire, la commande est :
variables numériques. Pour ce faire la commande est : reg = lm(Ind ∼ Age + Taux + Angine)
tab=base[c("Age","Taux","Angine","Ind")] summary(reg)
Puis, on lance la commande :cor(tab) anova(reg)
J Si on souhaite sélectionner une partie de la base en On souhaite voir la droite de régression linéaire simple
prenant par exemple que ceux qui ont un problème de plot(Taux ∼ Age)
coeur. La commande de transformation est : abline(lm(Taux ∼ Age))
base0 = base[which(base$Coeur == "a"),] Régression logistique, la commande est :
logit = glm(Ind ∼ Age + Taux + Angine, family =
”binomial”)
75 76
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Exemple2 : Ventes d’une entreprise de distribution Ventes d’une entreprise de distribution


tab<-read.table("vente.txt",header=T)
Date Vente Revidism
1981 2,445 2128 J Pour visualiser les données il suffit de taper le nom
1982 3,376 2261 de l’objet expl tab
1983 4,667 2428
1984 6,401 2669 J Pour nommer les variables on utilise la commande
1985 8,401 2839
names()
1986 11,909 3013
1987 15,959 3195 names(tab) <- c("Vente", "Revidism")
1988 20,65 3479
1989 25,811 3726 Vente renvoie un message d’erreur : variable
inconnue !
Ventes : Les ventes totales de tous les magasins de l’entreprise. J attach(tab) permet d’utiliser les colonnes comme
Revidism : Le revenu disponible des ménages.
vecteurs, en les appelant simplement par leur nom
Vente renvoie maintenant la liste attendue.
77 78
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Indexation Présentation graphique

JSi on veut extraire les 4 premières observations de


la variable vente : J Examinons le diagramme de dispersion (ou nuage
vent4<-tab[1 :4,1] de points) des données afin de voir s’il existe une
JSi on veut extraire les 2 premières observations de tendance linéaire entre les variables :
tous les variables : plot(Vente,Revidism)
tab2<-tab[1 :2,] plot(log(Vente),log(Revidism))
J Si on veut exclure les 2 premières observations de J Les logarithmes de données observées nous
la variable vente permettent de détecter une dépendance linéaire très
vent21<-tab[-(1 :2),1] ;(indexation par un vecteur forte entre log(vente) et log(revendism.)
d’entiers négatifs)

79 80
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Les objectifs de cette étude Le modèle étudié

-Les achats des ménages dans les magasins de cette log (Vente)t = β0 + β1 log (Revidism)t + εt
entreprise augmentent-ils plus vite, aussi vite ou β1 est l’élasticité des ventes au revenu.
moins vite que le revenu disponible des ménages ?
εt est le terme d’erreur càd la partie de l’évolution du
-Comment chiffrer à l’avance la croissance des ventes log du ventes qui ne s’explique pas linéairement par
de l’entreprise résultant d’une croissance donnée de l’évolution du log du revenu.
revenu disponible des ménages ?
lm2=lm(log(Vente)∼log(Revidism))
summary(lm2)

81 82
Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continue Les concepts de base statistique Variable qualitative nominale Variable quantitative discrète Variable quantitative continu

Les interprétations

Estimate Std. Error t value Pr(>|t|)


β1 -31.6816 0.8992 -35.23 0.0000 En supposant que l’élasticité reste stable dans le
β2 4.2571 0.1132 37.61 0.0000
temps, et si on prévoit une croissance de 1.5 % du
β1 = 4.257 =⇒ de 1981 à 1989, une augmentation de 1% du revenu disponible des ménages, nous pouvons inférer
revenu disponible des ménages induit en moyenne une une prévision de croissance de 4.257*1.5=6.385 %
augmentation de 4.257% des ventes de l’entreprise.
des ventes de l’entreprise.
β1 > 1 =⇒ Les achats des ménages dans les magasins de cette
entreprise augmentent plus vite que le revenu disponible des
ménages.

View publication stats


83 84

Vous aimerez peut-être aussi