Corrige CT RST Meca S5 22-23

Module Statistique-Probabilité
Analyse de donnée avec R

Année 2022-2023
Epreuve Contrôle Terminal
Filière Génie Mécatronique/RST/ Electrique
Date 02/01/2023
Durée 1H30
Nom et prénom : ………………………………………………………………………….

Note :………………………………………………………………………………………
QUIZ
Vrai Faux
1 La statistique est la discipline qui étudie des phénomènes à travers la collecte de
données, leur traitement, leur analyse, l'interprétation des résultats
2 En stochastique, un phénomène est décrit par un ensemble de variable, ces
variables sont dites aléatoires
3 Une variable aléatoire est une série de valeur numérique uniquement selon une
loi de répartition
4 L’analyse de donnée est l’ensemble des techniques statistiques utilisées pour le
traitement des données.
5 Les techniques d’analyse de donnée utilisent des lois mathématiques pour décrire
les phénomènes et pas la prédiction des comportements, ceci n’est du sort des
statisticiens mais des magiciens
6 Les grandes étapes d’analyse de donnée sont : 1- Définition des données et
problématique, 2- Prétraitement, 3-Analyse, 4-Interpretation des résultats
7 La normalité consiste à vérifier la distribution des variables discrètes, s’ils suivent
la loi normale
8 Le Shapiro.test est le seul test à faire pour vérifier la normalité, quand le p-value
est inférieur au seuil de significativité, la distribution est dite quasi-normale.
9 La quasi-normalité consiste à vérifier l’allure de la distribution, en utilisant par
exemple la fonction density ou bien les indicateurs de symétrie et d’aplatissement
10 Si une variable quantitative n’est pas normale ni quasi-normale, alors on cherche
la normalité des variables qualitatives
11 Le nettoyage des données consiste à utiliser la fonction is.na() pour identifier les
valeurs manquantes et aberrantes
12 La boucle ci-dessous permet d’identifier une valeur aberrante pour la variable
age :
for( i in 1:length(Exo2$Age)){
if(!is.na(Exo2$Age[i])){
if(Exo2$Age[i] == boxplot.stats(Exo2$Age)$out[i]){
Exo2$Age[i] = NA
}
}
}
13 Le seuil de significativité est la probabilité de trouver H0
14 Ce code source est incorrecte :
if(is.character(Exo2$Sexe))
{
for(i in 1:length(Exo2$Sexe)){
if(Exo2$Sexe[i] = "1"){
Exo2$Sexe[i] = "Homme"
}
if(Exo2$Sexe[i] = "2"){
Exo2$Sexe[i] = "Femme"
1
 BON COURAGE - ‫ بالتوفيق‬- GOOD LUCK 
Année 2022-2023
Date 02/01/2023
Durée 1H30
}
}
Exo2$Sexe = factor(Exo2$Sexe)
}
15 Une variable ordinale est une variable catégorielle dont les modalités expriment
un ordre conventionnel
16 L’analyse à composante principale est une analyse qui permet d’identifier les
valeurs non normale
17 Le test Khi-deux est un test d’hypothèse paramétrique sur une variable
catégorielle ordinale uniquement
18 Langage R - est un langage de programmation interprété, multiplateformes
(Windows, Unix/Linux, Mac…). Il favorise la programmation
impérative structurée et réflective . Il est doté d'un typage dynamique fort, d'une
gestion automatique de la mémoire par ramasse-miettes et d'un système de
gestion d'exceptions (comme python).
19 Le typage dynamique fort permet à R de passer d’une variable à une autre variable
sans préciser le type préalablement
20 Dès qu’on ne trouve pas la normalité vérifié, on ne peut utiliser que le khi-deux
pour tester les hypothèses.
21 Une hypothèse est une phrase verbale affirmative uniquement et qui représente
une possible réponse à la question de l’étude
22 Le Plan d’échantillonnage n’est définit que lorsque la population est connu
23 Si la population est inconnue on utilise la formule :
Le z est l’intervalle de confiance

Le p est la probabilité
Le n la taille de la population
24 Une population connu est un sous échantillon dont les individus sont connu
d’avance et inscrit dans une liste, dans ce cas de figure le plan d’échantillon à
utiliser est aléatoire, dont le stratifié, le par quota et l’aléatoire simple sont des
modes d’échantillonnage possible dans ce cas.
25 Le test t ou le test de student permet de comparer les moyennes d’une variable
quantitative entre deux groupes et il permet de conclure à l’association possible
entre les variables. La fonction utilisée en R est : t.test()
26 Dans la phase d’analyse de donnée, le premier test à effectuer est le test sur
l’échantillonnage si il est représentatif, équilibré ou non représentatif
27 Pour tester l’équilibre sur la variable sexe, ci-dessous la commande à utiliser :
chisq.test(table(d$Sexe))
si le p-value est supérieur à 0, le test d’équilibre est dit validé
28 Le test de Kruksal est à utiliser toujours pour confirmer l’association entre
variable quantitative et une autre qualitative à plusieurs niveaux
29 Dès qu’on teste l’équilibre de l’échantillon, on valide la représentativité de
l’échantillon par rapport à la population et on entame la confirmation des
hypothèses d’étude
2
Année 2022-2023
Date 02/01/2023
Durée 1H30
30 Lors de l’induction des items depuis la phase des interviews, l’analyste de donnée
a formulé les items suivants :
- Item 1 : La maitrise des langues contribue à améliorer l’employabilité des
étudiants
- Item 2 : L’autonomie contribue à améliorer l’employabilité des étudiants
- Item 3 : La prise d’initiative contribue à améliorer l’employabilité des
ouvriers
- Item 4 : L’esprit d’équipe contribue à améliorer l’employabilité des
étudiants
L’alpha de cronbach est attendu qu’il soit accepté et satisfaisant
31 Pour valider l’hypothèse formulé dans l’Item 1 (question 30), on devrait d’abord
vérifier la normalité de cet item, ensuite on vérifie si les effectives théoriques et
observés avec le test de Khi-deux et on conclut en utilisant les fréquences des
réponses
32 Il y a une confusion sur l’Item 2, c’est quand H0 est accepté et H1 rejeté du test
Khi-deux
33 Le code ci-dessous permet de vérifier, s’il y a une différence significative entre
les moyennes revenues des hommes et des femmes :
summary(Exo2$Age)
shapiro.test(Exo2$Age)
library(moments)
skewness(Exo2$Age)
kurtosis(Exo2$Age)
hist(Exo2$Age)
wilcox.test(Exo2$Age~Exo2$Sexe)
t.test(Exo2$Age~Exo2$Sexe)
cor.test(Exo2$Age,Exo2$`Revenuen$`)
34 Les test wilcox.test et t.test sont utilisés quand la variable quantitative est quasi-
normale. Si il y a pas une concordance des résultats des tests, on favorise le test
non-paramétrique de comparaison de rang des moyennes
35 Le modèle de régression linéaires simple est un modèle de classification entre
plusieurs variables quantitatives à expliquer et explicatives
36 Le modèle de régression linéaire multiple repose sur les hypothèses :
- Les variables sont quantitatives uniquement et ils sont en association
- La variable quantitative à expliquer suit la normalité ou la quasi-
normalité
- Les coefficients sont significatives (le p-value supérieur à 5%)
- La valeur résiduelle suit la loi normale
- La colinéarité est vérifié (VIF inférieur à 10)
37 Les modèles de classification ou de clustering est possible pour les variables
quantitatives et qualitatives
38 L’analyse à composante principale est possible avec la librairie Rcmdr et
FactoMiner
39 L’analyse à composante principale est possible quand le KMO est supérieur à
0.6/0.7, un Alpha de cronbach est supérieur à 0.6/0.7. A partir de là
40 Sur cette examen si les étudiants obtiennes un p-value de l’hypothèse alternative
de khi-deux des fréquences des notes, supérieur à 5%, ceci signifie qu’il y a des
étudiants qui ont des notes similaires
3

Corrige CT RST Meca S5 22-23

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Corrige CT RST Meca S5 22-23

Transféré par

Droits d'auteur :

Formats disponibles

Module Statistique-Probabilité

Analyse de donnée avec R

Nom et prénom : ………………………………………………………………………….

Le z est l’intervalle de confiance

Vous aimerez peut-être aussi