Vous êtes sur la page 1sur 22

STATISTIQUES II

Date : 10-05-2021

Produit livrable 2

NOM : Jairo Luis Valadez Almaguer

THEME : Analyse de régression

ENSEIGNANT : CLAUDIA ZAPATA GARZA


Semaine 3

INTRODUCTION :

Une analyse de la variance (ANOVA) teste l'hypothèse selon laquelle les moyennes de deux ou plusieurs
populations sont égales. Les ANOVA évaluent l'importance d'un ou de plusieurs facteurs en comparant les
moyennes de la variable réponse à différents niveaux de facteurs. L'hypothèse nulle stipule que toutes les
moyennes de la population (moyennes des niveaux des facteurs) sont égales, tandis que l'hypothèse
alternative stipule qu'au moins l'une d'entre elles est différente. Pour effectuer une ANOVA, vous devez
disposer d'une variable de réponse continue et d'au moins un facteur catégorique à deux niveaux ou plus.
Les analyses ANOVA nécessitent des données provenant de populations qui suivent une distribution
approximativement normale avec des covariances égales entre les niveaux de facteurs. L'objectif principal
est de donner une vue comparative des différentes méthodes statistiques telles que (ANOVA, MANOVA et
MODÈLES MIXTES) d'un point de vue pratique dans l'environnement des applications médicales : (ANOVA,
MANOVA ET MODÈLES MIXTES) d'un point de vue pratique dans l'environnement des applications
médicales, pour chacune des méthodes une brève introduction et une discussion des conditions
d'application qui nous permettent d'avoir une idée du type de conceptions dans lesquelles elles peuvent
être utilisées et enfin, l'analyse des données du résultat d'un essai clinique où l'état de chaque individu est
déterminé sur trois instants de temps (temps, série temporelle) sera effectuée.Enfin, l'analyse des données
du résultat d'un essai clinique où l'état de chaque individu est déterminé sur trois instants de temps (t1, t2
et t3), sous deux facteurs (contrôle et traitement), sera effectuée, concluant que le principal inconvénient
réside dans la restriction de la matrice de covariance (t1, t2 et t3), et que le principal inconvénient réside
dans la restriction de la matrice de covariance (t1, t2 et t3).Cela limite la méthode univariée, mais moins la
méthode multivariée, qui nécessite que les données soient équilibrées et complètes, ce qui est très difficile,
c'est pourquoi la dernière méthode utilisée a été le modèle mixte.Par conséquent, la dernière méthode
utilisée a été le modèle mixte, qui s'adapte bien à la matrice de corrélation et aux données déséquilibrées,
ce qui permet de conclure que les modèles mixtes s'adaptent bien aux données à mesures répétées.

Objectif : Résoudre un problème d'application en utilisant la méthode de l'analyse de variance à un facteur


(ANOVA).

Développement

Alerce Austral doit expédier une commande de divers articles produits dans son usine de Mexico, CDMX, à
son magasin de Guadalajara. Le directeur de l'usine du CDMX décide d'expédier les marchandises par voie
aérienne. Le directeur des transports propose donc plusieurs solutions pour acheminer les marchandises de
l'usine à l'aéroport international de Mexico (AICM) : le Viaducto Miguel Alemán, le Río la Piedad et le Río
Churubusco. Le directeur des transports souhaite quant à lui analyser le temps nécessaire pour transporter
des marchandises de l'usine à l'AICM en empruntant chacun des itinéraires proposés, puis comparer les
résultats. La collecte des données de l'échantillon, exprimée en minutes, est présentée dans le tableau 2.

Tableau 2. Temps de transport des cargaisons de l'usine à l'AICM


N Rio Churubusco Viaducto Miguel Rio la Piedad (durée
(durée en minutes) Alemán (temps en en minutes)
minutes)
1 52 59 56
2 67 60 71
3 56 61 60
4 45 51 49
5 70 56 74
6 54 63 58
7 64 57 68
8 60 65 64

En considérant un niveau de signification de 0,10, répondez aux questions suivantes au directeur des
transports :

a) Existe-t-il une différence dans le temps nécessaire pour transporter une cargaison de l'usine du CDMX à
l'AICM via les deux itinéraires recommandés ? Il n'y a pas de différence dans le temps de transport du fret
sur les deux itinéraires.

b) Les écarts types de chacune des voies choisies sont-ils identiques ou différents ? Si c'est le cas, qu'est-ce
que cette différence implique en termes statistiques ? Les écarts types sont différents pour chacune des
filières choisies. En termes statistiques, il s'agit d'une mesure de la dispersion des données, plus la dispersion
est grande, plus l'écart-type est important.

c) Quel type d'analyse statistique utiliserez-vous pour répondre à la question ? Veuillez justifier votre
réponse. L'analyse statistique à utiliser devrait être une analyse de variance ou ANOVA, puisque nous
comparons les moyennes de deux populations avec des échantillons de même taille.

d) Quelle statistique de test devriez-vous utiliser ? La statistique à utiliser est la distribution de Fisher.
Pourquoi ?
Comme elle est utilisée pour comparer les variances de deux populations, il s'agit d'une distribution
asymétrique à droite, décrite par les différents degrés de liberté de son numérateur et de son
dénominateur.

Considérant que les échantillons sont de même taille, pour l'analyse de la variance nous avons ce qui suit :

H0 : μ1 = μ2

H1 : μ1 ≠ μ2

Valeurs critiques

gl1 = k-1 = 2 -1 = 1

gl2 = k(n - 1) = 2 (8 - 1) = 14

α = 0.11 – α = 1 – 0.1 = 0.90

De tables

F0.1,1,14 = 3.102
Rivière Churubusco

X1=52+67+56+45+70+54+64+60= 58.5

Viaduc Miguel Alemán

X2=59+60+61+51+56+63+57+65= 59

Rivière La Piedad

X3=56+71+60+49+74+58+68+64= 62.5

8
La statistique de test à utiliser est le F de Fishe.

Dans le graphique

CONCLUSION

Avantages et limites de l'analyse de la variance (ANOVA) L'analyse de la variance (ANOVA) est une technique
statistique permettant de tester des hypothèses. Traditionnellement, ces techniques, ainsi que les
techniques de régression linéaire multiple, dont elles sont presque une extension naturelle, marquent le
début des techniques multivariées. Avec ces techniques, plus de deux variables sont manipulées
simultanément et la complexité de l'appareil mathématique augmente proportionnellement au nombre de
variables impliquées. L'analyse de variance à un facteur est le modèle le plus simple : une seule variable
indépendante nominale, à trois niveaux ou plus, explique une variable dépendante continue. Une autre
alternative, apparemment plus logique et intuitive, consiste à comparer, dans toutes les combinaisons
possibles deux à deux, les moyennes de tous les sous-groupes formés. Cela entraîne fondamentalement
deux types de problèmes : a). - Le risque d'un résultat faussement positif est accru si l'on effectue plus d'une
analyse sur le même ensemble de données. b). - Il est difficile d'interpréter l'influence réelle de la variable
agissant comme facteur de classement, car elle génère différents niveaux de signification (p) résultant des
comparaisons entre ses sous-groupes. L'ANOVA élimine ces inconvénients. Avec ces techniques, l'influence
de chaque variable indépendante est analysée globalement, générant un seul niveau de signification.
L'analyse de la variance permet d'analyser simultanément l'influence de deux ou plusieurs facteurs de
classification (variables indépendantes) sur une variable réponse continue. C'est ce que l'on appelle l'analyse
factorielle de la variance. L'effet d'un facteur peut s'ajouter à l'effet d'un autre facteur (modèle additif) ou
être renforcé (modèle multiplicatif). Dans ce dernier cas, un nouveau facteur d'interaction apparaît et est
analysé sur la variable réponse, en tant que résultat de l'action conjointe de deux ou plusieurs facteurs. Cet
effet possible est détecté dans l'analyse de la variance par la signification de la statistique de contraste
correspondante. Les techniques d'analyse de la variance, basées sur la partition de la variabilité (somme des
carrés) de la réponse étudiée, servent de base à l'analyse des distributions de données générées dans des
plans plus complexes, tels que l'analyse de la covariance. Dans ce dernier type d'analyse, les variables
explicatives discrètes et continues sont combinées. La variabilité de la réponse est analysée comme dans
l'analyse factorielle de la variance, une fois que l'influence éventuelle de la ou des variables explicatives
continues a été supprimée. Cela serait analogue à l'analyse de la variance des résidus, c'est-à-dire que les
résidus de la régression sont analysés au lieu des données initiales. D'autres modèles plus complexes sont
l'analyse de mesures répétées sur les mêmes unités expérimentales, l'analyse de plans transversaux, les
analyses imbriquées ou l'analyse de la variance factorielle avec des informations incomplètes. L'ANOVA
compare des moyennes et non des variances : les moyennes des sous-groupes ou strates issus des facteurs
de classification étudiés. Dans ces techniques, l'hypothèse alternative est multiple, car elle englobe
différentes hypothèses.
Semaine 4

Introduction

Les statistiques non paramétriques sont une branche de l'inférence statistique dont les calculs et les
procédures sont basés sur des distributions inconnues. Les statistiques non paramétriques ne sont pas très
populaires. Cependant, il existe une littérature très abondante à ce sujet. Le problème que les statistiques
non paramétriques visent à résoudre est le manque de connaissance de la distribution de probabilité. En
d'autres termes, les statistiques non paramétriques tentent de découvrir la nature d'une variable aléatoire.
Une fois qu'il sait comment il se comporte, il effectue les calculs et les mesures qui le caractérisent.

C'est l'objet des statistiques non paramétriques.

Les statistiques paramétriques s'appuient sur différents types de distributions de probabilités. Cependant,
lorsque nous ne savons pas à quel type de distribution de probabilité correspond une variable, quels calculs
devons-nous effectuer ? En d'autres termes, lorsque nous ne connaissons pas la distribution de probabilité
d'un ensemble de données, nous devons faire des déductions statistiques à l'aide de procédures non
paramétriques. En d'autres termes, si nous ne connaissons pas le type de distribution de probabilité d'un
phénomène, nous ne pouvons pas faire d'estimations comme si nous savions réellement comment il est
distribué. C'est l'objectif des statistiques paramétriques, qui nous permettent de connaître la distribution.

Objectif : Effectuer le test du signe et résoudre un problème d'application.

Développement

Le PDG d'Alerce Austral a recommandé l'élaboration d'un programme de formation pour ses cadres afin
d'accroître leurs connaissances en matière de gestion d'entreprise. Un échantillon de 15 managers a été
sélectionné au hasard et examiné par un panel d'experts en gestion. Ils ont permis de déterminer le niveau
général de connaissances de chaque gestionnaire participant par rapport au thème de la formation. La
compétence et la compréhension du sujet ont été jugées "excellentes", "bonnes", "moyennes" ou
"médiocres". Le programme de formation a duré trois mois. Par la suite, la même équipe d'experts en
management a réévalué et noté chacun des managers ayant suivi la formation. Le tableau 3 contient les
évaluations obtenues avant et après la formation. Le signe + indique que les compétences et la
compréhension du sujet par le gestionnaire se sont améliorées, tandis que le signe - indique une baisse des
compétences et de la compréhension des personnes après le programme de formation. Les cadres sont-ils
plus compétents en matière de gestion d'entreprise après le programme de formation ?

Tableau 3. Niveau de compétence des managers avant et après le programme de formation


N Nom Anciennement Dans ce cas Signe de
déférence
1 Claudio Rojas Insuffisante Bon +
2 Juan Pérez Bon Excellent +
3 Andrea Schmidt Bon Régulière -
4 Claudia Tello Régulière Excellent +
5 Mario Ponce Bon Excellent +
6 José Gómez Insuffisante Bon +
7 Marisol Colunga Bon Insuffisante -
8 Juana Pardo Bon Excellent +
9 Andrés Fonseca Insuffisante Régulière +
10 John Smith Bon Excellent +
11* Armando Tejeda Excellent Excellent 0*
12 Rodrigo Paredes Insuffisante Bon +
13 Josefina Muñoz Excellent Bon -
14 Lewis Thomas Régulière Excellent +
15 Mary Stewart Bon Excellent +

La question suivante doit être communiquée au chef d'entreprise : les cadres sont-ils plus compétents en
matière de gestion d'entreprise après le programme de formation ? Pour répondre à la question,
considérons un niveau de signification de 0,1. Avant de répondre, réfléchissez : Quelle méthode statistique
devriez-vous utiliser pour répondre, paramétrique ou non paramétrique ?

La méthode statistique utilisée pour l'analyse est un test non paramétrique. Si vous choisissez une méthode
non paramétrique, laquelle est spécifiquement la plus appropriée ? Pourquoi ? Justifiez vos réponses. La
méthode statistique la plus appropriée est le test du contraste des signes, choisi parce que le tableau des
résultats montre les différences avec des signes. La raison pour laquelle cette solution est considérée
comme la plus appropriée est expliquée ci-dessous.
Énoncé du problème

Nous établissons les hypothèses

H0 : P = 0,5

H1 : P > 0,5

α = 0.10 => 1-α= 0.90

P -> pourcentage de différences positives qui existent dans l'ensemble de la population par rapport à un
changement.

Qualification Anciennement Dans ce cas Différence (D-A Signes


Insuffisante 4 1 -3 -
Régulière 2 2
Bon 7 4 -3 -
Excellent 2 8 6 +

Calcul de la statistique de test Z

X=1 il n'y a qu'un seul signe positif

n=3 sont 3 différences non nulles

Z= 2x-n

√n

Z = 2 ( 1 ) - 3 = - 0 . 5 7 7 3

√3

D'après les tableauxα = 10 % = 0,10

1- α =1-0.10= 0.90 comme il s'agit d'un test à queue droite, nous ne prenons en compte que la moitié, ce qui
donne (1- α) /2=0.45
Comme 0,45 se situe entre les valeurs
0,4495 et 0,4504, la valeur de Z est de
1,6 et entre 0,4 et 0,5, ce qui donne
une valeur de 1,645.

Z= 1.645

Sur la base des résultats obtenus pour Z (tableaux et calculs), H0 est acceptée.

Il n'y a pas de différence significative entre avant et après le programme de formation.


Nous établissons les hypothèses

H0 : P = 0,5

H1 : P > 0,5

α = 0.10 => 1-α= 0.90

Qualificatio Ancienne Dans ce Différence Rangs Positions Positions


n ment cas (D-A) négatives positives
Insuffisante 4 1 -3 1 1.5
Régulière 2 2
Bon 7 4 -3 2 1.5
Excellent 2 8 6 7 7
SUMA 3 7

Puisque la plus petite des sommes est la valeur de Wilcoxon

Calculée T = 3

Tα, n=T0.1,3,3D'après les tableaux

Comme la table de Wilcoxon ne


traite que des entiers, on en déduit
que pour une valeur de n=3, il s'agit
d'une très petite valeur entre zéro et
un, pour α=0,10.

Comme nous n'avons pas de valeur pour T, nous pouvons déclarer que cette méthode ne s'applique pas à la
résolution de ce problème. Bien que les valeurs obtenues permettent d'accepter H0
Test U de Mann-Whitney

Nous établissons les hypothèses

H0 : P = 0,5

H1 : P > 0,5

α = 0.10 => 1-α= 0.90

Anciennement Gamme Dans ce cas Gamme


4 5.5 1 1
2 3 2 3
7 7 4 5.5
2 3 8 8
Somme 18.5 Somme 17.5

U = n1 n2 + n1(n1+1)-R1

Calcul pour avant

U=4*4+4(4+1)-18.5 =7.5

Calcul pour l'après

U=4∗4+4(4+1) -17.5 =8.5

Calcul de Z
De tables

Z=1.645

L'hypothèse H0 est acceptée sur la base des résultats obtenus. Le test est pour n ≥ 10, cette statistique ne
devrait pas être utilisée pour ce problème.
Conclusion

La question suivante doit être communiquée au chef d'entreprise : les cadres sont-ils plus compétents en
matière de gestion d'entreprise après le programme de formation ? Pour répondre à la question,
considérons un niveau de signification de 0,1. Avant de répondre, réfléchissez : Quelle méthode statistique
devriez-vous utiliser pour répondre, paramétrique ou non paramétrique ?

La méthode statistique utilisée pour l'analyse est un test non paramétrique. Si vous choisissez une méthode
non paramétrique, laquelle est spécifiquement la plus appropriée ? Pourquoi ? Justifiez vos réponses. La
méthode statistique la plus appropriée est le test du contraste des signes, choisi parce que le tableau des
résultats montre les différences avec des signes. La raison pour laquelle cette solution est considérée
comme la plus appropriée est expliquée ci-dessous.
Semaine 5

Introduction

a) Quel type d'analyse statistique devez-vous effectuer pour pouvoir dire au responsable de la publicité s'il
existe une relation entre les dépenses publicitaires et les recettes des ventes ? S'il y a une relation, de quel
type serait-elle ? Veuillez justifier votre réponse. Pour l'analyse des données présentées, il convient d'utiliser
la méthode de l'analyse de corrélation simple et de régression. Si une relation est trouvée en analysant les
données par la méthode ci-dessus, le type de relation sera une simple corrélation.

b) Vous souhaitez prévoir les ventes en fonction des dépenses publicitaires. Quelle est la variable
indépendante ? Quelle est la variable dépendante ? Veuillez justifier votre réponse. La variable dépendante
est le chiffre d'affaires. La variable indépendante est la dépense publicitaire.

c) Dessinez le diagramme de dispersion.

d) Déterminer le coefficient de corrélation.

e) Interprétez la force de la relation entre les variables. La relation entre les variables peut être décrite
comme élevée et parfaitement positive.

f) Déterminer l'équation de la droite de régression linéaire et expliquer la signification des valeurs calculées.

g) Dessinez le diagramme avec la ligne de régression linéaire.

h) Expliquez comment les changements dans les dépenses de publicité affecteront les recettes des ventes.
Les dépenses de publicité sont proportionnelles aux revenus.

i) Prévoir le montant du chiffre d'affaires si les dépenses publicitaires étaient respectivement de 15, 25 et 9,5
millions de pesos. Justifiez votre réponse et effectuez les calculs correspondants. Lorsque les calculs
correspondants sont effectués avec les dépenses publicitaires indiquées, on constate qu'il existe une
relation directe : plus les dépenses publicitaires sont élevées, plus les bénéfices sont importants. Pour
l'élaboration des points c, d, e, f, g et i, les éléments suivants sont présentés ci-dessous.
Développement

Afin de maintenir sa position sur le marché national, Alerce Austral fait beaucoup de publicité sur Internet, à
la télévision et à la radio, en mettant en avant ses prix bas et ses facilités de crédit. Le directeur financier
souhaite étudier la relation entre les dépenses consacrées aux campagnes publicitaires et le chiffre d'affaires
réalisé entre janvier et juin 2014. Les informations recueillies sont présentées dans le tableau 4.

Tableau 4
Mois Janvi Février Mars Avril Mai Juin
er
Dépenses publicitaires (millions de 4 2 6 8 12 10
pesos)
Chiffre d'affaires (millions de pesos) 14 6 16 20 24 22

Répondez maintenant aux points suivants :

Dépenses de Chiffre d'affaires X*y X2 Y2


publicité
x y
4 14 56 16 196
2 6 12 4 36
6 16 96 36 256
8 20 160 64 400
12 24 288 144 576
10 22 220 100 484
Σ 42 Σ 102 Σ 832 Σ 364 Σ 1948
X7 Y17

La représentation graphique des données permet d'obtenir le diagramme de dispersion.

0 2 4 6 8 10 12 14
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14
0
5
10
15
20
25
30
Pour le coefficient de corrélation.

Pour trouver l'équation de la droite de régression linéaire, nous utilisons l'équation de la droite comme base,
en effectuant les calculs correspondants.
Enfin, et pour comprendre la relation avec les statistiques, en calculant l'écart-type, nous avons :
CONCLUSION

Pour l'élaboration de ce rapport, j'ai observé l'importance et la différence de chacune des méthodes utilisées
pour répondre à chacune des questions posées par l'entreprise. Il existe aujourd'hui un grand nombre de
sources d'information pour les tests d'hypothèses utilisés, mais c'est l'importance de les analyser en fonction
des données disponibles qui fait la différence dans l'application et l'interprétation des résultats. La plupart
des sources bibliographiques sont des applications statistiques sans lien avec les processus d'entreprise ou la
vie quotidienne ; la bibliographie utilisée aide à comprendre les problèmes car elle est développée d'un
point de vue managérial et facilite donc la compréhension et l'application.

Je considère que ce sujet est très prometteur pour le développement de l'emploi, car il est d'une importance
vitale de savoir comment utiliser les statistiques dans n'importe quel domaine, y compris dans de nombreux
problèmes d'ingénierie, de science et d'administration, qui nécessitent une décision entre l'acceptation ou le
rejet d'une proposition concernant un paramètre de la population.

Références

Triola, M. (2013)Statistiques(11e éd.). Mexique : Pearson Educación.

Chapitre 12, Analyse de la variance

Triola, M. (2013)Statistiques(11e éd.). Mexique : Pearson Educación.

Chapitre 13. Statistiques non paramétriques

Triola, M. (2013)Statistiques(11e éd.). Mexique : Pearson Educación.

Chapitre 10, "Corrélation et régression".

Vous aimerez peut-être aussi