Vous êtes sur la page 1sur 15

1. Un chef d’entreprise affirme que le solde moyen de ses cartes de crédit est de 500 $.

Pensez-vous que cette affirmation soit justifiée ? Utilisez un test t sur un échantillon pour
tirer votre conclusion.

Oui, le solde moyen de leurs cartes de crédit est de 500 $. L’affirmation est donc
justifiée. Cette conclusion est basée sur le test t sur un échantillon.

Explication :
Hypothèse nulle : le solde moyen de la carte de crédit est de 500 $
Hypothèse alternative : le solde moyen de la carte de crédit n'est pas de 500 $

Test t : deux échantillons en supposant des


variances inégales

Équilibre
Signifier 520.015
Variance 211378.2253
Observations 400
Moyenne hypothétique 500
df 399
t Statistique 0.870673781
P(T<=t) unilatéral 0.192227914
t Critique unilatéral 1.648681534
P(T<=t) à deux queues 0.384455827
t Bilatéral critique 1.965927296

Comme la valeur P d'un test final est supérieure à notre niveau de signification de 0,05,
l'hypothèse nulle ne peut pas être rejetée, c'est-à-dire que le solde moyen de la carte de
crédit est de 500 $.

2. Y a-t-il une différence entre les hommes et les femmes en ce qui concerne le solde
moyen ? Utilisez un test t à deux échantillons pour tirer votre conclusion.
Il n’y a pas de différence significative entre les hommes et les femmes en ce qui
concerne le solde moyen.
Explication :
Hypothèse nulle : le solde moyen des cartes de crédit des hommes et des femmes n’a aucune
différence.
Hypothèse alternative : le solde moyen des cartes de crédit des hommes et des femmes est
différent.

t-Test: Two-Sample Assuming Unequal Variances

Men Women
Mean 509.8031088 529.5362
Variance 213554.5652 210187.1
Observations 193 207
Hypothesized Mean Difference 0
df 396
t Stat -0.42838443
P(T<=t) one-tail 0.334302083
t Critical one-tail 1.648710601
P(T<=t) two-tail 0.668604165
t Critical two-tail 1.965972608

Impossible de rejeter l'hypothèse nulle µ1 est égal à µ2


Par conséquent, l’équilibre moyen entre hommes et femmes ne présente pas de
différences significatives, c’est-à-dire identiques.

3. Y a-t-il une différence entre étudiants et non-étudiants en ce qui concerne le solde moyen ?
Utilisez un test t à deux échantillons pour tirer votre conclusion.

Oui, il existe une différence significative entre les étudiants et les non-étudiants en ce qui
concerne le solde moyen.
Explication :
Hypothèse nulle : le solde moyen de la carte de crédit pour les étudiants et les non-étudiants
n'a aucune différence.
Hypothèse alternative : le solde moyen des cartes de crédit pour les étudiants et les non-
étudiants est différent.
Comme la valeur P du test bilatéral est inférieure à notre niveau de signification de 0,05,
l'hypothèse nulle peut être rejetée, c'est-à-dire que le solde moyen de la carte de crédit est
différent pour les étudiants et les non-étudiants.

4. On suppose généralement que s’il y a plus de cartes de crédit, le solde de ces cartes sera
plus élevé. Sur la base de cet ensemble de données, pensez-vous que cela soit vrai ? Calculez
un coefficient de corrélation et affichez un nuage de points pour étayer votre réponse.
Non, ce n'est pas vrai. Il n'y a aucune corrélation entre eux. Le coefficient de corrélation
est très inférieur .

Coefficient de corrélation:
Cards Balance
Cards 1
Balance 0.086456 1

Le coefficient de corrélation est presque égal à zéro, ce qui implique qu'il n'y a aucune
relation entre le nombre de cartes et le solde des cartes.
Nuage de points :
Les valeurs chutent de manière dispersée et ne suivent pas la ligne de tendance, la corrélation
est très moindre.

5. Examinez si les variables démographiques suivantes influencent l'équilibre : (a) l'âge, (b)
les années d'études, (c) l'état civil. Pour l’âge et les années d’études, utilisez des nuages de
points pour décrire leur relation avec l’équilibre et calculez le coefficient de corrélation. Pour
la relation entre l'état matrimonial et l'équilibre, utilisez un test t à deux échantillons pour tirer
votre conclusion.
Les variables démographiques âge, années d'études, statut martial n'ont aucune
influence sur le solde créditeur.
5a et 5b
Coefficient de corrélation:
Age Education Balance
Age 1
Education 0.003619 1
Balance 0.001835 -0.00806 1

Le coefficient de corrélation est presque égal à zéro, ce qui implique qu'il n'y a aucune
relation entre l'âge et l'éducation sur le solde créditeur.

Nuage de points :
Il est clair que la tendance ne montre aucune corrélation. Le solde créditeur ne dépend
donc pas de ces variables.

5c.
Hypothèse nulle : le solde moyen de la carte de crédit pour les célibataires et les mariés
est le même.
Hypothèse alternative : le solde moyen de la carte de crédit des célibataires et des
mariés est différent.

t-Test: Two-Sample Assuming Unequal Variances

Single Married
Mean 523.2903226 517.9429
Variance 221735.0385 205696.7
Observations 155 245
Hypothesized Mean Difference
0
df 319
t Stat 0.112233601
P(T<=t) one-tail0.455354389
t Critical one-tail
1.649644319
P(T<=t) two-tail0.910708777
t Critical two-tail
1.967428387

La valeur P est plus grande, donc hypothèse nulle, elle ne peut donc pas être rejetée, ce
qui signifie qu'il n'y a pas de changements significatifs dus à l'état matrimonial.
6 . L’origine ethnique du titulaire de la carte n’a pas d’importance en ce qui concerne le
solde. Effectuer une analyse de variance (ANOVA) et discuter si cette affirmation est étayée
par les données ou non
Hypothèse nulle : l'origine ethnique du titulaire de la carte n'a pas d'importance en ce qui
concerne le solde, c'est-à-dire la même
Hypothèse alternative : l'origine ethnique du titulaire de la carte est importante pour
l'équilibre

Sur la base de l'ANOVA, il est clair que la valeur P est supérieure à 0,05. L'origine ethnique
n'a donc aucun impact sur l'équilibre.

Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
African American 99 52569 531 235839.2
Asian 102 52256 512.3137 231748.3
Caucasian 199 103181 518.4975 190922.4

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 18454.20047 2 9227.1 0.043443 0.957492 3.018452
Within Groups 84321457.71 397 212396.6

Total 84339911.91 399

7. Un principe général que les sociétés émettrices de cartes de crédit suivent souvent est
d'attribuer une limite de crédit plus élevée aux personnes ayant une cote de crédit plus élevée.
Les données montrent-elles que ce principe est suivi ?
Oui, ce principe est suivi.

Coefficient de corrélation:
Limit Rating
Limit 1
Rating 0.99688 1

Il y a un bon accord.
Nuage de points :

Les sociétés émettrices de cartes de crédit suivent souvent le fait d'attribuer une limite
de crédit plus élevée aux personnes ayant une cote de crédit plus élevée, ce qui est vrai
dans notre cas. Cela se justifie sur la base de la corrélation.

8. Exécutez une simple régression linéaire du solde sur la limite de crédit. (Ici, la limite de
crédit est le X et le solde est le Y). Indiquez les coefficients et le R au carré. Montrez un
nuage de points.

Régression linéaire simple :


SUMMARY OUTPUT

Regression Statistics
Multiple R 0.861697
R Square 0.742522
Adjusted R Square 0.741875
Standard Error 233.585
Observations 400

ANOVA
df SS MS F Significance F
Regression 1 62624255 62624255 1147.764 2.5E-119
Residual 398 21715657 54561.95
Total 399 84339912

Coefficients
Standard Error t Stat P-value Lower 95%Upper 95%Lower 95.0%
Upper 95.0%
Intercept -292.79 26.68341 -10.9728 1.18E-24 -345.249 -240.332 -345.249 -240.332
Credit Limit 0.171637 0.005066 33.87867 2.5E-119 0.161677 0.181597 0.161677 0.181597

Nuage de points :

La limite de crédit est un indicateur important. Il a une corrélation décente, c'est-à-dire R 2 =


0,74
9. Exécutez une régression linéaire simple du solde (Y) sur la cote de crédit (X). Indiquez les
coefficients et le R au carré. Afficher un nuage de points
Régression linéaire simple :
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.863625161
R Square 0.745848418
Adjusted R Square 0.745209846
Standard Error 232.0713048
Observations 400

ANOVA
df SS MS F Significance F
Regression 1 62904789.88 62904790 1167.994581 1.8989E-120
Residual 398 21435122.03 53857.09
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0%Upper 95.0%
Intercept -390.8463418 29.06851463 -13.4457 3.07318E-34 -447.993365 -333.6993186 -447.993365 -333.699
Credit Rating(X) 2.566240327 0.075089102 34.17594 1.8989E-120 2.418619483 2.713861171 2.418619483 2.713861

Nuage de points :

Oui, la cote de crédit influence le solde créditeur. Il y a une corrélation décente.

10. Considérez vos résultats aux questions 8 à 9. Discutez des mécanismes commerciaux
pour augmenter ou diminuer le solde des cartes de crédit. Essayez de quantifier vos réponses.
 Il est clair que la cote de la carte de crédit et la limite de crédit ont un impact
significatif sur le solde de la carte de crédit. Les deux ont une bonne corrélation. Ils
sont tous deux un indicateur important du solde de la carte de crédit. Le solde est
élevé pour ceux qui ont une cote de crédit et une limite de crédit élevées. La notation
et la limite sont des indicateurs importants de l’équilibre.

 Le solde des personnes avec une note plus élevée et une limite de crédit plus élevée
peut être augmenté, tandis que le solde des personnes avec une note inférieure et une
limite de crédit inférieure doit être diminué. (sur la base de cette analyse)

11. La limite de crédit est fournie sous forme de montant consolidé pour toutes les cartes de
crédit dont dispose le titulaire de la carte. Exécutez une régression linéaire multiple de
Balance (Y) sur Limit et Cards en tant que deux variables X. Rapportez les coefficients.
Discutez de l'effet sur le solde de (a) l'augmentation de la limite de crédit sur le même
nombre de cartes et (b) l'augmentation du nombre de cartes sans modifier la limite de crédit
totale.
La régression linéaire multiple:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.865188295
R Square 0.748550786
Adjusted R Square 0.74728404
Standard Error 231.1247525
Observations 400

ANOVA
df SS MS F Significance F
Regression 2 63132707.37 31566354 590.9238 9.8E-120
Residual 397 21207204.54 53418.65
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95%Upper 95%Lower 95.0%


Upper 95.0%
Intercept -369.0359554 36.16414657 -10.2045 7.23E-22 -440.133 -297.939 -440.133 -297.939
Credit Limit 0.171479037 0.005013136 34.20594 2E-120 0.161623 0.181335 0.161623 0.181335
Cards 26.03375427 8.438363509 3.085166 0.002177 9.444291 42.62322 9.444291 42.62322

La limite de crédit et le nombre de cartes sont des indicateurs importants du solde créditeur et
ont tous deux un impact plus important sur le solde.
Coefficient de corrélation = 0,865 et R carré = 0,748
L’augmentation de l’unité ($) de limite de crédit avec la même carte augmentera de 0,17 du
solde. (La limite de crédit est mesurée à une échelle plus large que celle des cartes : elle a une
erreur standard de 34,2).
L'augmentation d'une carte augmentera de 26,03 le solde. C'est-à-dire que l'augmentation de
la carte augmente le solde

12. Exécutez une équation de régression linéaire simple avec le revenu comme X et le solde
comme Y. Indiquez les coefficients. Le coefficient de revenu est-il significativement différent
de zéro ? Qu’est-ce que cela dit sur l’effet du revenu sur l’équilibre ?

Balance(y) y = 6.0484x + 246.51


R² = 0.215
2500

2000
SUMMARY OUTPUT
1500
Regression Statistics
Multiple R 0.463656457
1000
R Square 0.21497731
Adjusted R Square 0.213004891
500
Standard Error 407.8647195
Observations 400
0
0 50 100 150 200
ANOVA
df SS MS F Significance F
Regression 1 18131167.4 18131167 108.9917152 1.03089E-22
Residual 398 66208744.51 166353.6
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 246.5147506 33.19934735 7.425289 6.90344E-13 181.2467485 311.7827527 181.2467485 311.7827527
Income 6.048363409 0.579350163 10.43991 1.03089E-22 4.909394402 7.187332415 4.909394402 7.187332415

Revenu Solde(y)
Revenu 1
Solde(y) 0.46365645 1
7

Coefficient de corrélation pour les deux variables =0,46


Sur la base du coefficient de régression du revenu, il est de 6,048. Oui ; il est bien loin de
zéro il prend la valeur de 4,90 à 7,18. L'ajout d'une unité de revenu augmentera le solde de
6,04 supplémentaires et constitue un prédicteur important. Sur la base de l'échelle, en voyant
le t - stat, il y a une erreur standard de 10,4 par rapport à zéro.

13. Sur la base de l'équation dérivée de la question 12, quel est le solde estimé pour une
personne ayant un revenu de 100 000 USD par an ?
Balance(y)
2500

2000

1500
f(x) = 6.04836340853157 x + 246.514750591403
R² = 0.214977310132406
1000

500

0
0 20 40 60 80 100 120 140 160 180 200

Basé sur la équation dérivée Y = 6,0484 (X)+246,51


X = Revenu
Y = 6,0484(100) + 246,51
Solde estimé pour une personne avec un revenu de 100 000 USD par an = 851,35 $.

14. Sur la base de l'ensemble de données, explorez la relation entre le solde de la carte de
crédit (Y) et (a) le revenu (b) l'âge (c) l'éducation (c) la limite et (d) la note en tant que
variables X ? Estimez un modèle de régression linéaire multiple et indiquez la signification
statistique de chacune de ces variables.

Modèle de régression multiple :


SUMMARY OUTPUT

Regression Statistics
Multiple R 0.936702578
R Square 0.87741172
Adjusted R Square
0.875856031
Standard Error
161.9917647
Observations 400

ANOVA
df SS MS F Significance F
Regression 5 74000827.17 14800165.43 564.0020686 4.5908E-177
Residual 394 10339084.74 26241.33183
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Lower 95.0%
Upper 95.0%
Intercept -473.2514026 55.10833546 -8.587655545 2.08837E-16 -581.5945666 -364.908 -581.595 -364.908
Income -7.608832003 0.381931562 -19.92197755 1.37077E-61 -8.359710677 -6.85795 -8.35971 -6.85795
Limit 0.07901642 0.044791005 1.764113581 0.078487737 -0.009042839 0.167076 -0.00904 0.167076
Rating 2.773843725 0.667079559 4.158190261 3.93909E-05 1.462363177 4.085324 1.462363 4.085324
Age -0.860030445 0.478700493 -1.796594023 0.073165937 -1.801157147 0.081096 -1.80116 0.081096
Education 1.967791521 2.605290902 0.755305874 0.450516748 -3.154218733 7.089802 -3.15422 7.089802

Income Limit Rating Age Education Balance


Income 1
Limit 0.792088 1
Rating 0.791378 0.99688 1
Age 0.175338 0.100888 0.103165 1
Education -0.02769 -0.02355 -0.03014 0.003619 1
Balance 0.463656 0.861697 0.863625 0.001835 -0.00806 1
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.93547739
R Square 0.875117948
Adjusted R Square 0.874488819
Standard Error 162.8813393
Observations 400

ANOVA
df SS MS F Significance F
Regression 2 73807370.62 36903685.31 1390.999823 4.5212E-180
Residual 397 10532541.29 26530.33071
Total 399 84339911.91

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept -534.8121502 21.60269845 -24.75672896 1.66359E-82 -577.2821357 -492.3421648 -577.282136 -492.3421648
Income -7.672124366 0.378462026 -20.2718472 3.1071E-63 -8.416164597 -6.928084134 -8.4161646 -6.928084134
Rating 3.949264832 0.086209035 45.81033566 1.4482E-160 3.77978154 4.118748125 3.77978154 4.118748125

Explication :
 Sur la base de l'analyse de régression multiple, il est clair que le revenu et la notation
sont les deux prédicteurs statistiquement significatifs basés sur la valeur p.
 Toutes ces variables, c'est-à-dire le revenu, l'éducation, l'âge, la limite et la cote, ont
contribué ensemble à 87,7 % de la variation du solde de la carte de crédit.
 Mais pour comprendre si ces variables ont également contribué et si seules certaines
ont contribué à la variation de l'équilibre, une analyse avec des valeurs P acceptables
est retenue.
 Donc, en conservant les X avec une faible valeur p, c'est-à-dire disons uniquement
avec le revenu et la note , l'analyse de régression a été refaite.
 Dans cette régression, l'analyse avec ces deux variables a montré une variation de
87,5 % du solde de la carte de crédit.
 Ce qui est presque la même valeur R-carré que la précédente.
 Sur cette base, il est très clair que le revenu et la notation sont les deux indicateurs
importants .
 L'analyse des erreurs (résidus) et des tendances est également étudiée.
 En concentrant les résidus de revenu, on constate que davantage de valeurs sont du
côté négatif et en particulier davantage de groupes à faible revenu et que la ligne
d'ajustement n'est pas non plus linéaire.
 Les résidus de notation ont montré un côté positif pour les notes inférieures et
supérieures, tandis qu'ils ont montré une note négative pour d'autres notes typiques,
où la ligne d'ajustement des notes est décente.
Remarques finales,
 Le revenu et la notation sont les deux variables importantes contribuant à
l'évolution du solde, tandis que la limite, l'âge et l'éducation ne sont pas des
variables significatives pour le solde.

Vous aimerez peut-être aussi