Vous êtes sur la page 1sur 9

e-Miage Master MIAGE M1 Florin Craciun

e-Miage Master MIAGE M1 Florin Craciun Devoir n°1 Intitulé du module : Analyse de données Module

Devoir n°1

Intitulé du module : Analyse de données

Module : C106

Noteimportante : Le rendud'un devoirest un travailpersonnel. En rendant son devoirl'étudiant garantitsur son honneurque son travailest à 100% personnel.

Le but des deux premiers exercices est la révision de notions apprises à divers niveaux et oubliées. Les connaissances contenues dedans sont des bases solides pour acquérir da suite. Exercice 1 :

1- Compléter le tableau ci-dessous

Caractères

Qualitatif

Quantitatif discret

Quantitatif continu

Sexe

X

   

Taille

   

X

Age

   

X

Etat matrimonial

X

   

Poids

   

X

Couleur des yeux

X

   

Tension artérielle

   

X

Taux de cholestérol

   

X

Région habitée

X

   

Chiffres daffaires dune PME agro- alimentaire

   

X

Taille des

   

X

entreprises du

secteur tertiaire

Quotient familial dun contribuable

   

X

Nombre de personnes habitant une résidence principale

 

X

 

Nombre de places de cinéma associé à chaque salle

 

X

 

Nombre denfants

 

X

 

par ménage

1

2- Donner un exemple complété par des calculs et/ougraphiques dune variable :

Nominale. Les variables nominales sont des variables non numériques. Exemple : les professions dans une population. Ordinale Example : les qualificatifs dans une compétition sportive : premier, 2eme, dernier etc Qualitative à coder Pendant vos études secondaires avez-vous été initié à l’informatique ? Oui Non Codage :

Variable : 1 si oui 0 sinon Quantitative discrète Les variables quantitatives discrètes: sont des valeurs que l’on peut énumérer, il est inutile d’utiliser des classes pour les exprimer. Par exemple, le nombre de personnes dans le ménage, le nombre de cellulaires ou bien le nombre de présence au centre commercial par mois sont autant de possibilités pour des variables quantitatives discrètes. Quantitative continue Les variables quantitatives continues: sont des valeurs très nombreuses dont l’énumération serait fastidieuse. Il est donc préférable de les exprimer en classe de largeur égale. Par exemple, le poids est une variable quantitative continue puisqu’il est possible de peser autant 4kg à 600 kg et même beaucoup plus si s’attarde au poids des voitures par exemple.

Exercice 2 :

On étudie la distribution des principaux impôts en France en 2002. Les valeurs sont données en milliards d’euros. Source : Administration fiscale

 

Impôts Locaux

 

Impôts nationaux

 

Taxe

Taxe

Taxes

Impôt

Impôt

TVA

Taxes sur

professionnelle

dhabitation

foncières sur

sur le

sur les

les produits

propriétés

revenu

sociétés

pétroliers

bâties

26.3

12

19.8

50.5

46.1

123.2

25.5

1) Donner le tableau en fréquence.

 
 

26.3

0.08668

(8.7%)

 

12

0.03955

(4.0%)

19.8

0.06526

(6.5%)

50.5

0.16644

(16.6%)

46.1

0.15194

(15.2%)

123.2

0.40606

(40.6%)

25.5

0.08404

(8.4%)

Total : 303.4

1

(100%)

2) Quelle est la part des impôts locaux ?

Total impôts locaux = 58.1 Total impôts general = 303.4 La part des impôts locaux est : 19.14%

2

3) Donner les tableaux en fréquence des impôts locaux, des impôts nationaux

Impots Locaux

 

26.3

0.45266

(45.3%)

12

0.20654

(20.7%)

19.8

0.34079

(34.0%)

Total = 58.1

1

(100%)

Impots Nationaux

 

50.5

0.20587

(20.6%)

46.1

0.18793

(18.8%)

123.2

0.50224

(50.2%)

25.5

0.10395

(10.4%)

Total : 245.3

1

(100%)

Analysedes corrélations et régression linéaire. Problème :

On étudie 20 individus suivant 3 variables : X 1 l’âge, X 2 le solde du mois de décembre 2010,X 3 lépargne du livret A à la fin 2010. Le tableau qui suit résume les données récoltées par une banque imaginaire.

Individus

Age (X1)

Soldejanvier (X 2)

Epargne annuelle

1

45

1150

3541

2

67

1600

4930

3

34

910

2800

4

12

320

980

5

28

650

2000

6

55

1300

4000

7

33

800

2500

8

27

650

2010

9

68

1750

5400

10

43

1000

3000

11

44

1200

3400

12

52

1350

2500

13

25

600

1500

14

35

1500

3000

15

48

2500

3200

16

62

1880

4000

17

39

1750

3300

18

64

1550

2880

19

58

1400

3000

20

19

800

1200

3

1) Réaliser une analyse statistique descriptive pour chacune des variables. Age Solde Epargne

Age

80 67 68 64 62 58 55 60 52 48 45 43 44 39 34
80
67
68
64
62
58
55
60
52
48
45
43
44
39
34
35
33
40
28
27
25
19
20
12
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Moyenne = 42.9
Min = 12 - Max = 68
Médiane = 43.6
Ecart-type=16.36
Solde
3000
2500
2500
2000
1750
1600
1500
1880 1750 1550 1400
1300
1500
1150
1200 1350
1000
910
800
800
1000
650
650
600
320
500
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Moyenne = 1233
Min = 320 - Max = 2500
Médiane = 1250
Ecart-type= 531.46
Epargne
6000
5400
4930
5000
4000
4000
3541
4000
3400
3000
3000 3200
2800
3300 2880 3000
2500
3000
2000
2500 2010
1500
2000
1200
980
1000
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Moyenne = 2957.05

Min = 980 - Max = 5400

4

Médiane = 3000

Ecart-type= 1127.07

2)

De la question 1 préciser pour chacune des variables : la moyenne

arithmétique, la variance ainsi que lécart type.

[Moyenne arithmétique, variance, l’écart type] Variable X1 Age :

Individus

Age X1

X - moyenne

(X - moyenne)^2

1 45

 

2.1

4.41

2 67

 

24.1

580.81

3 34

 

-8.9

79.21

4 12

 

-30.9

954.81

5 28

 

-14.9

222.01

6 55

 

12.1

146.41

7 33

 

-9.9

98.01

8 27

 

-15.9

252.81

9 68

 

25.1

630.01

10 43

 

0.1

0.01

11 44

 

1.1

1.21

12 52

 

9.1

82.81

13 25

 

-17.9

320.41

14 35

 

-7.9

62.41

15 48

 

5.1

26.01

16 62

 

19.1

364.81

17 39

 

-3.9

15.21

18 64

 

21.1

445.21

19 58

 

15.1

228.01

20 19

 

-23.9

571.21

Somme

858

0.00

5085.8

Moyenne

42.9

   

Nombre

20

20

20

individus

Variance

   

267.6736842

Ecart type

   

16.36073605

5

[Moyenne arithmétique, variance, l’écart type] Variable X2 Solde Janvier

Individus

Solde Janvier

X - moyenne

(X - moyenne)^2

X2

1

1150

-83

6889

2

1600

367

134689

3

910

-323

104329

4

320

-913

833569

5

650

-583

339889

6

1300

67

4489

7

800

-433

187489

8

650

-583

339889

9

1750

517

267289

10

1000

-233

54289

11

1200

-33

1089

12

1350

117

13689

13

600

-633

400689

14

1500

267

71289

15

2500

1267

1605289

16

1880

647

418609

17

1750

517

267289

18

1550

317

100489

19

1400

167

27889

20

800

-433

187489

Somme

24660

0.00

5366620

Moyenne

1233

   

Nombre individus

20

20

20

Variance

   

282453.6842

Ecart type

   

531.4637186

[Moyenne arithmétique, variance, l’écart type] Variable X3 Epargne annuelle

Individus

Epargne

X - moyenne

(X - moyenne)^2

annuelle X3

1

3541

583.95

340997.6025

2

4930

1972.95

3892531.703

3

2800

-157.05

24664.7025

4

980

-1977.05

3908726.703

5

2000

-957.05

915944.7025

6

4000

1042.95

1087744.703

7

2500

-457.05

208894.7025

8

2010

-947.05

896903.7025

9

5400

2442.95

5968004.703

10

3000

42.95

1844.7025

11

3400

442.95

196204.7025

12

2500

-457.05

208894.7025

13

1500

-1457.05

2122994.703

14

3000

42.95

1844.7025

15

3200

242.95

59024.7025

16

4000

1042.95

1087744.703

17

3300

342.95

117614.7025

18

2880

-77.05

5936.7025

19

3000

42.95

1844.7025

20

1200

-1757.05

3087224.703

Somme

59141

0.00

24135586.95

Moyenne

2957.05

   

Nombre individus

20

20

20

Variance

   

1270294.05

Ecart type

   

1127.073223

6

3) Calculer les coefficients de corrélation des variables par paire.

Variables X1, X2

individus

Age X1

Solde janvier X2

x1x2

x1^2

x2^2

1

45

1150

51750

2025

1322500

2

67

1600

107200

4489

2560000

3

34

910

30940

1156

828100

4

12

320

3840

144

102400

5

28

650

18200

784

422500

6

55

1300

71500

3025

1690000

7

33

800

26400

1089

640000

8

27

650

17550

729

422500

9

68

1750

119000

4624

3062500

10

43

1000

43000

1849

1000000

11

44

1200

52800

1936

1440000

12

52

1350

70200

2704

1822500

13

25

600

15000

625

360000

14

35

1500

52500

1225

2250000

15

48

2500

120000

2304

6250000

16

62

1880

116560

3844

3534400

17

39

1750

68250

1521

3062500

18

64

1550

99200

4096

2402500

19

58

1400

81200

3364

1960000

20

19

800

15200

361

640000

Sum

858

24660

1180290

41894

35772400

cc

=

=

Coefficient de corrélation pour la paire X1,X2 est : 0.74074 Même méthode de calcul pour les paires des variables X1,X3 et X2,X3 Coefficient de corrélation pour la paire X1,X3 est : 0.86185 Coefficient de corrélation pour la paire X2,X3 est : 0.68625

4) Effectuer une analyse explicative de la variable épargne X3 en fonction des deux variables soldes fin d’année 2010 (X2) et Age (X1), ce qui revient à réaliser une régression linéaire multiple, ou écrire : (1) X 3 =α +βX 1 +γX 2

 

Variable x

Variable y

1 45

   

1150

3541

1 67

   

1600

4930

1 34

   

910

2800

1 12

   

320

980

1 28

   

650

2000

1 55

   

1300

4000

1 33

   

800

2500

1 27

   

650

2010

1 68

   

1750

5400

1 43

   

1000

3000

1 44

   

1200

3400

1 52

   

1350

2500

1 25

   

600

1500

1 35

   

1500

3000

1 48

   

2500

3200

1 62

   

1880

4000

1 39

   

1750

3300

1 64

   

1550

2880

1 58

   

1400

3000

1 19

   

800

1200

7

x’ 1 1 1 1 1 1 1 1 1 1 1 1 1 1
x’
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
45
67
34
12
28
55
33
27
68
43
44
52
25
35
48
62
39
64
58
19
1150
1600
910
320
650
1300
800
650
1750
1000
1200
1350
600
1500
2500
1880
1750
1550
1400
800

x3= 354.81 + 52.759 *x1 + 0.275*x2

pour la premiere variable x3 =>

   

x’x

 

20

858

   

24660

858

41894

 

1180290

24660

1180290

 

35772400

 

x’x -1

 

0,428508

-0,006441

-0,000083

-0,006441

0,000436

-0,000010

-0,000083

-0,000010

0,000000

x’y 59141 2839105 80852250
x’y
59141
2839105
80852250

x’x -1 * x’y

α =354,8076048

β =52,75924533

γ =0,274834364

x3=354.807+52.759*45 + 0.274*1150=3044

5) Comparer les valeurs obtenues par la relation (1) avec les données observées (celles du tableau).

 

Epargne annuelle réelle

Previsions sur l'epargne

x1

x2

x3

x3'

Residu (x3'-x3)

45

1150

3541

3044.062

-496.938

67

1600

4930

4328.06

-601.94

34

910

2800

2397.953

-402.047

12

320

980

1075.595

95.595

28

650

2000

2010.159

10.159

55

1300

4000

3612.752

-387.248

33

800

2500

2315.054

-184.946

27

650

2010

1957.4

-52.6

68

1750

5400

4421.919

-978.081

43

1000

3000

2897.444

-102.556

44

1200

3400

3005.003

-394.997

52

1350

2500

3468.175

968.175

25

600

1500

1838.182

338.182

35

1500

3000

2612.372

-387.628

48

2500

3200

3572.239

372.239

62

1880

4000

4140.985

140.985

39

1750

3300

2891.908

-408.092

64

1550

2880

4156.083

1276.083

58

1400

3000

3798.429

798.429

19

800

1200

1576.428

376.428

8

6000 5000 4000 3000 x3 2000 x3' 1000 Residu (x3'-x3) 0 0 5 10 15
6000
5000
4000
3000
x3
2000
x3'
1000
Residu (x3'-x3)
0
0
5
10
15
20
25
-1000
-2000

6) En supposant que la relation (1) décrit correctement liaisons entres les 3 variables exprimer l’épargne pour en homme de 20 ans et dont le salaire est 1350euro.

x3=354.807 + 52.759*20 + 0.274*1350 = 1779

L'eparne annuelle d'un homme de 20 ans avec un salaire de 1350 euros sera 1779 euros

9