Vous êtes sur la page 1sur 68

Estadstica para los

Negocios
Gonzalo Panizo
Centrum
14 de Agosto, 2011

Resumen
- Dos estadsticas
- Estadstica Descriptiva
- Tablas y Grficos
- Medidas de tendencia central
- Medidas de dispersin
- Medidas de Correlacin

Requisitos:
- Motivacin (tarea mutua)

- lgebra Bsica y

- Practicar

Descripcin de los
Datos

Dos tipos de Estadstica

Figura: De descriptiva a inferencial

Tres Personajes
1.

Dr. Estadisnico: Conoce todas la cifras y est al


tanto de los ltimos datos. En el puede confiar.

2.

Juan Simpln: Tiene buenas intenciones y muchas


ideas pero no es seguro que funcione lo que
propone. Cuidado, lo puede meter en problemas.

3.

Pepe el Vivo: Maneja bien la estadstica y sabe


presentar las cifras pero prioriza sus objetivos. No
se deje convencer sin tener su propia evaluacin.

Cmo decidimos?
Grandes errores podemos cometer si no tomamos en
cuenta los datos y la estadstica. O si queremos usarla
sin entenderla.
La razn es que las decisiones involucran factores
inciertos o poco entendidos:
- la competencia
- el gobierno
- la tecnologa
- el comportamiento de los clientes
- las condiciones econmicas
-

Estadstica Descriptiva

- Poblacin: es el objeto de estudio (consumidores

de helado, botellas de cerveza de una marca,


empresas del rubro seguros, . . . )
- Unidad estadstica (unidad de anlisis): elementos de

la poblacin
- Muestra: Parte representativa de la poblacin

Estadstica Descriptiva
? Variable: Propiedad o caracterstica particular (objeto
de atencin), puede ser continua o discreta.

Estadstica Descriptiva
? Variable: Propiedad o caracterstica particular (objeto
de atencin), puede ser continua o discreta.
- Variables Cualitativas :
I Escala Nominal (etiqueta) : color, sexo, comida
I Escala Ordinal (establece un orden) : calidad,
prestigio

Estadstica Descriptiva
? Variable: Propiedad o caracterstica particular (objeto
de atencin), puede ser continua o discreta.
- Variables Cualitativas :
I Escala Nominal (etiqueta) : color, sexo, comida
I Escala Ordinal (establece un orden) : calidad,
prestigio
- Variables Cuantitativas :
I Escala de Intervalo (mide, usa unidades de medida) :
temperatura, ubicacin
I Escala de Razn (cero representa ausencia) : edad,
distancia

Estadstica Descriptiva
? Variable: Propiedad o caracterstica particular (objeto
de atencin), puede ser continua o discreta.
- Variables Cualitativas :
I Escala Nominal (etiqueta) : color, sexo, comida
I Escala Ordinal (establece un orden) : calidad,
prestigio
- Variables Cuantitativas :
I Escala de Intervalo (mide, usa unidades de medida) :
temperatura, ubicacin
I Escala de Razn (cero representa ausencia) : edad,
distancia

? Anlisis exploratorio de datos : Resumen de los datos


(prdida de informacin)

Estadstica Descriptiva
? Variable: Propiedad o caracterstica particular (objeto
de atencin), puede ser continua o discreta.
- Variables Cualitativas :
I Escala Nominal (etiqueta) : color, sexo, comida
I Escala Ordinal (establece un orden) : calidad,
prestigio
- Variables Cuantitativas :
I Escala de Intervalo (mide, usa unidades de medida) :
temperatura, ubicacin
I Escala de Razn (cero representa ausencia) : edad,
distancia

? Anlisis exploratorio de datos : Resumen de los datos


(prdida de informacin)
? Estadsticos : Indicativos numricos

Estadstica Inferencial

- Probabilidad
- Distribuciones
- Parmetros de las distribuciones (o las poblaciones)
- Tests estadsticos

Tablas y Grficos
Que vamos a describir? : Antes de comenzar definir
claramente la poblacin y la (las) variable de inters.
Anlisis exploratorio de datos (una variable) :
1.

Lista de datos cruda

Tablas y Grficos
Que vamos a describir? : Antes de comenzar definir
claramente la poblacin y la (las) variable de inters.
Anlisis exploratorio de datos (una variable) :
1.

Lista de datos cruda

2.

Matriz de datos (ordenados)

Tablas y Grficos
Que vamos a describir? : Antes de comenzar definir
claramente la poblacin y la (las) variable de inters.
Anlisis exploratorio de datos (una variable) :
1.

Lista de datos cruda

2.

Matriz de datos (ordenados)

3.

Tabla de Distribucin de Frecuencias (grfico de


barras) : frecuencia absoluta, relativa

Tablas y Grficos
Que vamos a describir? : Antes de comenzar definir
claramente la poblacin y la (las) variable de inters.
Anlisis exploratorio de datos (una variable) :
1.

Lista de datos cruda

2.

Matriz de datos (ordenados)

3.

Tabla de Distribucin de Frecuencias (grfico de


barras) : frecuencia absoluta, relativa

4.

Histograma (clases, marcas de clase) : para variables


continuas como discretas

Tablas y Grficos
Que vamos a describir? : Antes de comenzar definir
claramente la poblacin y la (las) variable de inters.
Anlisis exploratorio de datos (una variable) :
1.

Lista de datos cruda

2.

Matriz de datos (ordenados)

3.

Tabla de Distribucin de Frecuencias (grfico de


barras) : frecuencia absoluta, relativa

4.

Histograma (clases, marcas de clase) : para variables


continuas como discretas

5.

Tabla de frecuencias acumuladas

Resumen Numrico de
los Datos

Resumen Numrico de
los Datos, Estadsticos
- Medidas de Tendencia Central : Media, Moda, . . .
- Medidas de Dispersin : Rango, Desviacin

Estndar, . . .
- Medidas de Correlacin : Coeficiente de

correlacin de Pearson, . . .

La Moda

Mo

Para una lista de datos, la Moda es el dato que ms se


repite.

La Moda

Mo

Para una lista de datos, la Moda es el dato que ms se


repite.
Variable Banco del Cliente :
Crdito
Crdito

BBVA Scotia
HSBC

BBVA

Crdito

Interbanc

La Moda

Mo

Para una lista de datos, la Moda es el dato que ms se


repite.
Variable Banco del Cliente :
Crdito
Crdito

BBVA Scotia
HSBC

La moda es:

Mo =

Crdito

BBVA

Crdito

Interbanc

La Moda

Mo

Para una lista de datos, la Moda es el dato que ms se


repite.
Variable Banco del Cliente :
Crdito
Crdito

BBVA Scotia
HSBC

La moda es:

Mo =

BBVA

Crdito

Crdito

OJO: Pueden haber dos o ms modas

Interbanc

Media x
"Para Datos Numricos". Es simplemente el promedio
de los datos

Media x
"Para Datos Numricos". Es simplemente el promedio
de los datos
Variable Salario :
,

750 00

x1

1030 50

x2

750 00

x3

678 30

x4

1030 50

x5

Media x
"Para Datos Numricos". Es simplemente el promedio
de los datos
Variable Salario :
,

750 00

1030 50

x1

x2

750 00

x3

678 30

x4

1030 50

x5

La media es:

x =

x1 + x2 + x3 + x4 + x5
5

= (750,00 + 1030,50 + 750,00 + 678,30 + 1030,50) 5 = 847,86

Media x
"Para Datos Numricos". Es simplemente el promedio
de los datos
Variable Salario :
,

750 00

1030 50

x1

x2

750 00

x3

678 30

x4

1030 50

x5

La media es:

x =

x1 + x2 + x3 + x4 + x5
5

= (750,00 + 1030,50 + 750,00 + 678,30 + 1030,50) 5 = 847,86


NOTA: La media para toda la poblacin se acostumbra
denotar por

Media Ponderada x
Si los datos se repiten se los pondera por el nmero
de repeticiones

Media Ponderada x
Si los datos se repiten se los pondera por el nmero
de repeticiones
Variable Salario :
,

750 00

n1 = 2

1030 50

n2 = 2

678 30

n3 = 1

Media Ponderada x
Si los datos se repiten se los pondera por el nmero
de repeticiones
Variable Salario :
,

750 00

n1 = 2

1030 50

n2 = 2

678 30

n3 = 1

La media es:

x =

x1 n1 + x2 n2 + x3 n3
n1 + n2 + n3

= (750,00 2 + 1030,50 2 + 678,30) (2 + 2 + 1) = 847,86

Media Ponderada x
Si los datos se repiten se los pondera por el nmero
de repeticiones
Variable Salario :
,

750 00

n1 = 2

1030 50

n2 = 2

678 30

n3 = 1

La media es:

x =

x1 n1 + x2 n2 + x3 n3
n1 + n2 + n3

= (750,00 2 + 1030,50 2 + 678,30) (2 + 2 + 1) = 847,86


NOTA: Se usa en tablas de frecuencias

Mediana

Me

Es el trmino central luego de ordenar los datos

Mediana

Me

Es el trmino central luego de ordenar los datos


Variable Salario :
,

678 30

x1

750 00

x2

750 00

x3

1030 50

x4

1030 50

x5

Mediana

Me

Es el trmino central luego de ordenar los datos


Variable Salario :
,

678 30

x1

La mediana es:

750 00

x2

750 00

x3

Me = 750,00

1030 50

x4

1030 50

x5

Mediana

Me

Es el trmino central luego de ordenar los datos


Variable Salario :
,

678 30

x1

La mediana es:

750 00

x2

750 00

x3

1030 50

x4

1030 50

x5

Me = 750,00

NOTA: Si la muestra tiene un nmero par de datos la


mediana se define como el promedio de los dos
trminos centrales

Media Geomtrica

"Para nmeros positivos". Es la raz ensima del


producto de n datos

Media Geomtrica

"Para nmeros positivos". Es la raz ensima del


producto de n datos
Variable Rendimiento Mensual :
25

r1

15

r2

10 %

r3

30

r4

Media Geomtrica

"Para nmeros positivos". Es la raz ensima del


producto de n datos
Variable Rendimiento Mensual :
25

r1

15

r2

10 %

r3

30

r4

Para el clculo de rendimiento promedio se calcula la


media geomtrico de los factores de rendimiento, pues:
(1 + r )4 = (1 + r1 )(1 + r2 )(1 + r3 )(1 + r4 ),

luego:

Media Geomtrica

"Para nmeros positivos". Es la raz ensima del


producto de n datos
Variable Rendimiento Mensual :
25

r1

15

r2

10 %

r3

30

r4

Para el clculo de rendimiento promedio se calcula la


media geomtrico de los factores de rendimiento, pues:
(1 + r )4 = (1 + r1 )(1 + r2 )(1 + r3 )(1 + r4 ),
(1 + r ) = G = [(1 + r1 )(1 + r2 )(1 + r3 )(1 + r4 )]1/4

luego:

Media Geomtrica

"Para nmeros positivos". Es la raz ensima del


producto de n datos
Variable Rendimiento Mensual :
25

r1

15

r2

10 %

r3

30

r4

Para el clculo de rendimiento promedio se calcula la


media geomtrico de los factores de rendimiento, pues:
(1 + r )4 = (1 + r1 )(1 + r2 )(1 + r3 )(1 + r4 ),

luego:

(1 + r ) = G = [(1 + r1 )(1 + r2 )(1 + r3 )(1 + r4 )]1/4


= [(1 + 0,25)(1 + 0,15)(1 0,10)(1 + 0,30)]1/4 = 1,1388

Media Geomtrica

"Para nmeros positivos". Es la raz ensima del


producto de n datos
Variable Rendimiento Mensual :
25

r1

15

r2

10 %

r3

30

r4

Para el clculo de rendimiento promedio se calcula la


media geomtrico de los factores de rendimiento, pues:
(1 + r )4 = (1 + r1 )(1 + r2 )(1 + r3 )(1 + r4 ),

luego:

(1 + r ) = G = [(1 + r1 )(1 + r2 )(1 + r3 )(1 + r4 )]1/4


= [(1 + 0,25)(1 + 0,15)(1 0,10)(1 + 0,30)]1/4 = 1,1388
As el rendimiento promedio es r = G 1 = 0,1388

Ejemplo 1
Una empresa dedicada al rubro de calzado divide su
presupuesto en insumos de la siguiente manera:
50 %
40 %
10 %

electricidad
cuero
zuelas

Si la tarifa de la electricidad se increment en 20 %, el


cuero en 10 % y las zuelas en 1 %, en que porcentaje se
elev el presupuesto de los insumos de la empresa?

Ejemplo 1
Una empresa dedicada al rubro de calzado divide su
presupuesto en insumos de la siguiente manera:
50 %
40 %
10 %

electricidad
cuero
zuelas

Si la tarifa de la electricidad se increment en 20 %, el


cuero en 10 % y las zuelas en 1 %, en que porcentaje se
elev el presupuesto de los insumos de la empresa?
SOLUCIN: Debemos calcular el promedio de los
incrementos, ponderado por la proporcin del
presupuesto dedicado a cada insumo,
(50 20 % + 40 10 % + 10 1 %) (50 + 40 + 10) = 14,1 %

Medidas de dispersin

El Rango
Es la diferencia entre el mayor y el menor dato

El Rango
Es la diferencia entre el mayor y el menor dato
Variable Precio de Minera Buenaventura durante la
semana:
39,84
41,36
40,46
41,98
41,68
El rango es

41 98

39,84 = 2,14

El Rango
Es la diferencia entre el mayor y el menor dato
Variable Precio de Minera Buenaventura durante la
semana:
39,84
41,36
40,46
41,98
41,68
El rango es

41 98

39,84 = 2,14

NOTA: Puede dar un primer indicio de valores atpicos


(outliers)

Varianza muestral

x1 , x2 , . . . , x100 se define
(x1 x)2 + + (x100 x)2

Para datos numricos

s2 =

s2

100

como

Varianza muestral

x1 , x2 , . . . , x100 se define
(x1 x)2 + + (x100 x)2

Para datos numricos

s2 =

s2

1
Variable Edades de Asegurados:
100

34

x1

40

x2

38

x3

20

x4

como

Varianza muestral

x1 , x2 , . . . , x100 se define
(x1 x)2 + + (x100 x)2

Para datos numricos

s2 =

s2
como

1
Variable Edades de Asegurados:
100

34

x1

40

x2

38

x3

20

x4

Para la varianza primero necesitamos la media

x = (34 + 40 + 38 + 20)/4 = 132/4 = 33,


s2 =

(34 33)2

+ (40 33)2

+ (38 33)2
3

= (1 + 49 + 25 + 169)/3 = 81,3

luego

+ (20 33)2

Varianza muestral

x1 , x2 , . . . , x100 se define
(x1 x)2 + + (x100 x)2

Para datos numricos

s2 =

s2
como

1
Variable Edades de Asegurados:
100

34

x1

40

x2

38

x3

20

x4

Para la varianza primero necesitamos la media

x = (34 + 40 + 38 + 20)/4 = 132/4 = 33,


s2 =

(34 33)2

+ (40 33)2

+ (38 33)2

luego

+ (20 33)2

= (1 + 49 + 25 + 169)/3 = 81,3
NOTA: El efecto de los valores extremos es mucho
mas importante

Varianza poblacional 2
Para

x1 , x2 , . . . , x100
2 =

se define como
(x1 x)2 + + (x100 x)2
100

Varianza poblacional 2
Para

x1 , x2 , . . . , x100
2 =

se define como
(x1 x)2 + + (x100 x)2
100

Variable Edades de Asegurados (poblacin de 4 es


tambin posible):
34

x1

40

x2

38

x3

20

x4

Varianza poblacional 2
Para

x1 , x2 , . . . , x100
2 =

se define como
(x1 x)2 + + (x100 x)2
100

Variable Edades de Asegurados (poblacin de 4 es


tambin posible):
34

x1

40

38

x2

x3

20

x4

En este caso
2 =

(34 33)2 + (40 33)2 + (38 33)2 + (20 33)2


4

= 61

Desviacin Estndar

2
Es la raz cuadrada
de la Varianza Muestral s = s o
Poblacional = 2 . Estima mejor la magnitud de la
dispersin de los datos

Desviacin Estndar

2
Es la raz cuadrada
de la Varianza Muestral s = s o
Poblacional = 2 . Estima mejor la magnitud de la
dispersin de los datos
Ejemplos
- Para los datos de edades anteriores, la desviacin

estndar
muestral es:

= 61 = 7,81
- Datos iguales:

3 5

s=
,

3 5

, = 9,01 y la poblacional

81 3

3 5

, ,

3 5

s=0

- Si se sube o baja todos los datos no cambia


- Si se dobla el valor de los datos se dobla
- (Tchebychev) En una poblacin la proporcin de

datos que se encuentran entre k y + k es


mayor a 1 (1/k 2 )

Coeficiente de
Variacin
La dispersin de los datos no se puede tomar como
una magnitud absoluta. Es muy distinta una desviacin
estndar de unos metros para la altura de edificaciones
que para distancias a otras ciudades.

Coeficiente de
Variacin
La dispersin de los datos no se puede tomar como
una magnitud absoluta. Es muy distinta una desviacin
estndar de unos metros para la altura de edificaciones
que para distancias a otras ciudades.
Por lo tanto interesa la dispersin relativa. El
coeficiente de variacin se define, cuando como :

CV

s
x

100

Si CV es menor a 10 % se considera que la dispersin


es baja

Simetra y medida de
Curtosis
Coeficiente de asimetra de Fisher (si vale 0 los datos
estn ubicados simtricamente respecto a su media) :
Pn
(x x)3
sk = i =1 i 2
(n 1)s

Simetra y medida de
Curtosis
Coeficiente de asimetra de Fisher (si vale 0 los datos
estn ubicados simtricamente respecto a su media) :
Pn
(x x)3
sk = i =1 i 2
(n 1)s
Coeficiente de Curtosis (si es mayor a 0 los datos
estn mas concentrados cerca de la media) :
Pn
(x x)4
k = i =1 i 4 3
(n 1)s

Correlacin de Pearson
Se define la Covarianza de datos bidimensionales
(x1 , y1 ), (x2 , y2 ), . . . como :
Pn
(x x)(yi y )
Cov (X , Y ) = i =1 i
(n 1)

Correlacin de Pearson
Se define la Covarianza de datos bidimensionales
(x1 , y1 ), (x2 , y2 ), . . . como :
Pn
(x x)(yi y )
Cov (X , Y ) = i =1 i
(n 1)
Y la correlacin como :

rXY

Cov (X , Y )
sX sY

- rXY est entre 1 y 1


- Si rXY vale 0 no hay relacin positiva o negativa;

hay una relacin simtrica en el plano

Regresin
La recta que mejor se acerca a los datos
bidimensionales (xi , yi ) es:

Y
donde
1 =

= 1 X + 0

Cov (X , Y )
sX2

0 = y 1 x

Regresin
La recta que mejor se acerca a los datos
bidimensionales (xi , yi ) es:

Y
donde
1 =

= 1 X + 0

Cov (X , Y )
sX2

0 = y 1 x

- Esta recta pasa por (


x , y)
- La recta se escogi de modo que las diferencias

yi (1 xi + 0 )

(llamadas valores residuales) sean lo

menor posible
- Permite "predecir"y si se conoce

Ejemplo 2
La produccin de gasolina durante los ltimos N das en
una refinera ha sido de 150 000 galones en promedio,
con una desviacin estndar de 1 000 galones.
Estima la proporcin de das en que la produccin se
ubic entre 148 000 y 152 000 galones?

Ejemplo 2
La produccin de gasolina durante los ltimos N das en
una refinera ha sido de 150 000 galones en promedio,
con una desviacin estndar de 1 000 galones.
Estima la proporcin de das en que la produccin se
ubic entre 148 000 y 152 000 galones?
SOLUCIN: Como nos piden estimar la proporcin de
das en que la produccin se ubic en un intervalo
podemos usar Tchebychev. Para eso necesitamos que:
k = 148000 y + k = 152000
Tenemos = 150000 y = 1000. Vemos que k = 2
funciona. Luego la proporcin buscada es de al menos
2
1 1/k = 1 1/4 = 0,75

Vous aimerez peut-être aussi