Vous êtes sur la page 1sur 69

METODOLOGA DE INVESTIGACIN Titular: Agustn Salvia

Clase 2: MTODOS DE INVESTIGACIN BASADOS EN EL ANLISIS DE VARIABLES.

ESTADSTICA DESCRIPTIVA

Medicin de variables

Variable: cualidad o caracterstica de un objeto (o evento) que contenga, al menos, dos atributos en los que pueda clasificarse un objeto o evento Medicin de una variable: asignar valores o categoras a las distintas caractersticas que conforman el objeto de estudio Requisitos bsicos:

Exhaustividad: debe comprender el mayor nmero de atributos posible. Toda observacin debe ser clasificada Exclusividad: los distintos atributos de la variable deben ser mutuamente excluyentes. Una observacin solo puede clasificarse en trminos de un solo atributo Precisin: realizar el mayor nmero de distinciones posibles. Las categoras pueden agruparse ms tarde, el camino inverso no es posible...

Tipologa segn el nivel de medicin

Variables Nominales:

Ejemplos: sexo, nacionalidad, estado ocupacional, grupo sanguneo, partido poltico, estado civil, religin, plan social al que pertenece, localidad donde reside, etc. No se puede establecer ningn tipo de relacin

Anlisis estadstico limitado

Tipologa segn el nivel de medicin

Variables Ordinales:

Ejemplos: estrato social, orden de mrito, nivel educativo, opinin acerca de un hecho/situacin/gobierno Los atributos, adems de poseer las caractersticas mencionadas, tienen la propiedad de poder establecer un orden

No puede conocerse la magnitud de la diferencia entre un atributo y otro


Son variables no mtricas o cualitativas Anlisis estadstico limitado

Tipologa segn el nivel de medicin

Variables Cuantitativas o mtricas:

Variables de intervalo:

Adems de establecer un orden, la diferencia entre dos atributos puede cuantificarse La distancia que separa a personas de 15 y 16 aos, es la misma que la existente entre personas de 72 y 73 aos Permite realizar la mayora de las operaciones aritmticas Ejemplos: temperatura en C No tiene cero absoluto. El cero no implica la ausencia de atributo

Tipologa segn el nivel de medicin

Variables Cuantitativas o mtricas:

Variables de razn:

Adems de las caractersticas de las variables de intervalo, se suma la posibilidad de contar con un cero absoluto El cero absoluto indica ausencia de la caracterstica

Permite clculo de proporciones


Permite realizar cualquier operacin aritmtica Ejemplos: ingreso, altura, peso, nmero de habitantes, todas las variables que consideren tiempo y distancia

Tipologa segn el nivel de medicin

Variables Cuantitativas o mtricas:

Variables discretas:

Entre dos valores dados, no existen valores intermedios Ejemplos: nmero de hijos, nmero de elementos vendidos, nmero de beneficiarios de un plan

Variables continuas:

Entre dos valores dados, existen valores intermedios Ejemplos: edad, peso, altura, ingreso

HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVA

La organizacin de los datos


Distribucin de frecuencias Distribucin porcentual Distribucin acumulada Proporciones Razones Representaciones grficas

HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVA

Cantos jvenes de 15 a 29 aos del total del pas estn en hogares en situacin de pobreza?
Indicador: hogares por debajo de la lnea de Pobreza Fuente: EPH Variable : Valores : lphogD85 (hogar bajo la lnea de pobreza) 1 SI (hogar pobre) 2 NO (hogar no pobre)

Tabla de distribucin de frecuencias Resume en una tabla la informacin de la muestra

Frecuencias
Estadsticos LPHOGD85 N Vlidos Perdid os

23523661 0

N nmero de casos

suma de las respectivas frecuencias de cada dato (N=Xi).


frecuencia total

Tabla de distribucin de frecuencias


LPHOGD85

Variable
Frecuencia 7389959 16133702 23523661 Porcentaje 31,4 68,6 100,0 Porcentaje vlido 31,4 68,6 100,0 Porcentaje acumulado 31,4 100,0

Vlidos

1 2 Total

Valores / Categoras

frecuencias absolutas :(fi.) representan el nmero de veces que aparece cada valor de la variable

Tabla de distribucin de frecuencias

LPHOGD85 Porcentaje vlido 31,4 68,6 100,0 Porcentaje acumulado 31,4 100,0

Vlidos

1 2 Total

Frecuencia 7389959 16133702 23523661

Porcentaje 31,4 68,6 100,0

frecuencias relativas: (fr) Representan la relacin entre la frecuencia absoluta y el tamao de la muestra. (porcentajes y proporciones)

Tabla de distribucin de frecuencias


LPHOGD85 Porcentaje vlido 31,4 68,6 100,0 Porcentaje acumulado 31,4 100,0

Vlidos

1 2 Total

Frecuencia 7389959 16133702 23523661

Porcentaje 31,4 68,6 100,0

frecuencia relativa acumulada: relacin entre la frecuencia absoluta acumulada dividido por el tamao de la muestra (N).

Otras medidas resumen


LPHOGD85 Porcentaje vlido 31,4 68,6 100,0 Porcentaje acumulado 31,4 100,0

Vlidos

1 2 Total

Frecuencia 7389959 16133702 23523661

Porcentaje 31,4 68,6 100,0

Proporciones: es el cociente entre la frecuencia absoluta del valor y el N fi Valor (1) N 7389959 23523661

Razones: es el cociente entre la frecuencia absoluta de un valor y la frecuencia absoluta del otro
fi Valor 2 fi Valor 1 16133702 7389959 2,18

La proporcin de jvenes pbres es de 0,31

Hay 1 jven pobre por cada 2 jvenes no pobres

GRFICOS ESTADSTICOS
Diagrama de barras: Se utilizan rectngulos separados, que tienen como base a cada uno de los datos y como altura la frecuencia absoluta o relativa de ese dato.
LPHOGD85

LPHOGD85
20000000

fi
10000000

31

69

Frecuencia

0 1 2

LPHOGD85

20

40

60

80

LPHOGD85
Cas os ponderados por PONDIH

Porcentaje
Cas os ponderados por PONDIH

fr

GRFICOS ESTADSTICOS
LPHOGD85

Grfica de Torta: Se forma al dividir un crculo en sectores de manera que: a) cada sector equivale al porcentaje correspondiente al dato o grupo que representa; y b) la unin de los sectores forma el crculo y la suma de sus porcentajes es 100.

Casos ponderados por PONDIH

HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVA

INFORMACIN RESUMEN DE VARIABLES ALEATORIAS Formas ms compactas para caracterizar las distribuciones

TENDENCIA CENTRAL
HETEROGENEIDAD O DESVO FORMA DE LA DISTRIBUCIN

Medidas de tendencia central


Refiere a los valores de las variables que suelen estar en el centro de la distribucin. Posicin donde se centra una distribucin en una escala de valores

Moda Mediana Media

Medidas de tendencia central


Moda
Valor que presenta la mayor concentracin de frecuencia PEA
5000000 4000000

PEA
3000000

Valid

Frequency

Activo Inactivo Total

Frequency 4699861 1207374 5907235

Percent 79,6 20,4 100,0

Valid Percent 79,6 20,4 100,0

Cumulativ e Percent 79,6 100,0

2000000

1000000

Statistics PEA N Mode

Activ o

Inactiv o

Valid Missing

5907235 0 1,00

PEA
Cas es weighted by PONDERA

TEMPORARY . SELECT IF (h12>25 AND h12<45) . FREQUENCIES VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS .

Variable nominal

Unimodal

Bimodal

Medidas de tendencia central


Mediana

Es el punto o valor numrico que deja por debajo (y por encima) a la mitad de las puntuaciones de la de la distribucin La mediana se calcula en primer lugar ordenando los datos y luego:

- Si el nmero de datos es impar, la mediana es el dato central - Si el nmero de datos es par, la mediana se considera como el promedio

de los dos datos centrales

Medidas de tendencia central


Mediana
800 800 1000 960 1000 150 1000 550 550 250 150 500 900 300 330 500 300 350 700 1800 150 450 800 800 600 700 20 300 400 400 900 700 980 800 1500 1100 750 640 360 72 680 760 800 500 500 400 600 120 250 160 40 200 300 280 960 1150 300 100 600 90 510 2440 1200 320 650 600 300 650 1000 150 120 120 160 540 570 300 550 150 400 220 480 480 300 280 500 600 500 800 380 450 850 250 200 900 580 1200 400 300 200 1000

20 40 72 90 100 120 120 120 150 150

150 150 150 160 160 200 200 200 220 250

250 250 280 280 300 300 300 300 300 300

300 300 300 320 330 350 360 380 400 400

400 400 400 450 450 480 480 500 500 500

500 500 500 510 540 550 550 550 570 580

600 600 600 600 600 640 650 650 680 700

700 700 750 760 800 800 800 800 800 800

800 850 900 900 900 960 960 980 1000 1000

1000 1000 1000 1100 1150 1200 1200 1500 1800 2440

Medidas de tendencia central


Mediana
edad

Estadsticos edad N Media Mediana Moda


Frecuencia Porcentaje 7,1 6,9 6,7 6,8 6,7 6,4 6,9 6,1 7,5 6,6 6,7 6,9 6,6 6,2 5,9 100,0 Porcentaje vlido 7,1 6,9 6,7 6,8 6,7 6,4 6,9 6,1 7,5 6,6 6,7 6,9 6,6 6,2 5,9 100,0 Porcentaje acumulado 7,1 14,0 20,6 27,4 34,1 40,6 47,5 53,6 61,0 67,6 74,3 81,3 87,9 94,1 100,0

Vlidos Perdidos

6197556 0 21,89 22,00 23

Vlidos

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Total

439878 427380 412200 419529 415349 399023 428206 378808 461983 408871 415516 430316 407540 385408 367549 6197556

VARIABLE CUANTITATIVA

Medidas de tendencia central


Media
La MEDIA ARITMTICA O PROMEDIO es una medida estadstica de tendencia central. De una cantidad finita de nmeros, es igual a la suma de todos ellos dividida entre el nmero de sumandos. Tambin la media aritmtica puede ser denominada como centro de gravedad de una distribucin, el cual no es necesariamente la mitad.

Propiedades de la media

La media es sensible al valor exacto de todos los datos en la distribucin La suma de las desviaciones con respecto a la media es cero La media es muy sensible a los datos extremos

NOTA: Dado que cualquier valor extremo distorsiona la media aritmtica, no es una buena medida de tendencia central en esas circunstancias. Por ello en presencia de valores extremos, es mas apropiado usar la mediana como medida de tendencia central. La mediana no se afecta con la presencia de valores extremos.

Medidas de posicin no centrales


Percentiles/cuartiles/deciles/n tiles

800 800 1000 960 1000 150 1000 550 550 250

150 500 900 300 330 500 300 350 700 1800

150 450 800 800 600 700 20 300 400 400

900 700 980 800 1500 1100 750 640 360 72

680 760 800 500 500 400 600 120 250 160

40 200 300 280 960 1150 300 100 600 90

510 2440 1200 320 650 600 300 650 1000 150

120 120 160 540 570 300 550 150 400 220

480 480 300 280 500 600 500 800 380 450

850 250 200 900 580 1200 400 300 200 1000

Medidas de posicin no centrales


Percentiles/cuartiles/deciles/n tiles
Percentil 1
20 40 72 90 100 120 120 120 150 150 150 150 150 160 160 200 200 200 220 250

1 Cuartil
250 250 280 280 300 300 300 300 300 300 300 300 300 320 330 350 360 380 400 400 400 400 400 450 450 480 480 500 500 500 500 500 500 510 540 550 550 550 570 580

3 Cuartil
600 600 600 600 600 640 650 650 680 700 700 700 750 760 800 800 800 800 800 800 800 850 900 900 900 960 960 980 1000 1000 1000 1000 1000 1100 1150 1200 1200 1500 1800 2440

Percentil 99 Decil 10

1 decil

Percentil 50 2 Cuartil 5 decil

Medidas de posicin. Ejemplo. Ingreso horario

Medidas de Dispersin

Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variacin de ingresos entre familias. Estamos interesados en la dispersin o variabilidad de los ingresos, adems de estarlo en sus centros

.
Distribucin con alta dispersin

Distribucin con baja dispersin

Medidas de Dispersin
Los datos tambin se deben caracterizar en trminos de su dispersin o variabilidad.

Las medidas de variabilidad cuantifican la extensin de la dispersin


La variabilidad tiene que ver con qu tan alejados estn los datos de la media.

Medidas de dispersin / desviacin respecto a la media


Miden el grado de cercana o lejana de las puntuaciones respecto a la media Permiten describir el grado de homogeneidad / heterogeneidad de la distribucin de una variable

Mximo y Mnimo Rango Amplitud Intercuartlica Varianza Desvo tpico Coeficiente de variabilidad

Medidas de dispersin / desviacin respecto a la media


Mnimo Mximo rango o recorrido y amplitud intercuartlica Mnimo

20 40 72 90 100 120 120 120 150 150

150 150 150 160 160 200 200 200 220 250

250 250 280 280 300 300 300 300 300 300

300 300 300 320 330 350 360 380 400 400

400 400 400 450 450 480 480 500 500 500

500 500 500 510 540 550 550 550 570 580

600 600 600 600 600 640 650 650 680 700

700 700 750 760 800 800 800 800 800 800

800 850 900 900 900 960 960 980 1000 1000

1000 1000 1000 1100 1150 1200 1200 1500 1800 2440

rango o recorrido

Amplitud intercuartlica

Mximo

Distancia entre el mximo valor y el mnimo valor que puede asumir la variable
Mximo - Mnimo 2240 - 20 = 2220

Distancia entre el valor del primer cuartil y el valor del tercero


3cuartil - 1cuartil 800 300 = 500

Medidas de dispersin / desviacin respecto a la media


Varianza y desvo tpico La desviacin estndar (o desviacin tpica) y la varianza son medidas de dispersin para variables de razn y de intervalo. Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades de medida que la variable de origen. Ambas medidas estn estrechamente relacionadas ya que se define una a partir de la otra.
100 120 120 120 150 150 150 150 150 160 160

(Xi u)2
200 200 200 220 250 560 500 500 400 500 500 400 33512 620,5926 760 800 800 850 1000 1000 1000 900 900 900 960 960 980 1000 1000

20 40 72 90

600 600

650 680

1100 1150 1200 1200 1500 1800

2440

N: 54

Medidas de dispersin / desviacin respecto a la media


Varianza y desvo tpico
Expresin de la varianza: Expresin de la desviacin estndar:

(Xi u)2

(Xi u)2

X
(Xi u)2

(Xi u)2 (Xi u)2

N: 54

Medidas de dispersin / desviacin respecto a la media


Informe P21 Monto de ingres o de la ocupacin principal perc ibido en ese mes CH04 Sex o 1 Varn 2 Mujer Total Media 628,94 441,68 548,64 N 8931 6705 15636 Des v . tp. 723,011 477,588 636,363 Varianza 522745,3 228089,9 404957,8 Mnimo 2 2 2 Mx imo 20000 6600 20000 Mediana 450,00 300,00 400,00 Curtos is 98,879 25,366 100,206 Asimetra 6,526 3,743 6,301

En dos poblaciones con distinta media qu grupo presenta mayor heterogeneidad ???????

Medidas de dispersin / desviacin respecto a la media Coeficiente de variabilidad


Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de

datos con medias diferentes.

El coeficiente de variabilidad es una medida relativa que se expresa en

porcentaje en vez de en trminos de las unidades de los datos.


Es una forma de estandarizar el desvo Indica la relacin entre el desvo y la media

Medidas de dispersin / desviacin respecto a la media


Coeficiente de variabilidad
El coeficiente de variacin mide la dispersin con relacin a la media y se calcula dividiendo la desviacin estndar por la media, multiplicando este resultado por 100.

S X
Estadsticos edad N Error tp. de la media Desv. tp. Varianza Rango Mnimo Mximo Vlidos Perdidos 6197556 0 ,002 4,297 18,465 14 15 29

Si se multiplica por 100 se obtiene el grado de variabilidad respecto de la media 4,3 / 21,9= 0,19

Estadsticos edad N Media Mediana Moda

Vlidos Perdidos

6197556 0 21,89 22,00 23

Existe una variabillidad de + 19% respecto de la media

Medidas de dispersin / desviacin respecto a la media


Informe P21 Monto de ingres o de la ocupacin principal perc ibido en ese mes CH04 Sex o 1 Varn 2 Mujer Total Media 628,94 441,68 548,64 N 8931 6705 15636 Des v . tp. 723,011 477,588 636,363 Varianza 522745,3 228089,9 404957,8 Mnimo 2 2 2 Mx imo 20000 6600 20000 Mediana 450,00 300,00 400,00 Curtos is 98,879 25,366 100,206 Asimetra 6,526 3,743 6,301

CV= S/X
V= 723 / 688,9

1,05
1,08

M= 477,6 / 441,7

La Forma de la distribucin
Una tercera caracterstica de un conjunto de datos es la forma, es decir, la manera en que estn distribuidas las observaciones.

La distribucin de los datos puede ser o no simtrica. Si la distribucin de los datos no es simtrica, se llama asimtrica o sesgada. Para describir la forma se puede comparar la media y la mediana.
Tambin puede observarse a travs del coeficiente de asimetra Mide el grado de Simetra / Asimetra de la distribucin

La Forma de la distribucin

.
Media Mdn

Si es + indicar muchos casos en los valores ms bajos y pocos en los ms altos positivamente asimtrica . Media > Mediana: Positivos o con sesgamiento a la derecha

La Forma de la distribucin

Mdn Media

Si es - indicar muchos casos en los valores ms altos y pocos en los ms bajos negativamente asimtrica. Media < Mediana: Negativos o con sesgaminto a la izquierda.

La Forma de la distribucin

Mdn = Media

En la distribucin Normal es 0 Simtrica Media = Mediana: Simtricos o con sesgamiento cero.

La Forma de la distribucin
Otra manera de apreciar la forma de una distribucin es observar el nivel de apilamiento o llanura de la curva

leptocrtica (menor dispersin)


.

Platicrtica (mayor dispersin)

mesocrtica

El coeficiente de kurtosis mide el grado de apuntamiento de la curva

La Forma de la distribucin
El coeficiente de kurtosis

Mide el grado de apuntamiento de la curva En la distribucin Normal es 0 mesocrtica Si es + indicar un grado de apilamiento mayor que en la normal leptocrtica (menor dispersin) Si es indicar que es ms aplanada que la normal platicrtica (mayor dispersin)

HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVA

UN TIPO PARTICULAR DE DISTRIBUCIN PARA VARIABLES ALEATORIAS MTRICAS

LA CURVA NORMAL SUS PROPIEDADES

ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL


Es un tipo particular de distribucin de frecuencias. En los casos en que los valores que asume una variable depende de mltiples factores sin que ninguno de ellos sesgue la distribucin, es de esperar que los valores se distribuyan homogneamente alrededor de la media la mediana y la moda. Estas variables aleatorias presentan una distribucin que es aproximadamente simtrica y cuya grfica tiene forma de campana (mesocrtica). Esta distribucin es utilizada en aplicaciones estadsticas como modelo o parmetro de comparacin dada la frecuencia o normalidad con la que ciertos fenmenos tienden a parecerse a esta distribucin.

ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL

La distribucin normal queda definida por dos parmetros:


LA MEDIA Y EL DESVIACIN ESTNDAR

ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL


El rea total bajo la curva es igual a 100 % o 1. El rea bajo la curva comprendido entre los valores situados a una desviaciones estndar de la media es aproximadamente igual al 68%. El rea bajo la curva comprendido entre los valores situados a dos desviaciones estndar de la media es aproximadamente igual al 95%. =1

= -1

=-2 = -3
2,14

=2

2,14

=3

ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL


= -1 =1 =2 Se puede determinar el rea entre dos ordenadas cuales quiera a travs del calculo de las unidades de desviacin en que se encuentra una porcin de la poblacin y su correspondencia en la tabla de reas bajo la curva normal

=-2 = -3

=3

Puntuaciones Z

Refiere al nmero de unidades de desviacin tpica que un individuo o caso queda por encima o por debajo de la media de su grupo 2,14

Z=XX S

ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL


Se requiere conocer la porcin de poblacin que gana hasta $143

S= 12

Z=XX
S

X= 143

168

a) Clculo de Z Z= (143 168) / 12 Z= -2,08

2,14

b) Correspondencia en la tabla De reas bajo la curva normal 0,4812


2,14

48%

c) 0,5 0,4812 = 0,0188

aprox 1,9%

Anlisis de tablas de contingencia

TIPO DE ANLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA


ANLISIS DE PERFILES O CARACTERSTICAS POBLACIONALES

ANLISIS DESCRIPTIVO DE GRUPOS O SEGMENTOS DE POBLACIN

Componentes Tabla de una contingencia


DISTRIBUCIONES MARGINALES DISTRIBUCIONES CONDICIONALES UN TOTAL POBLACIONAL O MUESTRAL

Pobres Aprobaron No aprobaron Total

No pobres

Total

Celdas condicionales

40 60

Marginales
(de fila)

70
Marginales
(de columna)

30

100
N: total poblacional o muestral

Anlisis bivariados Tablas de contingencia

Funcin descriptiva
Rendimiento educativo/cond. Socioec.

Pobres
15
37,5 21,4 15

No pobres
25
62,5 83,3

Total
40
100 40

Aprobaron
% fila %Col % del total

No aprobaron
% fila
%Col % fila

55
91,6 78,6

5
8,4 16,7

60
100 60

% del total

Total
%Col % del total

70
70 100

30
30 100

100
100 100

Anlisis de tablas de contingencia

TIPO DE ANLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA

ANLISIS DE ASOCIACIN

Anlisis bivariados Tablas de contingencia


hiptesis
Existe una relacin entre los logros educativos de los alumnos y su contexto sociofamiliar.

Anlisis bivariados Tablas de contingencia


Hiptesis Existe una relacin entre los logros educativos de los alumnos y su contexto sociofamiliar.

aprob
Variables:

categoras Si no

v. Nominal dicotmica

Situacin de pobreza

Si
no
v. Nominal dicotmica

Anlisis bivariados Tablas de contingencia


Los nios que no hayan aprobado el exmen se encontrarn mayoritariamente en situacin de pobreza
H1:

No Pobres

Pobres

Total

Aprobaron No aprobaron Total

XX XX

x XXXXXXXX
Hiptesis rinconal

Anlisis bivariados Tablas de contingencia


Los nios que no hayan aprobado el exmen se encontrarn mayoritariamente en situacin de pobreza Mientras que los que lo han aprobado se encontrarn en hogares por encima de la lnea de pobreza
H2:

No Pobres Aprobaron No Aprobaron Total

Pobres

Total

XXXXXXXX XX XX XXXXXXXX
Hiptesis Diagonal

Anlisis bivariados Tablas de contingencia


La idea de asociacin / relacin entre variables se define por lo general en oposicin al de independencia estadstica y se evala examinando el sentido y la fuerza de las regularidades empricas

Anlisis bivariados Tablas de contingencia


Pobres Aprobaron No aprobaron Total
25 25 50

No pobres
25 25 50

Total
50 50 100

XXX
XXX

XXX
XXX

Si conozco la distribucin esperada bajo el supuesto de independencia estadstica lo puedo contrastar con la distribucin real y ver si las diferencias son estadsticamente significativas

Anlisis bivariados Tablas de contingencia


Las variables X e Y (situacin de pobreza y aprobacin del exmen ) son estadsticamente independientes si el porcentaje o nmero de de observaciones que poseen el atributo Y1 ( no aprob) es el mismo entre X1 (pobres) que entre X2 (no pobres).

Pobres Aprobaron (Y1) No aprobaron (Y2) Total

No pobres

Total

(40 * 70) / 100 (40 * 30) / 100 40 28 12 (60 * 70) / 100 (60 * 30) / 100 60 42 18 70 30 100

Anlisis bivariados Tablas de contingencia


Las variables X e Y (situacin de pobreza y aprobacin del exmen ) son estadsticamente independientes si el porcentaje o nmero de de observaciones que poseen el atributo Y1 ( no aprob) es el mismo entre X1 (pobres) que entre X2 (no pobres).

Pobres Aprobaron (Y1) No aprobaron (Y2) Total


28 15 42 55 70

No pobres
12 25 18 5 30

Total
40

60 100

Anlisis bivariados Tablas de contingencia


La relacin encontrada es estadsticamente significativa o se debe al azar? TEST DE HIPTESIS Si existe cal es la fuerza y el sentido de dicha relacin? COEFICIENTES DE ASOCIACIN

Si existe la relacin cal es la fuerza y el sentido de dicha relacin?

Para medir el grado de dependencia o asociacin entre las variables X e Y se utillizan medidas de asociacin

Existen diferentes medidas segn las caractersticas de la tabla, el tipo de hiptesis y las caractersticas de las variables

Medidas de asociacin para dos variables de escala nominal

Coeficiente phi
Medida de asociacin para dos variables dicotmicas Basada en el coeficiente ji cuadrado Asume valores entre 0 y 1

Coeficiente V de Cramer
Extensin de PHI Variables nominales de ms de 2 categ Asume valores entre 0 y 1

Coeficientes Lambdas
Basada en reduccin del error Interpretacin distinta de los anteriores Asume valores entre 0 y 1 Proporcin en que se reduce el error al predecir los valores de una variable a partir de los de la otra

Coeficiente Kappa
Compara los valores de dos variables nominales tales que sus valores pueden ser los mismos Tablas cuadradas Mide el grado de acuerdo entre las dos variables Asume valores entre -1y 1 Valores prximos a 1 : total acuerdo. Valores prximos a -1 : total desacuerdo

Medidas de asociacin

Medidas de asociacin para dos variables de escala ordinal Coeficiente Gamma


Medida de asociacin para dos variables cualitativas de escala ordinal Asume valores entre -1 y 1 Valores prximos a 1 : fuerte asociacin positiva: a medida que aumentan los valores de una variable aumentan los de la otra Valores prximos a -1 : fuerte asociacin negativa: a medida que aumentan los valores de una variable disminuyen los de la otra 0 indica que no hay relacin ni positiva ni negativa aunque puede haber otro tipo de relacin. Puede alcanzar valores extremos cuando la asociacin no es total

Medidas de asociacin

Medidas de asociacin para dos variables de escala ordinal


Coeficiente Tau-b de Kendall
Extensin del GammaAsume valores entre -1 y 1 Alcanza valores extremos (-1 y 1) cuando la asociacin es total Alcanza valores extremos (-1 y 1) slo cuando las dos variables tienen el mismo nmero de categoras (la tabla es cuadrada)

Coeficiente Tau-c de Kendall


Correccin del tau-b para variables con distinto tipo de categoras Puede subestimar el grado de asociacin.

MEDIDAS DE ASOCIACIN
Medida de asociacin
Phi Tabla 2x2

Escala de Medida
Nominales

Observaciones Medidas basadas en chi cuadrado. Toman valores comprendidos entre 0 y 1. Evala hiptesis lineales (diagonal principal). Son tiles para estimar grados de asociacin entre pares de variables, sobre un mismo conjunto de individuos para n filas y columnas. Toma valores entre 0 y 1. Disponen versin asimtrica. Es fcil de interpretar en trminos de la proporcin que se reduce le error de prediccin del valor de una variable a partir de los valores de la otra (pero puede tomar valores muy bajos en tablas con asociacin). Toma valores entre -1 y 1, pasando por 0. Gamma es ms fcil de interpretar. Asume relaciones curvilineales. Tau b slo alcanza valores extremos cuando hay asociacin total y f y c son iguales. Tau c tiende a subestimar la relacin.

V de Cramer

fxc

Nominales

Lambda

fxc

Nominales

Gamma

fxc fxc

Ordinales Ordinales

Tau b / c de
Kendall