Vous êtes sur la page 1sur 14

TEMA1:Estadsticadescriptiva

Tablas
Estadsticos
Grficos

MaterialelaboradoporM.DoloresFras,JessFernndezyCarmenM.Sordo
profesoresdelDptodeMatemticaAplicadayC.C.delaUniversidaddeCantabria

Estadsticadescriptiva
Seocupadelanlisisdemuestrasdedatosprocedentesde
experimentos,encuestasetc,quecontienenunacomponente
aleatorianopredecible.

muestra

poblacin

POBLACIN:todoslosestudiantesdelaUniversidaddeCantabria
MUESTRA:alumnosde1delaUniversidaddeCantabria.

Estadsticadescriptiva
Losdatosqueestudiamospuedenserdediferentestipos:
Atendiendoasunaturaleza:
Cualitativas, se dividen en categoras no numricas (sexo de los
individuos,fumadoresono...)
Semicuantitativas, valores no numricos pero que admiten
clasificacin(calidaddeunservicio:malo,regular,bueno)
Cuantitativas, son numeros reales (edad, altura...). Estas a su vez
pueden ser discretas si toman un nmero finito o numerable de
valores (edad) y continuas si toman un nmero infinito de valores
dentrodeunciertointervalo(alturaypeso).

Atendiendoalnmerodeobservaciones:
Unidimensionales,bidimensionales,multidimensionales.

Estadsticadescriptiva
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:

1
2

Tablas

4
3

media=2.283
varianza=2.005
desv.stand.=1.416
moda=3
mediana=2

Estadsticos

Grficos

Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.Lascolumnasdelatablamuestran
distintasvariablesdependiendodesilosdatossondiscretos
ocontinuos.
Casodiscreto(conpocosvaloresposibles):
xi:posiblesvaloresquepuedenaparecerenlosdatos
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada

Fi:frecuenciarelativaacumulada

Tabladefrecuencias
Ejemplo
Enunaencuestaa60familiasdeunaciudadsobreelnmerodehijos.

Rtip
ni<table(data)
Ni<cumsum(ni)
fi<mitabla/length(ni)
Fi<cumsum(ni)/length(ni)

Ejercicio
Enunaobrasehanidoanotadoelnmerodemetrosquelosalbailesazulejan
porhora,obtenindoselatabladefrecuenciassiguiente:

Completaresatabladefrecuencias.

Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.
Casocontinuo(odiscretoconmuchosvaloresposibles):Los
datoshandeagruparseporclases.
(Li1,Li]:lmitesdeclase.Valorinferiorysuperiordelintervaloquedefinelasclases
xi:marcasdeclase.Valormediodeloslmitesdeclase.
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada

Fi:frecuenciarelativaacumulada

Tabladefrecuencias
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:

ElCriteriodeSturgesnosdice
cuntasclasesdefinir:

Ejercicio
Enunciertocolectivodepersonassetomaunamuestrade30personasalas
queseobservaelpeso,obtenindoselossiguientesdatos:

Representaresteconjuntodedatosmedianteunatabla,agrupandolosdatos
porclases.

Estadsticos
Cualquierfuncindelosdatosdelamuestra,porloquesolo
sedefinenparadatoscuantitativos(valoresnumricos).
T(x1,x2...x1n)

Sirvenparacuantificarciertascaractersticasdelamuestra:
Estadsticosdetendenciacentralolocalizacin
Estadsticosdeposicin
Estadsticosdedispersin
Estadsticosdeforma

Estadsticosdeposicin
Indican valores que parten la muestra en proporciones
dadas:cuantiles,percentiles,cuartilesydeciles.
Todosellostienenlasunidadesdelavariableobservada.
Cuantildeorden(C):Sedefineparacualquiervalorentre0
y1queverifique:

Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187

C0.5=Med=[176,179](176+179)/2=177.5cm

C0.5
dejapordebajoal50%delosdatosyporencimaal50%.

Estadsticosdeposicin
Cuantil de orden (C): Para datos agrupados se calcula
como:
ordendelcuantil
iintervaloquecontienealcuantil
Li1limiteinferiordelintervaloi
aiamplituddelintervaloi

nifrecuenciaabsolutadelintervaloi

Ni1frecuenciaabsolutaacumuladadelintervaloi

Ejemplo
C0.5?
Puntuacionestest

Estadsticosdeposicin
Percentildeorden100:Eselcuantildeorden
Deciles:SonloscuantilesdeordenC0.1C0.2...........C0.8C0.9
Cuartiles(Q):Dividenalamuestraen4gruposconfrecuencias
similares. Primer cuartil Q = C = Percentil 25
1

0.25

Segundo cuartil Q2 = C0.50 = Percentil 50 = Mediana


Tercer cuartil

Q3 = C0.75 = Percentil 75

Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187

C0.25=[172,174]cm(172+174)/2=173cm
C0.5=Med=177.5cmC0.75=180cm

Estadsticosdelocalizacin
Indican valores con respecto a los que los datos parecen
agruparse:media,medianaymoda.
Todosellostienenlasunidadesdelavariableobservada.
Media:Eslamediaaritmtica(promedio)delosdatos
Datossinagrupar:

Sumadelosvaloresdividido
poreltamaodelamuestra

Ejemplo
Alturasde5personasenmetros:1.721.651.601.841.58

Estadsticosdelocalizacin
Media:Eslamediaaritmtica(promedio)delosdatos
Datosagrupados:

Encuesta a 60 familias sobre el


nmerodehijos:

La media es un estadstico muy


sensibleavaloresextremos.

Ejemplo
Media de datos agrupados

Estadsticosdelocalizacin
Mediana: Valor que divide a los datos en dos grupos con el
mismonmerodeelementos.EselQ2 y el C0.50
La mediana es un estadstico robusto ya que no es sensible a valores
extremos.

Ejemplo
{1,4,6,10,12}

Mediana=6

{1,4,6,10,30}

Mediana=6

{1,4,6,8,10,12}

Mediana=(6+8)/2=7

Estadsticosdelocalizacin
Ejemplo
Nmerodehijosde60parejasestudiadas:

60/2 = 30

la mediana del nmero de hijos es 2 hijos

Estadsticosdelocalizacin
Moda: Es el valor que ms se repite, el de mayor frecuencia
relativaoabsoluta.
Clase Modal: Es el clase que tiene mayor frecuencia relativa
porunidaddeamplitud.

Ejemplo
1 3 5 5 7 10
1 3 5 5 7 7 10

5
5 y 7 (bimodal)

[6-7) clase modal

Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:

a)Calcularlamedia,lamedianaylaclasemodal.
b) Calcular el valor del peso que puede considerarse indicativo de
anormalmente alto y bajo (representativo del 5% de la poblacin con
mayorymenorpeso,respectivamente).

Estadsticosdedispersin
Ejemplo
Conjunto1:1020304050media=30mediana=30moda=notiene
Conjunto2:1030303050media=30mediana=30moda=30
Conjunto3:3030303030media=30mediana=30moda=30

Sinembargolosdatossontotalmentedistintos!!
Conjunto1

Conjunto2

Conjunto3

Losestadsticosdelocalizacinnocaracterizancompletamente
losdatossonnecesarioslosestadsticosdedispersin.

Estadsticosdedispersin
Indicanlamayoromenorconcentracindelosdatosconrespecto
a las medidas de localizacin: rango, rango intercuartlico,
varianza,cuasivarianza,desviacintpica,cuasidesviacintpica
ycoeficientedevariacin.

Rango:Diferenciaentreelmximoyelmnimo.Muysensible
avaloresextremos.
Rango intercuartlico (RIC): Diferencia entre el tercer y el
primercuartil.
RIC =C C
0.75

0.25

Ambostienelasmismasunidadesquelavariable.

Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187

Rango=187160=27cm

RIC=C0.75C0.25=180173=7cm

Estadsticosdedispersin
Varianza(S ):Unidadesdelavariablealcuadrado
2

Cuasivarianza(S ):Unidadesdelavariablealcuadrado
2

Desviacintpica(S ):Unidadesdelavariable.
n

Cuasidesviacintpica(S):Unidadesdelavariable

Todossonsensiblesavaloresextremos.

Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:

Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:

Estadsticosdedispersin
Coeficientedevariacin(CV):Raznentrelacuasidesviacin
tpicaylamedia.

Tambin se denomina variabilidad relativa y es frecuente usarla en


porcentaje.
Es adimensional, por lo que resulta interesante para comparar la
variabilidaddevariablesdiferentes.

Ejemplo
Si el peso de los individuos de una muestra tiene CV=30% y la altura CV=10%
los individuos presentan ms dispersin en peso que en altura.

Estadsticosdeforma
Momentosdeordenr(mr):
Se llama momento muestral mr de orden r, respecto de
unaconstantea,alasiguientemedida:

Cuandoa=0sehablademomentosrespectodelorigen.
Sia=sedicequesonmomentoscentrales.
x
Lamediamuestraleselmomentodeprimerorden(r=1)respectodel
origen(a=0).
Lavarianzaeselmomentomuestraldesegundoorden(r=2)respecto
delamedia(a=)
x

Estadsticosdeforma
Dan idea de la forma de la distribucin: coeficiente de
asimetra o sesgo y coeficiente de curtosis o apuntamiento.
Sonadimensionales.
Coeficiente de asimetra o sesgo (CA): Indica si la distribucin
essimtricaono.
CA=0,ladistribucinessimtrica(media=mediana)
CA>0,ladistribucinesasimtricaporladerecha
CA<0,ladistribucinesasimtricaporlaizquierda

Coeficientedecurtosisoapuntamiento(CC):Indicaelgradode
apuntamiento de la distribucin con respecto a distribucin
normalogaussiana.
CC=0,distribucinmesocrtica(Normal)
CC>0,distribucinleptocrticaoapuntada
CC<0,distribucinplaticrticaoaplanada

Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:

Calcularlacuasidesviacintpica,lavarianza,elrangointercuartlico,el
coeficientedevariacin,elcoeficientedeasimetrayeldecurtosis.

Grficos
Los grficos son una herramienta de resumen de la
informacin contenida en los datos que permiten sacar
conclusionesacercadelamuestradeunsolovistazo.
Veremos distintos tipos de grficos, algunos de los cuales
dependendeltipodevariable:siesdiscretaocontinuaosies
cuantitativaocualitativa.

Diagramadesectores
Grficodebarras
Histograma
Diagramadecajas

Grficos
Diagrama de sectores: Es una representacin circular o con
formadetartaenlaquecadasectordelcrculotieneunngulo
directamente proporcional a la frecuencia relativa de cada
posiblevalordelavariable.
Estindicadoparavariablescualitativasodiscretasconunnmero
pequeodeposiblesvalores.

Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
1

1hijo:11x360/60=66

0
Rtip

5
3

pie(table(data))

Grficos
Diagrama de barras: Representa mediante barras la
informacincontenidaenlatabladefrecuencias,yaseala
frecuenciaabsolutaolarelativa.
Estindicadoparavariablescualitativasodiscretasconunnmero
pequeodeposiblesvalores.

Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:

Rtip
barplot(table(data),xlab="numerode
hijos",ylab="ni")

Grficos
Histograma de frecuencias: Muestran la distribucin de una
seriededatosdevariablescuantitativascontinuasoagrupadas
enintervalosdeclase.
Se trata de un grfico de barras verticales en el que el ancho de cada barra
corresponde con el rango del intervalo mientras que la altura respresenta la
frecuenciaabsolutaorelativa.

Ejemplo
El tiempo de acceso al disco duro
(milisegundos) medido en 30 instantes de
tiempodistintoshasido:

ni
ni

Rtip
Hist(data,scale="frequency",breaks="Sturges",
col="darkgray",xlab="tiempo",ylab="ni")

Grficos
Diagramadecajasoboxandwiskers: Resumengrficamente
5datos:mximo,mnimo,C0.25,C0.5yC0.75

Rtip
boxplot(data,ylab='Peso(Kg)')

Lazonacentral(caja)contieneel50%delasobservaciones(RIC).
Los outliers son datos anmalos que se representan fuera de los
bigotes. Son valores mayores que Q3+1.5RIC o valores menores
Q11.5RIC.

Ejercicio
Jaime llevaba toda la tarde analizando los datos de altura de un grupo de
personas (en centmetros) y ya tena listo su diagrama de caja.
Lamentablemente,selehaderramadouncafecorrosivosobrelyhaborrado
parte del diagrama. Aydale a dibujarlo de nuevo con los datos que haba
recogido.Viendoeldiagrama,podrasdecirsilosdatospresentanasimetra?

Datosbidimensionales
Los mtodos vistos hasta ahora solo permiten trabajar con datos
unidimensionales.
Siseanalizanlasvariablesporseparadosepierdeinformacinsobrela
distribucindefrecuenciasconjunta.

Las variables bidimensionales surgen cuando se estudian dos


caractersticasasociadasalaobservacindeunfenmeno
Enconcreto,resultandetomarunamuestradetamaondeuna
variablealeatoriabidimensional(X,Y)

{(x1,y1),(x2,y2),...,(xn,yn)}

Ejemplo

Pesoyalturadeunamuestradepersonas
Altura
(cm)

Peso
(kg)

160 165 168 170 171 175 175 180 180 182
55

58

58

61

67

62

66

74

79

79

Datosbidimensionales
La relacin entre dos variables (X, Y) se puede estudiar
mediantetablas.
Distribucindefrecuenciasconjuntaymarginalesdelaaltura
yelpesode20personas.

ALTURA
PESO 155160 160165 165170 170175 175180
5060
1
3
0
0
0
6070
0
2
3
0
0
7080
0
1
2
0
0
8090
0
0
1
2
2
90100
0
0
2
0
1

TOTAL
4
5
3
5
3

TOTAL
1
6
8
2
3
20
Tambin se puede expresar la tabla en funcin de las
frecuenciasrelativas,sinmsquedividirentren.

Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.

Ejemplo

Seobservaquecuandola
altura aumenta el peso
aumenta.
Existe una relacin lineal
directaentrelasvariables.

Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.
Y

Cuando X crece Y crece:


relacinlinealdirecta.

Cuando X crece Y decrece:


relacinlinealinversa.

Casi todos los puntos pertenecen


alprimerytercercuadrante

Casi todos los puntos pertenecen


alsegundoycuartocuadrante.

Correlacinlineal
Es posible cuantificar la relacin lineal entre los datos
tomados de dos variables mediante el coeficiente de
correlacin:
dondeS
(x,y)eslacovarianzamuestral.

n
Toma valores entre 1 (dependencia
directa)y1(dependenciainversa).
Siseacercaa0ladependencialineal
esdbil.

Ejercicio

Vous aimerez peut-être aussi