Académique Documents
Professionnel Documents
Culture Documents
Tablas
Estadsticos
Grficos
MaterialelaboradoporM.DoloresFras,JessFernndezyCarmenM.Sordo
profesoresdelDptodeMatemticaAplicadayC.C.delaUniversidaddeCantabria
Estadsticadescriptiva
Seocupadelanlisisdemuestrasdedatosprocedentesde
experimentos,encuestasetc,quecontienenunacomponente
aleatorianopredecible.
muestra
poblacin
POBLACIN:todoslosestudiantesdelaUniversidaddeCantabria
MUESTRA:alumnosde1delaUniversidaddeCantabria.
Estadsticadescriptiva
Losdatosqueestudiamospuedenserdediferentestipos:
Atendiendoasunaturaleza:
Cualitativas, se dividen en categoras no numricas (sexo de los
individuos,fumadoresono...)
Semicuantitativas, valores no numricos pero que admiten
clasificacin(calidaddeunservicio:malo,regular,bueno)
Cuantitativas, son numeros reales (edad, altura...). Estas a su vez
pueden ser discretas si toman un nmero finito o numerable de
valores (edad) y continuas si toman un nmero infinito de valores
dentrodeunciertointervalo(alturaypeso).
Atendiendoalnmerodeobservaciones:
Unidimensionales,bidimensionales,multidimensionales.
Estadsticadescriptiva
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
1
2
Tablas
4
3
media=2.283
varianza=2.005
desv.stand.=1.416
moda=3
mediana=2
Estadsticos
Grficos
Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.Lascolumnasdelatablamuestran
distintasvariablesdependiendodesilosdatossondiscretos
ocontinuos.
Casodiscreto(conpocosvaloresposibles):
xi:posiblesvaloresquepuedenaparecerenlosdatos
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada
Fi:frecuenciarelativaacumulada
Tabladefrecuencias
Ejemplo
Enunaencuestaa60familiasdeunaciudadsobreelnmerodehijos.
Rtip
ni<table(data)
Ni<cumsum(ni)
fi<mitabla/length(ni)
Fi<cumsum(ni)/length(ni)
Ejercicio
Enunaobrasehanidoanotadoelnmerodemetrosquelosalbailesazulejan
porhora,obtenindoselatabladefrecuenciassiguiente:
Completaresatabladefrecuencias.
Tabladefrecuencias
Unatabladefrecuenciasresumelainformacincontenidaen
losdatosdeunamuestra.
Casocontinuo(odiscretoconmuchosvaloresposibles):Los
datoshandeagruparseporclases.
(Li1,Li]:lmitesdeclase.Valorinferiorysuperiordelintervaloquedefinelasclases
xi:marcasdeclase.Valormediodeloslmitesdeclase.
ni:frecuenciaabsoluta.Nmerodeocurrenciasenlamuestradecadaposiblevalor
fi:frecuenciarelativa
Ni:frecuenciaabsolutaacumulada
Fi:frecuenciarelativaacumulada
Tabladefrecuencias
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:
ElCriteriodeSturgesnosdice
cuntasclasesdefinir:
Ejercicio
Enunciertocolectivodepersonassetomaunamuestrade30personasalas
queseobservaelpeso,obtenindoselossiguientesdatos:
Representaresteconjuntodedatosmedianteunatabla,agrupandolosdatos
porclases.
Estadsticos
Cualquierfuncindelosdatosdelamuestra,porloquesolo
sedefinenparadatoscuantitativos(valoresnumricos).
T(x1,x2...x1n)
Sirvenparacuantificarciertascaractersticasdelamuestra:
Estadsticosdetendenciacentralolocalizacin
Estadsticosdeposicin
Estadsticosdedispersin
Estadsticosdeforma
Estadsticosdeposicin
Indican valores que parten la muestra en proporciones
dadas:cuantiles,percentiles,cuartilesydeciles.
Todosellostienenlasunidadesdelavariableobservada.
Cuantildeorden(C):Sedefineparacualquiervalorentre0
y1queverifique:
Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187
C0.5=Med=[176,179](176+179)/2=177.5cm
C0.5
dejapordebajoal50%delosdatosyporencimaal50%.
Estadsticosdeposicin
Cuantil de orden (C): Para datos agrupados se calcula
como:
ordendelcuantil
iintervaloquecontienealcuantil
Li1limiteinferiordelintervaloi
aiamplituddelintervaloi
nifrecuenciaabsolutadelintervaloi
Ni1frecuenciaabsolutaacumuladadelintervaloi
Ejemplo
C0.5?
Puntuacionestest
Estadsticosdeposicin
Percentildeorden100:Eselcuantildeorden
Deciles:SonloscuantilesdeordenC0.1C0.2...........C0.8C0.9
Cuartiles(Q):Dividenalamuestraen4gruposconfrecuencias
similares. Primer cuartil Q = C = Percentil 25
1
0.25
Q3 = C0.75 = Percentil 75
Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187
C0.25=[172,174]cm(172+174)/2=173cm
C0.5=Med=177.5cmC0.75=180cm
Estadsticosdelocalizacin
Indican valores con respecto a los que los datos parecen
agruparse:media,medianaymoda.
Todosellostienenlasunidadesdelavariableobservada.
Media:Eslamediaaritmtica(promedio)delosdatos
Datossinagrupar:
Sumadelosvaloresdividido
poreltamaodelamuestra
Ejemplo
Alturasde5personasenmetros:1.721.651.601.841.58
Estadsticosdelocalizacin
Media:Eslamediaaritmtica(promedio)delosdatos
Datosagrupados:
Ejemplo
Media de datos agrupados
Estadsticosdelocalizacin
Mediana: Valor que divide a los datos en dos grupos con el
mismonmerodeelementos.EselQ2 y el C0.50
La mediana es un estadstico robusto ya que no es sensible a valores
extremos.
Ejemplo
{1,4,6,10,12}
Mediana=6
{1,4,6,10,30}
Mediana=6
{1,4,6,8,10,12}
Mediana=(6+8)/2=7
Estadsticosdelocalizacin
Ejemplo
Nmerodehijosde60parejasestudiadas:
60/2 = 30
Estadsticosdelocalizacin
Moda: Es el valor que ms se repite, el de mayor frecuencia
relativaoabsoluta.
Clase Modal: Es el clase que tiene mayor frecuencia relativa
porunidaddeamplitud.
Ejemplo
1 3 5 5 7 10
1 3 5 5 7 7 10
5
5 y 7 (bimodal)
Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:
a)Calcularlamedia,lamedianaylaclasemodal.
b) Calcular el valor del peso que puede considerarse indicativo de
anormalmente alto y bajo (representativo del 5% de la poblacin con
mayorymenorpeso,respectivamente).
Estadsticosdedispersin
Ejemplo
Conjunto1:1020304050media=30mediana=30moda=notiene
Conjunto2:1030303050media=30mediana=30moda=30
Conjunto3:3030303030media=30mediana=30moda=30
Sinembargolosdatossontotalmentedistintos!!
Conjunto1
Conjunto2
Conjunto3
Losestadsticosdelocalizacinnocaracterizancompletamente
losdatossonnecesarioslosestadsticosdedispersin.
Estadsticosdedispersin
Indicanlamayoromenorconcentracindelosdatosconrespecto
a las medidas de localizacin: rango, rango intercuartlico,
varianza,cuasivarianza,desviacintpica,cuasidesviacintpica
ycoeficientedevariacin.
Rango:Diferenciaentreelmximoyelmnimo.Muysensible
avaloresextremos.
Rango intercuartlico (RIC): Diferencia entre el tercer y el
primercuartil.
RIC =C C
0.75
0.25
Ambostienelasmismasunidadesquelavariable.
Ejemplo
Alturas(cm): 160,165,172,174,174,176,179,180,180,180,180,187
Rango=187160=27cm
RIC=C0.75C0.25=180173=7cm
Estadsticosdedispersin
Varianza(S ):Unidadesdelavariablealcuadrado
2
Cuasivarianza(S ):Unidadesdelavariablealcuadrado
2
Desviacintpica(S ):Unidadesdelavariable.
n
Cuasidesviacintpica(S):Unidadesdelavariable
Todossonsensiblesavaloresextremos.
Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:
Estadsticosdedispersin
Ejemplo
Eltiempodeaccesoaldiscoduro(milisegundos)medidoen30instantes
detiempodistintoshasido:
Estadsticosdedispersin
Coeficientedevariacin(CV):Raznentrelacuasidesviacin
tpicaylamedia.
Ejemplo
Si el peso de los individuos de una muestra tiene CV=30% y la altura CV=10%
los individuos presentan ms dispersin en peso que en altura.
Estadsticosdeforma
Momentosdeordenr(mr):
Se llama momento muestral mr de orden r, respecto de
unaconstantea,alasiguientemedida:
Cuandoa=0sehablademomentosrespectodelorigen.
Sia=sedicequesonmomentoscentrales.
x
Lamediamuestraleselmomentodeprimerorden(r=1)respectodel
origen(a=0).
Lavarianzaeselmomentomuestraldesegundoorden(r=2)respecto
delamedia(a=)
x
Estadsticosdeforma
Dan idea de la forma de la distribucin: coeficiente de
asimetra o sesgo y coeficiente de curtosis o apuntamiento.
Sonadimensionales.
Coeficiente de asimetra o sesgo (CA): Indica si la distribucin
essimtricaono.
CA=0,ladistribucinessimtrica(media=mediana)
CA>0,ladistribucinesasimtricaporladerecha
CA<0,ladistribucinesasimtricaporlaizquierda
Coeficientedecurtosisoapuntamiento(CC):Indicaelgradode
apuntamiento de la distribucin con respecto a distribucin
normalogaussiana.
CC=0,distribucinmesocrtica(Normal)
CC>0,distribucinleptocrticaoapuntada
CC<0,distribucinplaticrticaoaplanada
Ejercicio
En un cierto colectivo de personas se toma una muestra de 30 personas a las
que se observa el peso, obtenindose la siguiente tabla:
Calcularlacuasidesviacintpica,lavarianza,elrangointercuartlico,el
coeficientedevariacin,elcoeficientedeasimetrayeldecurtosis.
Grficos
Los grficos son una herramienta de resumen de la
informacin contenida en los datos que permiten sacar
conclusionesacercadelamuestradeunsolovistazo.
Veremos distintos tipos de grficos, algunos de los cuales
dependendeltipodevariable:siesdiscretaocontinuaosies
cuantitativaocualitativa.
Diagramadesectores
Grficodebarras
Histograma
Diagramadecajas
Grficos
Diagrama de sectores: Es una representacin circular o con
formadetartaenlaquecadasectordelcrculotieneunngulo
directamente proporcional a la frecuencia relativa de cada
posiblevalordelavariable.
Estindicadoparavariablescualitativasodiscretasconunnmero
pequeodeposiblesvalores.
Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
1
1hijo:11x360/60=66
0
Rtip
5
3
pie(table(data))
Grficos
Diagrama de barras: Representa mediante barras la
informacincontenidaenlatabladefrecuencias,yaseala
frecuenciaabsolutaolarelativa.
Estindicadoparavariablescualitativasodiscretasconunnmero
pequeodeposiblesvalores.
Ejemplo
Encuestaa60familiasdeunaciudadsobreelnmerodehijos:
Rtip
barplot(table(data),xlab="numerode
hijos",ylab="ni")
Grficos
Histograma de frecuencias: Muestran la distribucin de una
seriededatosdevariablescuantitativascontinuasoagrupadas
enintervalosdeclase.
Se trata de un grfico de barras verticales en el que el ancho de cada barra
corresponde con el rango del intervalo mientras que la altura respresenta la
frecuenciaabsolutaorelativa.
Ejemplo
El tiempo de acceso al disco duro
(milisegundos) medido en 30 instantes de
tiempodistintoshasido:
ni
ni
Rtip
Hist(data,scale="frequency",breaks="Sturges",
col="darkgray",xlab="tiempo",ylab="ni")
Grficos
Diagramadecajasoboxandwiskers: Resumengrficamente
5datos:mximo,mnimo,C0.25,C0.5yC0.75
Rtip
boxplot(data,ylab='Peso(Kg)')
Lazonacentral(caja)contieneel50%delasobservaciones(RIC).
Los outliers son datos anmalos que se representan fuera de los
bigotes. Son valores mayores que Q3+1.5RIC o valores menores
Q11.5RIC.
Ejercicio
Jaime llevaba toda la tarde analizando los datos de altura de un grupo de
personas (en centmetros) y ya tena listo su diagrama de caja.
Lamentablemente,selehaderramadouncafecorrosivosobrelyhaborrado
parte del diagrama. Aydale a dibujarlo de nuevo con los datos que haba
recogido.Viendoeldiagrama,podrasdecirsilosdatospresentanasimetra?
Datosbidimensionales
Los mtodos vistos hasta ahora solo permiten trabajar con datos
unidimensionales.
Siseanalizanlasvariablesporseparadosepierdeinformacinsobrela
distribucindefrecuenciasconjunta.
{(x1,y1),(x2,y2),...,(xn,yn)}
Ejemplo
Pesoyalturadeunamuestradepersonas
Altura
(cm)
Peso
(kg)
160 165 168 170 171 175 175 180 180 182
55
58
58
61
67
62
66
74
79
79
Datosbidimensionales
La relacin entre dos variables (X, Y) se puede estudiar
mediantetablas.
Distribucindefrecuenciasconjuntaymarginalesdelaaltura
yelpesode20personas.
ALTURA
PESO 155160 160165 165170 170175 175180
5060
1
3
0
0
0
6070
0
2
3
0
0
7080
0
1
2
0
0
8090
0
0
1
2
2
90100
0
0
2
0
1
TOTAL
4
5
3
5
3
TOTAL
1
6
8
2
3
20
Tambin se puede expresar la tabla en funcin de las
frecuenciasrelativas,sinmsquedividirentren.
Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.
Ejemplo
Seobservaquecuandola
altura aumenta el peso
aumenta.
Existe una relacin lineal
directaentrelasvariables.
Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.
Y
Correlacinlineal
Es posible cuantificar la relacin lineal entre los datos
tomados de dos variables mediante el coeficiente de
correlacin:
dondeS
(x,y)eslacovarianzamuestral.
n
Toma valores entre 1 (dependencia
directa)y1(dependenciainversa).
Siseacercaa0ladependencialineal
esdbil.
Ejercicio