Vous êtes sur la page 1sur 64

Comentarios de

Estadstica
Descriptiva
con una y dos variables
David Casado
Universidad Complutense de Madrid
Facultad de Ciencias Econmicas y Empresariales
Departamento de Estadstica e Investigacin Operativa II
David Casado de Lucas
uedes no imprimir este arc!ivo y consultarlo en "ormato digital# a!orrar$s papel y tinta% &i decides imprimirlo#
por "avor !a'lo en papel reciclado# a doble cara y con poca tinta% &( ecolgico% Muc!as gracias%
) Comentarios de Estadstica descriptiva con una variable
)* "ebrero +,)+
rlogo
En este arc!ivo se incluyen algunos comentarios relacionados con la Estadstica
descriptiva% El origen de estos comentarios est$ en mi docencia# como doctorando# en la
Universidad Carlos III de Madrid% La mayor parte de estas notas !a sido escrita para los
alumnos de la asignaturas de Estadstica de la Licenciatura en Documentacin y del -rado en
In"ormacin y Documentacin# ambos planes en modalidad semipresencial% La docencia a
distancia me !a obligado a escribir gran parte de los comentarios .ue en su da recog para los
alumnos en varios arc!ivos /noviembre y diciembre del +,,01 y .ue a!ora incluyo a.u#
corregidos y me2orados# por si pudieran ser de utilidad para alguien%
or su g(nesis# estos comentarios no constituyen un material completo de Estadstica
descriptiva% ueden ser# si acaso# un complemento a material .ue s abar.ue completamente
los puntos .ue se .uieran traba2ar% 3.u se recogen slo algunas 4de las muc!as posibles4
dudas tericas y pr$cticas .ue con m$s "recuencia tienen los alumnos a la !ora de !acer este
tipo de estadstica% En general# las dudas .ue los alumnos puedan tener dependen tanto de las
caractersticas de los materiales de la asignatura como de los alumnos /car$cter# intereses#
baga2e en ciencias1% Las !ay triviales y no tan triviales# pero ninguna 5tonta6%
Como indica el ttulo# la estadstica de estas !o2as se limita al anlisis de una o dos
variables# .ue adem$s !an sido medidas transversalmente# en un instante de tiempo
concreto% 7a 5con los datos delante6# una ve' .ue se tienen claras las caractersticas de los
datos y variables# la etapa del an$lisis descriptivo suele consistir en una recogida de la
in"ormacin en tablas y su e8presin mediante gr$"icos y medidas num(ricas# de modo .ue se
aprecien me2or caractersticas .ue no es posible apreciar a simple vista de la muestra% or este
motivo se !an dividido estos comentarios en las siguientes secciones9 Caractersticas de los
datos# Construccin de tablas# Representacin en grficos y Clculo de medidas numricas%
+ Comentarios de Estadstica descriptiva con una variable
:ndice
Una variable
Caractersticas de los datos
;ariables medidas transversal o longitudinalmente
;ariables estadsticas discretas y continuas
;ariables cualitativas
Un poco m$s%%%
;ariables estadsticas y variables aleatorias
Digresin sobre aparatos de medida y continuidad de las variables
Construccin de tablas
3grupacin de los datos en clases
Frecuencias absolutas y relativas
Frecuencias relativas# en tanto por uno
Frecuencias acumuladas
<epresentacin en gr$"icos
=istograma
Diagrama de barras e !istograma
Un poco m$s%%%
Funcin de probabilidad e !istogramas poblacional y muestral
C$lculo de medidas num(ricas
Marca de clase
C$lculo de la varian'a y la desviacin tpica
Cuasivarian'a /muestral1
>ipi"icacin de una variable
C$lculo de las medidas de locali'acin /incluida la mediana1
Datos atpicos
Distribuciones bimodales
C$lculo de la moda
Un poco m$s%%%
Interpretacin de las "rmulas9 asimetra# moda
MED3
Coe"iciente de apertura
3lgunos e2ercicios resueltos
E2ercicio )
E2ercicio +
? Comentarios de Estadstica descriptiva con una variable
Dos variables
Caractersticas de los datos
Dos muestras univariantes y una muestra bivariante
;uelta a la estadstica de una variable
Un poco m$s%%%
Datos multivariantes y datos multidimensionales
;ectores aleatorios
Construccin de tablas
Distribuciones con2unta# marginales y condicionales
<epresentacin en gr$"icos
Diagrama de dispersin
<ecta de regresin
Un poco m$s%%%
Ecuaciones de la recta
<epresentacin a mano de una recta
lantear una ecuacin del enunciado
<esolucin gr$"ica de algunos problemas
Otros tipos de regresin
C$lculo de medidas num(ricas
Correlacin y relacin no lineal entre variables
<elacin entre la correlacin lineal y la recta de regresin
Un poco m$s%%%
Inestabilidad num(rica
&imulaciones
3puntes sobre dependencia y correlacin lineales
3lgunos e2ercicios resueltos
E2ercicio ?
E2ercicio @
@ Comentarios de Estadstica descriptiva con una variable
Una variable
Caractersticas de los datos
;ariables medidas transversal o longitudinalmente
=ay una di"erencia importante entre datos transversales# .ue recogen la in"ormacin en un
instante Anico y concreto de tiempo# y datos longitudinales# .ue lo !acen a lo largo del tiempo% /3.u
se entiende el t(rmino 5longitudinal6 en este sentido de medicin a lo largo del tiempo# aun.ue por
datos longitudinales se suele entender m$s generalmente los .ue se componen de "unciones de
variable posiblemente distinta al tiempo# .ue de !ec!o pueden estar medidas transversalmente en un
instante de tiempo concreto%1 En el primer caso se elige una muestra y se observan variables /una o
m$s1 en un instante de tiempo dadoB en el segundo se elige una muestra y para cada elemento se
observan variables /una o m$s1 en varios momentos temporales distintos% ero la distincin entre
ambos tipos de datos no siempre est$ tan clara# ya .ue no tiene .ue ver Anicamente con el momento
en .ue se observan las variables sino con lo .ue las variables mismas signi"ican% or e2emplo# si la
variable es 5nAmero de llamadas recibidas en un intervalo de tiempo6# parece .ue la variable tiene
cierto car$cter longitudinal in!erenteB para complicar las cosas# esta variable puede a su ve' medirse
en una muestra en una sola ve'# o puede !acerse un seguimiento de la variable en la muestra a lo
largo del tiempo%
Es importante tener en cuenta de .u( tipo son los datos a la !ora de anali'arlos9 tanto a la !ora
de !acer el tratamiento# los gr$"icos y los c$lculos# como de interpretarlos% odramos !acer la
met$"ora de compararlos# respectivamente# con una "otogra"a y un vdeo9 si se trata de estudiar el
e"ecto del paso del tiempo /movimiento1# mientras la primera no in"orma de posibles movimientos a
lo largo del tiempo# aun.ue en algunos casos pueda indicarlo# el vdeo s muestra claramente si !ay
movimiento o no%
Dos "ormas de estudiar datos longitudinales .ue se suelen traba2ar en cursos b$sicos de
Estadstica se basan# respectivamente# en las series temporales y en los nmeros ndice% 3un.ue los
datos longitudinales tienen conceptos y m(todos propios de an$lisis# esto no impide .ue algunos de
los gr$"icos o medidas de los .ue se !abla a.u tengan su utilidad con datos longitudinales% or
e2emplo# podemos representar un !istograma de los errores despu(s de a2ustar un modelo a una serie
temporal% &i una variable# aun.ue medida a lo largo del tiempo# tiende a tomar valores siempre en un
con2unto acotado# tambi(n se puede representar el !istograma de esos datos% 3 las series temporales#
por e2emplo# cuando se les e8ige .ue sean estacionarias# lo .ue se garanti'a es .ue# aun.ue los datos
sean longitudinales# se les pueden aplicar con sentido ciertas operaciones /por e2emplo# las "rmulas
de la media y de la varian'a1# por.ue se est$ uniendo in"ormacin !omog(neaB sin la condicin de
estacionariedad las "rmulas se pueden aplicar num(ricamente# pero dan in"ormacin poco "iable%
En cual.uier caso# la Estadstica descriptiva de la .ue trata este documento es la
correspondiente a una Anica variable medida transversalmente en una muestra de la poblacin%
* Comentarios de Estadstica descriptiva con una variable
;ariables estadsticas discretas y continuas
Las variables cuantitativas pueden ser discretas o continuas# dependiendo de si el con2unto de
valores .ue pueden tomar es discreto o continuo%
Dentro de los nmeros reales /.ue son los nAmeros con los .ue !abitualmente traba2amos9 ,#
C?# ,#0# +DE#
.+, %%%19
Un subcon2unto es discreto cuando sus valores se representan como puntos aislados en la recta de los
reales y es continuo cuando al representarlos en la recta ocupan una "ran2a continua /parte o toda la
recta real1# 5sin !uecos6%
Otro criterio e.uivalente es .ue un con2unto es discreto si se puede construir una sucesin con ellos# de
"orma .ue no se .uede ninguno "uera /es un conjunto numerable1# y es continuo si no se pueden
ordenar en sucesin de manera .ue est(n todos en la sucesin /es no numerable1
Lo anterior no tiene .ue ver# en principio# con .ue los valores de las variables tengan un
nAmero "inito o in"inito de decimales% La relacin est$ en .ue en cuanto el con2unto de posibles
valores incluye algAn nAmero irracional# !acen "alta in"initos decimales 4distintos y no peridicos4
para poder representarlo% Los nAmeros irracionales# .ue est$n dentro de los reales# son los nAmeros
.ue tienen in"initos decimales y los .ue !acen .ue los reales de2e de ser un con2unto numerable% Los
nAmeros .ue tienen un nAmero "inito o peridico de decimales son los nAmeros racionales% or tanto#
.ue una variable sea discreta o continua no e.uivale a .ue el nAmero de decimales sea "inito o no#
respectivamenteB la relacin .ue puede y suele !aber es .ue cuando puede tomar algAn valor
irracional son necesarios in"initos decimales% ero es "$cil de"inir una variable .ue sea discreta y
necesite in"initos decimales9 basta con .ue tome sus valores en el con2unto F,# GH%
&in embargo# es verdad .ue "recuentemente suceder$ .ue las variables discretas tomar$n los
valores en9
I F,# )# +# ?%%%H /nAmeros naturales1
I F,# )# C)# +# C+%%%H /nAmeros enteros1
mientras .ue para las continuas consideraremos /al truncar los nAmeros1 un nAmero "inito de
decimales /por.ue en la pr$ctica no podemos nunca considerar los in"initos# de esto se !abla
5"ilos"icamente6 en el apartado Digresin sobre aparatos de medida y continuidad de las variables1%
;ariables cualitativas
ara este tipo de variables merece la pena !acer algunos comentarios .ue las prisas no suelen
de2arnos !acer% ;amos a pensar conceptualmente en ideas sencillas .ue# sin embargo# son un buen
"undamento para otras ideas m$s complicadas%
Jo se puede asignar de "orma natural un valor num(rico a cada valor cualitativo9 esto implica
.ue no se pueden ordenar de "orma natural ni los valores de la muestra ni las clases en .ue se podran
agrupar estos valores /ordenamientos .ue s inducira la asociacin con nAmeros1% Esto tiene como
consecuencias9
K Comentarios de Estadstica descriptiva con una variable
Jo tiene muc!o sentido !ablar de "recuencias acumuladas# aun.ue s de "recuencias absolutas
y relativas%
Jo tiene sentido !ablar de ciertos gr$"icos# como el !istogramaB aun.ue se utili'an otros como
el diagrama de barras# el de sectores# pictogramas# etc(tera%
Jo tiene sentido !ablar de ciertas medidas num(ricas .ue dependen o de los valores o de un su
ordenamiento# por e2emplo# la media# la varian'a# las medidas de locali'acin# etc(teraB aun.ue
s se puede !ablar de moda# por.ue se calcula a partir de las simples "recuencias%
Un poco m$s%%%
En esta seccin se incluyen algunos comentarios de un nivel m$s alto# .ue pretenden por un
lado "acilitar la comprensin de lo visto y de los temas siguientes# y por otro satis"acer la curiosidad
de .uien .uiera ir un poco m$s all$ de lo estrictamente necesario segAn el temario%
;ariables estadsticas y variables aleatorias
La Estadstica traba2a 4entre otros# pero principalmente4 a dos niveles9 el de los datos reales y
el de la teora /b$sicamente la >eora de robabilidades1% En el primer nivel se estudian las variables
estadsticasB en el segundo las variables aleatorias% Estas Altimas# como su nombre indica# son
variables .ue no toman valores de "orma previsible# sino .ue cuando m$s se pueden determinar
diciendo con .u( probabilidad puede tomar cada uno de sus valores% La Estadstica# como modo de
traba2ar# intenta asociar variables aleatorias a variables estadsticasB y viceversa% &e produce una
e.uivalencia de conceptos entre los dos niveles9 la "recuencia relativa de un nivel corresponde a la
probabilidad en el otro# las medidas /media# varian'a# asimetra# curtosis1 de las variables estadsticas
tienen sus an$logas de"inidas para variables aleatorias# etc(tera% =e !ec!o el dibu2o de aba2o para
representar esta dualidad%
or e2emplo# si se est$n estudiando unos datos reales# se intenta a2ustar un modelo terico o
variable aleatoria .ue e8pli.ueDcomparta caractersticas con la muestra# para as intentar comprender
me2or el proceso .ue los !a generado% or el contrario# tambi(n se puede recorrer el camino inverso#
es decir# generar una muestra a partir de una variable aleatoria# lo .ue producir$ datos .ue re"le2an
caractersticas del modelo9 de una variable aleatoria sim(trica /con la de"inicin de simetra de las
distribuciones de probabilidad1# es de esperar .ue salga una muestra .ue tienda a ser sim(trica /con la
de"inicin de simetra de las variables estadsticas1# aun.ue no tiene por .u( serlo e8actamente# de
!ec!o es di"cil .ue lo sea% 3 medida .ue creciese el tamaLo de la muestra# se !ara m$s patente 4por
e2emplo# en el !istograma4 .ue la muestra comparte esa caracterstica con el modelo del .ue procede%
0 Comentarios de Estadstica descriptiva con una variable
Figura9 <epresentacin de la dualidad datosCmodelos
ara .uien .uiera leer algo de >eora de la robabilidad#
5Comentarios de >eora de la robabilidad6
!ttp9DDMMM%CasadoCD%orgDeduDComentarios>eoriarobabilidad%pd"
Digresin sobre aparatos de medida y continuidad de las variables
Nui'$ alguna persona dada a la "iloso"a se !aya preguntado por .u( se considera .ue la
variable 5peso de una persona6 es cuantitativa continua# si no podemos dar el peso m$s .ue con un
nAmero "inito de decimales# lo .ue implica un con2unto discreto de posibles valores de la variable%
Este 5"ilso"o de la ciencia6 dira .ue esto se debe a .ue ningAn aparato de medida .ue construyamos
puede medir con in"initos decimales el peso de una persona y .ue# si lo !iciese# necesitaramos un
tiempo in"inito para leer todas esas ci"ras%%% Esto es verdad /.u( bonita es la Filoso"a tambi(n1% &in
embargo# lo e8plicado en el apartado ;ariables estadsticas y variables aleatorias puede ayudarnos a
aclarar esta duda9 aun.ue la variable estadstica 5peso6 sea en Altimo t(rmino siempre discreta /con
m$s o menos posibles valores# dependiendo del aparato de medida y del tiempo .ue dedi.uemos a
leer sus ci"ras1# la variable aleatoria ideal 5peso6 se puede considerar continua# puesto .ue podemos
imaginar personas de cual.uier peso%
3!ora# el "ilso"o de la ciencia podra decirnos .ue la materia se compone en Altimo t(rmino
de partculas indivisibles con un peso mnimo determinado# y .ue por tanto !ay un con2unto de
valores discretos Oy ningAn otro intermedioO .ue debera poder tomar la variable 5peso6 terica%
P Comentarios de Estadstica descriptiva con una variable
Los "sicos cu$nticos le daran la ra'n# por.ue parece .ue la tiene%
Estamos !ablando a.u de una variable estadstica discreta y de dos posibles variables
aleatorias con .ue modeli'arla# una discreta y otra continua% El "ilso"o estara de"endiendo un
modelo matem$tico discreto como m$s "iel a la realidad% 7 lo es% &in embargo# el modelo continuo
.ueda legitimado por el !ec!o de .ue la escala de valores a la .ue traba2amos los aparatos de medida
y nosotros est$ tan ale2ada de ese peso mnimo de las partculas elementales# .ue el error .ue se
comete por considerar el modelo continuo en ve' de el discreto es despreciable "rente al modelo
matem$tico discreto% or otro lado# no slo el modelo continuo es v$lido sino .ue es el Anico camino
posible /mane2able1 de mane2ar la in"ormacin para levantarnos del silln de "iloso"ar y !acer
Estadstica%%%
Construccin de tablas
3grupacin de los datos en clases
Dada una muestra# !ay veces en .ue no estamos interesados tanto en la in"ormacin .ue
aportan los valores concretos .ue !a tomado la variable estadstica# sino .ue pre"erimos# necesitamos
o nos conviene agrupar la in"ormacin para !acerla m$s mane2able y poder sacar in"ormacin de ella
grosso modo# sin .ue 5los $rboles nos impidan ver el bos.ue6% De !ec!o# aun.ue son conceptos
distintos .ue una variable sea discreta o continua y .ue est( agrupada o no# suele !aber cierta
con"usin por.ue casi siempre se tiene .ue las variables discretas se dan sin agrupar y las continuas#
como cada dato ser$ distinto# agrupadas /para .ue las "recuencias absolutas no sean todas uno1%
Clases
La "orma de agrupar la in"ormacin es considerar clases# .ue son subcon2untos contenidos
dentro del con2unto total de posibles valores .ue puede tomar la variable estadstica% Es importante
.ue las clases sean dis2untas y .ue su unin sea el con2unto total# puesto .ue en otro caso !abra
valores .ue perteneceran a varias clases o a ninguna# por lo .ue sera tenido en cuenta dos veces o se
.uedaran sin ser representado% &e suele decir en este caso .ue el con2unto de clases es una particin
del con2unto de valores# puesto .ue lo dividimos en subcon2untos o clases% ;eamos algunos e2emplos
de clases9
)% ara una variable cualitativa se suele considerar .ue cada valor es una clase# pero .ui'$ en
algAn caso puede ser interesante unir varios valores en una misma clase# por e2emplo9 iberia =
{Espaa, !ortugal"% 7 !emos unido la in"ormacin de dos valores de la variable 5pas6 para
"ormar la clase 5iberia6%
+% ara variables cuantitativas discretas# cada valor suele de"inir tambi(n una clase% Jo obstante#
cuando los valores est$n muy dispersos y son poco "recuentes# conviene de"inir clases .ue
incluyan a m$s de un valor% Un e2emplo sera9 clase# = {$, #, %, &"# clase% = {', (, ), *"%%% Es
una "orma de unirDresumir in"ormacin# si no lo !acemos as tendramos muc!as clases y todas
con "recuencias muy ba2as%
?% or Altimo# para variables cuantitativas continuas las clases se de"inen mediante intervalos
E Comentarios de Estadstica descriptiva con una variable
/por eso al !ablar de !istogramas utili'amos indistintamente estas dos palabras1% En variables
continuas es muy di"cil /5milagroso61 .ue dos valores de la muestra sean iguales# as .ue a.u
s es una necesidad imperiosa lo de agrupar los datos# no como en los dos casos anteriores%
E2emplo9 clase# = +$,(,# clase% = +(,#$,# clase& = +#$,#(-%
3grupar los valores de la variable en clases es Atil tanto para presentar los datos en tablas
como para representarlos gr$"icamente% Mientras .ue para las variables cualitativas el orden de las
clases no tiene importancia# para las cuantitativas !ay un orden natural /de menor a mayor1 para ellas%
Colocarlas en este orden es necesario tanto para "acilitar la interpretacin como para !acer algunos
c$lculos /las "recuencias acumuladas o las medidas basadas en las posiciones1%
QCu$ntas clases considerarR
El problema de elegir el nAmero de clases no tiene una solucin Anica% 3l agrupar los datos se
pasa de saber los valores e8actos a tener el rango de valores en .ue se mueve cada uno% or este
motivo tomar pocas clases !ace .ue se pierda demasiada in"ormacin# mientras .ue tomar demasiadas
no o"rece venta2as con respecto a la presentacin original de la muestra% Frecuentemente .uien
anali'a los datos tiene .ue !acer varios dibu2os con distinto nAmero de clases# por.ue clases con
demasiados valores no permiten ver los detalles y clases con pocos valores muestran tanto detalle .ue
es como ver la muestra original sin agrupar%
En el caso de los intervalos# .ue es el .ue m$s nos interesa# la regla .ue se suele aplicar es
considerar un nAmero de ellos igual a
.. , donde . es el tamaLo de la muestra% arece lgico .ue el
nAmero de clases dependa del tamaLo de la muestra9 a m$s datos# m$s clases%
E"ecto de la particin
Dado .ue los intervalos /y las clases# en general1 deben ser una particin completa de los
posibles valores .ue puede tomar la variable /los !aya tomado o no1# es necesario incluir tambi(n los
e8tremos% De !ec!o# si !ubiese algAn intervalo con "recuencia cero# lo incluiramos tanto en la tabla
como en los gr$"icos% Nue !aya un valor m$s en un intervalo .ue en los dem$s no es grave en estos
casos# por.ue pocos elementos de la muestra tomar$n ese valor%
&i tenemos dos particiones /un con2unto de clases por un lado y otro con2unto por otro1# los
resultados en ambos casos van a di"erir poco si estas particiones son parecidas# pero ser$n muy
distintos si las particiones lo son% Esto es as para todo lo .ue dependa de las clases# en concreto para
tablas e !istogramas% Es decir# si para cada intervalo de una particin tenemos .ue en la otra particin
!ay un intervalo .ue di"iere muy poco de (l# como los valores de la variable estadstica .ue pueden
!aber cado en esa di"erencia son pocos# los resultados ser$n muy parecidos% or supuesto puede
!aber casos concretos en los .ue# si la 'ona en .ue di"ieren las particiones es de alta "recuencia# los
resultados de ambas particiones di"erir$n muc!o% Jo obstante# (stos son casos e8cepcionales%
or tanto# cuando partimos el recorrido de posibles valores en intervalos# .ue el Altimo
intervalo sea cerrado por la derec!a Oen ve' de abierto como los dem$sO no tiene ninguna
consecuencia importante% La tendra si ese valor concreto tuviese una "recuencia alta# puesto .ue en
ese caso esa clase de la particin sera distinta por construccin y !abra .ue solucionarlo o tenerlo en
cuenta a la !ora de la interpretacin%
or e2emplo# en un e2ercicio se peda tomar como particin seis intervalos de igual longitud% &i
se obliga a .ue los intervalos cubran la 'ona S?,,,# +K,,,T# dado .ue +K,,,C?,,, I +?,,, no es
mAltiplo de K# tenemos .ue los e8tremos de los seis intervalos tendran .ue ser nAmeros con
), Comentarios de Estadstica descriptiva con una variable
decimalesB tampoco pasara nada# se puede resolver as el e2ercicio igual% 3!ora bien# como segAn lo
dic!o antes los resultados no seran muy distintos por variar ligeramente la particin# podramos de2ar
de cumplir el .ue la longitud tenga .ue ser la misma en todos los intervalos o el .ue se cubra la 'ona
S?,,,# +K,,,T% En el primer caso podemos redondear los e8tremos de los intervalos a nAmeros
cercanos /aun.ue a la !ora de agrupar no aporta muc!a venta2a1# con lo .ue algAn intervalo tendra
.ue tener un poco m$s de longitud% En el segundo caso# se podra ampliar un poco la 'ona .ue
.ueremos cubrir# de manera .ue pudi(semos encontrar un particin de seis intervalos de igual
longitud y cuyos e8tremos no sean nAmeros decimales .ue nos disgusten%
In"ormacin parcial
Cuando agrupamos la in"ormacin de una muestra en clases# no debera ser necesario
mencionar .ue no debemos nunca destruir los datos originales# por.ue puede ser necesario volver a
ellos m$s adelante% ero si los !emos destruido# o ya nos daban los datos agrupados# y los
necesitamos# tendramos .ue !acer suposiciones% ;eamos algunos e2emplos9
En el caso en .ue .ueramos in"ormacin sobre algAn intervalo .ue no coincide con ninguno de
los utili'ados para agrupar los datos# y no tengamos acceso a la muestra original# sino slo a
los datos agrupados# Q.u( podemos !acerR La solucin .ue se suele adoptar es suponer .ue
dentro de cada intervalo los datos estaban e.uidistribuidos antes de 2untarlos y# en
consecuencia# calcular la parte proporcional de los .ue estaran en la parte del intervalo .ue
nos interesa% Esta idea es sencilla y no estar$ en general le2os de la verdad /slo la podramos
conocer si conoci(semos la muestra completa1% Esto mismo es lo .ue se !ace para calcular# en
la misma situacin# las medidas de locali'acin%
El concepto de marca de clase# .ue es el punto central o valor medio de los posibles valores
del intervalo# !ar$ de representante de todos los valores del intervalo# de modo .ue ser$ el
valor .ue se utili'ar$ al !acer los c$lculos% Obs(rvese .ue con esto se est$ !aciendo
implcitamente la suposicin de .ue todos los valores del intervalo !aban tomado ese valor
central en la muestra# antes de agruparlosB o# parecido# .ue se distribuan alrededor de (l de
modo .ue el valor central se puede considerar como su media% Obviamente# esto no es
estrictamente verdad# pero el error en media no ser$ grande# por.ue los verdaderos valores
estaran muy probablemente por igual a uno y otro lado% En algunos c$lculos de medidas# por
e2emplo# se considera la marca de clase multiplicada por la "recuencia%
Intervalos en Matem$ticas
Los corc!etes indican .ue los valores se incluyen# mientras .ue los par(ntesis indican .ue no%
Es decir# si estamos !ablando de una variable continua9
Sa# bT U >odos los valores entre a y b# ambos incluidos
Sa# b1 U >odos los valores entre a y b# incluido el a pero no el b
/a# bT U >odos los valores entre a y b# incluido el b pero no el a
/a# b1 U >odos los valores entre a y b# sin incluir ni el a ni el b
3l agrupar datos suelen considerarse intervalos cerrados por la i'.uierda y abiertos por la derec!a#
salvo el Altimo# .ue se cierra por la derec!a para no de2ar ese valor "uera de la particin% Otras veces
se toma /CV# bT como intervalo in"erior o Sa# WV1 como intervalo superior# para .ue reco2an todos los
valores e8tremos%
)) Comentarios de Estadstica descriptiva con una variable
Frecuencias absolutas y relativas
Las "recuencias absolutas no aportan una in"ormacin completa si no se conoce el tamaLo de la
muestra# por.ue no es lo mismo .ue algo suceda ? veces de ), .ue de *,,% or otro lado# conocer las
"recuencias relativas# aun.ue "acilita el pensar# por estar en tanto por uno# tampoco es su"iciente9 una
"recuencia relativa de ,#* puede provenir de ) ve' de + o de )* de ?,B y la interpretacin obviamente
no debe ser la misma% Es decir# conocer el tamaLo de la muestra es imprescindible en todo estudio
estadstico serio% &i . es el tamaLo de la muestra de nuestra variable estadstica# este par$metro nos
permite tanto ir de las "recuencias absolutas a las relativas como recorrer el camino inverso%
Frecuencias relativas# en tanto por uno
=ay veces en .ue se utili'a el tanto por ciento# en ve' del tanto por uno# para la "recuencia
relativa% Jo !ace "alta decir# por obvio# .ue la interpretacin es la misma y .ue se pueden convertir
"$cilmente los datos en tanto por uno dividi(ndolos por cien% La venta2a de esta unidad es .ue en
nuestra vida diaria estamos m$s acostumbrados a utili'ar el tanto por ciento .ue el tanto por uno% La
venta2a del tanto por uno es .ue est$ m$s cerca del concepto de probabilidad .ue se ver$ m$s adelante
y .ue se menciona en el apartado ;ariables estadsticas y variables aleatorias% or motivos !istricos
la escala .ue se utili'a para la probabilidad es el tanto por uno /podra ser otra1% La di"erencia entre
utili'ar unas unidades u otras es slo una di"erencia de proporcin /entre dibu2os# longitudes#
etc(tera1, no de "orma% Jo obstante# la de"inicin propia de "recuencia relativa implica utili'ar el tanto
por uno%
Frecuencias acumuladas
Como el nombre indica# la "recuencia acumulada para cada clase es el nAmero .ue resulta de
sumar la "recuencia de su clase y de las anteriores% Es# por tanto# no decreciente9 crece o# si la
"recuencia de la clase anterior es cero# permanece igual%
De esta de"inicin se deduce .ue para variables cualitativas# dado .ue no !ay un orden natural
de las clases# no es un concepto .ue tenga valor% Estas "recuencias tienen sentido completo slo para
variables cuantitativas%
=ay una frecuencia absoluta acumulada y una frecuencia relativa acumulada# no !ay .ue
con"undirlas% Es necesario .ue aprendamos cmo relacionar la "recuencia acumulada con la absoluta
y la relativaB esto es sencillo a partir de sus de"iniciones9
or un lado# la relacin .ue !ay entre las "recuencias absoluta y relativa ser$ la misma .ue
entre las "recuencias absoluta acumulada y relativa acumulada9 se pasa de la primera a la
segunda dividiendo por el tamaLo de la muestra# y de la segunda a la primera multiplicando
)+ Comentarios de Estadstica descriptiva con una variable
por ese tamaLo%
or otro lado# para obtener las "recuencias absolutas# n
i
# a partir de sus acumuladas# .
i
# observemos
primero cmo se !an construido las acumuladas9
.
)
=n
)
.
+
=n
)
+n
+
.
?
=n
)
+n
+
+n
?

n
)
=.
)
n
+
=.
+
.
)
n
?
=.
?
.
+

La importancia de estas "recuencias es .ue son una !erramienta clave para calcular algunas
medidas de las variables estadsticas# en concreto las medidas de locali'acin y la mediana /.ue es a
la ve' medida de centrali'acin y de locali'acin1% Como con las otras "recuencias# podemos
e8presarlas en "orma de tabla o gr$"icamente% En este Altimo caso esto nos llevara a un !istograma
con sus barras en orden no decreciente si se observan de i'.uierda a derec!a% La interpretacin de
cada barra es .ue representa la "recuencia de .ue suceda .ue la variable estadstica tome un valor en
ese intervalo o en los anteriores% Jtese .ue dado .ue las medidas de locali'acin utili'an el orden de
los datos en la muestra /cuando la ordenamos de menor a mayor1# las "recuencias acumuladas sirven
para ver r$pidamente en .u( intervalo est$ la observacin de determinada posicin# .ue es lo .ue
necesitamos en primer lugar para calcular estas medidas% En el apartado C$lculo de las medidas de
locali'acin /y la mediana1 se ve .u( se !ace una ve' .ue se identi"ica el intervalo en el .ue est$ la
medida .ue nos interesa%
<epresentacin en gr$"icos
=istograma
Es una de las representaciones gr$"icas m$s utili'ada en la Estadstica%
Yrea
Cada clase /por tanto se utili'a para datos agrupados1 se representa por un rect$ngulo cuya $rea
es igual a la "recuencia relativa de la clase%
3ltura
De lo anterior se deduce .ue la altura de cada rect$ngulo debe ser igual a la "recuencia relativa
dividida por la amplitud o longitud del intervalo% >ambi(n se deduce .ue el $rea total encerrada por
todas las barras es igual a uno /el m$8imo de la escala en .ue se mide la probabilidad1%
Longitud
uede suceder .ue la longitud de todos los intervalos no sea la misma# como sugerira# por
e2emplo# alguna trans"ormacin .ue se !a aplicado a los datos o el !ec!o de .ue los valores .ue toma
)? Comentarios de Estadstica descriptiva con una variable
la variable est$n m$s separados cuanto mayores son% ero en general se suelen considerar todos los
intervalos de la misma longitud# por lo .ue en este caso las alturas de las barras son proporcionales a
las "recuencias absolutas /y# por tanto# tambi(n a las relativas1%
<especto a la longitud num(rica concreta de los intervalos# lo .ue interesa es .ue todos los
datos de la muestra apare'can en el !istograma# es decir# .ue todas las clases cubran el rango de
valores de la muestra /del dato menor al mayor1% or esto# cuando la longitud se toma igual para todos
los intervalos se calcula dividiendo este rango entre el nAmero de clases#
. . , .ue se !a sugerido en
el apartado 3grupacin de los datos en clases% ara ver el e"ecto de considerar distintos nAmeros de
clases se presenta un gr$"ico del libro /ntroduccin a la Estadstica para las Ciencias 0ociales# de
Daniel eLa y Zuan <omo%
Jo obstante# no todos los programas de ordenador traba2an igual ni siguen las mismas reglas#
as .ue el !istograma depender$ del programa .ue lo !aya dibu2ado% La idea importante es .ue
aun.ue la longitud de los blo.ues /o su nAmero1 in"luye relativamente poco para pe.ueLos cambios#
s lo !ace para los grandes% 3s# dos personas pueden !acer !istogramas con intervalos ligeramente
distintos y ambos estar$n bien# por.ue lo importante no es tanto el dibu2o sino .ue de (l se pueda
sacar in"ormacin v$lida% De esto tambi(n se !a !ablado en el apartado 3grupacin de los datos en
clases% En el E2ercicio + se pueden ver algunos e2emplos m$s de !istograma# correspondientes a una
distribucin sim(trica y dos asim(tricas%
)@ Comentarios de Estadstica descriptiva con una variable
Densidad
La in"ormacin de la "recuencia de un intervalo no se puede interpretar bien sin tener en cuenta
la amplitud o longitud del intervaloB de a! .ue se de"ina el concepto de densidad# resultado de dividir
la "recuencia por la amplitud% La densidad coincide con la altura% Cuando esta amplitud de todos los
intervalos es la misma# como suele ser# las densidades son proporcionales a las "recuencias%
Otras versiones del !istograma
E8isten algunas otras versiones# ligeramente distintas# del !istograma% >odas cumplen con el
ob2etivo de mostrar la distribucin de los valores de una muestra# pero es importante a la !ora de la
interpretacin tener claro .u( versin se tiene delante%
=ay versiones en las .ue la amplitud de los intervalos es siempre la misma# lo .ue !ar$ .ue las
alturas y las densidades sean proporcionales a las "recuencias%
>ambi(n se puede representar el !istograma de manera .ue el $rea .ue sumen todas las barras
sea J /tamaLo muestral1% ara ello# se !ace .ue cada barra tenga un $rea igual a su "recuencia
absoluta% 3 su ve'# como el $rea de un rect$ngulo es base por altura# la altura se toma como la
"recuencia absoluta dividida por la longitud del intervaloB (sta es la "rmula de la densidad9
n
i
/ l
i
%
Cuando se representaba el !istograma de manera .ue el $rea .ue sumaban las barras era uno# cada
barra tendr$ un $rea igual a la "recuencia relativa de la clase# y la densidad se calcular$ dividiendo
esta "recuencias por la longitud del intervalo9
f
i
/l
i
%
Estos dos tipos de !istograma son proporcionales entre s# por.ue
f
i
=n
i
/ . ,
y ambos son
v$lidos para sacar in"ormacin cualitativa%
Diagrama de barras e !istograma
Una di"erencia entre el !istograma y el diagrama de barras es .ue en el primero las barras se
dibu2an 2untas# para mani"estar la continuidad de los intervalos% Otra di"erencia es .ue en un diagrama
de barras# .ue suele utili'arse para variables cualitativas# en realidad el orden de las barras suele dar
igual# mientras .ue en el !istograma viene impuesto por el orden de los intervalos%
En general se puede decir en Matem$ticas .ue todo lo .ue sea verdad se puede !acer9 no !ay
verdades pro!ibidas# con las de"iniciones y las reglas en la mano# se puede avan'ar y si no se
.uebrantan las reglas lo .ue se obtiene ser$ verdad% Dentro de lo .ue se puede !acer# !ay cosas .ue
tiene sentido !acer y cosas .ue no9 una de"inicin de algo .ue no e8iste en realidad# por e2emplo# se
puede proponer pero no se debeB o una de"inicin .ue slo utili'a uno mismo# tampoco tiene muc!o
sentido% =ay venta2as en ponernos todos de acuerdo en ciertas cosas# aun !abiendo libertad% &i el
concepto es importante# debe .uedar claramente de"inido% &i no lo es tanto# como todos estos gr$"icos
sencillos# se de2a cierta libertad# siempre .ue la in"ormacin .ue se transmite se pueda interpretar por
los dem$s sin muc!o es"uer'o% Dibu2ar las barras 2untas o separadas# por e2emplo# es una cuestin de
estilo m$s .ue de Matem$tica% ;eamos las ideas .ue !ay detr$s de cada uno de estos tipos de gr$"ico#
para saber cu$l utili'ar en cada caso9
)* Comentarios de Estadstica descriptiva con una variable
Diagrama de barras
)% &e utili'a principalmente para variables cualitativas /no !ay muc!os tipos de gr$"ico para estas
variables1% En este caso# el orden de las barras no importa para la interpretacin%
+% Utili'a una barra para representar cada clase%
?% La altura de la barra debe ser la "recuencia /absoluta o relativa# slo variar$ la proporcin del
dibu2o# pero no su "orma1%
@% Las barras se representan con una ligera separacin entre ellas# puesto .ue la idea es construir
una barra encima de cada clase y 2untarlas di"iculta su visin%
*% La anc!ura de las barras no suele aportar in"ormacin /no representa nada1# no cambia de valor
si la muestra tiene m$s datos%
=istograma
)% Cada rect$ngulo debe tener un $rea igual a la "recuencia de la clase /absoluta o relativa# slo
variar$ la proporcin del dibu2o# no su "orma1%
+% La altura debe ser igual al $rea dividida por la longitud del intervalo de la clase%
?% La longitud de los intervalos podra ser distinta en algunos casos# pero en la mayora va a ser la
misma para todas las clases% La longitud se elegir$ dividiendo el rango de valores .ue
.ueremos cubrir por el nAmero de intervalos .ue .ueremos tomar /!ay una regla sugerida para
agrupar los datos# ver el apartado 3grupacin de los datos en clases1% Entonces# la longitud de
los intervalos Oy la anc!ura de las barrasO disminuye a medida .ue aumenta el tamaLo de la
muestra%
@% Cuando la variable es continua# como los intervalos suelen estar seguidos# conviene representar
las barras 2untas# para no pensar .ue !ay entre medias valores con "recuencias nulas%
Como se ve# en uno la anc!ura de las barras depende del tamaLo de la muestra y en el otro no#
el uno .uiere representar "recuencias por la altura y el otro por el $rea# etc(tera% 3!ora bien# si nos
empecinamos y en el diagrama de barras en ve' de variables cualitativas representamos cuantitativas#
obviamente !abr$ a!ora un orden natural entre las clases y las barras# .ue no se podr$n colocar de
cual.uier "orma% &i las clases est$n separadas por de"inicin /por ser variables discretas1# entonces
conviene dibu2ar las barras separadas% &i son variables continuas# los intervalos suelen estar seguidos#
as .ue conviene representarlos seguidos% &i representamos la "recuencia en la altura y tomamos las
barras de la misma anc!ura /como este tipo de gr$"icos suele !acer1# entonces se .ueda sin
representar la longitud de los intervalos# cosa mala%%% arece .ue no aporta nada "or'ar las cosas%
Cuando tenemos una variable cuantitativa discreta# a medida .ue aument$semos el tamaLo de la
muestra slo las clases .ue .uedan encima de los valores enteros tendran "recuencia no nula#
mientras .ue las dem$s clases desapareceran del dibu2o# dando la sensacin de .ue se trata de un
diagrama de barras y de .ue las barras est$n separadas# cuando en realidad lo .ue !a sucedido es .ue
!ay barras .ue no se ven por tener altura cero%
En resumen# lo me2or es utili'ar el diagrama de barras para variables cualitativas y el
!istograma para las cuantitativas# aun.ue cuando (stas son discretas y las longitudes de los intervalos
menores .ue uno apare'ca un !istograma .ue se parece a un diagrama de barras%
En el apartado =istograma !ay un e2emplo de este tipo de gr$"icoB el siguiente es un e2emplo
de diagrama de barras%
)K Comentarios de Estadstica descriptiva con una variable
Figura9 E2emplo de diagrama de barras
Un poco m$s%%%
En esta seccin se incluyen algunos comentarios de un nivel m$s alto# .ue pretenden por un
lado "acilitar la comprensin de lo visto y de los temas siguientes# y por otro satis"acer la curiosidad
de .uien .uiera ir un poco m$s all$ de lo estrictamente necesario segAn el temario%
Funcin de probabilidad e !istogramas poblacional y muestral
Funcin de probabilidad9 "uncin de masa y "uncin de densidad
3 una variable aleatoria se le asocia una funcin de probabilidad# .ue dice con .u(
probabilidad la variable puede tomar cada valor% &i la variable aleatoria es discreta esta "uncin de
llama funcin de masa y consiste en asignar un nAmero /probabilidad1 a cada posible valor de la
variableB si la variable es continua# se da la funcin de densidad# .ue es una "uncin continua .ue
asigna# a su modo# probabilidad a los in"initos posibles valores de la variable%
=istograma poblacional
ara un intervalo# /# de posibles valores de una variable aleatoria# 1# utili'ando la "uncin de
probabilidad se puede calcular la probabilidad siguiente
p2=!( 1/ )%
/El concepto de probabilidad
se e8plica en la >eora de la robabilidad# aun.ue todos tenemos una idea intuitiva de (l%1 3!ora#
dado un tamaLo muestral .# se puede estimar el nAmero de veces de entre . .ue la variable aleatoria
tomara un valor del intervalo9 para !acer este recuento se puede considerar la variable au8iliar
34( ., p),
.ue se va a 5encargar de contar6% La cantidad .ue se .uiere !allar es la frecuencia
absoluta esperada y se calculara como
n
/
=.p=.!( 1/ ),
de donde su frecuencia relativa
esperada sera
f
/
=
)
.
.p=p=!( 1/ )%
Jtese .ue la distribucin de 3 es siempre# por de"inicin#
binomialB no se !a supuesto ninguna distribucin concreta para 15 la distribucin de 1 tiene
in"luencia indirecta en la de 3 slo a trav(s del par$metro p% En resumen9
;ariable original9 1
)0 Comentarios de Estadstica descriptiva con una variable
Intervalo9 /
robabilidad del suceso
1/ 2 p=!( 1/ )
>amaLo muestral9 .
;ariable binomial au8iliar /para calcular cu$ntas veces se caera en /19
34( ., p)
Esperan'a o valor medio de 39
.p=.!( 1/ )
Frecuencia absoluta esperada del intervalo /9
n
/
=.p=.!( 1/ )
Frecuencia relativa esperada del intervalo /9
f
/
=
)
.
n
/
=
)
.
.p=p=!( 1/ )
ara una particin completa y dis2unta del con2unto de posibles valores de la variable /se ve en el
apartado 3grupacin de los datos en clases1# es posible !acer esto para cada uno de los intervalos# de
manera .ue si se dibu2a un !istograma con estas "recuencias esperadas relativas como alturas de las
barras# tendremos lo .ue se podra llamar 6istograma terico, esperado o poblacional /esta
nominacin es ma# no !e visto este concepto no estos nombres en la literatura# lo .ue no .uiera decir
.ue no e8istan%%%1% Jtese .ue las barras del !istograma sumaran un $rea igual a uno# por.ue
sumando para todos los intervalos la "recuencia relativa esperada9
i
f
/
i
=

i
!( 1/
i
)=)%
Otra "orma de !acer los c$lculos de todos los intervalos a la ve' sera considerando una
variable aleatoria 3 con distribucin multinomial /en ve' de la binomial anterior1 de par$metros
p
i
2=!( 1/
i
)%
=istograma muestral
En el 5nivel de los datos6# a una variable estadstica se le asocia el !istograma calculado con
las "recuencias relativas reales de la muestra# como se describe en el apartado =istograma% Este
concepto se de"ine para la variable estadstica# mientras .ue los dos anteriores se de"inan para la
variable aleatoria%
Jo se suele !ablar de la distincin entre los dos tipos de !istograma anteriores# lo .ue puede
resultar con"uso en ciertas ocasiones% =ay .ue distinguir estos tres conceptos# es decir# !ay .ue tener
claro .ue una cosa es el !istograma de unos datos# otra es el !istograma terico y una tercera es la
"uncin de probabilidad terica% Cuando la muestra crece# es decir# . crece# los dos tipos de
!istogramas anteriores se parecer$n m$s y m$s a la "uncin de probabilidad 4se dice entonces .ue la
estiman4 a la ve' .ue se parecer$n tambi(n m$s entre s%
C$lculo de medidas num(ricas
Marca de clase
Cuando los datos est$n ya agrupados no se dispone de los valores e8actos .ue toma la variable
estadstica% &in embargo# !ay ocasiones en .ue .uerramos tener esos valores para utili'arlos en los
c$lculos% La marca de clase# .ue en el caso de los intervalos es su valor central# es como el
)P Comentarios de Estadstica descriptiva con una variable
5representante6 de todos los valores del intervalo%
La idea se puede e8plicar pensando en reconstruir la muestra# o# me2or dic!o# construir una
muestra "icticia tal .ue si se agrupa da lugar a los mismos datos agrupados de .ue disponemos% ara
construir esta muestra# se supone .ue todos los datos de cada intervalo tomaban el valor de su marca
de claseB el error .ue se comete !aciendo esta suposicin es# generalmente y en media# nulo% or
e2emplo9 si en el intervalo S)#?1 !ay cinco datos /"recuencia absoluta1# al reconstruir la muestra# cosa
.ue no es necesario !acer e8plcitamente# se !abla de ella a.u para comprender el concepto#
pondramos9
%%%#+# +# +# +# +#%%%
!aciendo lo mismo con todas las dem$s "recuencias%
Una ve' !ec!o lo anterior# podramos aplicar la "rmula de datos sin agrupar a esta muestra
"icticia# o# e.uivalentemente# aplicar las "rmulas .ue se dan para datos ya agrupados /.ue no son m$s
.ue las mismas "rmulas pero e8presadas ya en "uncin de las marcas de clase y las "recuencias
absolutas1%
C$lculo de la varian'a y la desviacin tpica
ara calcular la desviacin tpica es necesario calcular primero la varian'a# por.ue se de"ine en
"uncin de ella% 3!ora# para calcular la varian'a se pueden utili'ar varias "rmulas9 una es la "rmula
de su de"inicin y otras# a veces m$s pr$cticas# segAn est(n los datos# se derivan de ella9
7ar ( 1 )=s
1
+
=
)
m

( 8
i
8)
+
==
)
m

8
i
+

(
)
m

8
i
)
+
=
)
m

8
i
+
( 8)
+
%
3 la !ora de !acer los c$lculos# es importante ir preparando con orden en la tabla los datos .ue
se van a necesitar despu(s en las "rmulas9 esto evita e.uivocarse%
Una observacin a la !ora de !acer estos c$lculos es la siguiente% &upongamos .ue tenemos
.ue calcular las cantidades ( 8
i
8)
+
5 aun.ue es cierto .ue la "rmula (ab)
+
=a
+
+ab+b
+
!ara .ue
pudi(semos !acer ( 8
i
8)
+
=8
i
+
+ 8
i
8+8
+
y calcular as cada valorB esto no es muy Atil# por.ue es
m$s cmodo incluir en la tabla las cantidades
( 8
i

8)
y despu(s sus cuadrados%
Cuasivarian'a /muestral1
La variabilidad es un concepto .ue cuanti"ica lo cerca .ue los datos de una muestra se sitAan
de la medida de centrali'acin .ue se est( considerando% La varian'a# una de las "ormas de medir la
variabilidad# calcula cu$nto se !a separado cada dato de la media# una de las "ormas de medir la
centrali'acinB despu(s .uita el signo elevando al cuadrado cada una de estas cantidades y "inalmente
!ace la media aritm(tica de todas estas Altimas cantidades% En esta media aritm(tica se suman todas
las cantidades y se divide entre el nAmero de ellas9
)E Comentarios de Estadstica descriptiva con una variable
s
+
=

i=)
.
( 8
i
8)
+
.
=
)
.

i=)
.
( 8
i

8)
+
donde a.u cada 8
i
es el dato directamente tomado de la muestra# .ue tiene . datos% Esta "rmula
puede escribirse de otra "orma cuando los datos est$n agrupados por valores o en clasesB !ay .ue
tener cuidado por.ue entonces .ui'$ se utili'a 8
i
para representar la marca de clase% Una indicacin
pr$ctica para !acer esos c$lculos es .ue# tanto si los !acemos a mano como con el ordenador#
conviene dividir por . al sumatorio "inal# no a cada t(rmino del sumatorioB es decir# conviene aplicar
la Altima e8presin# no la penAltima%
&ucede .ue la varian'a no es todo lo buena .ue se deseara# no es insesgada# no se apro8ima al
valor esperado /la varian9a poblacional .ue se de"ine en la >eora de la robabilidad1% Entonces se
corrige la "rmula anterior y se de"ine la cuasivarian9a# cuya "rmula es9
s
+
=

i=)
.
( 8
i
8)
+
.)
=
)
.)

i=)
.
( 8
i

8)
+
%
La cuasidesviacin tpica muestral se de"ine como
. s
2
. &e cumple la relacin siguiente /se supone#
obviamente# .ue . [ )19

s
+
.=

i=)
.
( 8
i

8)
+
s
+
( .))=

i=)
.
( 8
i

8)
+
X s
+
.=s
+
( .)) X
s
+ .
.)
=s
+
%
7 como
.
.)
)
para valores de . grandes# pero para valores pe.ueLos de . no se cumple esta
apro8imacin# la cuasivarian'a es me2or para valores pe.ueLos de . y es igual .ue la varian'a para
valores grandes de .% La cuasivarian'a# para estos valores pe.ueLos de . se apro8ima m$s al valor
real de la varian'a# por.ue es un estimador insesgado% or esto es la .ue se utili'a en la pr$ctica# es la
.ue utili'an la mayora de los programas y lengua2es de programacin%
=ay .ue tener en cuenta .u( "rmula se est$ usando cuando se !acen los c$lculos a mano o con
el ordenador% ara complicar un poco m$s las cosas# los programas de ordenador suelen llamar
5varian'a6 a la cuasivarian'a# por.ue suponen .ue el usuario conoce la di"erencia o# si no la conoce#
le da igualB no obstante# con un e2emplo de pocos datos concretos .ue introdu'camos# o consultando
la ayuda del programa# se puede descubrir .u( "rmula aplica%
En estos conceptos anteriores a veces se aLade el ad2etivo 5muestral6 para indicar .ue son los
conceptos .ue se de"inen en 5el nivel de las variables estadsticas6 del .ue se !abla en el apartado
;ariables estadsticas y variables aleatoriasB en 5el nivel de las variables aleatorias6 e8isten los
conceptos poblacionalesDtericos e.uivalentes# .ue se llamar$n media poblacional# varian9a
poblacional y desviacin tpica poblacional%
>ipi"icacin de una variable
Frecuentemente surge la duda de cmo comparar dos datos cuando cada uno pertenece a una
muestra distinta% Jo se pueden comparar sus valores sin m$s# antes !ay .ue trans"ormarlos%
+, Comentarios de Estadstica descriptiva con una variable
<$pidamente viene a la cabe'a la idea de .ue el coe"iciente de variacin es una medida de
dispersin sin unidades de toda una muestra# lo .ue !ace .ue sirva para comparar la dispersin de dos
muestras enteras distintas% \sta es la idea# aun.ue algo m$s !ay .ue !acer para comparar dos datos
concretos# puesto .ue el coe"iciente de variacin no est$ dado para un dato concreto# sino para toda
una muestra%
La idea es comparar cada dato con la media de su muestra# pero teniendo en cuenta a la ve' la
variabilidad de los datos de su muestra% or e2emplo# para la variable 5nota acad(mica6# no es lo
mismo .ue un valor est( m$s o menos cerca de su media# como tampoco es lo mismo .ue todos los
dem$s alumnos !ayan sacado o no notas parecidas% Finalmente# para poder comparar datos de
distintos grupos# .ueremos .ue los valores trans"ormados no tengan unidades% Es decir# .ueremos9
Dentro de cada grupo9
>ener en cuenta la distancia a la media%
>ener en cuenta la variabilidad del grupo%
Entre grupos9
Nue la medida trans"ormada no tenga unidades
Los anteriores ob2etivos los cumple la trans"ormacin .ue se llama tipificar% Un dato de una muestra
se tipi"ica rest$ndole la media de su grupo y dividiendo el resultado por la desviacin tpica del grupo%
Esto es# cada valor
8
i
de la muestra se tipi"ica !aciendo9
9
i
=
8
i

8
u
%
Esta "rmula es un cociente de dos cantidades% La de arriba es la distancia a la media# y la de aba2o es
la re"erencia .ue normali'a# es decir# a!ora
9
i
nos est$ diciendo cu$ntas veces# medido 5con una
barra6 de longitud igual a la desviacin tpica# el dato
8
i
se ale2a de la media de su muestra%
odemos pensar .ue medimos la distancia del dato a la media 5utili'ando como patrn o unidad de
medida la desviacin tpica6% Con lo .ue se !a e8plicado de las unidades en el apartado Coe"iciente
de apertura se puede comprobar "$cilmente .ue esta cantidad no tiene unidades# por.ue las tres
cantidades .ue aparecen en la "rmula est$n en las mismas unidades y# por tanto# se cancelan entre s%
C$lculo de las medidas de locali'acin /incluida la mediana1
Las medidas de locali'acin dan una idea de cmo se sitAan los datos de la muestra% ara ello
dan valores .ue dividen la muestra en dos partes de proporciones dadas9 por e2emplo# dan un valor
.ue divide la muestra en una mitad con los datos de menor valor y otra mitad con los de mayor valor#
o dan un valor .ue est$ entre el ),] de los datos de menor valor y el E,] restante% Esto es lo
importante de estas medidas# la idea de lo .ue pretenden !acer# por.ue en la pr$ctica las cosas son un
poco m$s di"ciles% Jo !ay una de"inicin Anica# por e2emplo# de los cuantilesDpercentiles /se !abla de
ellos por.ue incluyen a los deciles# cuartiles y mediana1% Una muestra de esta "alta de unicidad es .ue
en la ayuda de la "uncin del lengua2e de programacin R .ue calcula los cuantiles se in"orma de .ue
se puede elegir para el c$lculo uno de los ^nueve_ algoritmosDde"iniciones distintos9 tres para variables
discretas y seis para continuas% Dependiendo de la "uente .ue tomemos# podemos leer de"iniciones
ligeramente di"erentes# todas ellas v$lidas%
+) Comentarios de Estadstica descriptiva con una variable
Una primera cosa .ue se debera aclarar en la de"inicin de estas medidas es si pueden tomar
slo valores de los .ue aparecen en la muestra o tambi(n algAn valor intermedio% =ay libros en .ue se
dice .ue el percentil de orden p es 5el menor valor superior al p] de los datos6# pero no siempre
.ueda claro si se re"iere a valores de los de la muestra o de los .ue podra !aber tomado la variable
estadstica% En realidad esto no es muy importante# ya .ue la in"ormacin se transmite igual% &i nos
dicen .ue el primer cuartil es )*#* y sabemos .ue eso signi"ica .ue el +*] de los datos de la muestra
est$n por deba2o de esa cantidad% En general nosotros vamos a permitir .ue estas medidas pueden
tomar valores distintos a los de la muestra% 3ntes de presentar .u( procedimientos se siguen en los
casos de datos sin agrupar y agrupados /los discretos suelen estar sin agrupar y los continuos# por
necesidad# agrupados1# algo .ue tiene .ue .uedar claro es .ue una cosa es !ablar de la posicin de un
valor de la variable en la muestra y otra es !ablar del valor mismo de ese dato% ;amos a llamar . al
tamaLo de la muestra%
Datos sin agrupar
ara valores sin agrupar no !ay muc!a di"icultad% El procedimiento es el siguiente9
)1 Ordenamos la muestra de menor a mayor%
+1 Nueremos encontrar el valor .ue de2a por deba2o de (l
:.
),,
observaciones /podemos pensar
.ue este nAmero .ue buscamos indica nmero de observaciones o posicin# da igual1% uede
suceder9

:.
),,
, es decir# .ue esta cantidad no sea un nAmero natural /no puede indicar una
posicin19 Entonces redondeamos este valor !acia arriba# esto es# tomamos el menor
nAmero natural mayor .ue esa cantidadB esto es e.uivalente a considerar la parte entera de
esa cantidad /.uitarle los decimales1 y sumarle uno% Entre redondear !acia aba2o y obtener
un valor .ue de2a menos proporcin de datos de la deseada# o redondear !acia arriba y
pasarnos# pre"erimos esto segundo% 7a tenemos el nAmero .ue nos indica la posicin%
;amos a la muestra ordenada y buscamos el valor de la variable en esa posicin% >omamos
ese valor como cuantil%

:.
),,
, es decir# da la casualidad de .ue esta cantidad es un nAmero natural9 Entonces
no !ace "alta redondear y vamos a coger dos posiciones9 la de ese nAmero y la siguiente%
or convenio /uno de los posibles1 es "recuente considerar como cuantil la semisuma de
los valores .ue est$n en esas dos posiciones# es decir# la media de esos dos valores de la
muestra ordenada%
Datos agrupados
ara valores agrupados el procedimiento es algo distinto%
)1 Ordenamos las clases /intervalos# generalmente1 de menor a mayor% Obtenemos las "recuencias
absolutas acumuladas# para despu(s locali'ar r$pidamente el intervalo donde est$ la posicin
.ue nos interesa%
+1 3un.ue nuestro ob2etivo es buscar un valor .ue de2e por deba2o :] de los datos# como los
++ Comentarios de Estadstica descriptiva con una variable
datos est$n agrupados slo podemos encontrar el intervalo al .ue pertenece el valor
:.
),,
%

Identi"icamos este intervalo por.ue la "recuencia absoluta acumulada del intervalo anterior es
me2or .ue esa cantidad y la del intervalo posterior es ya mayor% En este caso nos da igual .ue
:.
),,
sea un nAmero natural o no /no necesitamos redondear1# por.ue no es necesario .ue
indi.ue posicin%
?1 Una ve' .ue est$ identi"icada la clase en la .ue est$ la medida de locali'acin .ue buscamos#
tenemos .ue decidir .u( valor de todo ese intervalo coger para la medida% La idea .ue vamos a
seguir a.u /un posible criterio# de entre varios posibles1 es coger el valor .ue est( a una
distancia# del e8tremo in"erior del intervalo# proporcional a la distancia .ue !ay entre
:.
),,
y
la "recuencia absoluta del intervalo anterior al elegido%
Figura9 roporcin lineal para situar la mediana en el intervalo
La idea .ue !ay detr$s de este criterio es suponer .ue los datos de la muestra original se
distribuan# antes de agruparlos# de "orma uni"orme por todo el intervalo% En cual.uier caso#
esta distancia se puede !allar de varias "ormas e.uivalentes9
Utili'ando la seme2an'a de tri$ngulos entre el tri$ngulo mayor y el menor%
Utili'ando el $ngulo .ue aparece en el mismo dibu2o y la de"inicin de tangente% /En el
+? Comentarios de Estadstica descriptiva con una variable
"ondo esta "orma es la misma .ue la anterior# puesto .ue la tangente de un $ngulo se de"ine
a partir de un tri$ngulo rect$ngulo%1
Con una regla de tres simple directa% Nui'$ este camino resulte el m$s "$cil# pero en
general al aplicar la regla de tres !ay .ue asegurarse .ue !ay una relacin lineal /y .ue
5pasa por el origen61 entre las cantidades9
l
i+)
l
i
CCCCCCCCCCCCCC .
i+)
.
i
8 CCCCCCCCCCCCCC
:.
),,
.
i
&i de esta regla se despe2a la variable 8# se obtiene la distancia .ue se le suma al e8tremo
in"erior del intervalo seleccionado%
3s es "$cil recordar de dnde viene la "rmula y# en caso de .ue se nos olvide# volver a
reconstruirla9
!
:
=l
i
+8=l
i
+
(
:.
),,
.
i
)
(l
i+)
l
i
)
.
i+)
.
i
=l
i
+
:.
),,
.
i
.
i+)
.
i
(l
i+)
l
i
)
donde# si el intervalo donde est$ la medida es el iC(simo#
l
i
es el e8tremo in"erior del
intervalo iC(simo y
.
i
es la "recuencia absoluta acumulada del intervalo iC(simo%
Con saber esta "rmula es su"iciente# despu(s basta utili'arla con el valor de : adecuado segAn
se .uieran calcular percentiles# deciles# cuartiles o la mediana% or e2emplo9 para cuartiles : I
+*# *, o 0*# para deciles : I ),# +,%%% Los percentilesDcuantiles incluyen como casos
particulares a esas otras medidas%
Jotas9
&i tenemos los datos tabulados /est(n sin agrupar o agrupados1# tanto las "recuencias
acumuladas absolutas como las relativas nos serviran para ver en .u( valor o clase est$ la medida
.ue buscamos% Los dos procedimientos anteriores est$n descritos para cuando tenemos en la tabla las
"recuencias absolutas acumuladas# .ue van e8presando 5nAmero de datos6 /o posiciones1% &e podran
adaptar para cuando se tienen en la tabla las "recuencias relativas acumuladas# utili'ando a!ora
: / ),, , .ue est$ entre , y )B no obstante# siempre es posible convertir las "recuencias relativas en
"recuencias absolutas% ara la mediana
:.
),,
=
*,.
),,
=
.
+
%
or otro lado# las medidas de locali'acin utili'an el orden de los datos en la muestra /cuando
la ordenamos de menor a mayor1# no directamente de los valores propiamente dic!os% or esto# si los
datos de los e8tremos est$n muy ale2ados /muy grandes o muy pe.ueLos1# este orden no variar$ y
estas medidas no se ver$n a"ectadas por estos datos atpicos% &e dice .ue son medidas robustas% La
media# sin embargo# no es robusta9 de su e8presin# dado .ue utili'a todos los valores# se ve
claramente .ue si uno de ellos toma un valor muy grande# el resultado "inal ser$ tambi(n grande%
+@ Comentarios de Estadstica descriptiva con una variable
Datos atpicos
En Estadstica se considera .ue un dato es atpico /outlier# en ingl(s1 si es muy distinto a los
dem$s y parece generado por otro proceso distinto al de los dem$s% Como la realidad es complicada y
desconocemos todos los detalles .ue contribuyen a generar una muestra# no podemos estar seguros de
si ese dato se !a debido a .ue !a sucedido algo de probabilidad pe.ueLa /pero legtimo para el
modelo# por.ue las colas de la mayora de las distribuciones tienden a cero poco a poco1 o es un error
.ue !a aparecido en el proceso de medicin# apunte de los datos# transcripcin a limpio# etc(tera% Jo
!ay# por tanto# una regla siempre v$lida a la !ora de decidir .u( !acer cuando aparecen datos as%
3un.ue !ay conse2os y reglas# en Altimo t(rmino la eleccin se de2a a la persona .ue anali'a los
datos# .ue ver$ en cada caso .u( !acer# segAn las caractersticas del e8perimento# las consecuencias y
su e8periencia%
En caso de .ue se .uieran .uitar los datos atpicos de la muestra# los pasos para .uitarlos son9
)% Calcular las medidas .ue describen las variables% En concreto se necesitan los cuartiles primero
y tercero# N
)
y N
?
%
+% Calcular el rango intercuantlico9 <I I N
?
C N
)
%
?% &e suelen considerar datos atpicos /no e8tremos1 los .ue est$n a la i'.uierda /son menores1 de
N
)
una distancia mayor a )#*<I# y los .ue est$n a la derec!a /son mayores1 de N
?
una distancia
mayor a esa misma longitud% Es decir# tendremos en cuenta los datos incluidos en el intervalo
Q
1
1,5RI , Q
3
+1,5RI|
Los datos atpicos e8tremos seran los .ue distan# por un lado y por otro# m$s de tres veces el
rango intercuantlico /en ve' de una ve' y media1%
@% &i un su2eto en el .ue se !an medido dos variables /muestra bivariante1 presenta algAn valor
atpico en alguna de las dos# se saca del estudio al su2eto entero%
*% Despu(s de .uitar los atpicos de la muestra original# !abra .ue re!acer de nuevo el an$lisis de
los datos# con la nueva muestra# desde el principio%
uede suceder .ue despu(s de .uitar los primeros datos atpicos# a!ora# con los nuevos
cuartiles# apare'can otros .ue antes no lo eran% or e2emplo# si en la muestra original !aba datos
cercanos a los cuartiles pero dentro del intervalo de aceptacin# es posible .ue con los nuevos
cuartiles .ueden "uera del nuevo intervalo de aceptacin% En general !abra .ue investigar m$s
pro"undamente .u( est$ pasando# pero a nuestro nivel vamos a convenir .ue aplicamos el proceso de
.uitar atpicos slo una ve'% En E2ercicio ) y E2ercicio + se identi"ican los datos atpicos%
Distribuciones bimodales
Como su propia de"inicin sugiere# la moda no tiene por .u( ser Anica% Una distribucin con
dos modas se llama bimodal% Este tipo de distribuciones puede aparecer cuando una variable
estadstica !a sido generada por un proceso .ue realmente proporciona esos dos valores con la misma
+* Comentarios de Estadstica descriptiva con una variable
"recuencia% Esto puede suceder cuando los datos .ue observamos son el resultado no de un proceso
sino de dos procesos subyacentes solapados% or e2emplo# imaginemos .ue se mide el tiempo .ue
alumnos y alumnas tardan en recorrer una distancia% &i suponemos .ue la capacidad "sica innata es
distinta en !ombres y mu2eres /.uien no .uiera no est$ obligado a !acer esta suposicin1# resulta .ue
!abr$# por e2emplo# medidas de centrali'acin# de dispersin y modas para la distribucin de los
tiempos de cada uno de estos grupos# de manera .ue si medimos con2untamente /sin estrati"icar por la
variable 5se8o61# es de esperar .ue el resultado re"le2e en sus medidas esa me'cla# en concreto es
probable .ue sea bimodal9 una moda provendr$ de la distribucin de !ombre y otra de la de mu2eres%
3parte de la capacidad "sica innata de cada se8o# !ay muc!os otros "actores .ue !acen .ue cada
distribucin tenga una variabilidad# causa de .ue las distribuciones de cada se8o est(n me'cladas y
!aya mu2eres m$s r$pidas .ue muc!os !ombres% Dependiendo del grado en .ue est(n me'cladas las
dos distribuciones# ser$ m$s o menos "$cil apreciar las distribuciones originales%
C$lculo de la moda
or de"inicin# la moda de una variable estadstica es el valor /o valores1 .ue m$s
"recuentemente toma la variable en la muestra# da igual basarse en la "recuencia absoluta o a la
relativa%
ara una variable sin agrupar es inmediato calcular la moda# por.ue se puede identi"icar visualmente
observando las "recuencias de los datos%
ara datos cuantitativos agrupados /los cualitativos agrupados no tienen inter(s1 no tenemos la
in"ormacin de los valores concretos de la variable# slo las "recuencias de los intervalos% En una
situacin as la moda se calcula buscando primero el intervalo modal# .ue es el de mayor "recuencia#
y aplic$ndole despu(s la "rmula siguiente9
Mo=l
i
+
n
i
n
i1
(n
i
n
i1
)+(n
i
n
i+1
)
(l
i +1
l
i
)
Esta "rmula se interpreta en el apartado Interpretacin de las "rmulas9 asimetra# moda%
Intervalos modales en los e8tremos
odra suceder .ue el intervalo modal "uese el primero o el Altimo% Esto no se da
"recuentemente# por.ue lo normal es .ue la "recuencia vaya disminuyendo para los intervalos
laterales /los de los nAmeros menores y mayores1% &in embargo# puede darse esta situacin# por
e2emplo# por.ue estos intervalos de los lados se !ayan tomado demasiado grandes y tiendan a
contener muc!os datos /!abra .ue revisar la particin1%
En cual.uier caso# esta situacin no o"rece problemas desde el punto de vista t(cnico%
ensando en el signi"icado de la moda# podemos deducir .ue lo .ue !abra .ue !acer sera aplicar la
"rmula pensando .ue !ay al lado un intervalo con "recuencia nulaB es decir# si el intervalo modal es
el primero# pensar como si !ubiese otro antes y tomar n
i;#
I ,# mientras .ue si el intervalo modal es el
Altimo# pensar .ue !ubiese otro despu(s y tomar n
i<#
I ,%
+K Comentarios de Estadstica descriptiva con una variable
;arios intervalos modales
ara saber .u( !acer en la situacin en .ue !aya varios intervalos modales# pensemos en lo .ue
signi"ica la moda9 es# por de"inicin# el valor .ue m$s veces ocurre% or su propia de"inicin puede#
por tanto# no ser AnicaB es decir# lo .ue tiene sentido es aplicar esa misma "rmula a cada uno de los
intervalos modales# y de cada uno saldr$ un valor de moda% /Jtese .ue !allar una media de estos
valores# aun.ue puede venir errneamente sugerido por.ue es lo .ue se !ace con la mediana# a.u no
tendra sentido# por.ue podramos obtener un valor intermedio entre esos dos .ue en realidad
pertene'ca a una clase con una "recuencia muc!o menor .ue la de los intervalos modales9 podemos
imaginarnos esta situacin con un dibu2o de barras con dos igual de altas y otras intermedias de
alturas muc!o menores%1
&i esos intervalos modales est$n separados# es decir# !ay otros entre medias# cada uno dar$ un
valor distinto de moda# y todos estos valores son v$lidos% Es probable .ue un !istograma as provenga
de una distribucin multimodal /ver el apartado Distribuciones bimodales1% &in embargo# en el caso
en .ue esos intervalos modales est(n 2untos# podra suceder .ue la distribucin tenga realmente dos
m$8imos muy 2untos o uno solo en el centro%
&i no tenemos acceso a los valores de la variable estadstica# sino slo a la in"ormacin ya
agrupada# no !ay manera de distinguir las dos situaciones mencionadas% En este caso !abra
.ue recurrir a in"ormacin e8terna del problema concreto para intuir en .u( caso estamos /la
Estadstica tiene .ue utili'ar toda la in"ormacin .ue tenga a mano# por.ue la .ue una muestra
puede representar no es muc!a1%
&i tenemos la muestra de la variable estadstica# podemos dividir esos dos intervalos por la
mitad y volver a representar el !istograma9 si los dos subintervalos centrales tienen mayor
probabilidad .ue los e8teriores# tomaremos como moda el valor central .ue los separa /!aba
un solo m$8imo1# pero si de nuevo los cuatro subintervalos tienen la misma "recuencia
apro8imadamente# lo m$s probable es .ue !aya una distribucin bimodal subyacente# y lo
correcto sera considerar dos modas%
or tanto# salvo .ue se disponga de los datos originales sin agrupar# esta "rmula de la moda no es
apropiada para el caso de intervalos modales contiguos# puesto .ue siempre proporciona una Anica
moda central /v(ase por .u( en Interpretacin de las "rmulas9 asimetra# moda1%
Un poco m$s%%%
En esta seccin se incluyen algunos comentarios de un nivel m$s alto# .ue pretenden por un
lado "acilitar la comprensin de lo visto y de los temas siguientes# y por otro satis"acer la curiosidad
de .uien .uiera ir un poco m$s all$ de lo estrictamente necesario segAn el temario%
Interpretacin de las "rmulas9 asimetra# moda
Jo tenemos costumbre de detenernos a observar las "rmulas# pero !acerlo puede ayudarnos
muc!o a comprender los conceptos /por .u( est$n de"inidos as# por .u( 5"uncionan6# etc(tera1%
+0 Comentarios de Estadstica descriptiva con una variable
3simetra
En el caso de la asimetra# por e2emplo# vamos a ver .u( "orma tiene su e8presin9
g
1
=
1
u
3
1
N

i=1
k
(x
i

x)
3
n
i
=
1
u
3

i =1
k
( x
i

x)
3
f
i
>enemos un sumatorio de cantidades% Est$ dividido por la desviacin tpica al cubo# .ue por su
signi"icado se toma como la ra' cuadrada positiva de la varian'a# .ue tambi(n es positiva%
Cada cantidad del sumatorio es una resta elevada al cubo por un nAmero positivo%
Cuando elevamos al cubo un nAmero# el resultado es otro nAmero con el mismo signo%
De lo anterior podemos deducir .ue9

g
)
,
cuando en el sumatorio !aya 5muc!a masa6 a la i'.uierda de la media /dibu2o con
m$s datos a la i'.uierda1# es decir# muc!as cantidades negativas o pocas pero grandes%

g
)
>,
cuando !aya 5muc!a masa6 a la derec!a de la media /dibu2o con m$s datos a la
derec!a1# es decir# muc!os nAmeros mayores .ue la media o pocos pero muc!o mayores .ue la
media# lo .ue !ar$ .ue su resta# su potencia y el sumatorio sean positivos%
or Altimo#
g
)
=,
cuando las cantidades positivas y negativas del sumatorio se cancelen# es
decir# cuando los datos tiendan a situarse en igual cantidad a ambos lados de la media
/simetra1%
Moda
;amos a!ora a interpretar la "rmula de la moda# para el caso de datos /cuantitativos1
agrupados en intervalos% Este concepto se de"ine como el valor Oo valores# si !ay empateO con
mayor "recuencia /absoluta o relativa# da igual1% En el caso de datos sin agrupar no !ay m$s .ue
buscar entre las "recuencias% En el caso de datos agrupados# tenemos .ue aplicar la siguiente "rmula9
Mo=l
i
+
n
i
n
i1
(n
i
n
i1
)+(n
i
n
i+1
)
(l
i +1
l
i
)
donde# si el intervalo modal es el iC(simo#
l
i
es el e8tremo in"erior del intervalo modal#
n
i
es la
"recuencia absoluta del intervalo modal y
n
i)
e
n
i+)
son# respectivamente# las "recuencias
absolutas de los intervalos anterior y posterior al modal%
&i observamos la "rmula vemos .ue la moda se calcula tomando como re"erencia el e8tremo
in"erior del intervalo modal /el iC(simo1# al .ue se le suma una cantidad%
Esa cantidad .ue se le suma es la amplitud del intervalo multiplicada por un nAmero%
Ese nAmero es un cocienteB m$s concretamente# una proporcin% &i el intervalo modal es el
iC(simo# se cumple .ue
n
i
>n
i)
y
n
i
>n
i+)
,
es decir# la "recuencia del intervalo modal es
mayor .ue las de los intervalos contiguos% 3s# se tiene .ue
n
i
n
i)
>,
y
n
i
n
i+)
>,%
Es
decir .ue el cociente por el .ue se multiplica a la amplitud es positivo y menor .ue uno#
por.ue podemos ver .ue el denominador consta de la misma cantidad .ue el numerador m$s
otra cantidad .ue es positiva%
+P Comentarios de Estadstica descriptiva con una variable
&i cogemos el e8tremo in"erior y sumamos una cantidad menor .ue la amplitud# no puede
suceder .ue el resultado sea una cantidad .ue se salga del intervalo modal% ero si el cociente
anterior es cero o uno# el valor .ue se obtiene es el de los e8tremos del intervalo modalB esto
sucede cuando !ay dos intervalos modales contiguos# l(ase lo .ue se dice en el apartado
C$lculo de la moda sobre esto%
<especto a la interpretacin# no es tan clara como la de la "rmula de los percentiles# pero
podemos ver .ue la moda es el valor .ue dista del e8tremo in"erior del intervalo una longitud .ue es
una proporcin de la amplitudB y esta proporcin es la .ue !ay entre lo .ue aumenta la "recuencia del
intervalo anterior al modal con relacin a lo .ue !a aumentado del anterior al modal m$s lo .ue
aumenta respecto al siguiente% M$s sencillo .ue con palabras#
(n
i
n
i)
)+(n
i
n
i+)
) CCCCCCCCCCCCCC )
(n
i
n
i)
) CCCCCCCCCCCCCC 8
7 entonces
=o=l
i
+8(l
i+)
l
i
) %
;emos .ue cuando !ay dos intervalos modales seguidos# al aplicar la "rmula a cada uno sucede .ue
8=) para el intervalo de la i'.uierda y 8=, para el de la derec!a# con lo .ue en ambos casos se
obtiene el punto .ue divide los dos intervalos% Esta "rmula no es adecuada para discernir# en este
caso de intervalos modales contiguos# entre una distribucin unimodal y una bimodal /v(ase lo dic!o
en C$lculo de la moda1%
MED3
Un e2emplo de una medida de variabilidad en .ue no se mide la distancia de los datos respecto
a la media /como medida de centrali'acin1# sino respecto a la mediana# es la MED3% En esta medida
se calcula la distancia de cada dato a la mediana de la muestra# se .uita el signo en todas las
cantidades anteriores tomando valores absolutos y "inalmente se toma la mediana de estas cantidades%
El inconveniente de la MED3 es .ue es muc!o m$s costosa de calcular# pero la venta2a es .ue
no depende de datos atpicos /muy distintos a la mayora de los dem$s1# por.ue la mediana tampoco
depende de estos datos# mientras .ue la media s lo !ace% Obs(rvese .ue la mediana depende del
orden de los datos# no directamente de los propios valores de los datos%
Coe"iciente de apertura
El coeficiente de apertura se de"ine como el cociente entre el mayor valor de la muestra y el
menor%
C>=
m8 8
i

mn8
i

%
+E Comentarios de Estadstica descriptiva con una variable
or otro lado el rango se de"ine como9
R=m8 8
i
mn8
i
%
3mbos conceptos son medidas de dispersin% odemos apreciar .ue el rango tiene las mismas
unidades .ue la variable estadstica# por.ue si cada dato est$ dado en m
+
# por e2emplo# su di"erencia
tambi(n estar$ en esa unidad% &in embargo# el coe"iciente de apertura no tiene unidades# por.ue el
cociente de dos cantidades dadas en m
+
es un nAmero sin unidades% ara aclararnos con las unidades#
se puede pensar .ue son nAmeros9
?m
+
+Km
+
=(?+K)m
+
=Em
+
, ?mKm
+
=(?K)mm
+
=)Pm
?
y
?m
+
Km
+
=
?m
+
Km
+
=
?
K
=
)
+
En cuanto a la utilidad de estas dos medidas# no se puede decir .ue una sea m$s Atil .ue otra#
depender$ del caso concreto# de lo .ue represente la variable estadstica% =ay casos en los .ue utili'ar
una escala de di"erencias es me2or y otros en .ue lo es una escala de cocientes% &alvo .ue una tiene
unidades y otra no /no cambia si se trans"orman los datos a otra unidad1# la di"erencia principal estar$
en la interpretacin9
Nue R=)* signi"ica .ue el m$8imo de los datos se sitAa .uince unidades de medida m$s a la
derec!a .ue el mnimo# el resto de los datos est$ entre estas cantidades y la variable se dispersa
o distribuye en ese rango% En este caso !ay un patrn de unidad de medida%
Nue C7=)* signi"ica .ue el m$8imo de los datos es .uince veces mayor .ue el mnimo%
3.u el mnimo est$ como !aciendo de patrn de unidad con el .ue se compara el m$8imo%
3lgunos e2ercicios resueltos
E2ercicio )
En una pe?uea empresa con )$ empleados, %( son personal de fbrica @
estn cobrando unos sueldos semanales Aen euros, en funcin de su antigBedad de2
&$$ %($ %'# &)$ %C( &#) %C) &## &#D &'( &#$ %C' %'$
%)) %CC %CD &$$ &#D &#* &#* &#' %C& &#( &#) &'$
El resto del personal trabaja en oficina @ tiene un sueldo medio de &&),(* euros por
semana, @ una desviacin tpica de ($,$$ eurosE
a, Calcular la media @ la desviacin tpica del sueldo por semana del personal de
fbricaE
b, Representar el diagrama de tallo @ 6ojas del personal de fbricaE
c, Representar el diagrama de caja del personal de fbricaE FE8isten datos
atpicosG
?, Comentarios de Estadstica descriptiva con una variable
d, Calcular el sueldo medio por semana de todo el personalE
e, 0upongamos ?ue se dobla el sueldo a todos los empleados @ a continuacin, por
la e8cesiva subida, se decide ?uitarles %*(,$$ euros por semanaE Calcular las
nuevas medias @ desviaciones tpicas del sueldo semanal correspondiente al
personal de fbrica @ personal de oficinaE
>enemos la muestra aleatoria simple
( 8
)#
, 8
+*
, 8
+K
,, 8
K,
) ,
.ue podemos dividir en dos
submuestras9
( 8
)
,, 8
+*
)
U ersonal de "$brica

8
)
=i
eurosDsemana
s
)
=
.
s
)
+
=i eurosDsemana
( 8
+K
,, 8
K,
)=i
U ersonal de o"icina

8
+
=??K#*0
eurosDsemana
s
+
=
.
s
+
+
=*,#,, eurosDsemana
;emos .ue de la primera submuestra conocemos los datos originales# mientras .ue de la
segunda slo conocemos las medidas .ue nos danB de !ec!o# de esta segunda submuestra
es imposible recuperar los valores de los datos originales%
a1 8
)
=
8
)
++8
+*
+*
=
?,,++?@,
+*
=?,+#0K eurosDsemana
s
)
+
=
(8
)
8)
+
++( 8
+*
8)
+
+*
=
(?,,?,+#0K)
+
++(?@,?,+#0K)
+
+*
=+E#,0 euros
+
Dsemana
+
s
)
=
.
s
)
+
=.+E#,0=*#?E eurosDsemana
Como vemos# las unidades de la varian'a son el cuadrado de las de los datos%
b1 Diagrama de tallos y !o2as /unit I )#, )`+ represents )+#,1
LO`+@,#, +@)#, +*,#,
? +@`
? +*`
@ +K`K
@ +0`
@ +P`
?) Comentarios de Estadstica descriptiva con una variable
), +E`?@*KPE
)+ ?,`,,
/),1 ?)`,)@*KK00PP
? ?+`
? ??`
? ?@`,*
=I`?K,#,
c1 Como tenemos el diagrama de tallos y !o2as# vamos a aprovec!arlo para obtener la
muestra ordenada de menor a mayor /si no tuvi(semos el diagrama# la podemos ordenar
directamente de la muestra original# sin necesidad de !acer el diagrama1% De !ec!o# una de
las venta2as de este tipo de diagrama es .ue permite recuperar los valores de la muestra#
cosa .ue no permiten !acer otros gr$"icos9
/+@,# +@)# +*,# +KK# +E?# +E@# 295# +EK# +EP# +EE# ?,,# ?,,# 310# ?))# ?)@# ?)*# ?)K# ?)K#
?)0# 317# ?)P# ?)P# ?@,# ?@*# ?K,1
La in"ormacin .ue necesitamos para representar el diagrama es9
rimer cuartil9 N
)
I +E*
Mediana o segundo cuartil9 M I ?),
>ercer cuartil9 N
?
I ?)0
<ango intercuantlico9 N
?
C N
)
I ?)0 4 +E* I ++
Lmite admisible in"erior9 LI I N
)
C )#*<I I +E* 4 ?? I +K+
Lmite admisible superior9 L& I N
?
W )#*<I I ?)0 W ?? I ?*,
Datos atpicos9 or deba2o de +K+ est$n los datos +@,# +@) y +*,% or encima de ?*,
est$ el valor ?K,
?+ Comentarios de Estadstica descriptiva con una variable
D i a g r a m a d e c a j a ( p e r s o n a l d e f b r i c a )
2 4 0 2 6 0 2 8 0 3 0 0 3 2 0 3 4 0 3 6 0
S u e l d o
;emos .ue el programa in"orm$tico utili'ado para !acer este diagrama no dibu2a los
lmites admisibles% En cual.uier caso# nosotros tenemos .ue calcularlos para identi"icar los
datos atpicos%
d1 ;eamos una propiedad .ue siempre es cierta9

8=
)
n
( 8
)
++8
n
)=
)
n
(8
)
++8
:
)+
)
n
( 8
:+)
++8
n
)
I
I
:
n
)
:
( 8
)
++8
:
)+
n:
n
)
n:
( 8
:+)
++8
n
)=
:
n

8
)
+
n:
n

8
+
En nuestro caso9

8=
)
K,
( 8
)
++8
K,
)=
)
K,
( 8
)
++8
+*
)+
)
K,
(8
+K
++8
K,
)
I
I
+*
K,
)
+*
( 8
)
++8
+*
)+
?*
K,
)
?*
( 8
+K
++8
K,
)=
+*
K,

8
)
+
?*
K,

8
+
I
I
+*
K,
?,+#0K+
?*
K,
??K#*0=)+K#)*+)EK#??=?++#@P
eurosDsemana
e1 ;eamos por separado el e"ecto de algunas trans"ormaciones de los datos9
Transformacin 1

( 8
)
,, 8
n
)
X
( @
)
,, @
n
)=(o8
)
,, o8
n
)
Multiplicar o dividir por un nAmero
Esta operacin# .ue se puede llamar escalamiento o# m$s t(cnicamente# 6omotecia
/!ttp9DDes%Miaipedia%orgDMiaiD=omotecia1# e.uivale a cambiar la escala .ue mide las
distancias entre los datos% or tanto# intuitivamente9
)% La media# por ser la suma de todos los valores# .ueda trans"ormada de la
misma manera%
+% Las medidas de variabilidad /!ablamos a.u de la varian'a y la desviacin
tpica1 cambian# puesto .ue cambian las distancias relativas de cada dato a la
media% En concreto# la varian'a .ueda multiplicada o dividida por la misma
constante al cuadrado /por !aber un cuadrado en su de"inicin1# mientras .ue
la desviacin# por tener despu(s del cuadrado una ra' cuadrada# se ve a"ectada
por la misma constante .ue los datos sin elevar al cuadrado%
Lo vemos analticamente9
?? Comentarios de Estadstica descriptiva con una variable
Media9

@=
)
n
( @
)
++@
n
)=
)
n
(o8
)
++o8
n
)=o
)
n
( 8
)
++8
n
)=o

8
;arian'a9

s
@
+
=
)
n
( @
)

@)
+
++( @
n

@)
+
|=
)
n
(o 8
)
o

8)
+
++(o 8
n
o

8)
+
|
I
I
)
n
o
+
( 8
)

8)
+
++o
+
( 8
n

8)
+
|=o
+

)
n
( 8
)

8)
+
++o
+
( 8
n

8)
+
|=o
+
s
8
+
Desviacin tpica9
s
@
=
.
s
@
+
=
.
o
+
s
8
+
=os
8
Transformacin 2

( 8
)
,, 8
n
)
X
( @
)
,, @
n
)=( 8
)
,, 8
n
)
&umar o restar un mismo valor
Esta operacin se llama traslacin# y# si nos imaginamos los valores representados en
una recta !ori'ontal# e.uivale a moverlos todos para un lado u otro# dependiendo de si
se suma o resta un valor% Intuitivamente9
)% La media# .ue es el 5centro de gravedad6 de los puntos /podemos imaginarlos
como masas# con peso1 se ve a"ectada por la misma traslacin .ue cada dato
de la muestra%
+% Las medidas de variabilidad /varian'a y desviacin tpica1# .ue se "orman a
partir de distancias relativas a la media# no cambian cuando trasladamos los
datos# por.ue esas distancias relativas se conservan%
Lo demostramos analticamente9
Media9

@=
)
n
( @
)
++@
n
)=
)
n
( 8
)
)++( 8
n
)|=
)
n
( 8
)
++8
n
)( ++)|
I
I
)
n
( 8
)
++8
n
)( ++)|=
)
n
( 8
)
++8
n
)
)
n
(++)=

8
;arian'a9
?@ Comentarios de Estadstica descriptiva con una variable

s
@
+
=
)
n
( @
)

@)
+
++( @
n

@)
+
|=
)
n
( 8
)

8+)
+
++( 8
n

8+)
+
|
I
I
)
n
( 8
)

8+)
+
++(8
n

8+)
+
|=
)
n
( 8
)

8)
+
++( 8
n

8)
+
|=s
8
+
Desviacin tpica9
s
@
=
.
s
@
+
=
.
s
8
+
=s
8
Transformacin 3
ara la trans"ormacin

( 8
)
,, 8
n
)
X
( @
) #
, @
n
)=(a8
)
b , , a8
n
b )
se puede pensar .ue primero se aplica la trans"ormacin ) y despu(s la
trans"ormacin + /esta operacin de aplicar una trans"ormacin tras otra se
llama componer en Matem$ticas1% Los cambios en las medidas son9

8 X a

8 X a

8b
s
8
+
X a
+
s
8
+
X a
+
s
8
+

s
8
X
as
8
X
as
8
Entonces9

@=a

8b
s
@
+
=a
+
s
8
+
s
@
=as
8
En nuestro caso# como a I + y b I +0*# se tiene .ue9

@
)
=+

8
)
+0*=+?,+#0K+0*=??,#*+
eurosDsemana
s
@#)
+
=+
+
s
)
+
=+
+
+E#,0=))K#+P euros
+
Dsemana
+
s
@ #)
=.))K#+P=),#0P eurosDsemana
y

@
+
=+

8
+
+0*=+??K#*0+0*=?EP#)@
eurosDsemana
?* Comentarios de Estadstica descriptiva con una variable
s
@#+
+
=+
+
s
+
+
=+
+
*,
+
=),,,,#,, euros
+
Dsemana
+
s
@#+
=+s
+
=+*,=),,#,,
eurosDsemana
E2ercicio +
El ao pasado, las duraciones de los cortes publicitarios en las pelculas emitidas
por la televisin el lunes a las #$ de la noc6e, tomaron valores alrededor de un
valor medio de C minutosE !ara comprobar la actualidad de este valor medio, se
midieron durante un mes las duraciones de varios cortes publicitariosE Hos datos
obtenidos se presentan en la tabla siguiente2
C,% C,D C,& D,& #%,' D,% #(,& D,) D,D #&,( D,) *,C
a, Calcular la media @ la mediana de este conjunto de datosE
b, Ieducir de los valores de estos dos parmetros de locali9acin el aspecto
es?uemtico de la distribucin de esas duracionesE
c, Representar los datos mediante un diagrama de cajaE
d, 0e decide omitir los datos atpicos del conjunto de datos inicialesE Calcular los
parmetros obtenidos en a, para este nuevo conjunto de datosE
a1 &i la muestra es
( 8
)#
, 8
)+
) ,
la media es
8=
8
)
++8
)+
)+
=),#, minutos
3!ora# si la muestra ordenada de menor a mayor es
( 8
())
,, 8
()+)
) ,
la mediana es
==
8
(K)
+8
(0)
+
=E#, /dado .ue en la muestra !ay un nAmero par de datos1%
or sus e8presiones# vemos .ue tanto la media como la mediana pueden ser distintas a
todos los datos de la muestra# no tienen por .u( coincidir con ninguno de ellos%
b1 Como tambi(n vemos# la media y la mediana no coincidenB es decir# la variable
estadstica no se distribuye sim(tricamente% La media es mayor .ue la mediana# lo .ue es
caracterstico de las distribuciones asim(tricas a la derec!a% ;eamos los siguientes
!istogramas tericos9
?K Comentarios de Estadstica descriptiva con una variable
De i'.uierda a derec!a# estos !istogramas corresponden a muestras de variables cuya
distribucin es# respectivamente# asim(trica a la derec!a# sim(trica y asim(trica a la
i'.uierda%
c1 En este caso# como !ay )+ datos# el +*] supone ? datos# as .ue# si la muestra ordenada
es9
0#E P#+ 8,3 8, P#K 8,8 9,2 E#? 9,8 12,! )?#* )*#?
rimer cuartil9
J
)
=8
( @)
=P#K%
=ay .uien aplica el criterio de tomar la semisuma de
los valores contiguos a la posicin de inter(s# este caso sera9
J
)
=
8
( ?)
+8
( @)
+
=
P#?+P#K
+
=P#*%
3mbos criterios son v$lidos# puesto .ue lo importante no es tanto el valor concreto
como la in"ormacin .ue da sobre cmo se distribuyen los datos de la muestra%
Mediana o segundo cuartil9 M I /P#P W E#+1D+ I E#,
>ercer cuartil9 N
?
I /E#P 4 )+#@1D+ I ))#)
<ango intercuantlico9 N
?
C N
)
I ))#) 4 P#@* I +#0
Lmite admisible in"erior9 LI I N
)
C )#*<I I P#@* 4 ?#E0 I @#*
Lmite admisible superior9 L& I N? W )#*<I I ))#) W ?#E0 I )*#)
Datos atpicos9 or deba2o de @#* no !ay datos% or encima de )*#) est$ el valor
)*#?# .ue es# por tanto# el Anico dato atpico%
d1 3l omitir el dato atpico# la muestra .uedara9
0#E P#+ P#? P#K P#K 8,8 E#+ E#? E#P )+#@ )?#*
?0 Comentarios de Estadstica descriptiva con una variable
D i a g r a m a d e c a j a
7 , , ! ! , ! 3 , ! " ,
# o r $ e
ara esta nueva muestra se tiene .ue9

8=
8
( ))
++8
( )))
))
=E#* minutos

==8
(K)
=P#P
;emos .ue la mediana !a cambiado menos .ue la mediaB esto se debe a .ue es robusta#
mientras .ue la media no lo es% or otro lado# es importante !acer notar .ue la mediana !a
cambiado de valor por.ue !emos omitido un dato# pero no cambiara de valor si
!ubi(semos sustituido ese valor e8tremo por otro aAn m$s e8tremo# por e2emplo# puesto
.ue la mediana se elige por las posiciones de la muestra ordenada# no por los valores de los
datos%
Dos variables
Caractersticas de los datos
Dos muestras univariantes y una muestra bivariante
Dada una poblacin# conceptualmente es importante distinguir entre las dos situaciones
siguientes9
)1 Considerar una muestra de elementos de la poblacin y medir en ellos la variable >% Luego
considerar otra muestra distinta de elementos de la poblacin y medir en ellos la variable 4%
+1 Considerar una muestra de la poblacin y medir en sus elementos las dos variables > y 4%
En el primer caso se obtendr$n dos muestras univariantes# /a
#
#%%%a
n
1 y /b
#
#%%%b
m
1# con las .ue en algunos
casos se pueden construir a posteriori pares de valores /cuando tenga sentido9 por e2emplo# cuando
e8ista un con2unto de clases y las variables a
i
y b
i
se midan en su2etos distintos pero de la misma
clase1# mientras .ue en el segundo caso se obtendr$ directamente una muestra bivariante# /a
#
# b
#
1#%%%#
/a
n
# b
n
1%
3 la !ora de estudiar la relacin entre las dos variables# si las muestras de la situacin ) no son
muy distintas entre s# cosa .ue se puede controlar slo !asta cierto punto# sus resultados di"erir$n
poco de los .ue se puedan deducir de la situacin +% &in embargo# en general se corre el riesgo de
con"undir di"erencias entre las muestras con di"erencias entre las variablesB es algo .ue !ay .ue tener
en cuenta a la !ora de interpretar los an$lisis de los datos% or tanto# siempre .ue sea posible# la
?P Comentarios de Estadstica descriptiva con una variable
manera m$s adecuada de estudiar la relacin entre dos variables es la segunda situacin descrita%
;uelta a la estadstica de una variable
Nuien tiene cierta cantidad de in"ormacin puede decidir no utili'arla toda% Con esta obviedad
slo se .uiere introducir una relacin trivial entre la estadstica de dos variables y la de una variable%
>odo lo .ue se ve en los temas de Estadstica descriptiva de una variable es aplicable a las distintas
variables estadsticas .ue 5"orman parte de6 o 5se pueden construir a partir de6 dos variables
estadsticas# por e2emplo9
/a1 &e puede tener en cuenta slo la primera variable
/b1 &e puede tener en cuenta slo la segunda variable
/c1 &e puede tener en cuenta la primera variable slo en los casos en .ue la segunda variable toma
cierto valor
/d1 &e puede tener en cuenta la segunda variable slo en los casos en .ue la primera variable toma
cierto valor
3 cada una de estas variables estadsticas# como variables en s mismas# les es aplicable todo lo .ue la
Estadstica descriptiva de una variable9 caractersticas de las variables# agrupamiento en clases#
distintos tipos de "recuencias# e8presin en tablas# representacin en gr$"icos# c$lculo de medidas
num(ricas# etc(tera%
La in"ormacin correspondiente a dos variables puede venir dada como un con2unto de pares
de valores# tal y como se !an medido para cada su2eto de la muestra# o ya e8presadas en una tabla de
doble entrada /una entrada o direccin para cada una1% En el primer caso# los e2emplos /a1 y /b1
consistiran en tener en cuenta# en todos los pares# slo el valor de una misma posicin# mientras los
e2emplos /c1 y /d1 consistiran en observar slo los valores de una posicin para los pares en .ue la
otra tome un cierto valor% En el segundo caso# de los e2emplos anteriores el /a1 y el /b1 son las
distribuciones marginales# mientras .ue /c1 y /d1 son las di"erentes distribuciones condicionadas%
or todo lo anterior# no se insistir$ m$s en este documento en .ue la Estadstica descriptiva de
una variable es plenamente aplicable a cada una de estas variables estadsticas individuales% Entonces#
para .ue la Estadstica descriptiva de dos variables tenga m$s valor .ue el de la simple aportacin de
dos estadsticas de una variable# tiene .ue tener como principal ob2etivo estudiar la relacin o
interaccin entre las dos variables%
Un poco m$s%%%
En esta seccin se incluyen algunos comentarios de un nivel m$s alto# .ue pretenden por un
lado "acilitar la comprensin de lo visto y de los temas siguientes# y por otro satis"acer la curiosidad
de .uien .uiera ir un poco m$s all$ de lo estrictamente necesario segAn el temario%
?E Comentarios de Estadstica descriptiva con una variable
Datos multivariantes y datos multidimensionales
Jo siempre se tiene el debido cuidado a la !ora de utili'ar los t(rminos 5multivariante6 y
5multidimensional6% La di"erencia /.ue !e ledo en buenos autores1 est$ en .ue9
31 Medir varias variables da lugar a datos multivariantes% or e2emplo# se pueden medir la altura y el
peso de una persona9 />#!1%
b1 Medir una cantidad .ue depende de varias variables da lugar a datos multidimensionales% or
e2emplo# medir la temperatura depende de la posicin y el tiempo9 K/8#t1%
Nui'$ a veces la con"usin viene de .ue se puede pensar .ue K es multidimensional y depende
del vector multivariante /8#t1% or otro lado# para un vector aleatorio o variable aleatoria bivariante se
considera la "uncin de densidad con2unta# f/8,@1# .ue es bidimensional%
Obviamente# tambi(n es posible combinar los dos tipos de datos anteriores para obtener datos
multivariantes y multidimensionales# por e2emplo# medir la temperatura y la presin9 /K/8#t1#!/8#t11%
or otro lado# para seguir aclarando ideas# en ve' de una sola medicin se pueden !acer varias#
ordenadas siguiendo el orden de algAn ndice9 si este ndice es el tiempo# se !abla de procesos
temporales# mientras .ue si el ndice es una posicin espacial# se !abla de procesos espaciales% &i el
ndice es el tiempo y slo se lleva a cabo una medicin# pero se entiende .ue en varios su2etos /una
muestra1# se suele !ablar de una medida simultnea o transversalB si se !acen varias mediciones
ordenadas por el ndice /tiempo u otra variable1# se !abla a veces de medida longitudinal%
En cual.uier caso# con este pe.ueLo apartado slo se .uera por un lado de"ender el
enri.uecimiento de pensamiento /y del idioma1 .ue signi"ica distinguir los t(rminos 5multivariante6 y
5multidimensional6# y por otro 2usti"icar por .u( en este documento se traba2a con datos bivariantes y
no con datos bidimensionales%
;ectores aleatorios
De la misma manera .ue a las variables estadsticas univariantes se les podan asignar# como
modelo# las variables aleatorias# a las variables estadsticas bivariantes se les puede asignar una
variable aleatoria bivariante# .ue no ser$ m$s .ue un vector con dos variables aleatorias con cierta
relacin entre ellas /si no !ay relacin# la situacin no tiene muc!o inter(s en la estadstica con la .ue
estamos traba2ando a!ora1%
Construccin de tablas
Distribuciones con2unta# marginales y condicionales
Cuando se estudia una variable estadstica# se suele utili'ar una tabla para recoger la
in"ormacin de la muestra% En esta tabla# en una direccin se e8presan los valores de la variable /o de
las clases# en el caso de .ue se !ubiese agrupado la muestra1# y dentro# paralelamente# se incluyen las
@, Comentarios de Estadstica descriptiva con una variable
"recuencias absolutas# relativas o sus acumuladas%
En este captulo se estudian dos variables a la ve'# por lo .ue la in"ormacin se va a recoger
tambi(n en tablas# con la di"erencia de .ue a!ora necesitamos las dos direcciones Overtical y
!ori'ontalO para recoger en cada una los posibles valores de una variable /o clases# si se !a
agrupado1% La in"ormacin de las celdas ser$ tambi(n las "recuencias# en este caso conjuntas% &in
embargo# en el caso multivariante !ay otras "recuencias adem$s de las absolutas# relativas y sus
acumuladas9 las frecuencias marginales y las frecuencias condicionales%
Distribucin con2unta
En el estudio con2unto de dos variables estadsticas !ay un inter(s especial en estudiar la
relacin entre las variables# pues en otro caso se estaran !aciendo# como se !a mencionado# dos
estudios independientes# cada uno de ellos para una sola variable% La distribucin conjunta# como su
nombre indica# es la distribucin .ue e8plica con2untamente el comportamiento de ambas variables a
la ve'% Es decir# cada celda de la tabla inicial nos est$ in"ormando de la "recuencia n
ij
con .ue !a
sucedido a la ve' .ue la variable 1 !a tomado un valor de su clase iC(sima y la variable 3 lo !a
tomado de su clase jC(sima /lo .ue tambi(n se puede interpretar como la interseccin de dos sucesos1%
La representacin gr$"ica e.uivalente al !istograma de una variable# .ue se representaba en el plano#
es a!ora un !istograma tridimensional# .ue se representa en el espacio de tres dimensiones /la altura
de las barras depende de dos dimensiones9 es una "uncin bidimensional1% ero un gr$"ico m$s
sencillo .ue (ste es el diagrama de dispersin o nube de puntos# del .ue se !abla en otro apartado%
;olviendo a los !istogramas# con la siguiente "igura se .uiere mostrar la di"erencia entre estudiar las
dos variables por separado# !acer sus gr$"icos y solaparlos# y estudiar con2untamente las variables
para representar la relacin en un !istograma tridimensional%
Figura9 Dos !istogramas independientes y un !istograma con2unto en tres dimensiones
Distribuciones marginales
La distribucin marginal de una variable# como su nombre tambi(n indica# se representa en el
margen de la tabla% =abr$# por tanto# una distribucin marginal para cada una de las dos variables en
cada uno de los m$rgenes% Estas distribuciones se calculan sumando todas las "recuencias de cada
columna y de cada "ila% Esta suma signi"ica estadsticamente .ue agrupamos todas las "recuencias en
una# es decir# .ue nos da igual .u( valor !aya tomado la otra variable# no tenemos en cuenta su
agrupamiento en clases% Las "recuencias .ue obtenemos en cada margen nos in"orman de cmo se !a
agrupado la muestra en las clases de esa variable# sin atender a cmo lo !ayan !ec!o en las clases de
la otra variable% Esta in"ormacin debe ser cercana /salvo pe.ueLas di"erencias1 a la .ue se obtendra
@) Comentarios de Estadstica descriptiva con una variable
de dos estudios independientes .ue estuviesen dirigidos cada uno a estudiar slo una variable%
Distribuciones condicionales
or Altimo# las distribuciones condicionales# como su nombre indica# son las .ue nos in"orman
de cmo se distribuye una variable cuando la otra variable pertenece a una clase determinadaB es
decir# in"orma de la distribucin de una variable condicionada a un determinado valor de la otra% ara
calcular una distribucin condicionada# como la idea es estudiar cmo se distribuyen los elementos en
las clases de una variable "i2ada la otra# basta con tomar los valores de la columna o "ila adecuadaB
pero# como slo una parte de la muestra total !a tomado el valor "i2o de la variable condicionada#
tomando esa columna o "ila estamos considerando cmo se distribuye esta submuestra# y necesitamos
normali'ar adecuadamente /para .ue esa submuestra !aga de muestra1% or tanto# los c$lculos
consisten en dividir las "recuencias con2untas por la "recuencia marginal%
-r$"icamente# a partir del !istograma tridimensional# es "$cil imaginarse lo .ue signi"ican las
distribuciones condicionales9 tomar la seccin de la "ila o columna de barras correspondiente y# al
normali'ar# cambiarla proporcionalmente para .ue el $rea total de las barras sume uno%
Las distribuciones marginales y condicionales se suelen de"inir a partir de las "recuencias
relativas# no de las absolutas% Esto se suele !acer as por la interpretacin posterior de las "recuencias
relativas y su analoga con las probabilidades /aun.ue .ui'$ el concepto de normali'acin .ue se !a
mencionado antes se entiende me2or si !ablamos de las absolutas# por.ue representan 5nAmero de
datos61% ara ver .ue los resultados /por e2emplo# en el caso de las "recuencias condicionadas1 son los
mismos si se parte de la tabla de las "recuencias relativas .ue si se parte de la de "recuencias
absolutas9
f
ij
f
j
=
n
ij
.
n
j
.
=
n
ij
.
.n
j
=
n
ij
.
.n
j
=
n
ij
n
j
La in"ormacin de cada distribucin condicionada es la misma /salvo pe.ueLas di"erencias1
.ue se obtendra de un estudio cuya poblacin "uese directamente los elementos para los .ue la
variable por la .ue se condiciona tomase un determinado valor% or otra parte# se menciona una ve'
m$s .ue para cada distribucin marginal o condicionada de las anteriores# por ser ella misma una
distribucin# puede estudiarse la variable estadstica .ue le corresponde como se !ace para una Anica
variable%
<epresentacin en gr$"icos
Diagrama de dispersin
Cuando tenemos dos variables# podemos estudiar su relacin analtica y gr$"icamente% Esto
segundo se puede !acer mediante un !istograma tridimensional /ver un e2emplo en Distribuciones
con2unta# marginales y condicionales1B pero es di"cil de representar# por lo .ue se utili'a muc!o el
diagrama de dispersin o nube de puntos% Como .ueremos un gr$"ico .ue nos in"orme de esa posible
relacin entre las variables# tenemos .ue representarlas 2untas% odramos pensar en9
@+ Comentarios de Estadstica descriptiva con una variable
/a1 Coger la muestra > y representar los puntos
/##a
#
1#/%#a
%
1#%%%#/.#a
.
1%
Coger la muestra 4 y !acer lo mismo# con lo .ue apareceran en el mismo gr$"ico los puntos
/##b
#
1#/%#b
%
1#%%%#/.#b
.
1%
7 de este gr$"ico podramos intentar intuir la relacin entre las dos variables# es decir# .u(
valor tiene a tomar la una en "uncin de la otro% Esta tarea es normalmente di"cil# como
muestra el siguiente e2emplo% 3 partir de una tabla se representan dos variables .ue parecen
distribuirse alrededor de sendas rectas .ue divergen /esto sucede# por e2emplo al representar las
variables 3-<ICU y E&M del "ic!ero de datos 5paises%t8t6 ad2unto al libro /ntroduccin a la
Estadstica para las Ciencias 0ociales# de Daniel eLa y Zuan <omo1% QNu( signi"ica .ue esas
dos muestras se sitAen en torno a rectas .ue divergenR El .ue se trate de rectas signi"ica .ue los
datos en la tabla estaban colocados de manera .ue al descender por sus "ilas ambas variables
van variando linealmente /y# por tanto# por variar linealmente con respecto a la posicin en la
tabla# varan linealmente entre s% Escrbase esto analticamente con las ecuaciones de las
rectas%%%1% El .ue diver2an signi"ica .ue a medida .ue una variable crece la otra decrece# es
decir# .ue la correlacin /lineal1 .ue !ay es negativa% ;emos .u( indirectamente aparece en el
gr$"ico esta correlacin negativa% or supuesto# tambi(n !abra .ue tener en cuenta si los datos
se !aban colocado en la tabla con algAn criterio%
/b1 Otra opcin es representar los puntos de la "orma
/a
#
#b
#
1#/a
%
#b
%
1#%%%#/a
.
#b
.
1%
En las primeras posiciones se ponen los valores de la variable .ue .ueramos poner en el e2e 1#
y en las segundas los de la del e2e 3% Entonces cada punto nos dice cu$nto valen las dos
variables para su su2eto de la muestra% Esto es lo .ue es m$s propiamente dic!o el diagrama de
dispersin9 representar los valores de las dos variables .ue se !an medido para cada su2eto% 3
partir de (l# !ay casos en .ue se ve a simple vista no slo si !ay relacin entre las dos
variables# sino si adem$s esa relacin es lineal o no%
/c1 Cosa distinta es .ue tuvi(semos dos muestras univariantes distintas# > y 4# no una muestra
bivariante /sobre esta di"erencia se !abla en el apartado Dos muestras univariantes y una
muestra bivariante1% Es decir# en el primer caso se !a medido la variable > en unos su2etos de la
poblacin y la 4 en otros# mientras .ue en el segundo caso se coge la muestra y se miden las
dos variables para cada su2eto% ;olviendo a los gr$"icos# si "ormamos pares de valores con las
dos variables /cuando tenga sentido# .ue no es siempre1# pueden representarse como en el
punto anterior# pero siempre teniendo en cuenta al interpretarlo .u( in"ormacin se !a unido#
puesto .ue puede ser .ue !aya di"erencias entre los su2etos en .ue se !a medido > y los su2etos
en .ue se !a medido 4# y al "inal con"undamos estas di"erencias entre las muestras con
di"erencias entre las variables > y 4% Este gr$"ico se parece m$s al descrito en /b1 .ue al
descrito en /a1# y a veces es el Anico .ue se puede !acer%
<ecta de regresin
El concepto de regresin "ue propuesto por el bilogo -alton% 3l estudiar la estatura de una
muestra de padres e !i2os# observ .ue los !i2os de padres m$s altos .ue la media de la poblacin
@? Comentarios de Estadstica descriptiva con una variable
tendan a tener una estatura mayor .ue la media pero menor .ue la de sus padresB del mismo modo#
los !i2os de padres m$s ba2os .ue la media tenan !i2os con una estatura menor .ue la de la media
pero mayor .ue la de sus padres% En general se produca# por ambos lados# una 5regresin a la media6
en la estatura de una generacin con respecto a la anterior%
ara intentar e8plicar el comportamiento medio de la relacin entre dos variables se utili'a
alguna "uncin conocida .ue se le pare'ca% /Con 5relacin o comportamiento medio6 se entiende
5relacin entre las medias6%1 La calidad de la modeli'acin depende# en primer lugar# de la calidad de
los datos%
Inspeccin visual
Como cual.uier an$lisis de datos estadstico# es necesario empe'ar representando gr$"icamente
/de cuantas m$s "ormas# me2or1 los datos% La in"ormacin de estos gr$"icos es "undamental% En este
caso tiene una utilidad especial el diagrama de dispersin%
Jo se va a entrar en ciertos detalles a!ora# slo se mencionar$ .ue mediante la inspeccin
visual se pueden identi"icar ciertos datos .ue tienen un e"ecto grande sobre el resultado "inal9 datos
atpicos, puntos influ@entes o puntos palanca% 3 veces el e"ecto de estos datos se puede evaluar
apro8imadamente a partir del gr$"ico mirando si est$n alineados con el resto o no /en el caso de la
recta de regresin1# aun.ue tambi(n !ay m(todos analticos para evaluar este e"ecto /!aciendo los
c$lculos con y sin el punto .ue se .uiere estudiar1% &e incluye a continuacin un gr$"ico# !ec!o por
una alumna a partir del "ic!ero de datos 5paises%t8t6# incluido con el libro /ntroduccin a la
Estadstica para las Ciencias 0ociales# de Daniel eLa y ZuanCZ% <omo%
Figura9 Muestra con dos puntos .ue pueden tener e"ecto en la recta de regresin
Una ve' tratados los puntos especiales .ue se !an mencionado# si los datos parecen estar
situados a ambos lados de una recta imaginaria# tiene sentido elegir una recta /"uncin lineal1 para
modeli'ar la dependencia de una variable con respecto a la otra% Esta modeli'acin da lugar a la recta
de regresin% Es decir# aun.ue matem$ticamente siempre es posible calcular la recta de regresin#
slo debe !acerse cuando la inspeccin visual lo aconse2e9 v(ase lo .ue sucede con los datos en
Correlacin y relacin no lineal entre variables% En el siguiente gr$"ico se muestra un e2emplo en .ue
s tiene sentido a2ustar la recta de regresin%
@@ Comentarios de Estadstica descriptiva con una variable
!ttp9DDes%Miaipedia%orgDMiaiD<egresinclineal
Obtencin
De las posibles rectas cercanas entre s .ue podran utili'arse# se elige una mediante el criterio
de !acer mnima la suma de las distancias# en vertical# de los puntos a la rectaB para .uitar el signo a
estas distancias se las eleva al cuadrado# en ve' de la opcin menos mane2able /para los c$lculos1 de
tomar el valor absoluto% or lo anterior# este criterio de eleccin de la recta de regresin se llama
mtodo de mnimos cuadrados% &i la muestra es /8
#
#@
#
1#/8
%
#@
%
1#%%%#/8
n
#@
n
1# se .uiere encontrar el modelo
3 I a1 W b
/las letras a y b no tienen nada .ue ver con las variables > y 41 tal .ue es mnima la cantidad
I=

i=)
n
( @
i
3 ( 8
i
))
+
=

i=)
n
( @
i
a8
i
b)
+
%
or ser una suma de cuadrados# ntese .ue I tomar$ el cero si# y slo si# todas las cantidades de la
suma son cero# es decir# cuando todos los puntos est$n per"ectamente alineados /cosa .ue#
obviamente# casi nunca pasar$ en la pr$ctica1% or otro lado# dado .ue los valores de 8
i
y @
i
son
nAmeros concretos /los de la muestra1# las cantidades .ue !ay .ue elegir en el modelo son los
par$metros a y b% Entonces# de2ando 5moverse6 a los par$metros a y b, es decir# consider$ndolos
como variables en ve' de como parmetros# se elegir$n sus valores adecuados concretos /con lo .ue
volver$n a ser par$metros1B para ello la cantidad I anterior se interpreta como una "uncin de dos
variables# I/a#b1% 3!ora# aplicando las t(cnicas del c$lculo matem$tico para encontrar los e8tremos
de una "uncin de varias variables# se igualan a cero las derivadas parciales% 7 como el e8tremo
encontrado slo puede ser un mnimo /por.ue I es mayor o igual a cero# y no est$ acotada por arriba9
nos podemos imaginar una recta in"initamente le2os1# entonces#

cI(a , b)
ca
=,
cI(a , b)
cb
=,
X

a=
s
13
s
1
+
b=

@a

8

donde
s
13
=
)
n

i=)
n
( 8
i

8)( @
i

@) , s
1
+
=s
11
=
)
n

i =)
n
( 8
i

8)
+
,

8=
)
n

i=)
n
8
i
y
@=
)
n

i=)
n
@
i
%
El proceso anterior nos !a llevado a .ue para calcular la recta de regresin es necesario utili'ar
las "rmulas obtenidas para a y b# y despu(s sustituirlas en la e8presin de la recta% /Esas "rmulas
son las .ue tienen programadas las calculadores y los ordenadores para !acer estas rectas%1
@* Comentarios de Estadstica descriptiva con una variable
<ecta de > sobre 4 o recta de 4 sobre >
3l a2ustar una recta de regresin# estamos modeli'ando una variable en "uncin de la otra% or
tanto# es muy importante cu$l es la variable independiente y cu$l .ueremos estudiar en "uncin de
ella# esto es# la dependiente% El propio signi"icado de las variables suele indicarlo% or el proceso de
construccin de la recta# .ue no trata igual a las dos variables /se miden las distancias en la direccin
vertical1# no se obtiene la misma recta al !acer la regresin de > en "uncin de 4 .ue la regresin de
4 en "uncin de >%
<epresentacin
Una ve' .ue !emos calculado los valores de a y b# !ay varios m(todos para representar la
recta% ;(ase el apartado <epresentacin a mano de una recta% En caso de .ue decidamos representarla
dando dos valores a 1# obtener los correspondientes valores de 3 y representar estos dos puntos /dos
puntos determinan una recta1# los dos valores .ue eli2amos para la variable independiente 1 deben
estar en el rango de valores en .ue se mueve la muestra# por.ue la recta de regresin se !a construido
con ella y puede no ser un modelo v$lido para valores le2anos% Los valores .ue eligi(semos# 8
#
y 8
%
#
pueden coincidir o no con dos valores .ue !aya tomado la variable estadstica >% Eso s# si los
tomamos para .ue coincidan es de esperar .ue los correspondientes @
#
y @
%
sean pr8imos a los
valores .ue !aba tomado la variable estadstica 4 en esos dos su2etos de la muestra# pero no tienen
por .u( coincidir /es muy di"cil .ue lo !agan1% La recta de regresin representa gr$"ica y
analticamente la relacin .ue !ay entre las medias de las variables estadsticas# pero en la realidad
!ay tantos "actores in"luyendo en las medidas .ue los datos reales no estar$n sobre la recta%
or otro lado# si estuvi(semos interesados en representar las dos rectas de regresin /de > sobre
4 y de 4 sobre >1 en un mismo gr$"ico# !ay .ue tener en cuenta .ue una de ellas !abra .ue 5mirarla
desde un lateral6 del gr$"ico# puesto .ue su variable independiente estar$ en el e2e vertical y no en el
!ori'ontal# como acostumbramos !acer en los e2es cartesianos%
Evaluacin de la calidad
Una ve' calculada la e8presin de la recta de regresin# podemos estar interesados en evaluar
su calidad a la !ora de a2ustarse a los datos# es decir# su calidad como modelo para e8plicar la relacin
media entre las variables% Una medida apro8imada de esta calidad se obtiene a partir del gr$"ico# pero
si se desea tener una medida analtica# a!ora .ue conocemos los valores de a y b podemos volver a la
e8presin de I y obtener su valor num(rico% Como se trata de una suma de n valores elevados al
cuadrado# se de"inen los residuos como
r
i
=@
i
3 ( 8
i
)=@
i
a8
i
b ,
esto es# las distancias en vertical
de los datos de la muestra a los valores .ue predice el modeloB y se de"inen tambi(n la varian9a tpica
residual
s
R
+
=
)
n

i=)
n
r
i
+
=
)
n

i=)
n
( @
i
a8
i
b)
+
=
)
n
I
y la desviacin tpica residual
s
R
=
.
s
R
+
=
.
)
n
I
En E2ercicio? y E2ercicio @ se calculan estas medidas%
Una observacin .ue se puede !acer es .ue como I es mnima si# y slo si# s
R
+
y
s
R
son
@K Comentarios de Estadstica descriptiva con una variable
mnimas# para una muestra dada la recta de regresin !ace mnimas no slo I sino tambi(n la
varian'a y la desviacin tpicas residuales%
rediccin
&i la calidad del modelo es buena# podemos utili'arlo para obtener valores estimados de la
variable dependiente correspondientes a valores de la variable independiente .ue no estaban en su
muestra9 basta meter el valor de la 1 en la e8presin de la recta% Como se !a indicado al !ablar de la
representacin# el modelo es v$lido slo en el rango de valores en .ue se mueve la muestra de la
variable independiente9 no tenemos garantas de .ue "uera de este rango la recta e8plica bien la
relacin entre las variables%
<elacin con el coe"iciente de correlacin lineal
Es obvio .ue la recta de regresin# adem$s de para e8plicar la relacin media entre las
variables y para predecir valores .ue no est(n en la muestra# sirve para medir el grado de correlacin
lineal .ue !ay entre las variables9 cuanto mayor sea la correlacin lineal# me2or a2ustar$ la recta y
menores ser$n los residuos% &e !a mencionado el caso lmite en .ue D=0, lo .ue sucede si# y slo
si# los puntos est$n per"ectamente alineadosB ntese# a partir de sus e8presiones# .ue en este caso
tambi(n son cero la varian'a y la desviacin tpicas residuales% ;(ase el apartado <elacin entre la
correlacin y la recta de regresin%
Una e8presin .ue relaciona la varian'a tpica residual# la varian'a de la variable dependiente
y el coe"iciente de correlacin lineal# r# es9
s
R
+
s
3
+
=)r
+
%
/Esta letra r .ue se !a utili'ado para el coe"iciente de correlacin no tiene nada .ue ver con la
notacin r
i
de los residuos%1
Un poco m$s%%%
En esta seccin se incluyen algunos comentarios de un nivel m$s alto# .ue pretenden por un
lado "acilitar la comprensin de lo visto y de los temas siguientes# y por otro satis"acer la curiosidad
de .uien .uiera ir un poco m$s all$ de lo estrictamente necesario segAn el temario%
Ecuaciones de la recta
Nuien necesite 4o .uiera4 repasar las ecuaciones de la recta# puede consultar el apartado
correspondiente y los enlaces .ue se dan en el documento
5<epaso no del todo elemental de Matem$ticas elementales6
!ttp9DDMMM%CasadoCD%orgDeduD<epasoMatematicas%pd"
@0 Comentarios de Estadstica descriptiva con una variable
<epresentacin a mano de una recta
En el "ondo# una "uncin matem$tica de la "orma @ I fA8, es una regla .ue 5in"orma a la ve' de
in"initos pares de valores /8#@16%
ara representar una "uncin !ay varias opciones# una sencilla es construir una tabla con una
cantidad su"iciente de estos pares de puntos# representarlos en un gr$"ico y unirlos suavemente /si la
"uncin debe ser suave1%
En el caso de la recta# una primera "orma muy poco e"ica' para representarla sera a2ustar la
recta de regresin a los puntos de esta tabla mencionada en el p$rra"o anterior% 3.u la recta debe
a2ustar per"ectamente y pasar por todos los puntos /su desviacin residual debe ser cero1% or
supuesto# (ste es un camino .ue no utili'a nadie# es como 5matar moscas a caLona'os6B pero pensar
en (l ayuda a comprender me2or los conceptos%
;olviendo a la recta# por tratarse de una ecuacin lineal# dos puntos la determinan /como
curiosidad9 e8isten en Matem$ticas otros tipos de geometras no eucldeas en .ue por dos puntos
pueden pasar m$s de una 5recta6 distintas1% or tanto# lo m$s cmodo es dar dos valores a la 1 y
obtener sus valores de 3% 3!ora ya se pueden representar los puntos /8
#
#@
#
1 y /8
%
#@
%
1# para unirlos
"inalmente con una regla% En teora# si la ecuacin de la recta est$ ya calculada# dara igual dnde
coger los dos puntos# por.ue determinan igual el gr$"ico de la recta% &in embargo# dado .ue en los
dibu2os a mano a veces marcamos apro8imadamente los valores# el gr$"ico .ueda me2or tomando
puntos parecidos a los de la muestra% &i se !ace con ordenador# si no se tomasen puntos parecidos a
los de la muestra sucedera .ue los puntos de la muestra apareceran ocupando una parte muy
pe.ueLa del gr$"ico# lo .ue !ara al gr$"ico perder muc!a utilidad y precisin% Es decir# en este caso
se toman valores parecidos a los de la muestra por conveniencia# mientras .ue en <ecta de regresin
se tomaban estos valores cercanos a los de la muestra no slo por este motivo de conveniencia sino
por necesidad /valide' del modelo1%
Otra "orma de representar la recta es a partir de las distintas "ormas .ue tienen sus ecuaciones%
Dependiendo de cmo est( dada la in"ormacin# se utili'ar$ una u otra "orma% De entre estas
ecuaciones# la m$s sencilla es la ecuacin punto;pendiente% Nuien tenga inter(s en estas ecuaciones
de la recta puede consultar el apartado correspondiente del documento
5<epaso no del todo elemental de Matem$ticas elementales6
!ttp9DDMMM%CasadoCD%orgDeduD<epasoMatematicas%pd"
lantear una ecuacin del enunciado
=ay casos en .ue no nos dan e8plcitamente la relacin entre las variables# tenemos .ue
plantearla a partir del enunciado del e2ercicio%
odemos llamar como .ueramos a lo .ue .ueramos# siempre .ue despu(s seamos consecuentes
con el concepto .ue !ay detr$s del nombre% &uele llamarse 1 a la variable independiente e 3 a la
dependiente# la .ue depende de la 1% &eguir este convenio para nombrar a las variables ayuda muc!o
a pensar# por eso la notacin es importante en Matem$ticas# sobre todo al principio% Despu(s uno
@P Comentarios de Estadstica descriptiva con una variable
puede pensar .ue 3 es la independiente y 1 la dependiente# no pasa nada# pero no ayuda a dedicar
es"uer'os mentales a lo realmente importante%
or e2emplo# si tenemos las variables# 5ruido6 y 5nAmero de lectores6# Qcu$l puede depender
de la otraR%%% ues parece .ue el ruido depende del nAmero de lectores# m$s .ue al rev(s%
3 la !ora de !acer un planteamiento !ay .ue9
De"inir bien y claramente las variables9 1 ser$ el nAmero de lectores e 3 ser$ el nivel de ruido%
Establecer la ecuacin segAn el enunciado# por e2emplo9 *3C),1 I +,
Despe2ar la variable dependiente9 3 I /+,W),11D* I +,D* W ),1D* I @ W +1
;emos .ue la relacin entre estas dos variables es una recta con pendiente +% 3dem$s# cuando 1 I $
se tiene .ue 3 I '# as .ue !ay ruido en la biblioteca aun.ue no !aya lectores /luces# cale"accin#
ratones de biblioteca# espritus y duendes%%%1%
<esolucin gr$"ica de algunos problemas
3lgunos e2ercicios pueden ser resueltos tanto de "orma analtica como de "orma gr$"ica% or
e2emplo# pongamos el caso en .ue despu(s de plantear las ecuaciones para los precios de dos
bibliotecas en "uncin del nAmero de libros# se obtienen9
biblioteca >9
3
>
=?d+)+
biblioteca 49
3
4
=Ed
Estas ecuaciones ya nos est$n dando muc!a in"ormacin analticamente9
Cuando no sacamos ningAn libro# es decir# 1I,# en la biblioteca > tenemos .ue pagar )+e#
mientras .ue en la 4 no pagamos nada%
&i nos preguntamos para cu$ntos libros tenemos .ue pagar lo mismo en ambas bibliotecas#
basta resolver el sistema "ormado por las dos ecuaciones a la ve'# es decir9
3
>
=3
4
X Ed=?d+)+ X Ed?d=)+ X Kd=)+ X 1 =)+/ K=+
odemos de"inir la "uncin 5di"erencia6# I# .ue nos diga la di"erencia entre ambos precios9
I( 1 )=3
>
( 1 )3
4
( 1 )=?d+)+Ed=Kd+)+
Esta "uncin in"orma# para cada valor de 1# de cu$nto m$s !ay .ue pagar en > .ue en 4%
Cuando esta "uncin toma valores negativos signi"ica .ue en 4 se paga m$s .ue en >%
=emos llamado 1 a la variable 5nAmero de libros6 e 3 a la variable 5euros6% or su
signi"icado# vemos .ue la variable 3 depende de la variable 1# es decir# la primera es la dependiente y
la segunda la independiente% Damos estos nombres por.ue nos va a "acilitar el pensar# pero debemos
tener en cuenta .ue en este caso las dos variables son discretas y van a tomar slo valores naturales%
odramos !aber elegido la notacin
biblioteca >9
e
>
(n)=?n+)+
biblioteca 49
e
4
( n)=En
y tendramos los euros escritos en "uncin del nAmero de libros% arece .ue la n nos ayuda a pensar
en valores naturales% En cual.uier caso# es una cuestin de nombres%
La solucin m$s "$cil al problema es !acer una tabla como la siguiente9
@E Comentarios de Estadstica descriptiva con una variable
Libros biblioteca > biblioteca 4 Coste
) )* E CK
+ )P )P ,
? +) +0 K
@ +@ ?K )+
* +0 @* )P
or otro lado# dado .ue las ecuaciones de las bibliotecas se pueden representar como puntos de
rectas# podramos !acer el siguiente gr$"ico9
Figura9 <ectas .ue representan los precios de las bibliotecas
De (l se ve inmediatamente .ue9
ara menos de dos libros# el precio en 4 es menor .ue en >%
ara dos libros# ambos precios son iguales
ara muc!os libros# los precios de la biblioteca de menor pendiente son menores%
Otros tipos de regresin
En el apartado <ecta de regresin se !a !ablado de la modeli'acin entre dos variables .ue
parecen tener una dependencia# en media# lineal% &e trataba# por tanto# de la regresin lineal simple%
&in embargo# la idea principal# esto es# minimi'ar la suma de las distancias al cuadrado de la muestra
a un modelo /m(todo de mnimos cuadrados1# es per"ectamente aplicable para intentar e8plicar otros
tipos de relaciones entre variables%
*, Comentarios de Estadstica descriptiva con una variable
<egresin /no lineal1 cuadr$tica
3 la vista de los datos del gr$"ico de Correlacin y relacin no lineal entre variables# se podra
utili'ar el criterio de los mnimos cuadrados para encontrar la e8presin cuadr$tica .ue me2or se
adapte a los datos% En este caso# si la muestra es /8
#
#@
#
1#/8
%
#@
%
1#%%%#/8
n
#@
n
1# se .uiere !acer una regresin
no lineal cuadrtica# es decir# encontrar el modelo 3 I a1
%
W b1 < c tal .ue es mnima la cantidad
I=

i=)
n
( @
i
3 ( 8
i
))
+
=

i =)
n
( @
i
a8
i
+
b8
i
c)
+
De nuevo I se puede interpretar como una "uncin de varias variables# I/a#b,c1# lo .ue llevara al
problema matem$tico de calcular las derivadas y resolver el siguiente sistema de tres ecuaciones con
tres incgnitas9

c I( a , b , c)
ca
=,
c I( a , b , c)
cb
=,
c I( a , b , c)
cc
=,
X

a=
b=
c=

<egresin lineal mAltiple
odemos tener inter(s en modeli'ar cmo depende una variable L de varias variables#
pongamos 1 e 3% En este caso# si la muestra es /8
#
#@
#,
9
#
1#/8
%
#@
%,
9
%
1#%%%#/8
n
#@
n,
,9
n
1# para !acer una regresin
lineal mltiple# se .uiere encontrar el modelo L I a1 W b3 < c tal .ue es mnima la cantidad
I=

i=)
n
( 9
i
L( 8
i
, @
i
))
+
=

i=)
n
( 9
i
a8
i
b@
i
c)
+
Las distancias se miden a!ora se miden 5en altura6 desde los puntos al plano% De nuevo I se puede
interpretar como una "uncin de varias variables# I/a#b,c1# lo .ue llevara al problema matem$tico y
la solucin9

cI( a , b , c)
ca
=,
cI( a , b , c)
cb
=,
cI( a , b , c)
cc
=,
X

a=
b=
c=

Es "$cil imaginarse este tipo de regresin en un gr$"ico% -enerali'ando el dibu2o .ue se !a
incluido para la regresin lineal simple# a!ora !ay una serie de puntos 5"lotando6 en el espacio
tridimensional y# como parece .ue se sitAan a ambos lados de un plano# tiene sentido buscar el plano
.ue me2or a2usta a los datos% De la misma manera .ue la recta de regresin in"ormaba de lo
linealmente .ue 3 dependa de 1 /a trav(s de la correlacin lineal1# a!ora el plano de regresin
in"orma de lo linealmente .ue L depende de 1 e 3 /a trav(s del concepto de correlacin mltiple1%
>ambi(n se podra generali'ar la regresin cuadr$tica anterior a una regresin cuadrtica mltiple o
paraboloidal /estos nombres son mos# no s( si en la literatura se nominan as estos conceptos1# de la
misma "orma .ue se !a generali'ado la lineal simple a la mAltiple%
*) Comentarios de Estadstica descriptiva con una variable
!ttp9DDMMM%cidse%itcr%ac%crDcursosClineaD&UE<IO<Dt+CFuncionesCdeC
variasvariablesD?CalgebraCvectorialDnode*%!tml
!ttp9DDes%Miaipedia%orgDMiaiDaraboloide
ara este problema de modeli'ar datos relacionados no linealmente# otra apro8imacin
di"erente consistira en aplicar alguna trans"ormacin a los datos para .ue la dependencia entre los
datos trans"ormados pase a ser lineal y se pueda a2ustar el modelo linealB por Altimo# despu(s de
a2ustado el modelo# no !abra .ue olvidarse de des!acer la trans"ormacin .ue se !ubiese aplicado%
C$lculo de medidas num(ricas
Correlacin y relacin no lineal entre variables
Diagrama de dispersin
Como se ve claramente en el siguiente gr$"ico de dispersin de dos variables# la relacin media
.ue !ay entre estas variables es cuadr$tica /por la "orma de par$bola1# no lineal%
Figura9 Dos muestras con relacin media cuadr$tica y su recta de regresin
*+ Comentarios de Estadstica descriptiva con una variable
Matem$ticamente# una par$bola tiene la "orma 3 I a1
%
W b1 < c% ;emos .ue tiene un t(rmino m$s
.ue una recta9 a1
%
es el trmino cuadrtico# b1 es el trmino lineal y c es el trmino independiente%
Correlacin lineal
&i calcul$semos el valor num(rico de la correlacin lineal entre las dos variables# veramos .ue
es bastante cercana a cero% &in embargo# a simple vista se ve claramente .ue las variables est$n muy
relacionadas% QNu( est$ pasando a.uR Lo .ue sucede es .ue la covarian'a y la correlacin slo miden
la relacin lineal entre dos variables# no 5ven6 otro tipo de relacin# no 5ven6 .ue las variables est$n
relacionadas cuadr$ticamente%
<ecta de regresin
La recta de regresin siempre se puede !allar# pero no siempre se debe% Es decir# se ve en el
dibu2o .ue la recta no representa bien la relacin media entre las variables% En casos as lo correcto
sera coger la "rmula de una par$bola y# siguiendo la misma idea .ue en la recta de regresin de
minimi'ar la suma de las distancias verticales de los puntos a la curva# !allar los coe"icientes .ue
determinaran cu$l es esa par$bola concreta .ue me2or representa la relacin entre las variables%
En este con2unto de datos# el .ue la recta obtenida a.u tenga una pendiente casi nula
signi"icara .ue 3 =a1 +bb , es decir# casi desaparece la 1 en la e8presin de la 3% &i vemos la
recta como la relacin entre las medias de las variables# esto estara diciendo .ue la media de la
variable 3 tiende a ser siempre b# independientemente de cu$nto valga la media de 1% M$s
pro"undamente# el .ue la media de 3 sea b lo .ue signi"ica es .ue sus valores tienden a distribuirse
con su media en bB esto es# con igual 5masa6 a ambos lados de ese valor9 puede !aber los mismos
datos# en tamaLo y distancia# a ambos lados# o menos datos pero m$s distantes a un lado%
La pendiente in"orma de la correlacin entre las dos variables% \ste es un detalle importante# se
e8plica con m$s detalle en el apartado <elacin entre la correlacin y la recta de regresin%
En la "igura siguiente se muestran tambi(n los casos de relaciones lineal y cAbica% &lo en el
caso lineal la recta de regresin es un modelo correcto de la relacin media entre las variables% En el
caso de la relacin cuadr$tica !emos mencionado .ue la recta es un modelo muy malo% Finalmente#
en el caso de la relacin cAbica# sin ser un modelo correcto# el error es menor .ue en el caso
cuadr$tico /por la "orma de la propia "uncin cAbica1%
3 =1
3 =1
+
3 =1
?
*? Comentarios de Estadstica descriptiva con una variable
Figura9 >res muestras bivariantes# sus rectas de regresin y# aba2o# el modelo correcto de relacin media entre las variables
<elacin entre la correlacin lineal y la recta de regresin
Conviene insistir en la relacin .ue !ay entre el coe"iciente de correlacin lineal y la recta de
regresin%
Coe"iciente de correlacin lineal
Este coe"iciente se de"ine a partir de la covarian'a# cov( 1 ,3 )=s
13
=
)
.

i=)
.
( 8
i
8)( @
i
@) ,
como9
r=
cov( 1 , 3 )
. var ( 1 ). var (3 )
=
s
13
s
1
s
3
donde recordemos .ue la varian'a para cada variable se obtena como la covarian'a de ella consigo
misma var ( 1)=s
1
+
=s
11
=
)
.

i=)
.
(8
i
8)
+
%
<ecta de regresin
3l !acer los c$lculos de la recta de regresin 3 =a1 +b se llega a .ue9
a=
s
13
s
1
+
%
<elacin
or tanto# podemos !acer
a=
s
13
s
1
+
=
s
13
s
1
+

s
3
s
3
=
s
13
s
1
s
3

s
3
s
1
=r
s
3
s
1
%
7 (sta es la relacin entre la pendiente de la recta de regresin y el coe"iciente de correlacin% ;emos
.ue una tiende a ser pe.ueLa si# y slo si# la otra lo es% Esto es lo .ue pasaba en el caso visto en el
apartado Correlacin y relacin no lineal entre variables9 tanto la pendiente como la correlacin eran
pr8imas a cero% &in embargo# el cociente
s
3
/ s
1
tambi(n tiene su importancia# por.ue podra !aber
casos en .ue "uese muy grande o muy pe.ueLo# dependiendo de las desviaciones tpicas de ambas
muestras%
*@ Comentarios de Estadstica descriptiva con una variable
Un poco m$s%%%
En esta seccin se incluyen algunos comentarios de un nivel m$s alto# .ue pretenden por un
lado "acilitar la comprensin de lo visto y de los temas siguientes# y por otro satis"acer la curiosidad
de .uien .uiera ir un poco m$s all$ de lo estrictamente necesario segAn el temario%
Inestabilidad num(rica
El C$lculo Jum(rico# como rama de las Matem$ticas# traba2a con m(todos y algoritmos de
c$lculo cuyo resultado "inal son nAmeros# no ob2etos matem$ticos abstractos como variables#
"unciones# "uncionales o con2untos%
En las operaciones con nAmeros# sobre todo con las "acilidades .ue aportan los ordenadores
!oy en da# son importantes conceptos como9 mantisa# ci"ras decimales# truncamiento# redondeo#
errores# etc(tera%
3l resolver un e2ercicio en .ue !aba .ue a2ustar una recta de regresin a la siguiente muestra
de datos bivariantes
3 ++)* +*)P )0P) )P+? +))0 +0,? )@+? )*?+ )P0E )0)? +)++ +?@K
b *P#? K+#E @K#? @P#+ *P#+ K*#P ?K#0 ?+#? *+#0 ?E#? *P#0 ?E#?
dos alumnas obtenan# respectivamente
3lumna ) 3lumna +
3 C @E#PE I ,#,+/1 C +,)@#??1
3 I @E#PE W ,#,+/1 C +,)@#??1
3 I @E#PE C !0,29 W ,#,+1
3 I ,#,+1 W 9,
3 C @E#PE I ,#,++/1 C +,)@#?1
3 I @E#PE W ,#,++/1 C +,)@#?1
3 I @E#PE C !!,31! W ,#,++1
3 I ,#,++1 W 5,57
3l buscar la causa de esta di"erencia y !acer los siguientes c$lculos con un lengua2e de programacin
/"# en este caso1
> 0.02*2014.33
[1] 40.2866
> 0.022*2014.3
[1] 44.3146
sali a la lu' .ue la di"erencia# al !aber tomado distinto tipo de ci"ras decimales# se deba al problema
de inestabilidad num(rica .ue apareca al traba2ar con un nAmero tan pe.ueLo como es ,#,+%%% En
general# al !acer operaciones con nAmeros muy cercanos a cero !ay .ue tener muc!o cuidado% En este
caso# esa cantidad proviene# segAn la "rmula de la recta de regresin /3 I a1 Wb1# de
** Comentarios de Estadstica descriptiva con una variable
a=
s
>4
s
>
+
=,#,+%%%
Es decir# .ue al tomar a la variable > como variable independiente# por ser sus valores de un orden
muc!o mayor .ue los de la variable 4# el coe"iciente de la recta de regresin es muy pe.ueLo y crea
un problema de inestabilidad num(rica% El problema se soluciona midiendo > en otra unidad%
La di"erencia entre los t(rminos independientes de los modelos de ambas alumnas es
apro8imadamente de E#KC*#K I @ unidades# cantidad .ue no es pe.ueLa comparada con los valores de
la muestra 4 /su media es @E#PE1# .ue es la variable dependiente% Jtese .ue los t(rminos
independientes son valores .ue siempre est$n a"ectando a la variable dependiente en la e8presin de
la recta% odemos concluir .ue el problema de inestabilidad no es despreciable%
&imulaciones
Cuando .ueremos comprobar cmo se comporta un determinado m(todo .ue traba2a con datos#
se conoce como simulacin al !ec!o de9
)% -enerar unos datos a partir de un modelo concreto conocido%
+% =acer como .ue no conocemos el modelo# es decir# tratar los datos como si !ubiesen sido
recogidos de una muestra realmente% Introducir estos datos en el m(todo .ue .ueremos probar#
sin indicarle de .u( modelo provienen los datos%
?% Como en realidad s conocemos el modelo .ue !aba generado los datos# podemos evaluar
cu$n bien se !a comportado el m(todo con ese modelo de datos%
La idea es sencilla% /La Ciencia y la ;ida est$n llenas de ideas sencillas%%% .ue nunca nadie tiene
tiempo de e8plicarnos%1 Las simulaciones se utili'an muc!o en Economa# Ingeniera o Estadstica#
por e2emplo% En concreto# en Estadstica podemos .uerer saber cmo se comporta un m(todo a la
!ora de estimar medidas de las .ue !emos visto en la teora% En ve' de intentar conseguir cientos de
muestras de datos reales para probar el m(todo en un amplio nAmero de casosDmodelos distintos# lo
.ue sera di"cil y costoso# con las simulaciones podemos ver "$cilmente .u( !ara el m(todo si
realmente le 5tra2(semos de la calle6 muestras de esos modelos concretos /no entramos en el !ec!o
de .ue los datos reales son muc!as veces m$s complicados .ue los datos simulados1%
Esto es lo .ue se !a !ec!o para generar los datos .ue se !an utili'ado en el apartado
Correlacin y relacin no lineal entre variables9
ara la variable >9 &e !an generado posiciones e.uidistantes entre C), y W),%
ara la variable 49
&e !an cogido esos datos y se les !a aplicado la "rmula b
i
=a
i
+
a cada uno# de manera
.ue se obtienen puntos sobre una par$bola per"ecta con su mnimo en el 8 = $%
7 a!ora# para 5esconder6 un poco esa par$bola# se !a aLadido a cada dato un
ruidoDerror aleatorio# generado con una variable aleatoria !acia arriba o !acia aba2o
indistintamente%
Finalmente# para 5esconder6 tambi(n un poco la variable ># le !e aLadido a cada dato un ruido
o error aleatorio# generado con una variable aleatoria !acia uno u otro lado indistintamente%
*K Comentarios de Estadstica descriptiva con una variable
El resultado es una nube de puntos .ue tienden a situarse alrededor de la par$bola% >odos estos
c$lculos se pueden !acer con cual.uier lengua2e de programacin o con el generador de nAmeros
aleatorios de E8cel%
Comprender las simulaciones ayuda a comprender gran parte de la "iloso"a .ue !ay detr$s de
la Estadstica% La idea de los temas de robabilidad es ver los modelos tericos .ue se utili'an para
intentar modeli'ar las variables estadsticas% Es decir# la Estadstica "recuentemente supone .ue los
datos de una muestra de datos reales se generan con alguna regla determinista en principio no
conocida a la .ue# por diversos motivos y "actores# se le aLade un error aleatorio% Josotros lo .ue
observamos son estos resultados "inales /"actor determinista m$s error aleatorio1 e intentamos
averiguar el "actor determinista /.ue nos dir$ cmo dependen las acciones de una empresa# cmo
depende la resistencia de un material del agua utili'ada en su "abricacin# etc(tera1 y las
caractersticas de los errores aleatorios%
3puntes sobre dependencia y correlacin lineales
En general# !ay .ue tener claro cu$ndo los t(rminos 5dependiente6 y 5independiente6 se est$n
utili'ando en sentido estadsticoCprobabilstico o en sentido lingfstico gen(rico# por.ue en este
Altimo siempre .ue una variable se pone en "uncin de otra# sea linealmente o no# ambas se est$n
relacionando y se suele decir tambi(n .ue son 5dependientes6% Incluso dentro de otras ramas de la
Ciencia m$s ale2adas se pueden encontrar a la ve' e2emplos de los dos usos anteriores%
&e !acen a!ora dos pe.ueLos apuntes sobre los t(rminos 5dependiente6 e 5independiente6#
cuando se utili'an con sentido estadsticoCprobabilstico% Como ya se !a dic!o# el coe"iciente de
correlacin /lineal1 slo mide el grado de relacin lineal entre dos variables# lo .ue indica cmo
deben entenderse a.u estos t(rminos%
3usencia total de correlacin
Con las de"iniciones de independencia y correlacin para variables aleatorias# se cumple .ue9
1 e 3 son independientes = p( X ,Y )=0
&in embargo# la implicacin inversa es slo cierta si las variables aleatorias siguen una distribucin
normal9
p( X ,Y )=0
y 1 e 3 son normales = 1 e 3 son independientes
resencia total de correlacin
Este otro apunte# un poco m$s di"cil de interpretar# se relaciona con .ue la correlacin alcan'a
su valor m$8imo /salvo el signo1% 3l !ablar de rectas en 3n$lisis matem$tico# los t(rminos
5dependiente6 e 5independiente6 signi"ican esencialmente lo mismo .ue al !ablar de correlacin
lineal en Estadstica y robabilidad /y a.u !ay dos de"iniciones# una para variables estadsticas y otra
para variables aleatorias1# aun.ue no lo pare'ca% &e puede decir .ue cuando una ecuacin lineal
relaciona dos variables su correlacin es uno% En el libro !robabilit@ and Random !rocesses# de -%
*0 Comentarios de Estadstica descriptiva con una variable
-rimmett y D% &tir'aaer# se puede encontrar .ue# para variables aleatorias /lema P del apartado ?%K
para las discretas y este mismo lema 2unto con el teorema )+ del apartado @%* para las continuas19
p( X , Y)=1 =
P(a
1
X+a
2
Y=a
3
)=1, a
1
, a
2
, a
3
R
Es decir# la correlacin es uno en valor absoluto /luego el signo W o 4 est$ relacionado con .ue la
relacin entre las variables sea directa o inversa1 si# y slo si# la relacin entre las variables es lineal
5en el mundo de la probabilidad6 /t(cnicamente se !abla de 5con probabilidad uno61% Otro aspecto de
matem$ticas avan'adas# del .ue no se va a !ablar a!ora# es cu$ndo una e8presin literal /de letras1
.ue relaciona dos variables# por e2emplo
3=a1+b
debe entenderse .ue e8presa una relacin totalmente determinista# en casi todo punto#
probabilsticamente# etc(tera%
3lgunos e2ercicios resueltos
E2ercicio ?
Como parte de la evaluacin de un sistema de computadoras, un gerente de
sistemas ?uiere predecir el tiempo de respuesta de las terminales de computadoraE
El tiempo de respuesta de una terminal se define como el tiempo AK,, en segundos,
?ue la computadora tarda en responder a un comando enviado desde una terminalE
>un?ue son muc6as las variables ?ue influ@en en el tiempo de respuesta de las
terminales, el gerente de sistemas va a modeli9ar dic6o tiempo como una funcin
del nmero de usuarios simultneos A., en el momento en ?ue enva el comandoE El
gerente 6a recabado los datos de estas dos variables en cinco instantes de tiempo,
de forma ?ue2

i =1
5
n
i
=15,

i =1
5
t
i
=4,60,

i =1
5
n
i
t
i
=16,97,

i =1
5
n
i
2
=55
@

i =1
5
t
i
2
=5,28
a, FE8iste una relacin lineal entre las variablesG Msar algn coeficiente ?ue
indi?ue cmo es esta relacinE
b, Calcular la recta de regresin, ?ue relaciona el tiempo de respuesta de una
terminal con el nmero de usuarios simultneos en ese momentoE
c, /nterpretar los parmetros del ajuste de regresinE
d, Ra9onar si es posible ?ue la varian9a residual tome el valor de $,&$E
La primera observacin .ue !acemos es .ue no disponemos de los valores originales de las
muestras de las dos variables estadsticasB a cambio nos dan como in"ormacin algunas
cantidades calculadas a partir de estas muestras% odramos preguntarnos si se pretende .ue
recuperemos las muestras a partir de estas in"ormaciones# pero pronto nos damos cuenta de
*P Comentarios de Estadstica descriptiva con una variable
.ue la in"ormacin del enunciado constituye un con2unto de cinco ecuaciones /algunas de
ellas no lineales# puesto .ue tienen e8ponentes mayores a uno1# mientras .ue el nAmero de
incgnitas sera die' /los cinco valores de cada muestra1% or tanto# parece .ue no es (ste el
camino .ue tenemos .ue tomar para resolver el e2ercicio% arece .ue tendremos .ue
calcular las cantidades .ue nos pidan e8pres$ndolas en "uncin de la in"ormacin .ue nos
dan en el enunciado# .ue tiene .ue ser suficiente%
a1 Josotros medimos la correlacin lineal principalmente con el coe"iciente de correlacin
lineal# .ue se de"ine como
r 9=
s
13
s
1
s
3
%
Con los nombres de nuestras variables .uedara9
r 9=
s
.K
s
.
s
K
Jecesitamos calcular la covarian'a y las desviaciones tpicas .ue aparecen en la "rmula%
ara calcular la covarian'a entre dos variables estadsticas tenemos# en general# dos
e8presiones9
Cov ( 1 ,3 )=
)
m

( 8
i

8)( @
i

@) ,
.ue corresponde a la de"inicin# y
Cov ( 1 ,3 )=
)
m

8
i
@
i

@ ,
.ue se deduce de ella como una propiedad% En cada
e2ercicio utili'aremos la .ue podamos o nos resulte m$s apropiada% or la
in"ormacin del enunciado# a!ora no nos .ueda m$s remedio .ue utili'ar la segunda
"rmula# puesto .ue no conocemos los valores concretos de las muestras de las
variables9
Cov ( . , K )=
)
m

n
i
t
i

nt =
)
*
)K#E0
)
*
)*
)
*
@#K=?#?E@+#0K=,#K?@
ara calcular la varian'a tambi(n e8isten# en general# dos "rmulas9
7ar ( 1)=
)
m

(8
i

8)
+
,
.ue es la de"inicin# y la siguiente# .ue se deduce como
propiedad# 7ar ( 1)=
)
m

8
i
+

(
)
m

8
i
)
+
=
)
m

8
i
+
(8)
+
% De nuevo# en nuestro caso#
slo podemos utili'ar esta segunda9
s
.
+
=
)
*

n
i
+

(
)
*

n
i
)
+
=
)
*
**
(
)
*
)*
)
+
=))E=+ X s
.
=
.
s
.
+
=. +
s
K
+
=
)
*

t
i
+

(
)
*

t
i
)
+
=
)
*
*#+P
(
)
*
@#K
)
+
=)#,K,#P*=,#+) X s
K
=
.
s
K
+
=. ,#+)
or tanto# concluimos .ue
r 9=
s
.K
s
.
s
K
=
,#K?@
. ,#@+
=,#EP%
Es decir# e8iste relacin lineal entre
las variables . y K# esta relacin es positiva /cuanto mayor es una variable mayor es la
otra1 y muy "uerte /dado lo cerca .ue r est$ de )# su valor m$8imo1%
Observacin9 Como su nombre indica# el coe"iciente de correlacin lineal slo es capa' de
encontrar si e8iste o no relacin lineal entre dos variables# pero no es capa' de descubrir
relaciones no lineales9 por e2emplo# si dos variables est$n relacionadas cuadr$ticamente por
*E Comentarios de Estadstica descriptiva con una variable
3 I a1
+
W b1 W c% &obre esto se !a !ablado en Correlacin y relacin no lineal entre
variables%
b1 En este caso# est$ claro .ue en la regresin . debe ser la variable independiente y K la
dependiente% En general# es muy importante tener claro cu$l es la variable dependiente y
cu$l la dependiente% ara calcular la recta vamos a calcular los coe"icientes a partir de las
e8presiones tericas9

a=
s
. ,K
s
.
+
=
,#K@
@
=,#?+
/Jtese .ue la varian'a del denominador es la de la variable
independiente%1

b =

t a n =
)
*
@ # K, # ? +
)
*
) *=, # , @
La recta de regresin es# entonces9 K I a. W b I ,#?+. 4 ,#,@% Es "$cil !acer una
representacin gr$"ica en un plano de coordenadas%
c1 Como en toda recta# en la de regresin lineal el coe"iciente de la variable indica la
pendiente% Esta pendiente puede verse como9
a=tgo=
Ah
d
=
a
1
Es decir# podemos imaginar un tri$ngulo cuyo cateto contiguo mida ) y cuyo cateto
opuesto mida a# de donde interpretamos .ue a es la cantidad .ue aumenta la variable
dependiente cuando la variable independiente aumenta en una unidad% Como en nuestro
caso la pendiente de la recta es ,,?+# cuando aumentamos un usuario simult$neo en el
momento de enviar un comando# el tiempo de respuesta de una terminal aumenta# en
media# ,#?+ segundos%
El t(rmino independiente de la ecuacin de una recta es el punto en el .ue la recta corta al
e2e vertical# o# lo .ue es lo mismo# el valor .ue toma la variable dependiente cuando la
independiente toma el valor ,% En este caso# el punto donde la recta corta al e2e de
ordenadas es .I,# KIC,#,@% <especto a este valor# y aun.ue es pr$cticamente cero# siendo
e8!austivos puede parecer .ue re"le2a un pe.ueLo error del e2ercicio# dado .ue la media de
una variable positiva /tiempo1 no puede ser negativa% Jo obstante# dado .ue no conocemos
los valores de la muestra# no sabemos si la recta es un modelo .ue pueda aplicarse a
valores cercanos a JI, /una recta es v$lida como modelo para el rango de valores de la
variable independiente .ue abar.ue su muestra1%
K, Comentarios de Estadstica descriptiva con una variable
d1 La varian'a tpica residual es una medida .ue evalAa el a2uste de la recta a los valores de
la muestraB es decir# evalAa la calidad del modelo% &e de"ine como
s
R
+
=
)
m

(t
i

t
i
)
+
,
donde
t
i
es el iC(simo valor de la muestra de K y

t
i
es el valor estimado para
n
i
utili'ando la recta de regresin# esto es#

t
i
=,#?+n
i
,#,@%
Jo podemos utili'ar la
e8presin de la de"inicin anterior# por lo .ue tenemos .ue pensar en otra "rmula .ue
involucre la varian'a tpica residualB esta "rmula es9
s
R
+
s
K
+
=)r
+
,
de donde# s
R
+
=()r
+
)s
K
+
=(),#EK),#+)=,#,)% ;emos .ue la varian'a residual no toma el
valor por el .ue se preguntaba en el enunciado%
E2ercicio @
Kenemos cinco alumnos de un programa de apo@o escolar en la asignatura de
=atemticasE 0e pretende establecer una relacin entre los resultados acadmicos
Aobtenidos por el orientador escolar a travs de una prueba psicopedaggica, ?ue
obtuvieron antes de entrar al programa A>, @ los obtenidos a6ora A4,E Hos
resultados son los siguientes2
> a
#
C@ , ? *
4 ? ) + K *
En el caso de ?ue a
)
tome el valor de ;#2
a, FCul de las dos medidas est ms dispersaG
b, Ietermina @ dibuja la recta de regresin de 4 sobre >, as como el coeficiente
de correlacinE FCmo se interpreta el resultado del coeficiente de
correlacinG
c, Ietermina los resultados esperados para un alumno ?ue se incorpor ms
tarde al programa @ ?ue obtuvo como evaluacin inicial %E
d, FJu relacin e8iste entre el coeficiente de regresin de 4 sobre > @ el
coeficiente de correlacinG
e, Calcula los residuos obtenidos @ la desviacin tpica residualE
f, El psicopedagogo 6a traspapelado el valor de a
)
, pero recuerda ?ue la
desviacin tpica de la variable > coincida con su coeficiente de variacinE
FCul es el valor de a
)
G
a1 La medida de dispersin .ue se utili'a para comparar dos poblaciones distintas es el
coe"iciente de variacin# puesto .ue tiene en cuenta tanto la locali'acin /a trav(s de la
K) Comentarios de Estadstica descriptiva con una variable
media1 como la variabilidad /a trav(s de la desviacin tpica1 de los valores dentro de cada
poblacin% &e de"ine como9
C7
>
=
s
>

a
%
En este caso#
C7
>
=*#++P
y
C7
4
=,#*@* ,
por lo .ue la variable > es m$s dispersa /sus
valores se distribuyen con mayor dispersin1%
b1 =aciendo c$lculos se obtiene .ue9
a=,#K,

b=?#@ , s
4
+
=?#@@ ,
s
>4
=*#)K
y
r=,#PP0+% Nueremos !allar 3 =m1 +n% Calculamos los coe"icientes de la recta con
m=
s
>4
s
>
+
=
*#)K
E#P@
=,#*+
y n=

bm

a=?#@,#*+,#K=?#,E , de manera .ue


3 =,#*+ 1+?#,E
c1 ara predecir este valor de la variable 4# utili'amos la recta de regresin# puesto .ue se
supone .ue describe bien la dependencia media entre ambas variables9
3 ( 1 )=3 ( +)=@#)?
d1 Otra de las "rmulas importantes de la recta de regresin es esta relacin por la .ue nos
preguntan# .ue es9
m=
s
>4
s
>
+
=
s
>4
s
>
+

s
4
s
4
=
s
>4
s
>
s
4

s
4
s
>
=r
s
4
s
>
,
"rmula .ue relaciona el coe"iciente de la recta de regresin de 4 sobre > con el coe"iciente
de correlacin lineal entre ambas variables% Esta "rmula indica .ue son cosas distintas#
aun.ue est(n relacionadas% Jtese el e"ecto del cociente
s
4
/ s
>
en general9 si es muy
cercano a cero puede !acer .ue la correlacin sea grande pero no la pendiente de la recta#
mientras .ue si es muy grande puede !acer .ue sin apenas correlacin la pendiente sea
grande%
e1 Los residuos se de"inen como la distancia .ue !ay entre los valores de la variable en la
muestra y los valores .ue predice la recta de regresin# es decir# r
i
=b
i

b
i
% ara proceder
con orden# construimos la siguiente tabla9
K+ Comentarios de Estadstica descriptiva con una variable
< e c t a d e r e g r e s i n
d
7
C @ C + , + @ K
,
)
+
?
@
*
K
> C) C@ , ? *
4 ? ) + K *
3 +#*K ,#EE ?#,E @#KK *#0)
R ,#@@ ,#,) C)#,E )#?@ C,#0)
La desviacin tpica residual se de"ine como s
R
=
.
s
R
+
=
.
)
m

r
i
+
=
.
)
m

(b
i

b
i
)
+
, pero en
ve' de utili'ar esta "rmula /a!ora s podemos# por.ue conocemos los valores @
i
1# vamos a
utili'ar .ue
s
R
+
s
4
+
=)r
+
de donde s
R
+
=()r
+
)s
4
+
=(),#PE
+
)?#@@=,#0+ , por lo .ue s
R
=. ,#0+=,#P*%
"1 La respuesta se obtiene utili'ando la siguiente "rmula# .ue involucra los conceptos .ue
menciona el enunciado9 C7
>
=
s
>

a
, de donde se tiene .ue

a=) , lo .ue da lugar a dos


soluciones9
)1
a=) X
)
*
( a
)
@+,+?+*)=)
X
a
)
=)
+1
a=) X
)
*
( a
)
@+,+?+*)=)
X
a
)
=E
3un.ue > represente una nota acad(mica# vemos en la muestra original .ue puede tomar
valores negativos /es as por la escala en .ue se est$n midiendo esas notas1# por lo .ue
ambas soluciones seran v$lidas%
Nuien est( interesado en la >eora de la robabilidad# !erramienta "undamental de la
Estadstica para pasar de describir a in"erir# puede consultar el arc!ivo9
5Comentarios de >eora de la robabilidad6
!ttp9DDMMM%CasadoCD%orgDeduDComentarios>eoriarobabilidad%pd"
K? Comentarios de Estadstica descriptiva con una variable
K@ Comentarios de Estadstica descriptiva con una variable

Vous aimerez peut-être aussi