Vous êtes sur la page 1sur 3

Probabilidad y Estadstica .

Unidad 1: Estadstica Descriptiva


Estadstica: La Estadstica es la ciencia que se encarga de recolectar datos de una poblacin o muestra.
Se divide en dos ramas principales:
Estadstica Descriptiva: se dedica a la descripcin, visualizacin y resumen de los datos obtenidos. Los datos pueden
ser resumidos numrica (ej.: la media) o grficamente.
Estadstica Inferencial: permite, mediante el estudio de una muestra sacar conclusiones vlidas para la totalidad.
Poblacin: es el grupo entero de objetos o individuos bajo estudio.
Muestra: es una parte de la poblacin.
Variable: es una caracterstica que puede variar de unidad a unidad.
Tipos de variable estadsticas:
Variables cualitativas: son las que clasifican las unidades en categoras por lo que tambin se llaman categricas.
Variables cuantitativas: tienen valores numricos que son mediciones o cantidades.
Una variable cuantitativa es discreta si toma valores en un conjunto numerable. Una variable cuantitativa es continua
si puede tomar cualquier valor dentro de un intervalo de nmeros reales.
Frecuencia Absoluta: es la cantidad de veces que ocurre un valor (
i
f ).
Frecuencia Relativa: es el valor
i
i
f
fr
n
=
Distribucin de una variable: muestra los posibles valores que ella toma y la frecuencia de cada uno de ellos.
Construccin de una tabla de datos agrupados:
Paso 1: Determinar el rango de los datos: max min
i i
R x x =
Paso 2: Obtener los nmeros de clases (Frmula de Sturgess): 1 3, 3 log N n =
Paso 3: Establecer la amplitud de la clase:
R
A
N
=
Paso 4: Construir los intervalos de clases.
Grficos para variables cuantitativas
Diagrama de Tallo y hojas: sirve para representar la distribucin de variables cuantitativas para un conjunto de
datos pequeo. Tiene el beneficio de mostrar los valores reales de la variable.
Histograma: consiste en rectngulos consecutivos cuya base es igual a la amplitud de cada intervalo y la altura es
proporcional a la frecuencia absoluta o relativa del mismo. Cuando los datos estn agrupados en intervalos, puede
dibujarse otro grfico llamado polgono de frecuencias, que se obtiene uniendo los puntos
, )
,
i i
m f .
Ojiva o polgono de frecuencias acumuladas: se construye uniendo los puntos
, )
,
i i
S F , siendo
i
S el lmite superior del
simo i intervalo.
Grfico de bastones
Grficos para variables cualitativas
Grfico circular: el crculo se divide en sectores, cada uno de los cuales representa una categora. El rea de cada
sector es proporcional al porcentaje de unidades que estn en cada categora
, )
Tamao del sector 360 fr = .
Grfico de barras: consiste en una serie de barras, una para cada categora. La altura de cada barra es la frecuencia
de cada categora y el ancho debe ser igual para todas las categoras.
Unimodal simtrico Bimodal
Con sesgo positivo Con sesgo negativo
Tipos de histogramas:
Medidas de tendencia central
Moda: La moda es el valor que tiene mayor frecuencia absoluta. Se
representa por Mo.
Mediana: Es el valor que ocupa el lugar central de todos los datos
cuando stos estn ordenados de menor a mayor. La mediana se
representa por Me.
La mediana se puede hallar slo para variables cuantitativas.
Media aritmtica: la media de un conjunto de n observaciones es la
suma delas mismas dividida por n . Se denotada por
1
n
i
i
x
x
n
=
=
_
Qu medida central usar?
o Para distribuciones simtricas unimodales media, mediana y modo coinciden.
o Para distribuciones simtricas bimodales media y mediana coinciden.
o Para distribuciones unimodales sesgadas se tiene la siguiente relacin: Mo Me x < < o x Me Mo < <
Medidas de posicin
Cuartiles: Los cuartiles son los tres valores de la variable dividen a un conjunto de datos ordenados en cuatro partes
iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
1
1
4
, 1, 2, 3
i
j i
i i
jn
F
Q L A j
F F


( )
= =

donde
4
jn
es la posicin del cuartil en el intervalo.
Deciles: Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
1
1
10
, 1, 2,..., 9
i
j i
i i
jn
F
D L A j
F F


( )
= =

Percentiles: Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
1
1
100
, 1, 2,..., 99
i
j i
i i
jn
F
C L A j
F F


( )
= =

Medidas de dispersin
Las medidas de dispersin nos informan sobre cuanto se alejan del centro los valores de la distribucin. Las medidas
principales de variabilidad implican las desviaciones de la media,
1 2
, , ,
n
x x x x x x . . Es decir, las desviaciones de
la media se obtienen restando x a cada una de las n observaciones de la muestra.
Rango o recorrido: es la diferencia entre el mayor y el menor de los datos de una distribucin estadstica.
Rango intercuartil: mide la dispersin del 50%central de los datos.
3 1
RIC Q Q =
Varianza: La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la media.
Poblacional:
, )
2
2
1
n
i
i
x x
n

=
_
Muestral:
, )
2
2
1
1
n
i
i
x x
S
n
=

_
Desviacin estndar: es la raz aritmtica de la varianza y representa el desvo promedio de las observaciones de su
media.
Me Q
1
Q
3
Min Max
Desviacin mediana:
1
.
n
i i
i
x Me f
d Me
n
=

=
_
Nota: La varianza y la media no son resistentes a la presencia de valores extremos.
Qu medida de dispersin usar?
o Cuando se usa la media para medir el centro de los datos, la medida de dispersin ms usada es la desviacin
estndar.
o Cuando la mediana se usa como medida de tendencia central de los datos, es decir cuando las distribuciones
son sesgadas o presentan outliers, la medida de dispersin ms conveniente es el rango intercuartil.
Grfico de caja y bigotes (boxplot): este grafico nos muestra una medida de tendencia central, la Me y una medida de
dispersin a travs del rango intercuartil y el rango total. La distancia de
1
Q y
3
Q a la Me puede proveer una idea
del sesgo de la distribucin.
Como se construye un boxplot:
Los extremos de la caja son
1
Q y
3
Q .
Se dibuja una lnea dentro de la caja en la Me .
A partir de los cuartiles
1
Q y
3
Q .
se extienden lneas, llamadas bigotes, hasta el min y el max.
Algunas modificaciones que se incorporan al boxplot bsico permiten visualizar posibles outliers. (observaciones que se
escapan del patrn de los datos).
o Calculamos la cantidad 1, 5 RIC , llamado salto,
o Obtenemos los valores
1
1, 5 Q RIC y
3
1, 5 Q RIC , llamadas cercas internas,
o Las observaciones que estn fuera de estas cercas internas se consideran outliers potenciales.
Nota: Si la distribucin es simtrica, el boxplot es simtrico, la reciproca no es cierta.
Medidas de tendencia central y dispersin para datos agrupados en intervalos
Media:
1
n
i i
i
m f
x
n
=

=
_
Varianza:
, )
2
2
1
n
i i
i
m x f
n

=

=
_
Moda:
, ) , )
1
1 1
i i
i
i i i i
f f
Mo L A
f f f f

=

donde
i
L es el lmite inferior del intervalo modal y A es la amplitud.
Mediana:
1
2
i
i
i
n
F
Me L A
f


( )
= donde
i
L es el lmite inferior del intervalo mediana y A es la amplitud.
Coeficiente de variacin: se define como el cociente entre el desvo estndar y la media: . CV
x

=
El coeficiente de variacin es til para comparar distribuciones con unidades diferentes y es independiente de las
escalas.

Vous aimerez peut-être aussi