Vous êtes sur la page 1sur 16

.

DEFINICIONES DE ESTADÍSTICA
¿Qué es la estadistica?
Estadística es la ciencia de:
Recolectar
Describir
Organizar
Interpretar
Para transformarlos en información, para la toma más eficiente de decisiones
¿Quienes usan la estadística?
Organismos oficiales.
Diarios y revistas.
Políticos.
Deportes.
Marketing.
Control de calidad.
Administradores.
Tipos de Estadística
Estadística Descriptiva: Método de recolectar, organizar, resumir y presentar los datos
en forma informativa.
Ejemplo 1: Los datos del Censo de población de 2001.
Ejemplo 2: La cantidad de robos ocurridos el último mes en en el municipio.
Estadística inferencial: Métodos usados para determinar algo acerca de la población,
basado en una muestra.
Población (1) es la colección, o conjunto, de individuos, objetos o eventos cuyas
propiedades serán analizadas.
Muestra es un subconjunto de la población de interés.
(1) Algunos autores utilizan Universo como sinónimoPoblación y Muestra
1.1.2. VARIABLE Y TÍPOS DE VARIABLES
Variable
Variable: Característica de interés sobre cada elemento individual de una población o
muestra.
Dato: Valor de la variable asociada a un elemento de la población o muestra. Este valor
puede ser un número, una palabra o un símbolo.
Tipos de Variables
Cualitativa o de Atributos Clasifica o describe un elemento de la población. Los valores
que puede asumir no constituyen un espacio métrico, por lo tanto las operaciones
aritméticas, como sumar y obtener promedios, no son significativas
Tipos de Variables(cont
Cuantitativa o Numérica Cuantifica un elemento de la población. Los valores que
puede asumir constituyen un espacio métrico, por lo tanto las operaciones aritméticas,
como sumar y obtener promedios,son significativas.
Ejemplos: Cantidad de Habitaciones, Número de hijos, Kilómetros recorridos, Tiempo
de vuelo, Ingreso, etc..
• Las variables cuantitativas se pueden clasificar a su vez en discretas o continuas.
Cuantitativas Discretas: solo pueden asumir ciertos valores y normalmente hay huecos
entre ellos. Son conteos normalmente.
• Ejemplo1: cantidad de materias aprobadas.(1, 2,3 ......)
• Ejemplo2: cantidad de productos (1, 2, 3,4...)
Las variables cualitativas se miden en escala nominal o ordinal.
Nominal: los elementos solo pueden ser clasificados en categorías pero no se da un
orden o jerarquía
Ejemplo 1: Barrio de residencia de los alumnos .
Ejemplo 2: Color de ojos
Ejemplo 3: Simpatizante de un club de futbol
El fin último de cualquier estudio es aprender sobre las poblaciones. Pero es
usualmente necesario, y más práctico, estudiar solo una muestra de cada una de las
poblaciones.
Definimos:
POBLACIÓN ⇒ total de sujetos o unidades de análisis de interés en el estudio
MUESTRA ⇒ cualquier subconjunto de los sujetos o unidades de análisis de la
población, en el cual se recolectarán los datos
Usamos una muestra para conocer o estimar características de la población,
denominamos:
PARÁMETRO ⇒ una medida resumen calculada sobre la población
ESTADÍSTICO ⇒ una medida resumen calculada sobre la muestra
1.1.2.1. TIPOS DE DATOS
En esta parte presentaremos los distintos tipos de datos o variables que podemos
encontrar en una investigación e comentaremos algunas estrategias para el manejo de
datos con una computadora.
1.1.2.2. CARACTERÍSTICAS DE LOS CONJUNTOS DE DATOS.
Denominaremos:
- UNIDAD DE ANÁLISIS O DE OBSERVACIÓN al objeto bajo estudio. El mismo
puede ser una persona, una familia, un país, una región, una institución o en general,
cualquier objeto.
- VARIABLE a cualquier característica de la unidad de observación que interese
registrar, la que en el momento de ser registrada puede ser transformada en un
número.
- VALOR de una variable, OBSERVACIÓN o MEDICIÓN, al número que describe a la
característica de interés en una unidad de observación particular.
- CASO o REGISTRO al conjunto de mediciones realizadas sobre una unidad de
observación.
(variables independientes) afectan a una o más variables de interés (variables
dependientes). Por ejemplo en un experimento, el investigador impone a los sujetos
condiciones (variable independiente) y estudia el efecto de la misma sobre una
característica del sujeto (aparición de una cierta característica, modificación de una
condición, etc.).
Un paso importante al comenzar a manejar un conjunto de datos es identificar cuántas
variables se han registrado y cómo fueron registradas esas variables, lo que permitirá
definir la estrategia de análisis
DISTRIBUCIÓN Y FRECUENCIA
Frecuencia

• Frecuencia absoluta: ( ) El número de veces que se repite cada valor o dato


de la variable.

• Frecuencia relativa: ( ) La frecuencia absoluta dividida por el número de


datos.

donde es el número de datos.

• Frecuencia absoluta acumuladas: ( ). Es el número de datos que hay


igual al considerado o inferiores a él.

• Frecuencia relativa acumuladas: ( ). Es cada frecuencia acumulada


dividida por el número de datos.
1.2.1. HISTOGRAMAS POLÍGONOS Y OTROS GRÁFICOS
El modo más simple de presentar datos categóricos es por medio de una tabla de
frecuencias.
1.2.2 HISTOGRAMA
El histograma es el más conocido de los gráficos para resumir un conjunto de datos
numéricos y pretende responder a las mismas preguntas que un gráfico de barras.
Para construir un histograma es necesario previamente construir una tabla de
frecuencias.
Histograma
1.2.3. GRÁFICO DE BARRAS
Este gráfico es útil para representar datos categóricos nominales u ordinales. A cada
categoría o clase de la variable se le asocia una barra cuya altura representa la
frecuencia o
la frecuencia relativa de esa clase. Las barras difieren sólo en altura, no en ancho
1.2.4. GRÁFICO DE TORTAS
En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de cada
categoría como una porción de un círculo, en la que el ángulo se corresponde con la
frecuencia relativa correspondiente. Como en todo gráfico es importante indicar el
número total de sujetos.
1.3. MEDIDAS RESÚMENES O DE TENDENCIA CENTRAL
En este punto, introduciremos distintas formas de resumir la distribución muestral o
poblacional de una variable NUMÉRICA y finalmente presentaremos un tipo de gráfico
que se construye a partir de medidas resúmenes.
Resumir un conjunto de datos es pasar de una visión detallada a una generalización
simple e informativa tratando de preservar las características esenciales.
Las medidas resúmenes son útiles para comparar conjuntos de datos cuantitativos y
para presentar los resultados de un estudio y se clasifican en dos grupos principales:
Medidas de posición o localización ⇒ describen un valor alrededor del cual se
encuentran las observaciones.
Medidas de dispersión o escala ⇒ pretenden expresar cuan variable es un conjunto de
datos.
1.3.1. MEDIDAS DE POSICIÓN O LOCALIZACIÓN
La medidas de centralización nos indican en torno a qué valor (centro) se distribuyen
los datos.
Un modo de resumir un único conjunto de datos numéricos es a través de un número
que debería ser típico para el grupo. No debería ser ni demasiado grande, ni demasiado
pequeño y debería estar tan cerca del “centro” de la distribución como sea posible.
Por lo tanto, una medida de posición es un número que pretende indicar dónde se
encuentra el centro de la distribución de un conjunto de datos. Pero, ¿dónde se
encuentra el “centro” de una distribución?
a) PROMEDIO O LA MEDIA ARITMÉTICA
Es la medida de posición más frecuentemente usada. Para calcular la media aritmética
o promedio de un conjunto de observaciones se suman todos los valores y se divide por
el número total de observaciones.
Características y propiedades de la media.
a) Se usa para datos numéricos.
b) Representa el centro de gravedad o el punto de equilibrio de los datos.
LA MEDIANA MUESTRAL
La mediana es el dato que ocupa la posición central en la muestra ordenada de menor
a mayor.
¿Cómo calculamos la mediana de una muestra de n observaciones?
.Propiedades de la mediana
a) La mediana puede ser usada no sólo para datos numéricos sino además para datos
ordinales, ya que para calcularla sólo es necesario establecer un orden en los datos.
b) Si la distribución de los datos es aproximadamente simétrica la media y la mediana
serán aproximadamente iguales.
c) LA MODA
La moda es el dato que ocurre con mayor frecuencia en el conjunto.
Es una medida de poca utilidad salvo para datos categóricos en los que suele interesar
identificar la categoría con mayor cantidad de datos.
ES EL DATO DE MAYOR FRECUENCIA
MEDIDAS DE DISPERSIÓN
Miden qué tanto se dispersan las observaciones alrededor de su media
Existen diversas medidas estadísticas de dispersión, pero las principales son:
 Rango
 Varianza
 Desviación estándar
 Coeficiente de variación
VARIANZA (Datos no agrupados
Mide la distancia existente entre los valores de la serie y la media. Se calcula como
sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por
el número de veces que se ha repetido cada valor. La sumatoria obtenida se divide por
el tamaño de la muestra.
DESVIACIÓN ESTÁNDAR (Datos no agrupados)
También llamada desviación típica, es una medida de dispersión usada en estadística
que nos dice cuánto tienden a alejarse los valores puntuales del promedio en una
distribución.
Específicamente, la desviación estándar es "el promedio de la distancia de cada punto
respecto del promedio". Se suele representar por una S o con la letra sigma,σ, según se
calcule en una muestra o en la población. .
DISTRIBUCIÓN DE PROBABILIDAD
 Una distribución o densidad de probabilidad de una variable aleatoria x es la
función de distribución de la probabilidad de dicha variable
“Área de curva entre 2 puntos representa la probabilidad de que ocurra un suceso
entre esos dos puntos".
 Distribuciones probabilidad pueden ser discretas o continuas, de acuerdo al tipo
de experimento.
 Hay infinidad de distribuciones probabilidad, (1 c/población), pero hay ciertas
distribuciones “modelo”:
 Distribución Binomial
 Distribución Normal
 Distribución de Poisson
 Distribución Ji-cuadrado
 Distribución "t" de Student,
 Distribución F de Fisher
Utilidad de la Distribución binomial
 Se utiliza en situaciones cuya solución tiene dos posibles resultados.
 En el deporte un equipo puede ganar o perder.
 Un tratamiento médico puede ser efectivo o inefectivo.
 verdadero / falso
 Prueba múltiple 4 alternativas: correcta o incorrecta.
 Algo puede considerarse como Éxito o Fracaso.
 “Experimentos de Bernoulli”
 Estimación de proporciones
 Pruebas de hipotesis de proporciones
Propiedades de un experimento de Bernoulli

1. En cada prueba del experimento sólo hay dos posibles resultados: Éxitos o Fracasos.

2. El resultado obtenido en cada prueba es independiente de los resultados obtenidos


en pruebas anterioes.

3. La probabilidad de un suceso (p) es constante y no varía de una prueba a otra.

4. La probabilidad del complemento (1- p) es q .


La Ddistribución Binomial
 Ejemplo distribución probabilidad discreta.
 Formada por la serie de experimentos de Bernoulli.
 Resultados de cada experimento son mutuamente excluyentes.
 Para construirla necesitamos:
1. La cantidad de pruebas n
2. La probabilidad de éxitos p
3. Utilizar la función matemática P(x=k).
Distribución Normal
Diremos que una distribución de probabilidad sigue una distribución normal de media x
y desviación típica σ, y lo representaremos por N(x; σ) cuando la representación grafica
de su función de densidad es una curva positiva continua, simétrica respecto a la
media, de máximo en la media, y que tiene 2 puntos de inflexión , situados a ambos
lados de la media (x − σ y x + σ respectivamente) y a distancia de σ.
En resumen:
Podemos concluir que hay una familia de distribuciones con una forma común,
diferenciadas por los valores de su media y su varianza.
La desviación estándar (σ ) determina el grado de apuntamiento de la curva. Cuanto
mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será
más plana.
Características y Propiedades de la D. Normal
 Área bajo la curva entre 2 puntos representa probabilidad que ocurra un
hecho entre esos dos puntos
 Su dominio va de menos infinito a más infinito;
 Es simétrica con respecto a su media;
 Tiene dos colas y es asintótica al eje x por ambos lados;
 El valor del área debajo de toda la curva es igual a 1;
 El centro de la curva está representado por la media poblacional (m).
 Para cualquier curva normal, el área de -s a +s es igual a 0.6827; de -2s a +2s
de 0,9545 y de -3s a +3s de 0,9973;
 Distribución muestreal de varios estadísticos, como `x es normal e
independiente de distribución de la población.
D. Normal Tipificada (estandarizada)
 Distribución especial que representa a todas las variables aleatorias normales
y que es la distribución de otra variable normal llamada Z.


 Z se la conoce como variable aleatoria estandarizada.
 Esta función se caracteriza por tener media igual a cero y desviación tipificada
igual a uno : N(0,1)
 Representa a todas las distribuciones Normales. Igual densidad de
probabilidad, si medimos desviaciones de media en base a s.
 Valores obtenidos de tabla Normal válidos para todas las distribuciones
Normal de
La distribución de Poisson
La distribución de probabilidad de Poisson es un ejemplo de distribución de
probabilidad discreta.
La distribución de Poisson parte de la distribución binomial.
Cuando en una distribución binomial se realiza el experimento muchas veces, la
muestra n es grande y la probabilidad de éxito p en cada ensayo es baja, es aquí donde
aplica el modelo de distribución de Poisson.
Distribución “t” de Student
 Desarrollada con base en distribuciones de frecuencia empíricas por William
Gosset, (a) “Student”.
 “The probable error of a mean” Biometrika 1908
 Cervecero - estadístico con dificultades al usar distribución Normal en muestras
pequeñas.
 Sin embargo fue Fisher el que encontró mas aplicaciones para esta distribución.
 Distribución muestreal del promedio se ajusta muy bien a la distribución Normal
cuando se conoce s. Si n es grande, esto no presenta ningún problema, aun
cuando s sea desconocida, por lo que en este caso es razonable sustituirla por s.
Características Distribución “t”
 Tiene media igual 0, es asintótica al eje x y su dominio va de - ¥ a +¥;
 El área bajo la curva desde -¥ a +¥ es igual a 1
 m = 0, s2 depende parámetro n (grados libertad n-1)
 Varianza > 1, pero se aproxima a 1 cuando nÞ¥
 Al aumentar n, la distribución “t se aproxima a la Normal; n > 30 ó más, excelente
 Ji-cuadrado
 Distribución Ji-cuadrado es una función de densidad de probabilidad que
representa la distribución muestreal de la varianza.
 Definimos el estadístico Ji-cuadrado (c2) como:

(n - 1) s2
2 =
 2

Donde n es el tamaño de la muestra, s2 la varianza muestral y σ2 la varianza de la


población de donde se extrajo la muestra.
Características Ji-cuadrado
 Asimétrica y asintótica al eje x por la derecha;
 Su dominio va de 0 a +¥
 Area bajo la curva desde 0 a +¥ =1
 Tiene parámetro n = n-1 (g.d.l.)
 Al aumentar n se aproxima a la normal
 Representa distribución muestreal de varianza.
 Entre las aplicaciones:
 Determinación intervalos confianza para varianzas
 Pruebas de hipótesis para una varianza
 Tablas de contingencia
 El ajuste de datos a una distribución dada conocida
 Las pruebas de independencia.
Distribución "F” de Fisher
 Tambien llamada "F” de Fisher - Schnedecor
 Representa la distribución muestreal de la razón de dos varianzas. Es decir que se
obtiene de la razón de dos distribuciones Ji-cuadrado.
 Definimos el estadístico F como:

 El cual es el valor de una variable aleatoria que tiene distribución F con


parámetros n1=n1-1 y n2=n2-1.
Propiedades de Distribución F
 Asimétrica, y asintótica al eje x por el lado derecho
 Su dominio va de 0 a +¥
 Área bajo curva desde 0 a +¥ =1
 Tiene parámetros n1=n1-1 y n2=n2-1.
MUESTRA Y ESTIMACIÓN
(métodos de muestreo)
Población o universo conceptual
 Conjunto de elementos o unidades sobre las que se pretende obtener cierta
información.
 Pueden ser unidades individuales, compuestas o una serie de objetos.
 Se deben caracterizar por:
 Correcta delimitación.
 Constituida por unidades de la misma naturaleza.
Muestra.
 Es prácticamente imposible estudiar todas las unidades de la población.
• ¿Qué es una muestra?
• Es una parte representativa de la población.
• Característica Fundamental:
• Reduce de la forma más exacta posible las características de la población.
• Elementos principales de la muestra
• El marco o base de la muestra.
• Conjunto de unidades que constituyen la población.
• Unidades muestrales.
• Cada uno de los elementos que constituyen la base o marco de la muestra.
• Elementos principales de la muestra
• Fracción de muestreo
• Es el porcentaje que representa la muestra sobre el total de la población
(n/N)*100.
Coeficiente de elevación
• Es el número de veces que el tamaño de la población contiene al tamaño
de la muestra (N/n).
Métodos de muestreo.
• Probabilístico
• Muestreo aleatorio simple.
• Muestreo aleatorio sistemático.
• Muestreo estratificado.
• Muestreo aleatorio conglomerado.
• No probabilístico
• Muestreo accidental.
• Muestreo por cuotas.
• Muestreo intencionado.
MUESTREO PROBABILÍSTICO
• 1. Muestreo aleatorio simple para poblaciones finitas.
• Los elementos de la muestra se eligen al azar, directamente y en una sola etapa.
• Se aplica fundamentalmente en poblaciones pequeñas y plenamente
identificables.
• Se utilizan tablas de números aleatorios.
• Es una muestra de tamaño n, de una población finita N, en donde cada muestra
tiene la misma probabilidad de ser seleccionada.
• Tipos de muestreo aleatorio simple para poblaciones finitas.
• Muestreo sin reemplazo
• Se selecciona solo una vez cada muestra.
• Muestreo con reemplazo
Se puede incluir dos o más veces en la muestra
• Muestreo aleatorio simple para una población infinita.
• Es aquella que se selecciona en tal forma que se satisfacen las siguientes
condiciones:
 Cada elemento seleccionado proviene de la misma población.
 Cada elemento se selecciona en forma independiente.
 2. Muestreo aleatorio sistemático.
• Variante del muestreo aleatorio simple.
• Sistematiza la elección de los componentes de la muestra.
1. Se calcula el coeficiente de elevación.
2. Se elige al azar un número igual o menor a ese coeficiente.
3. El individuo al que corresponde ese número forma parte de la
muestra.
4. Los restantes se obtienen sumando sucesivamente el
coeficiente de elevación al número obtenido.
3. Muestreo Estratificado.
Cuando el universo no es homogéneo.
 Diferentes categorías con igual importancia para la investigación.
 La elección de la muestra no se hace globalmente para todos los
estratos.
 Elección de una muestra para cada estrato por alguno de los
procedimientos anteriores.
 No es aconsejable elevar la división en estratos demasiado lejos,
estratos pequeños complican el diseño porque pueden aparecer vacíos.
• Afijación de la muestra.
• Afijación simple
• Si en cada estrato se elige el mismo número de individuos. En algunos
casos no representa la población en realidad.
• Muestra n = 500 individuos (5000/100), 4 estratos, cada estrato tendrá 125
individuos.
• Afijación proporcional
• Cada estrato tenga la misma proporción en la muestra que en la población.
• Una muestra es de 40% para un estrato, en la población el estrato también
debe tener la misma proporción.
4. Muestreo aleatorio conglomerado
• Unidades muestrales no son simples, sino colectivos.
• Escuelas, hospitales, etc.
• Se divide primero a los elementos de la población en conjuntos separados
llamados conglomerados.
1. Cada elemento pertenece sólo a un grupo.
2. Se toma una muestra aleatoria simple de los conglomerados.
3.
• Características.
• Tiende a proporcionar los mejores resultados cuando los elementos del
conglomerado son heterogéneos.
• Caso ideal: cada conglomerado es una versión representativa, en
pequeña escala, de toda la población.
• Requiere un tamaño de muestra total mayor que el muestreo aleatorio
simple o estratificado.
• Principales aplicaciones: muestreo de áreas.
Muestreo No probabilísticos
• i). Muestreo accidental.
• El investigador elige a aquellos individuos que están a mano.
• No se utilizan ningún criterio especial de elección.
ii) Muestreo por cuotas.
Consiste en facilitar al entrevistador el perfil de los individuos u objetos:
• Criterio.
• Elección específica.
• Cumplan con el perfil.
• Se aplica en la última fase del muestreo.
iii). Muestreo Intencionado.
• Se basa en una buena estrategia y el buen juicio del muestreo.
• Frecuentemente se toman elementos que se juzgan típicos o representativos
de la población, suponiendo que los errores en la selección se compensan
unos con otros.
Tamaño muestral en estudios para determinar parámetros
Si se desea estimar una proporción, debe conocerse:
1.- El nivel de confianza o seguridad (1−α) . El nivel de confianza prefijado da
lugar a un coeficiente (z ) . Para un nivel de seguridad del 95 % α=1,96 , para un
α
nivel de seguridad del 99 % α= 2,58 .
2.- La precisión que se desea para el estudio.
3.- Una idea del valor aproximado del parámetro que se quiere medir (en este
caso, una proporción). Esta idea se puede obtener revisando la literatura o
mediante estudio pilotos previos. En caso de no tener dicha información se
utilizará el valor p =0,5 (50 %).
Regresión Lineal Simple
Regresión vs. Correlación
La relación entre dos variables:
– La magnitud de una variable (dependiente “y”) se asume que es determinada por
una segunda variable (independiente “x”).
El termino “dependiente” no implica “causa y efecto”

Calcular la linea
( X i ) 2
x 2
 (X i  X )2  X  i
2

n
( X )( Y )
 xy   X Y i i 
i

n
i

b 
 xy

 x 2
Regresión lineal múltiple
La regresión lineal múltiple trata de explicar el comportamiento de Y con más de una
variable predictora usando una función lineal.
Un modelo matemático de regresión lineal múltiple tiene el siguiente aspecto:

Vous aimerez peut-être aussi