Vous êtes sur la page 1sur 12

Muestreo en estadstica

De Wikipedia, la enciclopedia libre Saltar a navegacin, bsqueda

En estadstica se conoce como muestreo a la tcnica para la seleccin de una muestra a partir de una poblacin. Al elegir una muestra se espera conseguir que sus propiedades sean extrapolables a la poblacin. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzaran si se realizase un estudio de toda la poblacin. Cabe mencionar que para que el muestreo sea vlido y se pueda realizar un estudio adecuado (que consienta no solo hacer estimaciones de la poblacin sino estimar tambin los mrgenes de error correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de que el resultado sea una muestra representativa, pero s podemos actuar de manera que esta condicin se alcance con una probabilidad alta. En el muestreo, si el tamao de la muestra es ms pequeo que el tamao de la poblacin, se puede extraer dos o ms muestras de la misma poblacin. Al conjunto de muestras que se pueden obtener de la poblacin se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extraccin, sigue la llamada distribucin muestral.

Tcnicas de muestreo
Existen dos mtodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio y el muestreo aleatorio (que incorpora el azar como recurso en el proceso de seleccin). Cuando este ltimo cumple con la condicin de que todos los elementos de la poblacin tienen alguna oportunidad de ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la poblacin es conocida de antemano, recibe el nombre de muestreo probabilstico. Una muestra seleccionada por muestreo de juicio puede basarse en la experiencia de alguien con la poblacin. Algunas veces una muestra de juicio se usa como gua o muestra tentativa para decidir cmo tomar una muestra aleatoria ms adelante.

Muestreo probabilstico
Forman parte de este tipo de muestreo todos aquellos mtodos para los que puede calcular la probabilidad de extraccin de cualquiera de las muestras posibles. Este conjunto de tcnicas de muestreo es el ms aconsejable, aunque en ocasiones no es posible optar por l. En este caso se habla de muestras probabilsticas, pues no es en rigor correcto hablar de muestras representativas dado que, al no conocer las caractersticas de la poblacin, no es posible tener certeza de que tal caracterstica se haya conseguido.

Sin reposicin de los elementos: Cada elemento extrado se descarta para la subsiguiente extraccin. Por ejemplo, si se extrae una muestra de una "poblacin" de bombillas para estimar la vida media de las bombillas que la integran, no ser posible medir ms que una vez la bombilla seleccionada. Con reposicin de los elementos: Las observaciones se realizan con reemplazamiento de los individuos, de forma que la poblacin es idntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extraccin es tan pequea que el muestreo puede considerarse sin reposicin aunque, realmente, no lo sea. Con reposicin mltiple: En poblaciones muy grandes, la probabilidad de repetir una extraccin es tan pequea que el muestreo puede considerarse sin reposicin. Cada elemento extrado se descarta para la subsiguiente extraccin. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy til la extraccin de nmeros aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.
Muestreo estratificado

Consiste en la divisin previa de la poblacin de estudio en grupos o clases que se suponen homogneos con respecto a alguna caracterstica de las que se van a estudiar. A cada uno de estos estratos se le asignara una cuota que determinara el nmero de miembros del mismo que compondrn la muestra. Dentro de cada estrato se suele usar la tcnica de muestreo sistemtico, una de las tcnicas de seleccin ms usadas en la prctica. Segn la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos tcnicas de muestreo estratificado:
y

Asignacin proporcional: el tamao de la muestra dentro de cada estrato es proporcional al tamao del estrato dentro de la poblacin. Asignacin ptima: la muestra recoger ms individuos de aquellos estratos que tengan ms variabilidad. Para ello es necesario un conocimiento previo de la poblacin.

Por ejemplo, para un estudio de opinin, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. As, si la poblacin est compuesta de un 55% de mujeres y un 45% de hombres, se tomara una muestra que contenga tambin esos mismos porcentajes de hombres y mujeres. Para una descripcin general del muestreo estratificado y los mtodos de inferencia asociados con este procedimiento, suponemos que la poblacin est dividida en h subpoblaciones o estratos de tamaos conocidos N1, N2,..., Nh tal que las unidades en cada estrato sean homogneas respecto a la caracterstica en cuestin. La media y la

varianza desconocidas para el i-simo estrato son denotadas por mi y si2, respectivamente.
Muestreo sistemtico

Se utiliza cuando el universo o poblacin es de gran tamao, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevacin K= N/n; donde N es el tamao del universo y n el tamao de la muestra. Determinar en qu fecha se producir la primera extraccin, para ello hay que elegir al azar un nmero entre 1 y K; de ah en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenmeno. Esto quiere decir que si tenemos un determinado nmero de personas que es la poblacin (N) y queremos escoger de esa poblacin un nmero ms pequeo el cual es la muestra (n), dividimos el nmero de la poblacin por el nmero de la muestra que queremos tomar y el resultado de esta operacin ser el intervalo, entonces escogemos un nmero al azar desde uno hasta el nmero del intervalo, y a partir de este nmero escogemos los dems siguiendo el orden. Se divide la poblacin en subconjuntos tomando en cuenta el factor de elevacin. Por ejemplo: suponga que en una pequea ciudad de 8,000 habitantes segn el censo se va a haber una encuesta y se selecciona una muestra sistemtica de 20 personas entre 1,200 padres de familia para conocer el grado de aceptacin de la gestin administrativas de la ciudad por parte del presidente municipal. N = 1200 Poblacin n = 20 Muestra Factor de Elevacin N/n = 1200/20 = 60 Al azar un nmero de entre 1 y 60 {3+60} n = {3,63,123,183,243,303,363,423,483,543,603,663,723,783,843,903,963,1023,1083,1143 .
Muestreo por estadios mltiples

Esta tcnica es la nica opcin cuando no se dispone de lista completa de la poblacin de referencia o bien cuando por medio de la tcnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difcil acceso. En el muestreo a estadios mltiples se subdivide la poblacin en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel. Por ejemplo, si tenemos que construir una muestra de profesores de primaria en un pas determinado, stos pueden subdividirse en unidades primarias representadas por circunscripciones didcticas y unidades secundarias que seran los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos

tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extraccin.
Muestreo por conglomerados

Tcnica similar al muestreo por estadios mltiples, se utiliza cuando la poblacin se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la poblacin, es decir, la representan fielmente respecto a la caracterstica a elegir, pueden seleccionarse slo algunos de estos grupos o conglomerados para la realizacin del estudio. Dentro de los grupos seleccionados se ubicarn las unidades elementales, por ejemplo, las personas a encuestar, y podra aplicrsele el instrumento de medicin a todas las unidades, es decir, los miembros del grupo, o slo se le podra aplicar a algunos de ellos, seleccionados al azar. Este mtodo tiene la ventaja de simplificar la recogida de informacin muestral. Cuando, dentro de cada conglomerado seleccionado, se extraen algunos individuos para integrar la muestra, el diseo se llama muestreo bietpico. Las ideas de estratos y conglomerados son, en cierto sentido, opuestas. El primer mtodo funciona mejor cuanto ms homognea es la poblacin respecto del estrato, aunque ms diferentes son stos entre s. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre s.
Homogeneidad de las poblaciones o sus subgrupos

Homogneo siginifica, en el contexto de la estratificacin, que no hay mucha variabilidad. Los estratos funcionan mejor cuanto ms homogneos son cada uno de ellos respecto a la caracterstica a medir. Por ejemplo, si se estudia la estatura de una poblacin, es bueno distinguir entre los estratos mujeres y hombres porque se espera que, dentro de ellos, haya menos variabilidad, es decir, sean menos heterogneos. Dicho de otro modo, no hay tantas diferencias entre unas estaturas y otras dentro del estrato que en la poblacin total. Por el contrario, la heterogeneidad hace intil la divisin en estratos. Si se dan las mismas diferencias dentro del estrato que en toda la poblacin, no hay por qu usar este mtodo de muestreo. En los casos en los que existan grupos que contengan toda la variabilidad de la poblacin, lo que se construyen son conglomerados, que ahorran algo del trabajo que supondra analizar toda la poblacin. En resumen, los estratos y los conglomerados funcionan bajo principios opuestos: los primeros son mejores cuanto ms homogneo es el grupo respecto a la caracterstica a estudiar y los conglomerados, si representan fielmente a la poblacin, esto es, contienen toda su viariabilidad, o sea, son heterogneos.

Muestreo de juicio

Aqul l que no puede calcularse la probabilidad de extracci n de una determinada muestra. Se busca seleccionar a indi iduos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la informaci n aportada por esas personas es vital para la toma de decisiones.
Mue

cuotas

Es la tcnica ms difundida sobre todo en estudios de mercado y sondeos de opini n. En primer lugar es necesario dividir la poblaci n de referencia en varios estratos definidos por algunas variables de distribuci n conocida (como el gnero o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de poblaci n que representan. inalmente se multiplica cada peso por el tamao de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.
Muestreo de bola de nieve

Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre s. Consiste en identificar sujetos que se incluirn en la muestra a partir de los propios entrevistados. Partiendo de una pequea cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con caractersticas anlogas.
Muestreo subjetivo por decisin razonada

En este caso las unidades de la muestra se eligen en funci n de algunas de sus caractersticas de manera racional y no casual. Una variante de esta tcnica es el muest eo compensado o equili ado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la poblaci n.

Di

De Wikipedia, la enciclopedia libre Saltar a navegaci n, bsqueda

La distribuci n Normal suele conocerse como la "campana de gauss".

ili

En teora de la probabilidad y estadstica, la di i i de probabilidad de una variable aleatoria es una funci n que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribuci n de probabilidad est definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria. Cuando la variable aleatoria toma valores en el conjunto de los nmeros reales, la distribuci n de probabilidad est completamente especificada por la funci n de di ribuci n, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definici n de funci n de di ribuci n


Dada una variable aleatoria todos son puntos , su funci n de di ribuci n, , es

Por simplicidad, cuando no hay lugar a confusi n, suele omitirse el subndice y se escribe, simplemente, .

Propiedades
Como consecuencia casi inmediata de la definici n, la funci n de distribuci n:
y y

Es una funci n continua por la derecha. Es una funci n montona no decreciente.

Adems, cumple

Para dos nmeros reales cualesquiera a y b tal que (a < b), los sucesos son mutuamente excluyentes y su unin es el suceso que tenemos entonces que:

y , por lo

y finalmente

Por lo tanto una vez conocida la funcin de distribucin F(x) para todos los valores de la variable aleatoria x conoceremos completamente la distribucin de probabilidad de la variable. Para realizar clculos es ms cmodo conocer la distribucin de probabilidad, y sin embargo para ver una representacin grfica de la probabilidad es ms prctico el uso de la funcin de densidad.

Distribuciones de variable discreta

Distribucin binomial. Se denomina distribucin de variable discreta a aquella cuya funcin de probabilidad slo toma valores positivos en un conjunto de valores deX finito o infinito numerable. A dicha funcin se le llama funcin de masa de probabilidad. En este caso la distribucin de probabilidad es el sumatorio de la funcin de masa, por lo que tenemos entonces que:

Y, tal como corresponde a la definicin de distribucin de probabilidad, esta expresin representa la suma de todas las probabilidades desde hasta el valor x.

Distribuciones de variable discreta ms importantes


Las distribuciones de variable discreta ms importantes son las siguientes:
y y y y y y y

Distribucin binomial Distribucin binomial negativa Distribucin Poisson Distribucin geomtrica Distribucin hipergeomtrica Distribucin de Bernoulli Distribucin Rademacher, que toma el valor 1 con probabilidad 1 / 2 y el valor 1 con probabilidad 1 / 2.

Distribucin uniforme discreta, donde todos los elementos de un conjunto finito son equiprobables.

Distribuciones de variable continua

Distribucin normal. Se denomina variable continua a aquella que puede tomar cualquiera de losinfinitos valores existentes dentro de un intervalo. En el caso de variable continua la distribucin de probabilidad es la integral de la funcin de densidad, por lo que tenemos entonces que:

Distribuciones de variable continua ms importantes


Las distribuciones de variable continua ms importantes son las siguientes:
y y y y y y y

Distribucin ji cuadrado Distribucin exponencial Distribucin t de Student Distribucin normal Distribucin Gamma Distribucin Beta Distribucin

Distribucin uniforme (continua)Herramientas personales En estadstica y probabilidad se llama distribuci n normal, distribuci n de Gauss o distribuci n gaussiana, a una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece en fenmenos reales. La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto de un determinado parmetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribucin radica en que permite modelar numerosos fenmenos naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenmenos son desconocidos, por la enorme

cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observacin se obtiene como la suma de unas pocas causas independientes. De hecho, la estadstica es un modelo matemtico que slo pe rmite describir un fenmeno, sin explicacin alguna. Para la explicacin causal es preciso eldiseo experimental, de ah que al uso de la estadstica en psicologa y sociologa sea conocido como mtodo correlacional. La distribucin normal tambin es importante por su relacin con la estimacin por mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos. Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de la normal son:
y y y y y y y

caracteres morfolgicos de individuos como la estatura; caracteres fisiolgicos como el efecto de un frmaco; caracteres sociolgicos como el consumo de cierto producto por un mismo grupo de individuos; caracteres psicolgicos como el cociente intelectual; nivel de ruido en telecomunicaciones; errores cometidos al medir ciertas magnitudes; etc.

La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por ejemplo, la distribucin muestral de las medias muestrales es aproximadamente normal, 1 cuando la distribucin de la poblacin de la cual se extrae la muestra no es normal. Adems, la distribucin normal maximiza la entropa entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la eleccin natural de la distribucin subyacente a una lista de datos resumidos en trminos de media muestral y varanza. La i distribucin normal es la ms extendida en estadstica y muchos tests estadsticos estn basados en una supuesta "normalidad". En probabilidad, la distribucin normal aparece como el lmite de varias distribuciones de probabilidad continuas y discretas.

Propiedades
Algunas propiedades de la distribucin normal son: 1. Es simtrica respecto de su media, ;

Distribucin de probabilidad alrededor de la media en una distribucin N( , ). 2. La moda y la mediana son ambas iguales a la media, ; 3. Los puntos de inflexin de la curva se dan para x = y x = + . 4. Distribucin de probabilidad en un entorno de la media: 1. en el intervalo [ - , + ] se encuentra comprendida, aproximadamente, el 68,26% de la distribucin; 2. en el intervalo [ - 2 , + 2 ] se encuentra, aproximadamente, el 95,44% de la distribucin; 3. por su parte, en el intervalo [ -3 , + 3 ] se encuentra comprendida, aproximadamente, el 99,74% de la distribucin. Estas propiedades son de gran utilidad para el establecimiento de intervalos de confianza. Por otra parte, el hecho de que prcticamente la totalidad de la distribucin se encuentre a tres desviaciones tpicas de la media justifica los lmites de las tablas empleadas habitualmente en la normal estndar. 5. Si X ~ N( , 2) y a y b son nmeros reales, entonces (aX + b) ~ N(a +b, a2 2). 6. Si X ~ N( x, x2) e Y ~ N( y, y2) son variables aleatorias normales independientes, entonces: 2 o Su suma est normalmente distribuida con U = X + Y ~ N( x + y, x + 2 y ) (demostracin). Recprocamente, si dos variables aleatorias independientes tienen una suma normalmente distribuida, deben ser normales (Teorema de Crmer). o Su diferencia est normalmente distribuida con . Si las varianzas de X e Y son iguales, entonces U y V son independientes entre s. o La divergencia de Kullback-Leibler,
o

Si e son variables aleatorias independientes normalmente distribuidas, entonces: o Su producto XY sigue una distribucin con densidad p dada por

donde K0 es una funcin de Bessel modificada de segundo tipo.


o

Si Si

Su cociente sigue una distribucin de Cauchy con X / YCauchy(0, X / Y). De este modo la distribucin de Cauchy es un tipo especial de distribucin cociente. son variables normales estndar independientes, entonces sigue una distribucin con n grados de libertad. son variables normales estndar independientes, entonces la y la varianza muestral

media muestral

son independientes. Esta propiedad caracteriza a las distribuciones normales y contribuye a explicar por qu el test- no es robusto respecto a la no-normalidad).

Desviaci n tpica e intervalos de confianza


Alrededor del 68% de los valores de una distribucin normal estn a una distancia > 1 (desviacin tpica) de la media, ; alrededor del 95% de los valores estn a dos desviaciones tpicas de la media y alrededor del 99,7% estn a tres desviaciones tpicas de la media. Esto se conoce como la "regla 68-95-99,7" o la "regla emprica". Para ser ms precisos, el rea bajo la curva campana entre de la funcin de distribucin normal viene dada por n y + n en trminos

donde erf es la funcin error. Con 12 decimales, los valores para los puntos 1 2-, hasta -, 6- son:

1 0,682689492137

2 0,954499736104

3 0,997300203937

4 0,999936657516

5 0,999999426697

6 0,999999998027

La siguiente tabla proporciona la relacin inversa de mltiples correspondientes a unos pocos valores usados con frecuencia para el rea bajo la campana de Gauss. Estos valores son tiles para determinar intervalos de confianza para los niveles especificados basados en una curva normalmente distribuida (o estimadores asintticamente normales):

0,80

1,28155

0,90

1,64485

0,95

1,95996

0,98

2,32635

0,99

2,57583

0,995

2,80703

0,998

3,09023

0,999

3,29052

0,9999

3,8906

0,99999

4,4172

donde el valor a la izquierda de la tabla es la proporcin de valores que caern en el intervalo dado y n es un mltiplo de la desviacin tpica que determina la anchura de el intervalo.

Vous aimerez peut-être aussi