Vous êtes sur la page 1sur 10

GENERALIDADES DE LA ESTADISTICA.

POBLACIN
GENERALIDADES DE LA ESTADISTICA La estadstica es una ciencia que se ocupa de mtodos cientficos para, recolectar, organizar, resumir, presentar y analizar datos, as como sacar conclusiones que sean vlidas y tomar decisiones basadas en este anlisis. En un sentido menos amplio el trmino estadstica se emplear para referirse a los datos mismos o valores que se encuentren asociados a estos datos, por ejemplo, las medias aritmticas o promedios, medianas, modas y desviaciones por mencionar algunos de estos. As para la presentar la informacin esta se la har como estadsticas de empleo, estadsticas de accidentes, estadsticas delincuenciales, estadsticas de salud, segn sea el fenmeno en el que se est interviniendo. La estadstica por ser una ciencia que se vincula con otras ciencias adopta y adapta muchos componentes de otras ciencias, si la relacionamos con el tratamiento de la informacin, sealaramos tres elementos bsicos para el tratamiento de la informacin que son: EMISOR MEDIO RECEPTOR

Emisor: es aquel que emite o el que requiere la informacin Medio: es aquel que procesa la informacin Receptor: aquel que recibe la informacin Si la informacin es mal emitida, por ende ser mal procesada y se recibir una informacin errada de la misma, en estadstica esta informacin estar relacionada con los datos que no son otra cosa que colecciones de cualquier cantidad de observaciones relacionadas con un fenmeno o actividad que se desea describir y analizar. Una coleccin de datos se denomina conjunto de datos y si es una sola observacin es undato puntual. Para hacer una analoga del tratamiento de la informacin con la estadstica nombraremos a estas etapas como:
INGRESO DE DATOS PROCESO DE DATOS RESULTADOS DE DATOS

El ingreso de datos comprender las siguientes actividades: Recoleccin de datos: esta se basar en la recoleccin de todos los datos pertinentes y relacionados con la observacin del objeto en estudio y esta recoleccin de datos puede hacrsela por medio de una observacin o recoleccin directa o de campo (entindase por medio de una investigacin de campo por medio de una encuesta por ejemplo) pueden estos datos tambin de registros elaborados con otros propsitos que le permitiran describir y analizar los propios. Clasificacin de datos: Una vez recolectados los datos se hace la clasificacin de los datos, por medios de clases o categoras en las que se pueda ordenar la cantidad de datos recolectados. Validacin de datos: Trabajar con datos validos y confiables llevar a obtener buenos resultados, ordenndolos de manera tal que permitan una correcta aplicacin de los procesos Para el proceso de los datos estos pueden ser de tres tipos: Aritmticos: Utilizar medios aritmticos o de formulas matemticas para su procesamiento. Lgicos: Aplicar mtodos lgicos, depender de las variables a utilizar. Aritmtico lgicos: es una combinacin de los anteriores. Para los resultados de datos estos se pueden presentar de dos formas bsicas: Cuadros Numricos o Distribuciones de Frecuencias Grficas o Diagramas Estadsticos: que pueden ser Polgonos de frecuencias o Histogramas de frecuencias, segn sea la cantidad de datos de la poblacin o muestra. TIPOS DE DATOS Hay que considerar para el trabajo estadstico los siguientes tipos de datos. Datos no agrupados: se considerar una cantidad de datos no mayores a 25 datos. Datos agrupados: se considerar una cantidad de datos mayores a 25 datos.

POBLACIN Y MUESTRA Poblacin es todo el conjunto o universo de datos que conforman el fenmeno o actividad en estudio, y la muestra es una parte de ese conjunto o universo de los datos disponibles, hay ocasiones que no es prctico trabajar con la totalidad de datos, por ejemplo se requiere analizar los casos de enfermedades gastrointestinales de un hospital en los ltimos veinte aos, imagnese la cantidad de datos disponibles que entraran en observacin por lo que se requerira gran cantidad de tiempo para poder trabajar con todos los casos, es menester aqu realizar una muestra de toda la poblacin para poder realizar el estudio y realizar su descripcin y anlisis. Una poblacin puede ser finita o infinita. Por ejemplo, la poblacin de los artefactos o piezas producidas en un da determinado en un taller o fbrica es finita, mientras que la poblacin posible de la cantidad de lanzamientos sucesivos de una moneda (cara o sello) es infinita. En sntesis la poblacin es un todo y la muestra es una fraccin osegmento de ese todo. VARIABLES CONTINUAS Y VARIABLES DISCRETAS. Una variable es la representacin de algo, puede presentrsela por medio de una letra, una sigla o un nombre que puede tomar un determinado valor de un conjunto determinado llamado dominio de la variable. Si la variable toma un solo valor se llamar constante. Las Variables es clasifican en: Variables Continuas: Son aquellas que toman valores cualquiera entre dos lmites, es decir entre un lmite inferior y otro lmite superior esto dan al valor una continuidad posible, estas variables representan cantidades es decir todo aquello que sea medible o mensurable y que admite unaaproximacin, esta continuidad y los valores en los que puede limitarse una variable esta dado por el factor de continuidad el mismo que se utilizar de acuerdo al dato numrico expresado u obtenido, es decir, si es un valor entero o con decimales. Si el dato numrico es entero el factor de continuidad a utilizar ser el siguiente: f.c = 0.5

Es decir la representacin de cero enteros el punto decimal y el factor de aproximacin que es el nmero cinco, para obtener el lmite inferior se restar el factor de continuidad y para obtener el lmite superior se sumar el factor de continuidad. Si el dato numrico es un decimal el factor de continuidad, se conformar en atencin de la cantidad de valores decimales que contenga el dato, ejemplo: Si el dato tiene una posicin decimal, el factor de continuidad ser el siguiente: f.c = 0.05 Es decir la representacin de cero enteros el punto decimal, un cero que representa la posicin decimal y luego el factor de aproximacin que es el nmero cinco, para obtener el lmite inferior se restar el factor de continuidad y para obtener el lmite superior se sumar el factor de continuidad. Si el dato tiene una posicin decimal, el factor de continuidad ser el siguiente: f.c = 0.005 Es decir la representacin de cero enteros el punto decimal, dos ceros que representa la posiciones decimales y luego el factor de aproximacin que es el nmero cinco, para obtener el lmite inferior se restar el factor de continuidad y para obtener el lmite superior se sumar el factor de continuidad.

En conclusin para conformar el factor de continuidad de un dato que contenga decimales, la cantidad de ceros despus del punto decimal, estar en relacin a la cantidad de posiciones decimales que contenga el dato y luego para finalizar el factor de aproximacin que es el nmero cinco. La estatura de una persona podra ser 1.65 o 1.655 o 1.785, depender de la exactitud de la medicin que se realice, esto es una variable continua.

Variables discretas: no admiten aproximaciones, estas representancalidades o cualidades, por ejemplo, un producto es defectuoso o no defectuoso, una persona es alta o baja, al lanzar una moneda se obtiene cara o sello, se es hombre o mujer.

La cantidad de mujeres que ocupan una habitacin puede tomar valores es 0, 1, 2, 3, 4 o cualquier otro valor entero, pero no puede tomar valores de 2.53, 3.55 o 6.88, esto es una variable discreta.

Variables y escalas de medicin.


Los especialistas en estadstica realizan experimentos o encuestas para manejar una amplia variedad de caractersticas llamadas variables aleaciones. Los datos variables pueden registrarse de diversas maneras, de acuerdo con los objetivos de cada estudio en particular, y conforme a ello tener diferentes escalas de medicin. Podemos llamar variable a una caracterstica (magnitud, vector o nmero) que puede ser medida, adoptando diferentes valores para cada uno de los casos en que se trabaje. En una investigacin se puede clasificar a las variables de acuerdo a la influencia que le determinemos (variable independiente o dependiente), y segn su escala de medicin. Son estas ltimas de las que nos ocuparemos, comenzando por precisar sus tipos y caractersticas.

Tipos de variables
Cualitativas Algunas variables son asociadas a personas u objetos que expresan distintas cualidades, caractersticas o modalidades, por esta naturaleza se les llama cualitativas, ya que las personas u objetos de determinadas caractersticas pertenecen a un tipo particular de categora. La medicin de este tipo de variables se refiere a una mera clasificacin de atributos, que describiremos en porcentajes o por la cantidad de personas que entran en dicha categora. Este tipo de variables suelen presentar regularmente dos categoras, es decir son dicotmicas, sin embargo tambin existen algunos tipos de variables que pueden presentar tres o ms nmero de categoras, siendo politmicas. En una encuesta las variables cualitativas suelen ser aquellas que determinan sexo (hombre o mujer), atributos (pelirrojo, rubio o moreno), entre otras muchas cuestiones. Cuantitativas Las variables cuantitativas determinan cuanto de algo se posee, no slo si se posee (como con las variables cualitativas). Existen dos tipos de variables cuantitativas: Variables cuantitativas discretas; adoptan solamente ciertos valores a lo largo de un intervalo, dejando espacio entre los valores posibles. Este tipo de variables consisten en observaciones que podemos contar. El numero de hijos de una pareja es un dato discreto, se puede decir que una familia tiene 1,2,3,4,5 hijos pero no tiene sentido decir que una familia tiene 2.36 hijos. Variables cuantitativas continuas; adoptan un valor en cualquier punto a lo largo de un intervalo. Acepta cualquier valor dentro de un rango y el nmero de decimales que toma depender de la precisin del instrumento de medicin ms que del valor del dato en si.

Cul es la diferencia entre una variable cualitativa y una variable cuantitativa? Cundo es apropiado usar cada una?

Escalas de medicin
El proceso de asignar un valor numrico a una variable se llama medicin. Las escalas de medicin sirven para ofrecernos informacin sobre las clasificaciones que podemos hacer con respecto a las variables (discretas o continuas). Cuando se mide una variable el resultado puede aparecer en uno de cuatro diversos tipos de escalas de medicin; nominal, ordinal, intervalo y razn. Conocer la escala a la que pertenece una medicin es importante para determinar el mtodo adecuado para describir y analizar esos datos. Escala nominal: Utiliza los nmeros para identificar que un dato pertenece a un grupo o a una categora. Es aquella escala que no presenta un orden o dimensin particular, son observaciones que pueden clasificarse o contarse. En el anlisis de datos resulta ms sencillo asignar a ciertos atributos etiquetas numricas en lugar de utilizar datos complejos. Por ello podemos utilizar un 1 para designar a las mujeres y un 2 para designar a los hombres, sin que ninguno de los nmeros represente ms o menos, solamente con el objetivo de distinguir y organizar datos. En esta escala cada persona u objeto debe pertenecer a una y solamente una de las categoras que tienen y el conjunto de estas categoras debe ser exhaustivo; es decir, tiene que contener a todos los casos posibles. Escala ordinal: En esta escala los nmeros representan una clasificacin (mayor que o menor que), sin que represente una unidad de medida, quedando implcito que un nmero de mayor cantidad tiene ms alto grado de atributo medido en comparacin de un nmero menor. Se establece una gradacin u orden natural para las categoras, cada uno de los datos puede localizarse dentro de alguna de las categoras disponibles. Escala de intervalo: En esta escala adems del mayor que y el menor que tambin se establece una unidad de medida que nos permite precisar cuanto se es mayor o menor. La unidad de medicin es arbitraria, el cero es convencional y pueden existir cantidades negativas; la medicin de la temperatura y del coeficiente intelectual son ejemplos de este tipo de escala.

En esta escala se pueden hacer comparaciones por medio de diferencias o de sumas, sin embargo no se admiten comparaciones por medio de multiplicaciones, divisiones o porcentajes pues carecen de sentido. Escala de razn: Similar a la escala de intervalo, pero tiene un cero absoluto y por ello los mltiplos de los valores de la escala sern significativos; el nivel de votos en una eleccin sera un buen ejemplo de una escala de medicin de razn.

Correlacin
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad

Fuerza, sentido y forma de la correlacin


La relacin entre dos variables cuantitativas queda representada mediante la lnea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una lnea de ajuste y, por lo tanto, de una correlacin, son la fuerza, el sentido y la forma:

La fuerza extrema segn el caso, mide el grado en que la lnea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una lnea recta, lo que indica que la relacin es fuerte; si la nube de puntos tiene una tendencia elptica o circular, la relacin es dbil.

El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relacin es positiva; si al crecer los valores de A disminuyen los de B, la relacin es negativa.

La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta, la curva monotnica o la curva no monotnica

Coeficientes de correlacin
Existen diversos coeficientes que miden el grado de correlacin, adaptados a la naturaleza de los datos. El ms conocido es el coeficiente de correlacin de Pearson (introducido en realidad porFrancis Galton),

que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estndar. Otros coeficientes son:

Coeficiente de correlacin de Spearman Correlacin cannica Coeficiente de Correlacin Intraclase

Interpretacin geomtrica
Dados los valores muestrales de dos variables aleatorias e ,

que pueden ser consideradas como vectores en un espacio a n dimensiones, puden construirse los "vectores centrados" como: e .

El coseno del ngulo alfa entre estos vectores es dada por la frmula siguiente:

Pues

es el coeficiente de correlacin muestral de Pearson. El coeficiente de correlacin es

el coseno entre ambos vectores centrados:

Si r = 1, el ngulo Si r = 0, el ngulo Si r =-1, el ngulo

, ambos vectores son colineales (paralelos). , ambos vectores son ortogonales. , ambos vectores son colineales de direccin opuesto. .

Ms generalmente:

Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el coeficiente de correlacin tiene siempre un sentido, cualquiera si que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hiperesfera a n dimensiones. La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que reposa en esta idea. La correlacion lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.

Distribucin del coeficiente de correlacin

El coeficiente de correlacin muestral de una muestra es de hecho una varible aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrn valores diferentes y por tanto el coeficiente de correlacin muestral calculado a partir de ellas tendr valores ligeramente diferentes. Para muestras grandes la variacin en dicho coeficiente ser menor que para muestras pequeas. R. A. Fisher fue el primero en determinar la distribucin de probabilidad para el coeficiente de correlacin. Si las dos variables aleatorias que trata de relacionarse proceden de una distribucin gaussiana bivariante entonces el coeficiente de correlacin r sigue una distribucin de probabilidad dada por:1 2

donde:

es la distribucin gamma es la funcin gaussiana hipergeomtrica.

Ntese que

, por tanto r es estimador sesgado de

Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuacin:

for Aunque, la solucn:

es subptima. Se puede obtener un estimador sesgado con mnima varianza para grandes

valores de n, con sesgo de orden

buscando el mximo de la expresin:

, i.e. En el caso especial de que , la distribucin original puede ser reescrita como:

Donde

es la funcin beta.

Vous aimerez peut-être aussi