Vous êtes sur la page 1sur 71

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/279517332

Estadistica Aplicada a Analisis Bibliometrico

Research July 2015


DOI: 10.13140/RG.2.1.4981.8728

CITATION READS

1 103

1 author:

Ramn Piloto-Rodrguez
Universidad Tecnolgica de la Habana, Jos Antonio Echeverra
103 PUBLICATIONS 203 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Knowledge Cell on Biofuels View project

Desarrollo y aplicacin de herramientas de ingeniera de procesos en la evaluacin tecnolgica de


plantas industriales View project

All content following this page was uploaded by Ramn Piloto-Rodrguez on 02 July 2015.

The user has requested enhancement of the downloaded file. All in-text references underlined in blue are added to the original document
and are linked to publications on ResearchGate, letting you access and read them immediately.
Curso de estadstica aplicada a anlisis bibliomtrico

Impartido en 2010 al IDICT

(Instituto de Informacin Cientfico Tecnolgica de Cuba)

Prof. Dr. Ramn Piloto-Rodrguez


La estadstica es la primera de las ciencias inexactas. Edmont Goncourt

Captulo 1

Introduccin a la estadstica. Conceptos generales

En el presente captulo se abordarn brevemente algunos de los conceptos fundamentales que


se utilizarn con bastante frecuencia en el texto.

Podramos comenzar a modo de pregunta, formulada as:

Qu es la Estadstica?

La respuesta ms adecuada es la siguiente: es la ciencia de la toma de decisiones en presencia


de incertidumbre.

Otras definiciones ms romnticas pero bien adecuadas serian:

La estadstica es la primera de las ciencias inexactas.

La estadstica es la nica herramienta que mientras ms se usa, ms filosa se vuelve.

Objeto de la Estadstica

1. Descripcin de datos empricos (Estadstica Descriptiva).

2. Anlisis cientfico de datos experimentales (Inferencia Estadstica).

3. Prediccin.

En general, todo trabajo relacionado con la compilacin, manipulacin, anlisis,


interpretacin y forma de presentacin de los datos numricos puede considerarse que
pertenece al campo de la estadstica.

La estadstica descriptiva comprende el tratamiento de los datos, lo cual incluye organizacin


y estructuracin de los mismos.

La estadstica inductiva o inferencia estadstica incluye la realizacin de generalizaciones,


predicciones, estimados y toma de decisiones, tomando en consideracin la incertidumbre.

La frontera entre la estadstica descriptiva e inductiva es cada vez ms pequea, debido a que
el objetivo final de compilar y presentar datos, casi siempre es tomar algn tipo de decisin.

Para comprender mejor la diferencia entre ambas, podemos recurrir al siguiente ejemplo:

Se desea comparar la produccin cientfica en revistas de impacto de dos departamentos


durante un ao. El primer departamento tiene cinco investigadores, mientras el segundo tiene
ocho.

Si se realiza un conteo del nmero de artculos publicados por todos los miembros de cada
departamento y se divide entre sus respectivos nmeros de miembros se obtienen las medias
1
aritmticas para cada uno de los departamentos, lo cual representa el nmero de publicaciones
por investigador. Este parmetro obtenido pertenece a la estadstica descriptiva.

Ahora supongamos que el primer departamento tuvo 3 publicaciones por investigador como
promedio, mientras el segundo tuvo 2 por investigador. Si deseamos conocer si existen o no
diferencias significativas entre los resultados obtenidos para ambos departamentos o cual de
estos tiene un mayor rendimiento, caemos en el campo de la estadstica inductiva. La
estadstica inductiva intenta dar respuesta a travs de sus mtodos, a preguntas planteadas con
anterioridad.

La estadstica es una ciencia que trabaja con datos previamente obtenidos. Los datos
bsicamente pueden ser de dos tipos:

Datos cualitativos

Datos cuantitativos

Los datos cuantitativos puede a su vez ser de dos tipos:

Datos cuantitativos discretos

Datos cuantitativos continuos

Los datos cuantitativos discretos son aquellos datos que solo pueden tomar un nmero finito o
numerable de valores reales.

Los datos continuos son aquellos que pueden tomar cualquier valor en un intervalo de
nmeros reales. Pueden tomar un nmero infinito de valores reales.

Los datos o variables discretos, tambin conocidos por datos no agrupados sern ilustrados
mediante el siguiente ejemplo, relativo al nmero de artculos publicados en un ao por 10
investigadores. La cantidad de publicaciones en ese orden son:

X1= 2 X2= 1 X3= 3 X4=1 X5=2 X6=1 X7=3 X8=0 X9=2 X10=1

Estos datos son discretos, ya que la variable solo admite valores aislados. La frecuencia
absoluta representada en la Tabla 1.1 para el ejemplo anteriormente expuesto. Estos datos
pueden ser presentados en forma de tabla de frecuencias. La frecuencia absoluta o repeticin,
es el nmero de veces que se repite un valor determinado de la variable.

Desde el punto de vista matemtico-estadstico es muy til la representacin de los datos


relacionados con la frecuencia con que estos aparecen en el conjunto de datos experimentales
o mediciones. Normalmente se presentan en diagramas de barras o histogramas de
frecuencias.

2
Tabla 1.1

Valores de la variable Frecuencias absolutas

0 1

1 4

2 3

3 2

Total 10

Una propiedad importante que se observa en la Tabla 1.1 es que la suma total de las
frecuencias absolutas es igual al nmero total de mediciones (n).

n= (1)

donde fab representa la frecuencia absoluta del componente o dato i.

El nmero de intervalos que se definen para el conteo de valores se denomina clases. En el


ejemplo anterior hay 4 clases. Uno de los criterios ms aceptados para seleccionar el nmero
de intervalos (k) es:

K= (2)

3
frecuen cia

0
0 1 2 3 4
No. publicaciones

Fig.1.1 Histograma de frecuencias absolutas

Una forma usual de representar grficamente las frecuencias absolutas es mediante el


polgono de frecuencias tal como se muestra en la Fig.1.2.

3
4

frecuencia 3

0
0 1 2 3 4
No. publicaciones

Fig.1.2 Polgono de frecuencias absolutas

En muchas ocasiones es conveniente trabajar con frecuencias relativas. Se define como


frecuencia relativa (fr):

= = (3)

Su representacin grafica para el ejemplo analizado se muestra a continuacin:

40

30
porciento

20

10

0
0 1 2 3 4
No. publicaciones
Fig.1.3 Histograma de frecuencias relativas

Tambin es til disponer de la frecuencia acumulativa (fac) que tiene como base a la
frecuencia absoluta.

= (4)

4
10

porciento
6

0
0 1 2 3 4
No. publicaciones

Fig.1.4 Histograma de frecuencias acumulativas

En cuanto a las variables continuas, un ejemplo sera la estatura de los individuos en un grupo
poblacional, que podra estar entre 1.50-1.90 m. Las estaturas pueden adoptar cualquier valor
en dicho intervalo. Los diferentes histogramas presentados para el ejemplo en variables
discretas son igualmente aplicables para la descripcin y organizacin de datos numricos en
el caso de variables continuas.

Aunque los histogramas de frecuencias son tiles para comparar y analizar conjuntos de
datos, no logran brindar suficiente informacin sobre el conjunto de datos en cuestin. Por
ejemplo, si deseamos conocer cul es el valor ms frecuente, cual el valor medio, si los datos
estn ms o menos dispersos, tendramos una descripcin ms completa del conjunto
numrico.

Existe un grupo de estadgrafos que nos permiten caracterizar mas adecuadamente los
conjuntos numricos y se denominan en general medidas de descripcin de los conjuntos
numricos. Como su nombre lo indica stos pertenecen a la estadstica descriptiva.

Se dividen en dos grupos:

Medidas de tendencia central.

Medidas de dispersin.

Las medidas de tendencia central son: media aritmtica, mediana, moda.


Media aritmtica: conocida tambin con el nombre de promedio o simplemente media. Es la
ms importante de las medidas de tendencia central. Se simboliza mediante y se define como:

= (5)

Propiedades de la media:

1. Si el conjunto de datos est formado por un solo valor que se repite, la media es ese mismo
valor.

2. Si se suma o resta un constante a todos los datos del conjunto, la media quedar aumentada
o disminuida en esa cantidad.
5
3. Si todos los datos son multiplicados o divididos por una constante, la media queda
multiplicada o dividida por esa constante.

4. La suma de las desviaciones de los datos respecto a su media es cero.

Moda: valor que aparece con ms frecuencia en un conjunto numrico.

Ej: 1, 4, 5, 4, 2, 4, 0, 1, 5, 6, 7, 4.

La moda es 4.

Ej: 2, 4, 5, 1, 2, 3, 5, 3.

Existen tres modas (2,3,5)

Ej: 1, 3, 4, 5, 8, 7.

No hay moda.

Mediana: Es el valor o dato que divide al conjunto ordenado de forma ascendente o


descendente en dos partes, cada una con igual nmero de datos. Si el nmero de datos es
impar, sta ser el nmero que ocupe la posicin central. Si el conjunto es par, entonces
corresponder al promedio de los dos nmeros centrales.

Ej: Determinar la mediana de: 2, 4, 3, 0, 1, 5, 5, 7, 5, 8

Primero se ordenan de forma ascendente o descendente.

0,1,2,3,4,5,5,5,7,8.

Como est formado el conjunto por diez datos, entonces la mediana es el promedio de los dos
nmeros centrales: (4.5)

Medidas de dispersin

Estas no dan idea de la posicin de los datos sino que dan una idea de su agrupamiento,
variacin o esparcimiento.

Entre estas se encuentran:

1. Recorrido o amplitud.

2. Dispersin o varianza.

3. Desviacin estndar, desviacin tpica o error cuadrtico medio.

4. Desviacin estndar relativa o coeficiente de variacin.

La amplitud o recorrido se define como:

R = Xmax X min (6)

6
Se define la dispersin o varianza muestral como:

= (7)

Equivalente a:

= (8)

El valor entre corchetes de la expresin anterior es lo que en estadstica se denomina como


suma de cuadrados.

La dispersin o varianza mide la desviacin de los datos respecto a su valor medio. Un valor
pequeo de S2 indica que los datos estn agrupados y uno alto indica que estn dispersos
alrededor de la media.

Desviacin estndar: Es el estadgrafo que ms nombres tiene. La desviacin estndar (S) se


define como la raz cuadrada de la dispersin:

S= (9)

Desviacin estndar relativa o coeficiente de variacin:

Es tambin una mediada de dispersin pero referente a la media.

Se representa como Sr o COV y se define como:

Sr = (10)

Lo ms frecuente es expresarla en valor porcentual.

Sr = 100 (11)

Tanto las medias como las dispersiones pueden promediarse pero solo es esto posible
teniendo en cuenta el peso especfico de cada una de las medias o dispersiones participantes
en el clculo.

= (12)

donde fj representa los grados de libertad

m es el nmero de dispersiones que se promedian.

En el caso de las medias fj = n y en el caso de dispersiones fj = n-1

7
Si cierras la puerta a todos los errores, dejas fuera la verdad. Rabindranath Tagore

Captulo 2

Conceptos de Poblacin y Muestra. Pruebas de Hiptesis

En la estadstica como poblacin se considera cualquier conjunto (finito o infinito) de


individuos u objetos con determinada caracterstica. En muchos casos la poblacin es tambin
denominada universo. Este conjunto es normalmente finito pero tan grande que se puede
asumir que es infinito y tambin demasiado grande para ser considerado como un todo en un
determinado estudio.

Ej. Gotas de agua en el mar, nmero de investigadores en el planeta, poblacin mundial.

Lo que se hace en muchas ciencias con frecuencia, es trabajar con un subconjunto de la


poblacin, conocido con el nombre de muestra. En la Fig.1 se ilustran ambos conceptos de
forma bastante simplificada.

Fig.1 Representacin esquemtica de dos casos de conjuntos de poblacin y muestra

Esta separacin entre poblacin y muestra define su vez estadgrafos para un conjunto o el
otro.

Los valores calculados totalmente a partir de una muestra son conocidos con el nombre de
estadgrafo. Ej. Media, mediana, desviacin estndar, etc.

Los valores determinados a partir de la poblacin total o universo se denominan parmetros o


se especifica que corresponde al estadgrafo en cuestin para la poblacin. Ej. Media
poblacional, varianza poblacional, etc.

La forma de seleccin de una muestra es un factor importante ya que de ello dependen los
resultados que se obtienen. El procedimiento mediante el cual se seleccionan muestras de una
poblacin es conocido como muestreo.

El anlisis de los diferentes tipos de muestreo que se pueden realizar a una poblacin, se
estudiarn ms adelante.
8
En el Captulo 1 se estableci la diferencia entre la estadstica descriptiva en inductiva o
inferencia estadstica. A continuacin comenzaremos una descripcin breve de las principales
Pruebas de hiptesis que se pueden realizar al trabajar con muestras y algunos ejemplos
prcticos.

Pruebas de Hiptesis

Las pruebas de hiptesis o contraste de significacin permiten comparar, contrastar, probar o


verificar igualdades o diferencias entre los valores comparados.

Los fundamental en estas prueba es verificar si las diferencias observadas son casuales,
aleatorias o reales.

Para una discusin rigurosa de la base terica de las pruebas de Hiptesis recomendamos
consultar la bibliografa propuesta al final del Captulo.

Realizacin de una Prueba de Hiptesis

El comienzo de toda prueba de hiptesis consiste precisamente en partir de una hiptesis


estadstica. Por ej.

Hiptesis nula (H0)

= (no existen diferencias significativas entre las medias)

Pueden y deben existir hiptesis contrarias a sta:

Hiptesis alternativa (H1)

(existen diferencias significativas entre las medias)

Tenemos entonces que decidir a partir de los datos experimentales cual de las hiptesis es la
correcta con cierto margen de error.

Tipos de error

Dada la naturaleza probabilstica del problema, podemos en este anlisis cometer dos tipos de
error. Rechazar la hiptesis nula cuando debimos aceptarla, o aceptarla cuando realmente las
medias eran diferentes.

Estas diferencias se muestran a continuacin en forma de tabla.

Tabla 2.1 Tipos de Errores en pruebas de hiptesis

Nuestra decisin es: Ho verdadera Ho falsa

No rechazar la hiptesis nula Decisin correcta Error (o de tipo 2)

Rechazar la hiptesis nula Error (o de tipo 1) Decisin correcta

9
Nivel de significacin

El nivel de significacin no es ms que la probabilidad (en tanto por uno) de cometer un error
o de tipo 1, o sea, de rechazar la hiptesis nula siendo esta cierta.

En la mayora de los trabajos de investigacin se utiliza un nivel de significacin 0.05 (5 %)


aunque en funcin del tipo de trabajo es usual trabajar con 0.01 (1 %) o 0,. (10 %).

Es evidente que el ensayo o prueba es ms riguroso mientras alfa es ms pequea, pero es


importante sealar que mientras ms se disminuye la probabilidad de cometer un error de tipo
1, ms alta es la de cometer un error de tipo 2.

A continuacin se describen muy brevemente algunas de las principales pruebas de hiptesis


que se aplican a conjuntos de datos y la forma de clculo de los estadgrafos correspondientes.
Hoy en da, con el empleo de los medios de computacin y lo softwares especializados es
posible realizar rpida y eficazmente todo tipo de pruebas de hiptesis en muy corto tiempo y
sin el empleo de los estadgrafos especficos para cada prueba. La mayora de los softwares en
la actualidad tienen un estadgrafo estandarizado que engloba el conjunto de todos los dems
estadgrafos utilizados en pruebas de hiptesis, cuantificados a travs del valor de la
probabilidad.

Prueba de hiptesis para la determinacin de errores burdos

Se utiliza cuando se sospecha que un valor del conjunto de datos es extremo o muy diferente
respecto al resto, sospechndose que es una equivocacin.

Para ello se utiliza la prueba Q

(13)

donde:

X1 es el valor dudoso, X2 es el valor vecino al dudoso, (estando ordenados los datos en forma
ascendente o descendente) y R es el recorrido.

Se demuestra que hay error burdo si Qexp > Q( ; n)

El valor de Q( ; n) se extrae de una tabla que se encuentra en la literatura bsica de


estadstica, para el valor de escogido y para un tamao de muestra n.

Si el valor analizado es clasificado como error burdo, ste tiene que ser eliminado de los datos
y de ser posible repetir esa determinacin.

De forma general, el tipo de prueba realizada incluye tres comparaciones en una.

Si Qexp Q(0.05; n) no podemos rechazar la hiptesis nula.

10
Si Q(0.05; n) Qexp Q(0.01; n) no debemos llegar a conclusiones definitivas y si es posible,
se debe aumentar el nmero de datos para mejorar el anlisis.

Si Qexp > Q(0.01; n) debemos rechazar la hiptesis nula.

El anlisis antes expuesto es el bsico para cualquier estadgrafo y prueba de hiptesis.

Intervalo de confianza para la media

Debido a que el nmero de valores a analizar no siempre es suficientemente grande, existen


varias formas de estimar el intervalo de confianza de la media. Uno de estos est basado en el
uso de la t de Student.

= = (14)

Donde t es el valor tabulado para la t de Student, es el nivel de significacin, S es la


desviacin estndar y n el nmero de valores.

El intervalo de confianza para la media nos brinda los lmites (para un dado) dentro de los
cuales debe encontrarse el valor medio real o poblacional.

Tabla 2.2 Pruebas de hiptesis y sus estadgrafos fundamentales

Prueba de hiptesis Estadgrafo que utiliza

Comparacin de dos dispersiones F de Fischer

Comparacin de dos medias t de Student, F de Fischer

Comparacin de una media muestral con el valor medio t de Student


poblacional

Comparacin de datos pareados t de Student

Comparacin de varias dispersiones Q de Cochran,

Prueba para la distribucin normal Chi-cuadrado

Existe, adicionalmente a las ya descritas, un grupo amplio de pruebas de hiptesis que se


pueden realizar en dependencia del tipo de comparacin o anlisis a realizar. Su basamento
terico y las tablas para la realizacin del clculo de los respectivos estadgrafos pueden
encontrarse en la literatura recomendada al final del captulo.

En el prximo captulo abordaremos el caso particular de la prueba de hiptesis para la


distribucin normal y los diferentes tipos de muestreo y formas de determinacin del tamao
de una muestra a tomar de una poblacin.

11
La ciencia es la progresiva aproximacin del hombre al mundo real. Max Planck

Captulo 3

Muestreo y tamao de muestras

En el captulo anterior se realiz un anlisis de los conceptos de poblacin y muestra.


Conceptualmente podramos dejar planteado que:

Poblacin. No es ms que aquel conjunto de individuos o elementos en el que es posible


observar y medir del mismo una caracterstica o atributo.

Ejemplos de poblacin:

El conjunto formado por todos los investigadores de un pas.


El conjunto de todos los estudiantes de una universidad.

Las dificultades comienzan si el nmero de elementos de la poblacin es infinito, si los


elementos se destruyen o si sufren daos al ser medidos, si estn muy dispersos o si el costo
de un anlisis completo a la poblacin es muy alto.

Una solucin a estos problemas consiste en medir solo una parte de la poblacin, denominada
muestra y tomar el peso en la muestra como una aproximacin del verdadero valor del peso
de la poblacin.

El tamao de la poblacin es la cantidad de elementos de sta y el tamao de la muestra es la


cantidad de elementos de la muestra. Las poblaciones pueden ser finitas e infinitas, sin
embargo, las muestras son finitas.

La muestra debe obtener toda la informacin deseada para tener la posibilidad de extraerla.
Esto slo se puede lograr con una buena seleccin de la muestra y un trabajo muy cuidadoso
en la recogida de los datos.

Para que los resultados obtenidos de los datos muestrales se puedan extender a la poblacin,
la muestra debe ser representativa de la poblacin en lo que se refiere a la caracterstica en
estudio. O sea, la distribucin de la caracterstica analizada en la muestra debe ser
aproximadamente igual a la distribucin de la caracterstica en la poblacin.

La representatividad en estadstica se logra con el tipo de muestreo adecuado que en muchos


casos incluye la aleatoriedad en la seleccin de los elementos de la poblacin que formarn la
muestra.

Tipos de muestreo

Al realizar un muestreo en una poblacin podemos hablar de muestreos probabilsticos y no


probabilsticos. En el caso de los muestreos probabilsticos, el muestreo aleatorio simple es el
ms ampliamente utilizado, junto al muestreo estratificado y el muestreo por racimos.

12
Muestreo aleatorio simple: Es aquel en que cada elemento de la poblacin tiene la misma
probabilidad de ser seleccionado para integrar la muestra.

Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el
muestreo aleatorio simple.

En la prctica no nos interesa el elemento de la poblacin seleccionado en general, sino solo


una caracterstica que mediremos u observaremos en l y cuyo valor ser el valor de una
variable aleatoria que en cada elemento de la poblacin puede tomar un valor que ser un
elemento de cierto conjunto de valores. De modo que una muestra simple aleatoria X1, X2,
,Xn se puede interpretar como un conjunto de valores de n variables aleatorias
independientes, cada una de las cuales tiene la misma distribucin, que es llamada
distribucin poblacional.

Existen a su vez dos formas de extraer una muestra de una poblacin: con reposicin y sin
reposicin.

Muestreo con reposicin: Es aquel en que un elemento puede ser seleccionado ms de una
vez en la muestra. Para ello se extrae un elemento de la poblacin, se observa y se devuelve a
la poblacin, por lo que de esta forma se pueden hacer infinitas extracciones de la poblacin,
aun siendo sta finita.

Muestreo sin reposicin: No se devuelve los elementos extrados a la poblacin hasta que no
termina el muestreo en s.

Cuando se hace un muestreo probabilstico, debemos tener en cuenta principalmente dos


aspectos:

El mtodo de seleccin.
El tamao de la muestra

Mtodo de seleccin

Una forma de extraer una muestra aleatoria de una poblacin finita es enumerando todos los
elementos que conforman la poblacin, y mediante un generador de nmeros aleatorios
extraer tantos elementos de la poblacin como indique el tamao de muestra. En este caso los
elementos de la muestra lo constituirn los elementos de la poblacin cuyos nmero coincidan
con los extrados.

Otro procedimiento para obtener una muestra de una poblacin, ya sea el muestreo con
reposicin o sin reposicin, es mediante la utilizacin de la tabla de nmeros aleatorios pero
solamente para poblaciones finitas, la utilizacin de estas tablas puede realizarse de diferentes
modos pero en el presente trabajo solo expondremos el que consideramos ms eficiente ya
que no se necesita de la bsqueda de una gran cantidad innecesaria de nmeros aleatorios en
tabla.

13
Existen diferentes tablas de nmeros aleatorios, las cuales se pueden encontrar en la literatura
reportada al final del captulo, pero debido al avance de los medios informticos, hoy en da,
la generacin de nmeros aleatorios se realiza con el auxilio de un software de clculo o
mediante una calculadora cientfica.

Para ello se debe establecer un rango de valores que puede tomar la variable aleatoria, que
cubra el nmero total de valores en la poblacin.

Ej. Si la poblacin es de un milln de elementos, podra ser conveniente establecer una


funcin que genere nmeros aleatoriamente entre uno y un milln. As cada elemento de la
poblacin, est la misma formada por elementos cualitativos o cuantitativos puede recibir un
nmero de los probables a obtener como identificacin del mismo.

Si tenemos un milln de hormigas, todas de la misma especie y queremos realizar un


muestreo aleatorio de solo cinco de estas, estableceramos un acotamiento para la funcin
generadora de nmeros aleatorios y su variable aleatoria (Xa) entre 1 Xa 1.000.000

El resultado de los cinco nmeros aleatorios, el cual establece el criterio de seleccin de estas
cinco hormigas en un milln quedara a modo de ejemplo:(319630, 729604, 747308, 575210,
246564).

El tamao de la muestra

Al realizar un muestreo probabilstico nos debemos preguntar Cul es el nmero mnimo de


elementos de anlisis que se necesitan para conformar una muestra n que asegure un error
estndar menor que 0.1 (fijado por el investigador), dado que la poblacin tiene N elementos?

Para la seleccin del tamao de una muestra de una poblacin tenemos que tener presente
adems si es conocida o no la varianza poblacional. Para determinar el tamao de muestra
necesario para estimar con un error mximo permisible d prefijado y conocida la varianza
poblacional (2) podemos utilizar la ecuacin:
2
Z (1 )
n= 2
(15)
d

donde d es el error estndar o error mximo prefijado y est dado por la expresin

d= Z (1 ) para el nivel de confianza 1-, y constituye una medida de la precisin de la
n 2

estimacin, por lo que podemos inferir adems que:

P{ x < d } = 1 (16)

Resulta necesario abundar un poco ms en los conceptos y formulas expuestos en el presente


captulo, para poder continuar con el desarrollo del mismo y poder analizar posteriormente
algunos ejemplos de aplicaciones al muestreo.

14
La ecuacin (15) propuesta para determinar el tamao de muestra, es una ecuacin que
combina la estadstica con otra rama de las matemticas denominada teora de las
probabilidades. Esta ciencia estudia los modelos matemticos que permiten realizar
experimentos aleatorios o estimar la probabilidad de que ocurra un evento determinado para
un conjunto determinado de eventos, acorde a una funcin denominada distribucin de
probabilidad.

Acorde a la definicin general de probabilidad, dado un espacio S con un evento A, existe un


nmero P(A) asociado, llamado probabilidad de A tal que se cumplen los siguientes axiomas:

0 P(A) 1 (17)

P(S) = 1 (18)

P(AB)=P(A)+P(B) (19)

Si consideramos las distribuciones de frecuencia de datos, tal como se analizaron en el


captulo 1, acorde al ajuste matemtico de los histogramas de frecuencias de las mismas,
representan una funcin matemtica denominada funcin de distribucin. Las figuras 3.1-3.4
muestran algunas de las distribuciones que se encuentran comnmente en la prctica. La ms
frecuente de todas es la de Gauss o distribucin normal.

Fig. 3.1 Curva de distribucin normal

15
Fig. 3.2 Curva de distribucin Chi-cuadrado

Fig. 3.3 Curva de distribucin exponencial

Fig. 3.4 Curva de distribucin de Laplace

Es muy importante puntualizar que las funciones densidad de probabilidad tambin responden
a este tipo de distribuciones de frecuencias. Las distribuciones de probabilidad nos muestran
la probabilidad de ocurrencia de eventos en un experimento. En este caso la variable X se
denomina como variable aleatoria.
16
As, la funcin de distribucin de probabilidad queda planteada de la siguiente forma:

F(x) = P(X x) (20)

Representando la probabilidad de ocurrencia del intento X no exceda la cantidad x.

La funcin densidad de probabilidad representa una funcin matemtica y una variable


aleatoria donde ambas pueden ser discretas o continuas. En el primer caso, la representacin
grfica de una funcin densidad de probabilidades quedara tal como muestra la Fig.3.5 para
un ejemplo en especfico.

Fig.3.5 Funcin densidad de probabilidad en variables discretas y funcin de distribucin F(x)


[Kreyszig]

En el caso del anlisis de variables continuas, la funcin de probabilidades es evaluada


mediante una integral definida en un intervalo dado. El anlisis de este tipo de variables y
funciones es mucho ms sencillo que el caso de variables discretas. El anlisis grfico se
muestra a continuacin.

17
Fig.3.6 Funcin de densidad de probabilidad en variables continuas para una distribucin
normal [Kreyszig]

Un anlisis detallado de la literatura especializada en muestreo plantea que el muestreo con


reposicin se representa mediante distribucin binomial mientras que el muestreo sin
reposicin es representado mediante distribucin hipergeomtrica. Tambin se plantea que si
la poblacin es infinitamente grande, se puede utilizar la distribucin binomial independiente
de si hay reposicin o no.

Precisamente son las distribuciones binomial, Poisson e hipergeomtrica las mas empleadas
para variables discretas, mientras que para variables continuas es la distribucin normal. La
distribucin normal es la mas empleada debido a su mayor ocurrencia y simplicidad. Incluso
muchas funciones son aproximadas a una distribucin de Gauss para llevar a cabo un trabajo
menos engorroso.

La ecuacin (15) es muy utilizada para determinar el tamao de muestra, pero esto solo es
posible si el conjunto de datos est distribuido normal o si este tipo de distribucin es el mejor
ajuste para los datos.
2
Z (1 )
Retomando la ecuacin (15) n = 2 ; en sta el valor de Z (1 ) se extrae de la Tabla

d 2


de distribucin normal del Anexo 1. Tanto la desviacin estndar como la diferencia d entre
el valor del estadgrafo analizado y el valor poblacional deben ser establecidos por el
investigador.

Ejemplo: Se dispone de una poblacin de 1000 artculos almacenados en una base de datos.
Se desea realizar un estudio o evaluacin de un indicador x, lo cual no sera posible de realizar
para toda la poblacin debido a los costos y al tiempo empleado en la investigacin. Sin
embargo, se desea poder disponer de un resultado que sea vlido para todo el conjunto de
artculos que se encuentran en la base de datos.

Si suponemos o es posible determinar que el parmetro o ndice analizado presenta una


distribucin normal, entonces podemos mediante (15) determinar el tamao de muestra. Si se
supone que la desviacin estndar es 0.3 y se desea una probabilidad de 0.95 de que el
indicador que se va a estimar y su parmetro se diferencien en no ms de 0.1, entonces:
18
N= 1000

d = 0.1

= 0.3

1- = 0.95

1- = 0.975

Este ultimo clculo sale de la Tabla 1 de los anexos.

Por tanto segn (15)

n= = 34.57

Debido a que el nmero de elementos no puede ser fraccionario, se toma el nmero entero que
viene a continuacin, es decir, por exceso. En este caso la muestra a tomar es de 35 artculos.

Si la varianza de la poblacin es desconocida, que es lo que ms frecuentemente se ve en la


prctica, el tratamiento ser diferente. No es posible encontrar una frmula cuando la varianza
poblacional es desconocida por lo que para ello es necesario utilizar el siguiente
procedimiento, aunque existen otros.

Primeramente, se toma una pequea muestra, que se le llama muestra piloto. Con ella se
estima la varianza poblacional ( 2 ) y con este valor se evala en la formula (15),

sustituyendo ( 2 ) por su estimacin ( s 2 ). El valor de n obtenido ser aproximadamente el


valor necesario, nuevamente con ese valor de n se extrae una muestra de este tamao de la
poblacin, se le determina la varianza a esa muestra, como una segunda estimacin de ( 2 )

y se aplica de nuevo la formula (15), tomando la muestra con el n obtenido como muestra
piloto para la siguiente iteracin. Llega un momento en que las diferencias entre la 2 de 2
s
tiende cero o a estabilizarse a medida que el tamao de muestra tienda al valor adecuado. En
la prctica a lo sumo con tres iteraciones se obtiene el tamao de muestra deseado.

Para determinar el tamao de la muestra cuando los datos son cualitativos, es decir para el
anlisis de fenmenos sociales o cuando se utilizan escalas nominales para verificar la
ausencia o presencia del fenmeno a estudiar, se recomienda la utilizacin de la siguiente
ecuacin:

n'
n= (21)
1 + n' N

19
s2
siendo n' = donde:
2

2 es la varianza de la poblacin, que puede determinarse mediante:

2 = ( se )
2 (22)

( se ) 2 es el error estndar al cuadrado, que nos servir para determinar 2 , por lo que es la

varianza poblacional. se es error estndar que est dado por la diferencia entre ( x ) la
media poblacional y la media muestral (error estndar deseado).

s 2 es la varianza de la muestra, la cual podr determinarse en trminos de probabilidad como


s 2 = p(1 p) (23)

Ejemplo: Se aplica una encuesta para determinar el nivel de conocimientos y de necesidad de


una poltica de evaluacin de publicaciones para los investigadores del pas. Se necesita saber
cuntos investigadores es necesario encuestar para que sea representativo al total.
Supongamos que la poblacin de investigadores es de 5000 y que se desea un error estndar
menor de un 0.01 con un nivel de confianza de 95 %.

Entonces:

N = 5000

se = 0.01

2
= ( se) 2 = (0.01) 2 = 0.0001

s 2 = p (1 p ) = 0.95(1 0.95) = 0.047

s2 0.047
entonces: n' = = = 470
2
0.0001

n' 470
n= = = 429
1 + N 1 + 470 5000
n '

Si se considera que la muestra es muy grande, el investigador entre sus opciones dispone de
cambiar a error estndar de 0.05 o cambiar el nivel de confianza. Para el primer caso el
tamao de muestra a escoger cambiara a n = 18.7. Es decir, se necesitaran 19 encuestas
realizadas.

Hasta aqu hemos podido determinar el tamao de una muestra a tomar dentro de una
poblacin garantizando ciertos valores prefijados por el investigados de desviacin estndar y
de niveles de confianza fundamentalmente.
20
La pregunta que an queda por responder es: una vez definido el nmero de elementos a
tomar de la poblacin: De qu forma tomo de la poblacin ese determinado nmero de
elementos? La respuesta a esta interrogante se expondr a continuacin.

Muestreo aleatorio simple

Un procedimiento para extraer una muestra aleatoria de una poblacin finita es el de enumerar
todos los elementos que conforman la poblacin, escribir esos nmeros en papelitos, echarlos
en un bombo o bolsa, mezclarlos bien y sacar uno a uno tantos papelitos como lo indique el
tamao de la muestra. En este caso los elementos de la muestra lo constituirn los elementos
de la poblacin cuyos nmero coincida con los extrados de la bolsa.

Otro procedimiento para obtener una muestra de una poblacin es mediante la utilizacin de
tablas de nmeros aleatorios pero solamente para poblaciones finitas, debido a razones obvias.
Estas tablas pueden llegar hasta 1000 nmeros aleatorios dispuestos en filas y columnas.

Con el uso de herramientas de computo como el Excel es posible la determinacin de


nmeros aleatorios sin la necesidad del uso de tablas. En esta hoja de clculo es posible
aplicar el operador matemtico:

=ALEATORIO( )

Este operador genera un nmero aleatorio cualquiera.

El siguiente operador matemtico nos permite general nmeros aleatorios en un rango


determinado de valores. Es decir, establece una cota inferior y una superior para la generacin
de tantos nmeros aleatorios como sean necesarios. En el caso de necesitar n nmeros entre 1
y 1000 es posible plantear

=ALEATORIO.ENTRE(1:1000)

As, una vez determinado el tamao de muestra a tomar de una poblacin, si se determina
utilizar el muestreo aleatorio simple es posible seleccionar todos los elementos de muestra
mediante nmeros aleatorios.

Siempre que se pueda, se recomienda la utilizacin del muestreo aleatorio simple, el cual
elimina todo sesgo. Sin embargo debido a diferentes razones prcticas y econmicas, en no
pocas ocasiones es necesario el empleo de otras tcnicas de muestreo que no emplean la
aleatorizacin completa en la seleccin. Un ejemplo de ello es el muestreo estratificado.

Muestreo Estratificado

A veces el estudio a realizar es complicado debido a que todos los elementos de la muestra n a
tomar deben poseer determinado atributo. Debido a ello, es necesario entonces estratificar la
muestra. Es decir, cuando no basta que cada uno de los elementos muestrales tengan la misma
probabilidad de ser escogidos, sino que adems es necesario estratificar la muestra en relacin
a estratos o categoras que se presentan en la poblacin y que son relevantes para los objetivos
del estudio. Entonces se disea una muestra probabilstica estratificada.
21
Lo que se hace es dividir a la poblacin en subpoblaciones o estratos, tantos como necesite el
investigador acorde al nmero de categoras establecidas por l y se selecciona la muestra
para cada estrato. La estratificacin aumenta la precisin de la muestra e implica el uso de
diferentes tamaos de muestra para cada estrato.

Se conoce que en un nmero determinado de elementos muestrales n = nh la varianza de


la media muestral x puede reducirse al mnimo si el tamao de la muestra para cada estrato es
proporcional a la desviacin estndar dentro del estrato.

Esto se expresa mediante,

n
fh = = K Sh (24)
N

donde fh es la fraccin del estrato, n el tamao de la muestra, N el tamao de la poblacin, sh


es la desviacin estndar de cada elemento del estrato h, y K es una proporcin constante que
nos dar como resultado una n ptima para cada estrato.

De esta manera, el total de la subpoblacin o nmero de elementos que componen cada


estrato se multiplica por esta fraccin constante a fin de obtener el tamao de muestra para
cada estrato. Esto se realiza mediante la ecuacin:

Nh fh = nh (25)

Es decir, el nmero de elementos que componen cada estrato se multiplica por el coeficiente
de estrato y da como resultado el nmero de elementos a tomar dentro de cada estrato
previamente conformado.

Un ejemplo del uso de esta tcnica de muestreo puede ser la siguiente:

Ejemplo: Supongamos que trabajamos con la misma situacin del ejemplo anterior del
presente captulo. Es decir, se dispone de un poblacin de 5000 investigadores (N = 5000). Se
desea realizar un estudio de productividad cientfica para esta poblacin, pero sta es muy
grande e implica una tcnica de muestreo que difcilmente pueda ser totalmente al azar.

Por consideraciones del encuestador, se desea realizar el anlisis de productividad para


investigadores con determinadas categoras cientficas, es decir, se desea realizar un anlisis
por clases o categoras. As se establecen las categoras de doctor en ciencias, mster y
licenciado o ingeniero. Estas tres categoras definen entonces tres clases y por ende tres
estratos.

As la poblacin queda estratificada y el tamao de cada estrato lo definen el nmero de


investigadores en cada clase.

Supongamos que en este caso de los 5000 investigadores hay:

850 Doctores

22
1754 Mster

2396 Licenciados

Recordemos adems que el valor de n a tomar en la poblacin fue de 429. Ahora es necesario
determinar cuntos elementos es necesario tomar de cada estrato de manera que se garantice
un total de elementos entre los tres estratos de 429.

Tenemos entonces que la poblacin es de 5000 investigadores y que el tamao de la muestra a


tomar es n = 429. La fraccin para cada estrato fh ser :

n 429
fh = = = 0.086
N 5000
Esto define los tamaos de muestra a tomar para cada estrato. Los resultados del clculo se
muestran en la Tabla 3.1. Los resultados dan un total de 432, valor mayor que 429 debido a
que la aproximacin del nmero decimal obtenido siempre es por exceso. Es necesario sealar
que la seleccin de los Nh elementos de cada estrato deben realizarse entonces por muestreo
aleatorio.

Tabla 3.1 Determinacin del tamao de muestra de cada estrato

Estrato o subpoblacin Nh fh = nh Nh (tamao de muestra en


el estrato h)

Doctores 8500.086 = 73.10 74

Mster 17540.086 = 150.84 151

Licenciados 23960.086 = 206.06 207

Muestreo probabilstico por racimos

Este muestreo tambin es conocido por muestreo por grupos o conglomerados. Se utiliza en
casos donde el investigador se ve limitado por recursos financieros, por tiempo, por distancias
geogrficas o por una combinacin de estos y otros obstculos, se recurre a otra modalidad de
muestreo llamado por racimos. En este tipo de muestreo se reducen costos, tiempo y energa
al considerar que muchas veces nuestras unidades de anlisis se encuentran encapsuladas o
encerradas en determinados lugares fsicos o geogrficos que denominamos racimos.

Se puede emplear solo cuando la poblacin se encuentra dividida, de manera natural, en


grupos que se suponen que contienen toda la variabilidad de la poblacin, es decir, la
representan fielmente respecto a la caracterstica a elegir, pero pueden seleccionarse solo
algunos de estos grupos o conglomerados para la realizacin del estudio.

23
A continuacin se muestran algunos ejemplos de racimos:

Tabla 3.2 Ejemplos de racimos

Unidad de Anlisis Posibles Racimos


Adolescentes Secundarias
Obreros Industrias
Amas de casa Mercados
Nios Escuelas
Personajes de televisin Programas de televisin

Se realiza eligiendo varios de los grupos que le componen al azar, y ya elegidos algunos
podemos estudiar a todos los elementos de los grupos elegidos o bien seguir aplicando dentro
de ellos ms muestreos por grupos, por estratos o aleatorios simples.

Al igual que en el muestreo estratificado, al extrapolar los resultados a la poblacin hay que
tener en cuenta el tamao relativo de unos grupos con respecto a otros.

El muestreo por racimos supone una seleccin en dos etapas, ambas con procedimientos
probabilsticos. En la primera, se seleccionan los racimos, siguiendo los pasos de una muestra
probabilstica simple. En la segunda, y dentro de estos racimos se seleccionan los elementos
que van a ser medidos. Para ello se hace una seleccin que asegure que todos los elementos
del racimo tienen la misma probabilidad de ser elegidos.

Ejemplo: Muestreo estratificado y por racimos.

Se necesita saber con precisin, cual es nivel de lectura de revistas de corte cientfico-tcnico
por parte de 3.000.000 de habitantes que tiene una ciudad. Incluso se necesita saber que temas
prefieren y de qu forma acceden a dichas revistas.

Procedimiento: Se disea un cuestionario que pregunte sobre estos temas en particular. Los
cuestionarios se aplican por entrevistadores a una muestra de personas adultas.

Poblacin: Todas aquellas personas de ambos sexos que tengas 18 o ms aos de edad.

Anlisis por racimos: Se desconoce el nmero total de habitantes con las caractersticas arriba
sealadas. Sin embargo tenemos que tomar una muestra que abarque todos los adultos de la
ciudad.

Se puede decidir analizar por racimos donde cada racimo puede ser cada cuadra de la ciudad.
Supongamos que la ciudad tiene 8.000 cuadras. Es decir, las cuadras se utilizan como
unidades muestrales, a partir de las cuales se obtiene finalmente cada elemento muestral.

Entonces, primero es necesario determinar el nmero de cuadras a analizar dentro de la


ciudad. Es necesario conocer cuantas cuadras hay que tomar para un error estndar y una
probabilidad de ocurrencia determinados. Una vez establecidos estos valores por el
investigador y conociendo el tamao de la poblacin, entonces con ayuda de las ecuaciones
(21-23) se determina el nmero de cuadras n. En este caso se utilizan las ecuaciones para
24
muestreo de datos cualitativos dada la naturaleza del estudio que se utiliza a modo de
ejemplo.

As, para un error estndar no mayor de 0.1 y una probabilidad de ocurrencia de 80 %:

N = 8000 (es en este caso la unidad muestral es el nmero de cuadras y no los habitantes)

se = 0.1

2
= ( se) 2 = (0.1) 2 = 0.01

s 2 = p (1 p ) = 0.80(1 0.80) = 0.16

s 2 0.16
entonces: n' = = = 16
2 0.01

n' 16
n= = = 16
1 + N 1 + 16 8000
n '

Se deben tomar 16 cuadras para el estudio.

Se sabe adems que la poblacin de las 8000 cuadras est dividida socialmente por estratos
socioeconmicos, segn su nivel de ingresos. Se pueden clasificar estos niveles de ingresos en
cuatro estratos (muy alto, alto, medio, bajo). Se conoce adems que las 8000 cuadras se
distribuyen por estratos de la siguiente forma.

Tabla 3.3 Estratificacin de una poblacin

Estrato Nmero de cuadras

1 120

2 2364

3 3440

4 2076

T = 8 000

Estratificacin de la muestra:

n
fh = = KSh
N
16
fh = = 0.002
8000

La distribucin de los 16 elementos muestrales de acuerdo a los cuatro estratos


socioeconmicos quedara de la siguiente manera:
25
Tabla 3.4 Seleccin de elementos muestrales por estrato

Estrato No. de cuadras fh = 0.002 nh

1 120 (0.002) 1

2 2364 (0.002) 5

3 3440 (0.002) 7

4 2076 (0.002) 4

T = 8 000 n = 17

Tenemos que en principio, se seleccionarn de un total de 8000 cuadras, una del primer
estrato, 5 del segundo, 7 del tercero y 4 del cuarto estrato. Estas cuadras a seleccionar por
estrato se deben elegir aleatoriamente.

Por ltimo, se seleccionan a los sujetos dentro de cada conglomerado. Este procedimiento
tambin se hace de manera aleatoria, hasta lograr el nmero de sujetos determinados en cada
conglomerado acorde al procedimiento expuesto en la siguiente tabla.

Tabla 3.5 Seleccin del nmero de elementos por estrato

Estrato Nh cuadras Nh Nmero de hogares- Total de personas a


sujeto por cuadra encuestar por estrato

1 120 1 20 20

2 2364 5 30 150

3 3440 7 45 315

4 2076 4 55 220

Totales T = 8 000 n = 17 150 705

Muestreo aleatorio sistemtico

Se elige un elemento al azar y a partir de l, a intervalos constantes, se eligen los dems hasta
completar la muestra.

Por ejemplo si tenemos una poblacin formada por 5000 elementos y queremos extraer una
muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que
ser igual a 5000/25 (N/n) = 200. A continuacin elegimos el elemento de comienzo, tomando
aleatoriamente un nmero entre 1 y 200, y a partir de l obtenemos los restantes elementos de
la muestra sumando al primer nmero el intervalo calculado.

26
33, 233, 433,..,4833.

Posteriormente se realiza en estudio en cuestin sobre los 25 elementos seleccionados


mediante la aleatorizacin sistemtica.

La seleccin del tamao de una muestra tal como ha sido ilustrado en este captulo, depende
tanto del tipo de datos, como de la desviacin estndar, probabilidad, etc. Estos parmetros
estadsticos son prefijados por el investigador acorde a sus necesidades o a su experiencia
previa en el tipo de investigacin que el mismo realiza.

La seleccin del tamao de muestra es en muchos casos independiente del tipo de muestreo a
emplear. Este ltimo es tambin seleccionado por el investigados acorde a los objetivos de su
investigacin y a la complejidad de la misma y de la poblacin en s. Es posible incluso la
utilizacin de varios procedimientos de muestreo dentro de un mismo anlisis estadstico.

Es oportuno sealar que aunque no fue tratado en el captulo, existe un tipo de muestreo
denominado muestreo errtico, tambin conocido como muestreo sin norma. En l la muestra
se obtiene de cualquier forma, valorando nicamente la comodidad o la posibilidad en
trminos de costo de la investigacin, tiempo u otro factor no estadstico. Siempre que sea
posible se debe evitar este tipo de muestreo.

27
Duda siempre de ti mismo, hasta que los datos no dejen lugar a dudas. Louis Pasteur

Captulo 4

Anlisis de Regresin y Correlacin

Regresin

En casi todos los campos del conocimiento humano, es necesario establecer y caracterizar
relaciones entre variables o conjuntos de datos. Establecer estas relaciones implica la
obtencin de modelos matemticos simples con constantes de modelo que generalmente
poseen un significado fsico de inters y para los cuales en muchas ocasiones es necesario
evaluar su intervalo de confianza, dispersin, desviacin estndar, etc. Estos problemas
pueden ser resueltos aplicando el llamado anlisis de regresin.

El anlisis de regresin puede ser aplicado siempre que se conozca cual es la dependencia
entre dos o ms variables. Es decir, se establece antes de este anlisis cuales son las variables
independientes (x) y cuales las dependientes (y). Se establece que los valores de las variables
independientes son despreciables en comparacin con los de las dependientes.

Regresin lineal

En muchos campos es frecuente encontrarse con relaciones lineales entre dos o ms variables.

Sin embargo pueden presentarse relaciones ms complejas como parablica, hiperblica,


logartmica, exponencial, etc. La principal ventaja de la regresin lineal respecto al resto de la
gran cantidad de funciones matemticas que podemos encontrar en un anlisis de regresin,
radica en la sencillez del procedimiento matemtico de evaluacin de los coeficientes, los
estadgrafos y la elaboracin del grafico del ajuste matemtico. El modelo bsico de la
regresin lineal es el correspondiente a:

y = a + bx (26)

donde x e y representan las variables independiente y dependiente respectivamente. Los


coeficientes a y b se denominan constantes del modelo o parmetros. Tambin es comn
nombrar a como constante del modelo y b como pendiente del mismo.

El problema general de hallar las ecuaciones de las curvas propuestas que se ajustan mejor al
conjunto numrico analizado se denomina ajuste de curvas. El anlisis de la lnea recta o
regresin lineal se realiza en la estadstica bsica mediante el mtodo conocido como mnimos
cuadrados. Esta es una forma de definir la curva optima.

Para cada valor de x existe un valor de y terico (predicho por la ecuacin), cuyo smbolo es
. Adems de ello, existe para cada valor de x un valor de y real o experimental. La diferencia
entre estos dos valores es conocida en estadstica como residual. Cada valor de residual queda

Estos residuales son calculados para cada punto analizado dentro del conjunto de datos, al
igual que su valor al cuadrado.
28
Estos residuales al cuadrado = son analizados grupalmente para saber
cuan adecuado es el ajuste realizado.los valores de los residuales al cuadrado (mnimos
cuadrados) sern mayores mientras peor sea el ajuste. De la infinita cantidad de posibilidades
de trazo de una recta, ser seleccionada la recta optima, la cual corresponder a los valores
menores de los mnimos cuadrados o residuales al cuadrado.

Acorde al mtodo de los mnimos cuadrados, las ecuaciones de ajuste de la lnea recta son:

b= (27)

para la pendiente y:

a= (28)

para el intercepto.

Los coeficientes a y b son variables aleatorias, obtenidas a partir de conjuntos de datos que
contienen errores. Es posible determinar los errores estndar correspondientes a ambos, as
como sus intervalos de confianza. Las ecuaciones respectivas pueden encontrarse en las
referencias bibliogrficas.

Un ejemplo de lo expuesto hasta aqu en el presente captulo puede ser enfatizado mediante
un ejemplo.

Se desea conocer la relacin matemtica existente entre el nmero de artculos publicados por
cada autor en un perodo de tiempo determinado (variable independiente) y un ndice creado
para evaluar la productividad cientfica de los autores. El ndice analizado es referido como
ndice P (IndP). Para ello se analiza un total de 20 autores y su correspondiente ndice
calculado.

Para ello lo ms adecuado es realizar un anlisis de regresin simple. Los datos del nmero de
artculos publicados por los 20 autores y sus respectivos ndices P calculados se muestran en
la Tabla 4.1.

El objetivo fundamental, en este punto es la determinacin de los coeficientes a y b, as como


los estadgrafos fundamentales referidos a estos. Tambin es necesario determinar si el
intercepto es significativo o no. El anlisis de residuales puede complementar el anlisis de la
"bondad" del ajuste.

29
Tabla 4.1 Numero de artculos publicados e ndice P por autor

Artculos publicados Nmero de citas ndice P


recibidas

2 1 3.2

2 1 3.0

3 0 3.5

1 0 2.1

4 0 3.4

3 1 4.0

7 2 4.6

8 4 5.2

4 3 4.6

5 1 4.0

4 1 4.0

3 1 3.0

4 2 2.8

2 2 2.6

3 0 2.6

2 0 2.7

1 6 2.0

2 3 2.6

3 4 3.2

1 1 1.2

Los resultados fundamentales del anlisis de regresin se muestran en la Tabla 4.2. En ella se
muestra el valor obtenido para los coeficientes del ajuste, as como el error estndar y la
probabilidad.

30
Tabla 4.2 Anlisis de Regresin

Parmetro Valor estimado Error estndar Probabilidad

Intercepto (a) 1.8 0.2 0.0000

Pendiente (b) 0.4 0.01 0.0000

Los resultados obtenidos primeramente nos dicen que la relacin entre el nmero de artculos
publicados y el ndice P es la siguiente:

Ind P = 1.8 + 0.4n

donde n es el nmero de artculos publicados.

Este tipo de ecuacin obtenida para un anlisis de correlacin permite establecer y calcular
numricamente un indicador o variable cualquiera una vez determinada su relacin
cuantitativa con determinado nmero de factores o variables independientes. En este caso con
la ecuacin obtenida se puede calcular el ndice P para cualquier cantidad n de artculos
publicados.

La columna de errores estndar dan un estimado del error en el valor reportado para cada uno
de estos coeficientes. Es decir, el valor real de a est en el intervalo 1.8 0.2. En el caso de b
el valor real est en el intervalo 0.4 0.01.

El valor de la probabilidad nos permite determinar si el coeficiente en cuestin es o no


estadsticamente significativo. Para un 95% de intervalo de confianza, valores de probabilidad
menores de un 0.05 indican que el parmetro analizado es estadsticamente significativo.

6
5
4
IndP

3
2
1
0
0 2 4 6 8
articulos

Fig.4.1 Ajuste lineal para los datos de artculos publicados versus ndice P

En el caso de trabajar para un 99 % de intervalo de confianza, la significacin estadstica est


determinad para valores menores de 0.01. En este caso ambos coeficientes son
estadsticamente significativos y por ende no pueden ser eliminados del modelo matemtico

31
obtenido para la regresin lineal. El grfico de los datos as como su ajuste lineal se muestra
en la Fig.4.1.

En la figura mostrada se observan los valores obtenidos para cada autor evaluado, as como la
lnea recta en negro que representa la regresin lineal para el mejor ajuste mnimo cuadrtico.
En el grfico se observan dos regiones bien limitadas en azul y rojo. Las lneas azules
representan para un 95 % de confianza, los lmites de prediccin. Esta regin representa los
valores por debajo de 1.5, mientras que entre las lneas azul y rojo se encuentra la regin
comprendida entre 1.5 3. Valores por encima de este intervalo caen por fuera de la
frontera en rojo, la cual se denomina lmite de confianza o de accin. Valores que exceden
este lmite deben ser primero que todo analizados como posibles errores burdos y revisarlos o
repetir la determinacin. Es por ello que se suele llamar lmite de accin. No obstante ello no
quiere decir que el valor deba ser eliminado, sino solo analizado.

Otro anlisis que se realiza con mucha frecuencia en la regresin es el anlisis de residuales.
El diagrama de residuales para el ejemplo tratado se muestra en la Fig. 4.2.

2,6

1,6
residuales

0,6

-0,4

-1,4

-2,4
2,2 3,2 4,2 5,2 6,2
Ind P

Fig. 4.2 Grfico de residuales para la regresin lineal

La lnea horizontal representa residual cero que es el valor ideal para todo modelo o relacin
matemtica obtenida. Los valores de residuales obtenidos quedan as distribuidos por encima
y por debajo de esa lnea, pues es natural que algunos valores predichos excedan el valor real
y otros le aproximen por defecto.

Lo cierto es que el anlisis de residuales es un recurso bastante fiable para analizar si el ajuste
es adecuado o no. Incluso permite determinar si es necesario cambiar el modelo matemtico a
otro que no sea lineal.

El residual como ya ha sido indicado no es ms que la diferencia entre el resultado de una


medicin y el valor predicho para esta por la ecuacin que le corresponde. Los residuales son
estimados del error aleatorio de la determinacin y pueden ser utilizados para estimar la
precisin del mtodo. Se puede convertir la suma de cuadrados en varianza y por tanto en
desviacin estndar.
32
La suma de los cuadrados de los residuales es muy til para decir cun bien la lnea ajusta los
puntos. Si todos los puntos caen en la lnea de ajuste entonces cada residual ser igual a cero.
Con la ecuacin de regresin se pueden calcular las reas predichas para cada punto y por
tanto los residuales. Es de esperar que los residuales obtenidos satisfagan una distribucin
normal. Si no obedecen a sta podemos plantear una de las siguientes conclusiones:

1. Los errores aleatorios presentan otro tipo de distribucin.


2. Se ha ajustado la data a la ecuacin equivocada.

Los errores aleatorios tienen que ser independientes entre s. Por lo que debemos esperar no
encontrar ninguna seria relacin entre los residuos. Debemos esperar entonces que los
residuos positivos y negativos se mezclen de una forma totalmente aleatoria. Si encontramos
por ejemplo que la lista de residuos contiene grupos claros o tendencias es de esperar que:

1. Los errores de las determinaciones no son independientes.


2. Alguna extraa influencia es causada en ciertos perodos de tiempo.
3. Se ha ajustado a la ecuacin equivocada.

En nuestro ejemplo no hay evidencia de ajuste de los residuales mostrados en la Fig.4.2 a


ninguna funcin matemtica por lo que podemos concluir que estn distribuidos
aleatoriamente.

En resumen, un buen anlisis de residuales debe buscar valores pequeos de residuales. Los
valores recomendados estn generalmente entre 2 para el 96 % de los puntos, debe haber
adems consistencia en la magnitud del residuo y ausencia de tendencias en su signo. Esto
ltimo normalmente se analiza como una tendencia a 50 % de los datos para cada signo con
determinado margen de variacin.
En nuestro ejemplo todos los residuales estn por debajo de 2.6 y el 90 % por debajo de 2, lo
cual es muy adecuado. Adems de ello hay 11 de 20 valores con residual negativo lo cual
ilustra la paridad en el cambio de signos.

Anlisis de regresin en el caso de ms de una variable independiente

El anlisis anterior es aplicable cuando solo hay una variable independiente. Pero en
ocasiones es necesario correlacionar ms de una variable independiente en su relacin con una
variable dependiente. En este caso estamos en presencia de un anlisis de regresin mltiple.
Este anlisis bsicamente tiene el mismo tipo de anlisis anteriormente expuesto pero la
regresin lineal, pero buscando una ecuacin matemtica del tipo:

y = a +a1x1+a2x2+.+anxn (29)

Es posible realizar anlisis de mnimos cuadrados tambin en este ajuste, as como anlisis de
residuales y de valores de probabilidades para determinar que coeficientes son significativos
y cules no.

Analicemos el mismo ejemplo anterior para el caso que deseramos hacer una anlisis ms
complejo. Es decir, queremos aadir otra variable independiente para ajustar
matemticamente al ndice en estudio. Se aade la variable nmero de citas recibidas.

33
En este caso tenemos entonces dos variables independientes y una dependiente. Se desea as
obtener la ecuacin que relaciona al ndice P y estas dos variables independientes. Las citas
recibidas se presentan en la Tabla 4.1.

Los resultados del anlisis de regresin mltiple se muestran en la siguiente tabla.

Tabla 4.3 Anlisis de Regresin Mltiple para el ndice P

Parmetro Estimado Error Probabilidad Lmite Lmite


estndar inferior superior

Constante 1.77 0.26 0.0000 1.23 2.31

Artculos 0.46 0.07 0.0000 0.32 0.59

Citas -0.006 0.07 0.9335 -0.16 0.15

En el anlisis de regresin mltiple se analiza generalmente el intervalo de confianza para


cada valor estimado de coeficientes tal y como se muestra en la Tabla 4.3. el grafico
correspondiente a la relacin entre las tres variables analizadas se muestra en la Fig. 4.3. la
observacin ms importante de la Tabla 4.3 es que dado el valor obtenido de probabilidad
para el coeficiente que representa las citas recibidas (0.9335) es evidente que el ndice P no
est relacionado de manera alguna, es decir no depende del nmero de citas recibidas para un
95 % de intervalo de confianza dado que la probabilidad P > 0.05. Esto llevara a eliminar ese
factor del modelo obtenido, por lo que la relacin de ndice P quedara justo como en el
ejemplo de regresin lineal.

6
5
4
IndP

3
2
1 6
0 3 4 5
0 2
2 4 6 0 1 citas
8
articulos

Fig.4.3 Regresin mltiple para Ind P

El anlisis de residuales tiene el mismo significado y criterios que para el caso de regresin
lineal. El diagrama de residuales para la regresin mltiple se muestra en la Fig.4.4.

El anlisis de residuales muestra valores menores de 1.3 en todos los casos. Adems de ello
no hay tendencia alguna a un patrn en los residuales y hay 11 de 20 valores por debajo de la
34
lnea que representa residual cero, por lo que el ajuste parece ser bastante adecuado a los
datos.

1,7
1,3
0,9
residual

0,5
0,1
-0,3
-0,7
-1,1
0 1 2 3 4 5 6
Ind P predicho

Fig.4.4 Anlisis de residuales para el caso de regresin mltiple

El anlisis de regresin, nos permite establecer la relacin entre variables mediante el ajuste
de modelos matemticos pre-establecidos. La forma de determinar si el ajuste es adecuado o
no se ha basado en el anlisis de mnimos cuadrados, residuales y sus distribuciones o
comportamiento, valores de probabilidades y anlisis de los grficos obtenidos. Aunque un
anlisis de regresin que comprenda todo lo antes expuesto es bastante completo, requiere de
un anlisis adicional que viene a complementar adecuadamente este tipo de estudio que se
denomina anlisis de correlacin. Estadsticamente hablando, es prcticamente imposible ver
un estudio profundo de anlisis de regresin que no incluya anlisis de correlacin y
viceversa.

Es por ello que la parte restante del presente captulo est dedicada al anlisis de correlacin.

Anlisis de correlacin

El anlisis de correlacin comprende la evaluacin del grado de relacin existente entre las
variables estudiadas. Esto se realiza con el objetivo de ver hasta qu punto estn realmente
relacionadas las variables del modelo que se obtiene en el anlisis de regresin.

Para el anlisis de regresin simple se aplica la correlacin simple, la cual define que si todos
los pares de valores (x-y) satisfacen exactamente una ecuacin dada de dos variables, entonces
se dice que dichas variables estn perfectamente correlacionadas.

El coeficiente de correlacin (r) o su cuadrado (r2) conocido como coeficiente de


determinacin, caracterizan la importancia de la relacin existente.

El coeficiente de correlacin es un parmetro adimensional que vara entre -1 r +1. Si se


obtiene r = 1, se dice que la relacin es rigurosamente lineal. Adems, al aumentar una
variable aumenta la otra o al disminuir una disminuye la otra. Si r = -1 la relacin es tambin
35
rigurosamente lineal (siempre que se haya aplicado regresin lineal) pero la relacin entre
ambas variables es inversa. Es decir, cuando una aumenta la otra disminuye y viceversa. Si el
valor es r = 0 o cercano a este, se dice que no existe correlacin entre las variables, son
independientes una de otra.

Mientras ms cercanos a uno sean los coeficientes de correlacin, ms rigurosa ser la


correlacin entre las variables.

La determinacin de estos dos coeficientes est basada en las siguientes ecuaciones:

r2 = (30)

r= (31)

Existen otras ecuaciones derivadas de estas ms fciles de trabajar cuando los clculos son
manuales y en dependencia del tipo de correlacin que se aplique se deber usar una ecuacin
diferente para la evaluacin de estos estadgrafos.

Pongamos un ejemplo donde el investigador investiga la relacin entre sus variables mediante
regresin y correlacin simples.

El investigador en cuestin est analizando el nmero de artculos publicados en una revista


determinada por aos. El anlisis lo desea realizar mediante la cuantificacin de los artculos
acumulados. El autor emplea el mtodo de conteo directo y desea aplicar estadsticamente la
regresin simple mediante mnimos cuadrados y evaluar el coeficiente de correlacin para la
relacin entre las variables analizadas.

Los resultados primarios del estudio se muestran en la Tabla 4.4. En la Fig.4.5 se muestra el
grfico correspondiente al ajuste lineal de los valores de la tabla anterior.

Tabla 4.4 Acumulado de artculos publicados para una revista por aos

Aos desde el inicio de la Artculos publicados en la


revista revista

3 25

5 40

10 100

15 180

20 250

25 344

36
Fig.4.5 Acumulado de artculos publicados

Es de notar que en este resultado dada la ecuacin y lnea de ajuste, el intercepto (lugar donde
la lnea recta corta el eje de las ordenadas) es negativo (-32.1) y ello para este estudio no tiene
significado fsico. Este problema que no es estadstico pero s prctico, se puede resolver
incluyendo en los datos el par ordenado (0;0) debido a que cuando comenz la revista, ao
cero, no se haba publicado ningn artculo. Una vez aadido el par ordenado el ajuste lineal
queda segn el siguiente grfico:

Fig.4.6 Acumulado de artculos publicados incluido el (0;0)

Tabla 4.5 Anlisis de Regresin Simple

Parmetro Valor estimado Error estndar Probabilidad

Intercepto (a) -19.8 9.8 0.1009

Pendiente (b) 13.8 0.7 0.0000

r 0.9936 - -

r2 98.73 - -

37
Los resultados de la Tabla 4.5 indican que el intercepto no es significativo. Para un 95 % de
intervalo de confianza el valor de la Probabilidad debe ser menor que 0.05 para ser
significativo. Es importante observar que en magnitud (tomando valores modulares) el
intercepto es bastante mayor que la pendiente, sin embargo esta ltima es significativa
estadsticamente y el intercepto no. Ello se debe a que el anlisis de significancia no depende
de la magnitud del valor en s, sino de su probabilidad basada en pruebas de hiptesis. Debido
a que el intercepto no es significativo podemos dejar la relacin entre las variables como:

y = bx

donde x son los aos e y es el acumulado de artculos publicados. Mediante esta ecuacin se
puede analizar la tendencia de la revista para un futuro cercano (extrapolacin) acorde a la
tendencia natural de la misma, pero ello solo sera un pronstico.

El coeficiente de correlacin obtenido refleja buena correlacin entre las variables analizadas
(99.36 %) por lo que existe una fuerte relacin entre ambas para una relacin lineal. Sin
embargo al observar con detenimiento tanto las Fig.4.5 y 4.6 puede haber duda si el modelo
ms adecuado para relacionar las variables es el lineal. Para ello se debe hacer un anlisis de
modelos alternativos y comparar con el lineal ya obtenido basando la comparacin
fundamentalmente en los coeficientes de correlacin. A continuacin se muestra una tabla con
los coeficientes obtenidos para 10 modelos.

Tabla 4.6 Comparacin de modelos alternativos

modelo r r2

Lineal 0.9936 98.73

0.9839 96.80

0.9219 85.00

Exponencial No ajusta No ajusta

Reciproca y No ajusta No ajusta

Reciproca x No ajusta No ajusta

Doble reciproca No ajusta No ajusta

Logaritmo de x No ajusta No ajusta

Multiplicativa No ajusta No ajusta

Logstica No ajusta No ajusta

Los resultados de dicha tabla nos muestran que al parecer el mejor ajuste para esos datos es
mediante regresin lineal debido a que es el que correlaciona mas fuertemente las variables

38
analizadas. Sin embargo el anlisis del grafico de residuales que se muestra a continuacin
correspondiente a la regresin lineal puede generar dudas debido a que no parecen estar del
todo distribuidos aleatoriamente los residuales, aunque s presentan valores pequeos y se
distribuyen de igual forma por encima y debajo de la lnea de residual cero.

2,7

1,7
residuales

0,7

-0,3

-1,3

-2,3
-20 80 180 280 380
Y predicho
Fig.4.7 Anlisis de residuales para la regresin lineal

No obstante, un anlisis de residuales para los otros dos modelos alternativos muestra
tendencias ms fuertes a ser ajustables matemticamente por lo que se concluye que la
relacin ms probable es la lineal.

Para concluir el tema en cuestin, un anlisis de relacin entre variables (regresin y


correlacin) no debe dejar de incluir:

Anlisis del grfico obtenido.

Evaluacin de los coeficientes del modelo.

Evaluacin de la significacin de los coeficientes.

Evaluacin de los coeficientes de correlacin y de variacin.

Anlisis de residuales.

Comparacin de modelos alternativos.

Una vez analizados todos los elementos antes expuestos es muy difcil que un investigador
elija el modelo de ajuste menos adecuado para su investigacin.

39
El precio que hay que pagar por abandonar el lenguaje matemtico,
consiste en una prdida de precisin y en la necesidad de mencionar
resultados sin indicar como se obtuvieron. Albert Einstein
Captulo 5. Diseos de experimentos

Los investigadores realizan experimentos virtualmente en todos los campos. Un experimento


diseado es una prueba o serie de pruebas en las cuales se inducen cambios deliberados en las
variables de entrada del proceso o sistema, de manera que sea posible observar e identificar la
influencia de las causas en los cambios en la respuesta de salida. El proceso o sistema a
estudiar puede ser representado grficamente mediante la siguiente figura:

Fig. 5.1 Representacin de un proceso o sistema

El proceso puede ser una combinacin de maquinas, mtodos, personas, objetos, etc., y otros
que transforman la entrada en una salida que tiene una o ms respuestas observables. Tal
como seala la Fig.5.1 algunas variables del proceso pueden ser controlables y otras no.

Algunos conceptos generales relacionados con los diseos factoriales

Factor

Son las variables independientes que influyen o pueden influir en el proceso investigado. Los
factores pueden ser variables cualitativas o cuantitativas.

Funcin o variable respuesta

La variable que es objeto de estudio y a travs de la cual se expresan los resultados es la


denominad variable respuesta (y).
y = f(x1; x2,.xn)

Espacio factorial

Es el espacio comprendido entre los ejes del sistema de coordenadas en el que se representan
los valores de los factores. Este no tiene porque constituir un espacio real pues los factores
pueden no serlo y entonces estamos hablando de espacio matemtico imaginario. Una forma
muy utilizada para representar los espacios factoriales es mediante curvas de nivel o
40
simplemente mediante rectngulos. Dos ejemplos de curvas de nivel se muestran en la
Fig.5.2.

Fig.5.2 Representacin grfica de algunos tipos de curvas de nivel

Superficie de Respuesta o Superficie de Nivel

La forma geomtrica o representacin grfica de la variable repuesta como funcin de los


factores es conocida como superficie de nivel. Se entiende as que una curva de nivel es un
corte en un plano de la figura en el espacio representada por la superficie de respuesta.

En la Fig.5.3 se muestra la superficie de respuesta correspondiente a uno de los grficos de


curva de nivel de la Fig.5.2. En el anlisis de diseos factoriales se trabajan y analizan con
bastante frecuencia ambos grficos o al menos uno de ellos. Esto depende de los objetivos de
la investigacin. Este tipo de representaciones permiten de manera visual observar y analizar
la tendencia de las variables independientes o de la variable respuesta en el espacio factorial
analizado. Son tambin muy tiles si a continuacin del diseo factorial se desea llevar a cabo
un proceso de optimizacin pues nos indica hacia qu zona se debe desplazar para encontrar
los valores ptimos de las variables analizadas.

41
Fig.5.3 Diagrama de superficie de respuesta

Modelo matemtico

Un modelo matemtico es una ecuacin o sistemas de ecuaciones que relacionan con la


variable respuesta los factores que influyen sobre sta.
Con ayuda del diseo factorial es posible obtener un modelo matemtico de prcticamente
cualquier proceso.
La utilidad o importancia de obtener modelos matemticos radica fundamentalmente en:

1. Brindan informacin sobre la influencia de los diferentes factores en la variable respuesta.


2. Permiten predecir cuantitativamente el valor de la funcin respuesta para valores dados de
los diferentes factores.
3. pueden servir como punto de partida para un proceso de optimizacin en la bsqueda de un
extremo de la funcin respuesta.

Al modelo matemtico que se obtiene mediante diseo experimental se le denomina diseo


estadstico experimental. Este no es ms que una ecuacin de regresin que se obtiene de
forma relativamente simple a partir de los datos experimentales.

Entre los objetivos de la aplicacin del diseo de experimentos pueden incluirse:

1. Determinar cules variables tienen mayor influencia en la variable respuesta (y).


2. Determinar el mejor valor de la x que influye en y.
3. Determinar el mejor valor de las x que influye en y, de modo que se minimice el efecto
de las variables incontrolables.

Los mtodos de diseo experimental tienen importancia en el desarrollo de procesos y en la


mejora de rendimientos. En muchos casos, el objetivo puede ser desarrollar un proceso
consistente o robusto; esto es, un proceso afectado mnimamente por fuentes de variabilidad
externas.

42
Aplicaciones del diseo experimental

Los mtodos de diseo experimental tienen amplia aplicacin en muchas disciplinas. Por lo
general su mtodo consiste en realizar una serie de actividades en las cuales hacemos
conjeturas acerca de un proceso, realizamos experimentos para generar datos a partir del
proceso, y entonces usamos la informacin del experimento para establecer nuevas conjeturas,
que llevan a realzar nuevos experimentos.

La aplicacin de tcnicas de diseo experimental en una fase temprana del desarrollo de un


proceso puede dar por resultado:
1. Mejora en el rendimiento del proceso.
2. Menor variabilidad y mayor cercana a los requerimientos u objetivos.
3. Menor tiempo de desarrollo.
4. Menores costos globales de la investigacin.

Principios bsicos del diseo experimental

Los tres principios bsicos en el diseo de experimentos son:

1. Obtencin de rplicas.
2. Aleatorizacin.
3. Anlisis por bloques.

La rplica se refiere a una o ms repeticiones para cada experimento bsico a realizar. El uso
de replicas permite tener una estimacin del error experimental. Tal estimacin permite
determinar si las diferencias observadas entre replicas son estadsticamente significativas. En
segundo lugar, el uso de rplicas permite al investigador calcular una estimacin ms precisa
del efecto de un factor en el experimento.

La aleatorizacin es la piedra angular que fundamenta el uso de los mtodos estadsticos en el


diseo de experimentos. Se entiende por aleatorizacin el hecho de que tanto la asignacin del
experimento como el orden en que se realizan las pruebas individuales se determinan
aleatoriamente. Los mtodos estadsticos requieren que las observaciones sean variables
aleatorias independientes. La aleatorizacin usualmente confirma esta suposicin. Adems, al
aleatorizar adecuadamente los experimentos se cancelan los efectos de factores extraos que
pudieran estar presentes.

El anlisis por bloques es una tcnica que se usa para incrementar la precisin del
experimento. Un bloque es una porcin del material experimental que sea ms homognea
que el total del material. Al realizarse un anlisis por bloques se hacen las comparaciones
entre las condiciones de inters del experimento dentro de cada bloque.

Directrices para el diseo de experimentos

A continuacin se ofrece una gua del procedimiento recomendado para la implementacin de


un diseo de experimentos:

1. Comprensin y planteamiento del problema. Es necesario desarrollar todas las ideas


sobre los objetivos del experimento. Un planteamiento claro del problema contribuye a

43
menudo en forma sustancial a un mejor conocimiento del fenmeno y de la solucin final
del problema.
2. Eleccin de factores y niveles. El experimentador debe elegir los factores que variarn
en el experimento, los intervalos de dicha variacin y los niveles especficos para los
cuales se har el experimento. Tambin debe considerarse la forma en que se controlarn
estos factores para mantenerlos en los valores deseados, y cmo se les medir.
3. Seleccin de la variable respuesta. Al seleccionar la variable respuesta o variable
dependiente, el investigador debe estar seguro de que la respuesta seleccionada brinda
informacin realmente til sobre el proceso en estudio.
4. Eleccin del diseo experimental. Si los tres pasos anteriores se han seguido de forma
correcta, este paso resulta relativamente fcil. Para elegir el diseo es necesario considerar
el tamao de la muestra, numero de factores y niveles, as como la presencia o no de
bloques.
5. Realizacin de los experimentos.
6. Anlisis de datos. Deben emplearse mtodos estadsticos para analizar los datos, de modo
que los resultados y conclusiones sean objetivos ms que apreciativos. Si el experimento
fue diseado correctamente y si se ha realizado conforme al diseo, los mtodos
estadsticos que se requieren no son complicados. Existen muchos paquetes de software
para el anlisis de datos, y varios mtodos grficos que son importantes en la interpretacin
de tales datos. El anlisis de residuos y la verificacin de la idoneidad del modelo son
tambin tcnicas de gran utilidad.
7. Conclusiones y recomendaciones.

Durante todo el proceso es necesario saber que la experimentacin es parte importante del
proceso de aprendizaje, en el cual formulamos tentativamente hiptesis acerca de un sistema
y realizamos experimentos para investigar dichas hiptesis, y con los en los resultados
formulamos nuevas hiptesis, etc. La experimentacin es por ende un proceso iterativo.

Para que un experimento sea exitoso es necesario conocer los factores importantes, los
intervalos en los cuales deben hacerse variar esos factores, la cantidad adecuada de niveles a
usar y las unidades de medida a emplear.

Es frecuente que cuando se trabajan los diseos factoriales o experimentales, los factores o
variables sean transformados o codificados. Es decir, se transforman de variables reales a
variables codificadas. Esto origina un nuevo sistema coordenado que se denomina sistema
coordenado en variables codificadas. Esto permite desde el punto de vista del algebra
matricial simplificacin de procesos y clculos. No obstante, la ecuacin obtenida despus
debe nuevamente ser descodificada para aplicarla a la realidad de la investigacin.

La ecuacin que relaciona las variables reales y codificadas es la siguiente:

= (5.1)

donde Xi representa el valor del factor en variable codificada, xi es el valor del factor en
variable real, xoi representa el valor del factor i en el centro del diseo en variable real y xi
representa la semi-escala del eje del factor i.

44
Un ejemplo de codificacin de variables sera el siguiente:

Uno de los factores a analizar en un diseo experimental que estamos creando es el nmero de
citas recibidas por los autores en un ao (x1). Entre un gran nmero de autores se ha escogido
un espacio factorial que va desde cero citas recibidas hasta 10. El otro factor a analizar seria el
nmero de artculos publicados (x2) que podra variar de 2 hasta 20. Esto nos define un
espacio factorial real y como consecuencia un espacio factorial en variables codificadas, tal
como se muestra en la Tabla 5.1.

Tabla 5.1 Factores en variables reales y codificadas para un diseo factorial

Factor X1 X2

Nivel inferior en variable real 0 2

Nivel superior en variable real 10 20

xi 5 11

Nivel inferior en variable codificada -1 -1

Nivel superior en variable codificada +1 +1

Una vez codificadas las variables o aun manteniendo las mismas en variables fsicas reales se
procede a la obtencin de la matriz del diseo factorial que se seleccione y la realizacin de
los experimentos o pruebas.

A continuacin se comenzarn a analizar cada uno de los tipos de diseos experimentales ms


tiles (2k, 3k, diseo desbalanceado) y sus particularidades.

Diseos factoriales completos

Los diseos factoriales completos tienen bsicamente una estructura en potencias, para la
determinacin del nmero de experimentos a realizar. La estructura de la potencia consta de
una base y un exponente (bn), donde la base b representa el nmero de niveles de variacin de
los factores y el exponente n representa el nmero de factores a analizar en el diseo. As el
diseo define una cantidad de experimentos N = 2n.

Diseos de tipo 2n

El diseo factorial completo de tipo 2n permite obtener un modelo matemtico del proceso
estudiado en una regin del espacio factorial. En este tipo de diseo se trabaja a dos niveles
por cada factor y el nmero de factores debe primero que todo, ser determinado por el
investigador.

Mediante estos diseos, la variable respuesta queda representada en forma de series de Taylor
mediante:

45
y = A0 +A1X1+A2X2++AnXn+A12X1X2+A(n-1) nXn- Xn+A11X12+A22X22++AnnXn2 (5.2)

En el diseo de tipo 2n cada uno de los n factores toma solo dos valores en todo el conjunto
experimental. Es decir, varan solo en dos niveles. Estos dos niveles para cada factor (nivel
inferior y nivel superior) corresponden a -1 y +1 respectivamente. A continuacin se analizar
un ejemplo en el que se utiliza el anlisis factorial de tipo 22.

Ejemplo:

Se desea realizar un anlisis de la influencia de factores sobre el ndice H de autores. Para ello
el investigador desea investigar cual es la influencia real que ejercen sobre esta variable o
indicador dos factores (el factor de impacto de las revistas donde publican los autores y el
nmero de autocitas).

Debido a que se analizan dos factores, un diseo apropiado podra ser el 22 = 4 experimentos
bsicos (dos factores variando a dos niveles). Los valores correspondientes al nivel bajo y alto
de cada factor son definidos por el investigador.

En este caso quedaron los factores y el espacio factorial definidos de la siguiente forma:

Tabla 5.2 Condiciones de realizacin de los experimentos en el 22

Nivel bajo Nivel alto

Factor X1 2 (-1) 8 (+1)

(factor de impacto)

Factor X2 (autocitas) 1 (-1) 10 (+1)

Las condiciones de realizacin de cada uno de los experimentos queda determinada por la
matriz del diseo factorial seleccionado tal como muestra la Tabla 5.3.

Tabla 5.3 Condiciones del diseo 22 para ndice H

Experimento X1 X2 (yj)

1 -1 -1 Y1

2 -1 +1 Y2

3 +1 -1 Y3

4 +1 +1 Y4

Una vez establecida la matriz del diseo, el siguiente paso es la realizacin de cada
experimento o la sustraccin de la informacin correspondiente de una base de datos, de
forma totalmente aleatoria.
46
Los resultados del diseo sumando dos rplicas por cada punto experimental son los
siguientes:

Tabla 5.4 Resultados del diseo 22 para ndice H

Experimento X1 X2 (yj)

1 -1 -1 5

2 -1 +1 5

3 +1 -1 7

4 +1 +1 7

5 -1 -1 5

6 -1 +1 6

7 +1 -1 6

8 +1 +1 8

9 -1 -1 5

10 -1 +1 5

11 +1 -1 6

12 +1 +1 7

En la Tabla 5.4 se han presentado los resultados de los experimentos realizados y las dos
rplicas por cada punto o condicin de trabajo. Uno de los primeros anlisis a realizar en un
diseo factorial es el correspondiente al estimado de cada factor as como su error estndar.

Tabla 5.5 Sumario estadstico del diseo aplicado a ndice H

Factor Estimado Estimado en Error estndar Valor-P


variables ANOVA
reales

Promedio 6 6 0.14 -

X1: FI 1.67 0.83 0.29 0.0012 0.05

X2: Autocitas 0.67 0.33 0.29 0.0603

X1X2: Interaccin 0.33 0.17 0.29 0.2921

r2 =87.50 %
Durbin-Watson = 3.13
47
Tambin es muy importante el anlisis de la probabilidad de cada factor para determinar
cules son estadsticamente significativos y cules no. Este resultado puede ser extrado de la
tabla referida como ANOVA (anlisis de varianza) que ofrecen muchos paquetes estadsticos.

De la Tabla 5.5 se puede concluir que solo el factor de impacto (FI) es estadsticamente
significativo en el ndice H, debido a los valores de probabilidades, que debido a que se
trabaja en este ejemplo con un nivel de significacin de 0.05, el valor de probabilidad que
define significacin estadstica es P 0.05.

Estos resultados definen una ecuacin de regresin correspondiente al diseo factorial


analizados y valida en el espacio factorial analizado,

ind H = 6 + 0.83FI + 0.33AutoC + 0.17FIAutoC (5.3)

la cual acorde al anlisis de probabilidad puede plantearse como:

ind H = 6 + 0.83FI (5.4)

La determinacin de la significacin de factores en la variable respuesta puede ser realizada


mediante el diagrama de Pareto. Este diagrama consiste en la construccin de un grfico de
barras horizontales, una para cada factor, ordenadas en orden decreciente de magnitud y las
cuales solamente sobrepasan la lnea vertical si son significativos estadsticamente para el
nivel de significacin seleccionado. El anlisis incluye un factor para la interaccin entre
factores. El diagrama de Pareto que se muestra en la Fig.5.4 es ms bien una representacin
grfica del resultados de los valores de probabilidades de la Tabla 5.5.

Fig.5.4 Diagrama de Pareto para analizar significacin de factores

El coeficiente de variacin (R-cuadrado) corrobora una correlacin de 87.50 % segn el


modelo obtenido para los datos experimentales. El valor del estadgrafo Durbin Watson (DW)
permite analizar si existe autocorrelacin entre los valores de los residuales. Este anlisis se
puede establecer mediante el grfico de residuales pero el estadgrafo DW permite cuantificar
este anlisis. Si el valor de DW es mayor de 1.4 entonces es posible concluir que no hay auto

48
correlacin entre los residuales obtenidos segn el modelo propuesto por el diseo aplicado.
El grafico de residuales se muestra en la Fig.5.5.

Fig.5.5 Diagrama de residuales para el diseo factorial 22

El diagrama de efectos principales es muy adecuado para el anlisis de influencia de factores


cuando el resto de los factores analizados permanecen constantes. El diagrama de efectos
obtenidos para este diseo 22 se muestra en la Fig.5.6. En ella se observa la lnea recta que
caracteriza la relacin entre cada variable o factor analizado y la variable respuesta. La
pendiente positiva de la lnea recta evidencia una influencia positiva sobre el ndice H, es
decir, un aumento de cada uno de los factores provoca una variacin en el ndice H. An as
es necesario puntualizar que el factor autocitas no es significativo estadsticamente.

Fig.5.6 Diagrama de efectos principales

49
Fig.5.7 Superficie de respuesta para influencia de factores en ndice H

Por ltimo es posible obtener un diagrama en tres dimensiones denominado superficie de


respuesta que muestra visualmente la variacin que sufre la variable respuesta a medida que
varan los factores que sobre ella pueden influir (en el espacio factorial analizado). Esta
superficie analizada en el espacio permite determinar cules son las zonas ms favorables para
obtener mximos, mnimos o estacionarios para la variable respuesta y ser un buen punto de
partida para procesos posteriores de optimizacin.

Ejemplo:

El anlisis realizado para el diseo 22 pudo haber sido definido por el investigador con mayor
complejidad. Supongamos que adems del FI y las autocitas, se desea incluir la influencia de
la posicin que ocupa la revista en el ranking dentro de una temtica. Para poder aplicar un
diseo de tipo 2k es necesario que todos los factores tengan solo dos niveles de variacin. Si
queremos analizar tres niveles, entonces es un 23 que define una matriz bsica de 8
experimentos. Debido a que son definidos dos niveles, se separa el ranking en este caso en
dos mitades. La mitad superior del ranking (-1) y la mitad superior (+1), lo cual tal como se
ha definido es un factor cualitativo.

Tabla 5.7 Condiciones de realizacin de los experimentos en el 23

Factor Nivel bajo Nivel alto

Factor X1 2 (-1) 8 (+1)

(factor de impacto)

Factor X2 (autocitas) 1 (-1) 10 (+1)

Factor X3 (ranking) Segunda mitad (-1) Primera mitad (+1)

50
Las condiciones del diseo y su matriz correspondiente se muestran en la Tabla 5.8.

Tabla 5.8 Condiciones del diseo 23 para ndice H

Experimento X1 X2 X3 (yj)

1 -1 -1 -1 Y1

2 -1 -1 +1 Y2

3 -1 +1 -1 Y3

4 -1 +1 +1 Y4

5 +1 -1 -1 Y5

6 +1 -1 +1 Y6

7 +1 +1 -1 Y7

8 +1 +1 +1 Y8

Los datos extrados de la base de datos correspondientes para completar la matriz de diseo
sumando una rplica por punto se muestran en la Tabla 5.9.

La ecuacin de regresin para el diseo factorial analizado es:

indH = 6.25 + 0.5FI + 0.25autoC + 0.5Ranking + 0.5FIRanking + 0.25autoCRanking (5.5)

eliminando los factores no significativos quedara:

indH = 6.25 + 0.5FI + 0.5Ranking + 0.5FIRanking (5.6)

51
Tabla 5.9 Resultados del diseo 23 para ndice H

Experimento X1 X2 X3 (yj)

1 -1 -1 -1 6

2 -1 -1 +1 6

3 -1 +1 -1 4

4 -1 +1 +1 8

5 +1 -1 -1 6

6 +1 -1 +1 7

7 +1 +1 -1 7

8 +1 +1 +1 8

9 -1 -1 -1 5

10 -1 -1 +1 6

11 -1 +1 -1 5

12 -1 +1 +1 7

13 +1 -1 -1 7

14 +1 -1 +1 6

15 +1 +1 -1 7

16 +1 +1 +1 6

Tabla 5.10 Sumario estadstico del diseo 23 aplicado a ndice H

Factor Estimado Estimado en Error estndar Valor-P


variables ANOVA
reales

Promedio 6.25 6.25 0.19 -

X1: FI 1.0 0.5 0.39 0.0318

X2: Autocitas 0.5 0.25 0.39 0.2305

X3: Ranking 1.0 0.5 0.39 0.0318

X1X2: Interaccin 0.0 0.0 0.39 1.0000

X1X3 -1.0 -0.5 0.19 0.0318

X2X3 0.5 0.25 0.19 0.2305

52
r2 =75.00 %
Durbin-Watson = 1.17

Debido a que el estadgrafo de Durbin Watson es menor de 1.4, se sospecha que podra haber
autocorrelacin entre los residuales, lo cual debe ser corroborado o descartado con el anlisis
del grfico de residuales mostrado a continuacin. Es evidente en la Fig.5.8 que no hay
autocorrelacin entre residuales.

Fig.5.8 Diagrama de residuales para el diseo factorial 23

A continuacin en las Fig.5.9-5.11 se muestran los diagramas de Pareto, efectos principales y


de superficie de respuesta para el diseo aplicado con una interpretacin conceptualmente
similar a la del ejemplo anterior para diseo 22.

Fig.5.9 Diagrama de Pareto para influencia de factores en ndice H

53
Fig.5.10 Diagrama de efectos principales en el ndice H

Fig.5.11 Superficie de Respuesta para el diseo factorial 23

Inclusin de anlisis por bloques

El anlisis por bloques se utiliza cuando se sospecha que un factor no analizado directamente
podra tener influencia en los resultados obtenidos, por lo que no se descarta. Es una forma de
organizar la informacin o los experimentos haciendo el proceso de experimentacin o
seleccin ms eficiente y menos engorroso. Por ejemplo, el estudio representado
anteriormente de tres factores en la variable respuesta ind H podra sospecharse que tambin
es dependiente o se ve influenciado por la base de datos empleada. Esto hace que el
investigador no quiera a priori descartar la base de datos de la que se extrae la informacin y
solo los resultados del diseo factorial dirn si el factor bloque (tipo de base de datos) es o no
significativa.

En el ejemplo anterior se extrajeron datos de una base de datos nica. Pero bien pudo
disearse la investigacin extrayendo los experimentos de la matriz bsica (bloque 1) de una
base de datos (base A) y los que correspondan a la rplica podran ser en este caso los
extrados de la segunda base de datos (base B). As la matriz del diseo 23 por bloques
quedara expresada segn la Tabla 5.11.

Es necesario sealar que las matrices de los diseos han sido organizadas para un mejor
entendimiento del lector de los experimentos a realizar, pero en el momento de realizar stos,

54
su seleccin tiene que ser al azar. En el caso del uso de bloques la aleatorizacin se llevara a
cabo dentro de cada bloque y se comenzara a trabajar con el siguiente bloque una vez
terminado con el primero de estos.

Se puede comprobar que si el plan factorial hubiera sido diseado tal y como muestra la Tabla
5.11 siendo los datos de bloque 1 extrados de la base de datos A y los del bloque 2 extrados
de la base de datos B, el factor bloque analizado en la Tabla ANOVA al igual que cualquier
otro factor, no seria significativo P = 1.000 > 0.05, por lo que se concluira en este caso que la
base de datos utilizada no influira en el ndice H. En caso que el factor bloque sea
significativo, se debe concluir que el tipo de base de datos s ejerce influencia en el ndice H y
por ende o se decide incluir esta variable como factor en posteriores anlisis de ndice H o se
decide siempre trabajar dentro de una nica base de datos para cada investigacin, de forma
que sea eliminada esa influencia indirecta.

Tabla 5.11 Experimentos realizados para un diseo 23 por bloques

Experimento Bloque X1 X2 X3 (yj)

1 1 -1 -1 -1 6

2 1 -1 -1 +1 6

3 1 -1 +1 -1 4

4 1 -1 +1 +1 8

5 1 +1 -1 -1 6

6 1 +1 -1 +1 7

7 1 +1 +1 -1 7

8 1 +1 +1 +1 8

9 2 -1 -1 -1 5

10 2 -1 -1 +1 6

11 2 -1 +1 -1 5

12 2 -1 +1 +1 7

13 2 +1 -1 -1 7

14 2 +1 -1 +1 6

15 2 +1 +1 -1 7

16 2 +1 +1 +1 6

55
Diseos factoriales de tipo 3n

La diferencia ms importante entre los diseos factoriales vistos hasta ahora y los diseos de
tipo 3n radica en la base tres en la potencia y ello define tres niveles de variacin por factor en
lugar de dos.

Estos son utilizados cuando el investigador est preocupado por la curvatura de la superficie
de respuesta. Para ello es usual emplear el diseo de tipo 3n. La adicin de un tercer nivel
permite modelar mediante una relacin cuadrtica la relacin entre la variable respuesta y
cada factor. Otra va para obtener ms informacin sobre la curvatura de la superficie es
mediante el empleo del 2n aadiendo al mismo varios puntos centrales. Esto permite
manteniendo reducidos la complejidad y el tamao del diseo, obtener informacin sobre la
curvatura.

El ms simple de estos diseos es el 32, el cual consta de dos factores variando cada uno a tres
niveles y un total de 9 experimentos para conformar la matriz bsica del diseo. Normalmente
una variacin a tres niveles en variables codificadas se representa por [-1, 0, +1], pero no
necesariamente el nivel intermedio tiene que ser central. Es decir, es posible establecer un
nivel medio ms cercano a uno de los extremos del espacio factorial, Ej.+ 0.5. En cualquier
caso, se debe utilizar la Ecuacin 5.1 para la codificacin de variables cuando hay dudas
acerca de la codificacin de un factor acorde a su posicin en el espacio factorial codificado.

Si tomramos el mismo ejemplo que ha sido tratado hasta el momento para el anlisis de
influencia de factores en el ndice H, pero con la complejidad adicional que cuando el
investigador estaba diseando y planificando sus experimentos, determin que era muy
importante el anlisis de la curvatura de la superficie de respuesta. Por ello determin que en
lugar de un 22 utilizara un 32 (cada factor variando a tres niveles). Entonces define las
condiciones del diseo segn la Tabla 5.12. Las condiciones de realizacin de cada uno de los
experimentos queda determinada por la matriz del diseo factorial seleccionado tal como
muestra la Tabla 5.13.

Tabla 5.12 Condiciones de realizacin de los experimentos en el 32

Factor Nivel bajo Nivel medio Nivel alto

Factor X1 2 (-1) 5 (0) 8 (+1)


(factor de impacto)

Factor X2 (autocitas) 1 (-1) 5 (0) 10 (+1)

56
Tabla 5.13 Matriz del diseo 32 para ndice H

Experimento X1 X2 (yj)

1 -1 -1 Y1

2 -1 0 Y2

3 -1 +1 Y3

4 0 -1 Y4

5 0 0 Y5

6 0 +1 Y6

7 +1 -1 Y7

8 +1 0 Y8

9 +1 +1 Y9

Una vez establecida la matriz del diseo, el siguiente paso es la realizacin de cada
experimento o la sustraccin de la informacin correspondiente de una base de datos, de
forma totalmente aleatoria. Los resultados del diseo sumando una rplica por cada punto
experimental se muestran en la Tabla 5.14.

La ecuacin de regresin para el diseo factorial analizado es:

indH = 6.67 + 1.08FI -0.5autoC -0.25autoC2 -0.25FI2 + 0.25autoCFI (5.7)

eliminando los factores no significativos quedara:

indH = 6.67 + 1.08FI + 0.25autoCFI (5.8)

57
Tabla 5.14 Resultados del diseo 32 para ndice H

Experimento X1 X2 (yj)

1 -1 -1 7

2 -1 0 5

3 -1 +1 4

4 0 -1 9

5 0 0 6

6 0 +1 7

7 +1 -1 8

8 +1 0 9

9 +1 +1 8

10 -1 -1 6

11 -1 0 6

12 -1 +1 4

13 0 -1 6

14 0 0 6

15 0 +1 6

16 +1 -1 6

17 +1 0 7

18 +1 +1 7

58
Tabla 5.15 Sumario estadstico del diseo 32 aplicado a ndice H

Factor Estimado Estimado en Error estndar Valor-P


variables ANOVA
reales

Promedio 6.67 6.67 0.45 -

X1: FI 2.17 1.08 0.50 0.0011

X2: Autocitas -1.0 -0.5 0.50 0.0696

X1X2: Interaccin 1.5 0.75 0.61 0.0316

X12 -0.5 -0.25 0.86 0.5734

X22 0.0 0.0 0.86 1.0000

r2 =76.33 %
Durbin-Watson = 2.15

Debido a que el estadgrafo de Durbin Watson es mayor que 1.4, no debe haber
autocorrelacin entre los residuales, lo cual puede ser comprobado con el anlisis del grfico
de residuales mostrado a continuacin. Es evidente en la Fig.5.8 que no hay autocorrelacin
entre residuales.

Fig.5.12 Diagrama de residuales par el diseo 32

El resto de los grficos que pueden obtenerse para este tipo de diseo factorial es equivalente
a los previamente analizados. Los diagramas correspondiente al diseo 32 del ejemplo tratado
se muestran a continuacin. De particular inters es en este caso el diagrama de superficie de
respuesta, el cual muestra la curvatura que determina la influencia de los factores analizados
en el ndice H. Este grado de curvatura no hubiera sido observado ni cuantificado a travs de
59
los coeficientes cuadrticos de la ecuacin de regresin si se hubiese empleado el diseo solo
a dos niveles de variacin de factores.

Fig.5.13 Diagrama de Pareto para anlisis de influencia de factores en el ndice H

Fig.5.14 Diagrama de efectos principales y su influencia en el ndice H

60
Fig.5.15 Superficie de Respuesta para el diseo factorial 32 respecto al ndice H

Diseo Factorial 33

La diferencia entre el 32 y el 33 radica en que este ultimo presenta tres factores variando a tres
niveles. Es decir, sera apropiado para el anlisis de influencia de FI, autocitas y Ranking en
el ndice H pero definiendo tres niveles de variacin por cada factor. Esto implicara separar
el Ranking de revistas en tres clases (-1, 0, +1). El diseo 33 consta de 27 experimentos para
la matriz bsica sin contar las replicas. Solamente realizando una rplica sera necesario
trabajar con un total de 54 experimentos. El anlisis por bloques es tambin aplicable a este
diseo. Cada bloque podra ser el nmero de experimentos correspondientes a una rplica. La
matriz bsica de un 33 totalmente aleatorizado y sin replicas se muestra en Tabla 5.16.

Diseo factorial desbalanceado

El diseo desbalanceado se aplica cuando no es posible o no se desea variar todos los factores
en igual cantidad de niveles de variacin. Sin embargo el anlisis de resultados es similar a los
tipos de diseos factoriales analizados anteriormente. Debido a que la matriz no es simtrica
respecto a los niveles de variacin de factores, ello implica una matriz ms compleja
numricamente y en la codificacin de las variables.

Podramos continuar con el mismo ejemplo de anlisis de ndice H, pero ahora en su variante
ms compleja. Se desea analizar la influencia en este ndice de 4 factores variando a
diferentes niveles. El factor cualitativo (Ranking o cuarto) se analizar en 4 niveles de
variacin,. Esto es lo ms cercano a la realidad pues existen 4 cuartos en el ranking de
revistas. El factor de impacto variar a dos niveles al igual que el nmero de autocitas y el
ndice H de la revista, un nuevo factor que ahora se incluye. Es espacio factorial creado para
este plan factorial se muestra en la Tabla 5.17.

61
Tabla 5.16. Matriz bsica para factorial 33 de influencia de factores en el ndice H

Experimento Bloque o rplica FI autocitas Ranking

1 1 1,0 0,0 -1,0

2 1 -1,0 0,0 1,0

3 1 1,0 -1,0 1,0

4 1 0,0 1,0 0,0

5 1 0,0 -1,0 1,0

6 1 1,0 -1,0 -1,0

7 1 -1,0 -1,0 -1,0

8 1 1,0 1,0 0,0

9 1 1,0 1,0 1,0

10 2 1,0 1,0 -1,0

11 2 0,0 0,0 -1,0

12 2 0,0 1,0 1,0

13 2 -1,0 1,0 -1,0

14 2 1,0 0,0 0,0

15 2 0,0 0,0 0,0

16 2 0,0 -1,0 0,0

17 2 -1,0 -1,0 1,0

18 2 1,0 0,0 1,0

19 2 -1,0 0,0 -1,0

20 2 -1,0 1,0 1,0

21 2 0,0 0,0 1,0

22 2 -1,0 1,0 0,0

23 2 -1,0 0,0 0,0

24 2 -1,0 -1,0 0,0

25 2 1,0 -1,0 0,0

26 2 0,0 -1,0 -1,0

27 2 0,0 1,0 -1,0

62
Tabla 5.17 Condiciones de realizacin de los experimentos en el diseo desbalanceado

Factor Nivel bajo Nivel medio Nivel alto

Factor X1 (impacto) 2 (-1) 8 (+1)

Factor X2 (autocitas) 1 (-1) 10 (+1)

Factor X3 (ndice H-revista) 10 (-1) 30 (+1)

Factor X4 (Cuarto en el 1 (-1) 2 (-0.5) 3 (+0.5) 4 (+1)


Ranking)

Se trata de mantener la variacin de algunos factores solo a dos niveles pues el nmero de
experimentos a realizar y la complejidad de la matriz son directamente proporcionales al
nmero de factores y niveles de variacin de stos. La matriz del diseo tiene que reproducir
todas las combinaciones posibles de factores.

La complejidad en este tipo de diseo desbalanceado radica en poder crear la matriz completa
que incluya todas las combinaciones de factores a todos sus correspondientes niveles de
variacin.

En este caso, tal como queda diseado el plan o anlisis factorial a realizar mostrado en la
Tabla 5.17, para determinar el nmero de experimentos bsicos a realizar en la matriz del
diseo, podemos partir del 24 = 162 = 32 experimentos para la matriz bsica sin replicas. La
matriz correspondiente a los 32 experimentos se muestra en el Anexo 2.

Queda demostrado que la complejidad de la matriz a desarrollar y el nmero de experimentos


a realizar son directamente proporcionales al nmero de factores seleccionados y el nmero
de niveles en que estos varan.

En el caso de la codificacin de variables, esta se realiza con el objetivo de ejecutar


posteriormente en el anlisis de la matriz del diseo, un algebra matricial ms simple y
efectiva, junto a una simplificacin y sistematizacin de los clculos para la posterior
determinacin de los puntos experimentales en el caso que posteriormente se desea aplicar un
proceso de optimizacin.

En caso que no sea un objetivo de la investigacin la optimizacin y dada la disposicin de un


nmero de paquetes estadsticos informticos, se puede prescindir de la codificacin de
variables y trabajar la matriz y los resultados en variables reales.

En caso que dada la naturaleza de la investigacin que se realiza y la rama de la ciencia o


tecnologa en que se trabaja, sea difcil por determinadas razones el diseo estricto de niveles
para la variacin de factores, es posible aun sin usar un diseo factorial en particular, aplicar
una matriz particular definida y ajustada a la situacin real que se investiga y obtener
resultados equivalentes a un diseo, tales como el diagrama de superficie de respuesta,
diagrama de Pareto, residuales, as como la Tabla ANOVA, etc. Es posible tambin la
63
obtencin de la ecuacin de regresin estimada, todo lo cual sera ms bien un equivalente a
un anlisis de regresin mltiple.

64
Todo lleva ms tiempo del que usted piensa.
Segunda Ley de Murphy
Captulo 6

Consideraciones finales

El presente curso de estadstica aplicada a anlisis bibliomtrico pretendi introducir en el


tema de la estadstica y su uso como herramienta, a un grupo de investigadores en la temtica,
de forma tal que analizaran las bondades de esta herramienta matemtica tomando los
elementos de la misma que le parecieran necesarios para apoyar su labor investigativa en su
campo. Si a partir de la culminacin del curso pueden utilizar la estadstica como buen aliado
de sus resultados de investigacin en el procesamiento de datos y suavizar la frontera con el
uso de esta ciencia de manera que puedan en el futuro profundizar en ella o iniciar trabajos
con partes de la estadstica no estudiadas en el curso pero que consideran importantes para sus
investigaciones, podemos decir que el curso cumpli su objetivo.

Es necesario recalcar una vez ms que la estadstica es solo una herramienta, es un medio y no
un fin en la investigacin cientfica o en cualquier tarea a cumplir. Solo es necesario utilizarla
cuando se necesita y siempre que los resultados de ella derivados sirvan para brindar
conclusiones o den lugar a nuevas ideas dentro de la investigacin que se realiza que sin su
utilizacin no sera posible obtener o sostener.

Casi todos los temas han sido abordados brevemente acorde al tiempo disponible para la
ejecucin del presente curso. La profundizacin en los temas abordados queda en manos del
lector, la cual puede realizar haciendo uso de la bibliografa recomendada o de otro nmero
grande de bibliografa disponible en la temtica.

No podemos dejar de mencionar una vez ms que la estadstica es una ciencia inexacta y esto
es algo que quien se vale de ella debe tener bien claro al mostrar y argumentar resultados.

65
Referencias

1. [Alpizar] J. Iglesias M. Lpez R. Introduccin a la elaboracin matemtica de resultados


experimentales. Universidad de la Habana. 1990.

2. [Calero] A. Tcnicas de Muestreo. Editorial. Pueblo y Educacin. 1978.

3. [Cansado] E. Curso de Estadstica General. Instituto Cubano del Libro. 1970.

4. [Montgomery] D.C. Diseos y anlisis de experimentos. Grupo Editorial Iberoamrica.


1991.

5. [Kreyszig] E. Advanced Engineering Mathematics. 9th Edition. John Wiley & Sons. 2006.

6. [Yamane] T. Statistics: an introductory analysis. 2da Edicin. Ed. Revolucionaria. La


Habana. 1970.

7. [Yamane] T. Elementary Sampling Theory. Editorial Pueblo y Educacin. 1989.

66
Anexo 1. Distribucin normal [Kreyszig]

67
Anexo 2. Matriz del diseo experimental para el ejemplo de diseo desbalanceado con
cuatro factores

Experimento X1 X2 X3 X4 (yj)

1 -1 -1 -1 -1 Y1

2 -1 -1 +1 -1 Y2

3 -1 +1 -1 -1 Y3

4 -1 +1 +1 -1 Y4

5 +1 -1 -1 -1 Y5

6 +1 -1 +1 -1 Y6

7 +1 +1 -1 -1 Y7

8 +1 +1 +1 -1 Y8

9 -1 -1 -1 -0.5 Y9

10 -1 -1 +1 -0.5 Y10

11 -1 +1 -1 -0.5 Y11

12 -1 +1 +1 -0.5 Y12

13 +1 -1 -1 -0.5 Y13

14 +1 -1 +1 -0.5 Y14

15 +1 +1 -1 -0.5 Y15

16 +1 +1 +1 -0.5 Y16

17 -1 -1 -1 +0.5 Y17

18 -1 -1 +1 +0.5 18

19 -1 +1 -1 +0.5 Y19

20 -1 +1 +1 +0.5 Y20

21 +1 -1 -1 +0.5 Y21

22 +1 -1 +1 +0.5 Y22

23 +1 +1 -1 +0.5 Y23

24 +1 +1 +1 +0.5 Y24

25 -1 -1 -1 +1 Y25

26 -1 -1 +1 +1 Y26
68
27 -1 +1 -1 +1 Y27

28 -1 +1 +1 +1 Y28

29 +1 -1 -1 +1 Y29

30 +1 -1 +1 +1 Y30

31 +1 +1 -1 +1 Y31

32 +1 +1 +1 +1 Y32

69

View publication stats