Vous êtes sur la page 1sur 17

PROBABILIDAD 1. Consultar ejercicios variados sobre la distribucin normal.

Los alambres que se utilizan en cierta computadora deben tener una resistencia entre 0,12 y 0,14 ohms. Las resistencias reales de los alambres producidos por la compaa A tienen una distribucin de probabilidad normal con una media de 0,13 ohms y una desviacin estndar de 0,005 ohms. a) Cul es la probabilidad de que un alambre seleccionado al azar de la produccin de la compaa A satisfaga las especificaciones? b) Si se utilizan cuatro de estos alambres en el sistema y los seleccionan de la compaa A, cul es probabilidad de que los 4 alambres satisfagan las necesidades? Solucin: X = resistencia del alambre medida en ohms. X N (0,13; 0,000025) a) Probabilidad de que un alambre satisfaga las especificaciones: ( P (2 Z 2) = (2) (2) = 0,9772 0,0228 P (2 Z 2) = 0,9544 La probabilidad de que un alambre satisfaga las especificaciones con respecto a la resistencia es del 95,44 %. b) Probabilidad de que 4 alambres satisfagan las necesidades: P (4 satisfagan las especificaciones) = (0,6544)4 = 0,8297 La probabilidad de que 4 alambres seleccionados al azar de la compaa A y que satisfagan las especificaciones del 82,97 %. 2. Ejercicios sobre la distribucin Binomial. Una tienda departamental tiene un sistema de cuatro alarmas que funcionan en forma independiente, cada una tiene una probabilidad de detectar a un intruso de un 95%. Sea Y la variable aleatoria el nmero de alarmas que detectan al intruso, puede afirmarse que se trata de un problema para ser resuelto con una distribucin binomial? Obtn la probabilidad de que al menos una alarma detecte a un intruso e interpreta. S, es una binomial con 4 elementos y p=0.95 P (Y=n)= (4n) *0.95n* (0.05)4n La probabilidad de que al menos una alarma detecte al intruso es 1 menos la probabilidad de que le detecte ninguna. Y para que no le detecte ninguna es la probabilidad de que una no le detecte elevada a la cuarta. Eso lo sabemos de toda la vida aunque si se quiere se puede calcular con la frmula P (Y=0)= (40)0.950(0.05)40=110.054=0.00000625 )

Luego la probabilidad de ser detectado ser 1 - 0.00000625 = 0.99999375 3. Ejercicios sobre la distribucin de Poisson. La computadora marca Veloz se descompone a razn de 0.05 veces por hora de operacin, siendo necesario darle servicio especializado de reparacin. Cul es la probabilidad que no ocurran descomposturas en un periodo de trabajo de 8horas?, Cul es la probabilidad que ocurran por lo menos dos descomposturas en 40 horas? 4. CONSULTAR: a) DIAGRAMA DE DISPERSION:

Es una grfica del tipo X Y cuyo objetivo es analizar la forma en que dos variables numricas estn relacionadas. El diagrama de dispersin se obtiene coleccionando los datos en pares de valores sobre dos variables (x, y). Las parejas de datos obtenidos se representan a travs de puntos en una grfica del tipo X Y (ejes de coordenada cartesianos). El anlisis de un diagrama de dispersin puede mostrar varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlacin puede ser positiva ((Y aumenta con X)), negativa (Y disminuye con X), o nula (las variables no estn correlacionadas). El diagrama de dispersin es una de las herramientas bsicas de gestin de la calidad, muy til al analizar las causas de un problema y para Identificar oportunidades de mejora continua. b) COEFICIENTE DE CORRELACIN:

Mide el grado de intensidad de la posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal (es decir, si representramos en un grfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta). Se calcula aplicando la siguiente frmula:

Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x, y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra. Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms. Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1.

Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos. Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.) c) REGRESIN:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula: y = a + b*x Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b": El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b" determina la pendiente de la recta, su grado de inclinacin. La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parmetro "a" viene determinado por:

a = y m - (b * x m)
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado. d) MTODO DE MNIMOS CUADRADOS:

Mnimos cuadrados es una tcnica de anlisis numrico encuadrada dentro de la optimizacin matemtica, en la que, dados un conjunto de pares (o ternas, etc.), se intenta encontrar la funcin que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mnimo error cuadrtico.

| | | |

e)

VARIANZA TOTAL:

Si no consideramos la recta de regresin y deseamos medir la variabilidad del conjunto de datos que estamos usando, acudiremos a la varianza de Y, o varianza total. Si todas las muestras tienen el mismo tamao:

Si las muestras tienen distinto tamao:

f)

VARIANZA EXPLICADA:

Si slo consideramos la variabilidad que presentan las predicciones (los valores situados en la recta), deberemos usar en la frmula anterior los datos Y en lugar de Y (la media no cambia, segn se indic ms arriba). Al resultado le llamaremos varianza explicada.

Siendo r el coeficiente de correlacin de Pearson. Esto significa que la relacin entre la varianza explicada y la total es el cuadrado del coeficiente r. A este cuadrado lo conocemos como Coeficiente de determinacin y expresa el porcentaje de varianza que explica la lnea recta. g) VARIANZA NO EXPLICADA:

Por ltimo, llamaremos varianza de error o residual a la que presentan los valores de Y comparados con sus pronsticos

A la raz cuadrada de la varianza residual la llamaremos error tpico de estimacin, que es importante en la teora de la Regresin. 5. REGLAS DE PROBABILIDAD: Existen tres reglas fundamentales para resolver problemas en donde se desea determinar la probabilidad de un suceso si se conocen las probabilidades de otros sucesos que estn relacionados con l. Estas tres reglas son: Regla de la Adicin, Probabilidad Condicional y Regla de la Multiplicacin o Probabilidad Conjunta.

Regla de la Adicin: Esta regla expresa la probabilidad de que ocurran dos o ms sucesos a la vez, P (A U B). Puede presentarse de dos formas: Para conjuntos con interseccin y para conjuntos mutuamente excluyentes. Veamos: Para conjuntos con Interseccin: Esto se debe a que sumamos la probabilidad de A ms la probabilidad de B, pero como ya habamos sumado la interseccin, entonces la restamos.
P(A U B) = P (A) U P (B) = P (A) + P (B)

Para conjuntos con Mutuamente excluyentes: En este caso, no hay ningn problema en sumar ambas probabilidades. Probabilidad Condicionada: Es la probabilidad de obtener un suceso, dado que ya ocurri otro. Es decir, si tenemos los sucesos A y B que pertenecen a un mismo espacio muestral S, y si la P (A) es diferente de cero, entonces esta probabilidad que esta designada por:

Para calcular esta probabilidad es necesario conocer tanto la probabilidad marginal de uno de los sucesos (P (A)) como la probabilidad de la interseccin de ambos (o la probabilidad cuando ocurran los dos sucesos a la vez). Ejemplo 3: La probabilidad de que una persona tenga una cuenta de ahorros es de 0,65 y la probabilidad de que invierta en un CDT y ahorre en una cuenta de ahorros es de 0,30. Se seleccion una persona al azar y result tener una cuenta de ahorros Cul es la probabilidad de que tenga tambin un CDT? Sea A = tener una cuenta de ahorros, B = tener un CDT

Regla de la Multiplicacin o Probabilidad Conjunta: Esta regla expresa la probabilidad de que ocurra un suceso A y un suceso B. Pueden ocurrir dos formas: que el segundo suceso depende del primero o que ninguno dependa del otro, por lo tanto veremos estas dos formas: Para sucesos dependientes: NOTA: Si observas esta regla, puedes darte cuenta que se relaciona fuertemente con la Interseccin entre conjuntos (y), es una multiplicacin. Ejemplo 1: Se sacan dos cartas sin restitucin (se saca la primera se observa y no se vuelve a meter) de una baraja de 52 cartas, Cul es la probabilidad de que ambas sean reyes? Sea R = sacar un rey Observe que lo que necesitamos es la probabilidad de sacar un rey en la primera carta y un rey en la segunda, es decir:

; Para sucesos independientes:

Ejemplo 2: Se sacan dos cartas con restitucin una baraja de 52 cartas, Cul es la probabilidad de que ambas sean corazones? Sea C = carta de corazones

6. SUCESOS:
Se llama suceso a cualquier subconjunto del espacio muestral. Diremos que un suceso A, ocurre si el resultado del experimento es uno de los sucesos elementales que pertenecen a A. 7.

SUCESOS DEPENDIENTES:

Dos o ms eventos sern dependientes cuando la ocurrencia o no-ocurrencia de uno de ellos afecta la probabilidad de ocurrencia del otro (u otros). Cuando tenemos este caso, empleamos entonces, el concepto de probabilidad condicional para denominar la probabilidad del evento relacionado. La expresin P (AB) indica la probabilidad de ocurrencia del evento A s el evento B ya ocurri. Se debe tener claro que AB no es una fraccin. P (AB) = P (A y B)/P (B) o P (BA) = P (A y B)/P (A)
8.

SUCESOS INDEPENDIENTES:

Dos sucesos son independientes entre s, si la ocurrencia de uno de ellos no afecta para nada el que pueda producirse el otro: Ejemplo: el suceso estatura de los alumnos de una clase y el color del pelo son independientes: el que un alumno sea ms o menos alto no va a influir en el color de su cabello, ni viceversa. Para que dos sucesos sean independientes tienen que verificar al menos una de las siguientes condiciones: P (B/A) = P (B) es decir, que la probabilidad de que se d el suceso B, condicionada a que previamente se haya dado el suceso A, es exactamente igual a la probabilidad de B. Ejemplo: la probabilidad de que al tirar una moneda salga cara (suceso B), condicionada a que haga buen tiempo (suceso A), es igual a la propia probabilidad del suceso B. P (A/B) = P (A) es decir, que la probabilidad de que se d el suceso A, condicionada a que previamente se haya dado el suceso B, es exactamente igual a la probabilidad de A. Ejemplo: la probabilidad de que haga buen tiempo (suceso A), condicionada a que al tirar una moneda salga cara (suceso B), es igual a la propia probabilidad del suceso A. P (A ^ B) = P (A) * P (B) es decir, que la probabilidad de que se d el suceso conjunto A y B es exactamente igual a la probabilidad del suceso A multiplicada por la probabilidad del suceso B. Ejemplo: la probabilidad de que haga buen tiempo (suceso A) y salga cara al tirar una moneda (suceso B), es igual a la probabilidad del suceso A multiplicada por la probabilidad del suceso B.

9. SUCESOS COMPATIBLES: Dos sucesos, A y B, son compatibles cuando tienen algn suceso elemental comn. Si A es sacar puntuacin par al tirar un dado y B es obtener mltiplo de 3, A y B son compatibles porque el 6 es un suceso elemental comn. 10.EVENTOS: Se conoce como evento estadstico al subconjunto de un espacio muestral. Se trata de los posibles resultados que pueden obtenerse de un experimento aleatorio. 11.EVENTOS MUTAMENTE EXCLUYENTES: Son aquellos en los que si un evento sucede significa que el otro no puede ocurrir. Si bien suelen usarse en teoras cientficas, tambin son parte de las leyes y los negocios. Como resultado, entender los eventos mutuamente excluyentes puede ser importante para una variedad de disciplinas. Eventos o sucesos mutuamente excluyentes son sucesos que por su propia naturaleza jams podran coexistir, por lo tanto o es uno o es el otro, por ejemplo... El clsico de lanzar una moneda, un evento puede ser obtener cara, y otro evento obtener cruz, pero nunca pueden ocurrir los dos eventos al mismo tiempo, si lanzas una moneda o te cae cara o te cae cruz, no te puede caer en las dos... (Claro est en un solo tiro) 12.EVEMTOS COMPLEMENTARIOS: Dos eventos se denominan complementarios cuando su unin da el espacio muestral y su interseccin es vaca. La suma de las probabilidades de dos eventos complementarios es igual a 1. 13. TECNICAS DE MUESTREO: Inferencia estadstica Estudia cmo sacar conclusiones generales para toda la poblacin a partir del estudio de una muestra, y el grado de fiabilidad o significacin de los resultados obtenidos. Muestreo probabilstico Consiste en elegir una muestra de una poblacin al azar. Podemos distinguir varios tipos de muestreo: Muestreo aleatorio simple Para obtener una muestra, se numeran los elementos de la poblacin y se seleccionan al azar los N elementos que contiene la muestra. Muestreo aleatorio sistemtico Se elige un individuo al azar y a partir de l, a intervalos constantes, se eligen los dems hasta completar la muestra. Por ejemplo si tenemos una poblacin formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que ser igual a 100/25 = 4. A continuacin elegimos el elemento de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de l obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98.

Muestreo aleatorio estratificado Se divide la poblacin en clases o estratos y se escoge, aleatoriamente, un nmero de individuos de cada estrato proporcional al nmero de componentes de cada estrato. En una fbrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay 200 trabajadores en la seccin A, 150 en la B, 150 en la C y 100 en la D.

Un muestreo puede hacerse con o sin reposicin, y la poblacin de partida puede ser infinita o finita. En todo nuestro estudio vamos a limitarnos a una poblacin de partida infinita o a muestreo con reposicin. Si consideremos todas las posibles muestras de tamao n en una poblacin, para cada muestra podemos calcular un estadstico (media, desviacin tpica, proporcin,...) que variar de una a otra. As obtenemos una distribucin del estadstico que se llama distribucin muestral. Conceptos de Muestreo Estadstico En estadstica un muestreo es la tcnica para la seleccin de una muestra a partir de una poblacin. En el muestreo, si el tamao de la muestra es ms pequeo que el tamao de la poblacin, se puede extraer dos o ms muestras de la misma poblacin. Al conjunto de muestras que se pueden obtener de la poblacin se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extraccin El muestreo: es una herramienta de la investigacin cientfica. Su funcin bsica es determinar que parte de una realidad en estudio (poblacin o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha poblacin. El Muestreo es ms que el procedimiento empleado para obtener una o ms muestras de una poblacin; el muestreo es una tcnica que sirve para obtener una o ms muestras de poblacin. Este se realiza una vez que se ha establecido un marco muestral representativo de la poblacin, se procede a la seleccin de los elementos de la muestra aunque hay muchos diseos de la muestra. Al tomar varias muestras de una poblacin, las estadsticas que calculamos para cada muestra no necesariamente seran iguales, y lo ms probable es que variaran de una muestra a otra. Muestreo Estadstico: son aquellos que se basan en el principio de equi-probabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de ser elegidas. TCNICAS DE SELECCIN DEL MUESTREO A TRAVS DEL MUESTREO ESTADSTICO
Muestreo probabilstico: Forman parte de este tipo de muestreo todos aquellos mtodos para

los que puede calcularse la probabilidad de extraccin de cualquiera de las muestras posibles. Este conjunto de tcnicas de muestreo es el ms aconsejable, aunque en ocasiones no es posible optar por l.

Muestreo estratificado: Consiste en la divisin previa de la poblacin de estudio en grupos o

clases que se suponen homogneos respecto a caracterstica a estudiar. A cada uno de estos estratos se le asignara una cuota que determinara el nmero de miembros del mismo que compondrn la muestra. Muestreo sistemtico: Es la eleccin de una muestra a partir de los elementos de una lista segn un orden determinado, o recorriendo la lista a partir de un nmero aleatorio determinado. Muestreo por conglomerados: Cuando la poblacin se encuentra dividida, de manera natural, en grupos que se suponen que contienen toda la variabilidad de la poblacin, es decir, la representan fielmente respecto a la caracterstica a elegir, pueden seleccionarse slo algunos de estos grupos o conglomerados para la realizacin del estudio. Muestreo errtico: Tambin se llama sin norma. La muestra se realiza de cualquier forma, valorando nicamente la comodidad o la oportunidad en trminos de costes, tiempo u otro factor no estadstico. Al realizar un muestreo en una poblacin podemos hablar de muestreos probabilsticas y no probabilsticas, entre estas tcnicas o procedimientos estn: Muestreo simple: Este tipo de muestreo toma solamente una muestra de una poblacin dada para el propsito de inferencia estadstica. Puesto que solamente una muestra es tomada, el tamao de muestra debe ser los suficientemente grandes para extraer una conclusin. Una muestra grande muchas veces cuesta demasiado dinero y tiempo. Muestreo aleatorio simple: Es aquel en que cada elemento de la poblacin tiene la misma probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple. 14. DISTRIBUCIN T-STUDENT: En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de probabilidad que surge del problema de estimar la media de una poblacin normalmente distribuida cuando el tamao de la muestra es pequeo. Surge, en la mayora de los estudios estadsticos prcticos, cuando la desviacin tpica de una poblacin se desconoce y debe ser estimada a partir de los datos de una muestra. Existen dos versiones de la prueba t-Student: una que supone que las varianzas poblacionales son iguales y otra versin que no asume esto ltimo. Para decidir si se puede suponer o no la igualdad de varianza en las dos poblaciones, se debe realizar previamente la prueba F-Snedecor de comparacin de dos varianzas. Donde Z tiene una distribucin normal de media nula y varianza 1, V tiene una distribucin de chicuadrado con grados de libertad. Z y V son independientes. V > 0; la distribucin t es simtrica con respecto al origen y la funcin de densidad tiene su valor mximo cuando t=0 La esperanza y varianza de una distribucin t-student son:

15. DISTRIBUCIN CHI CUADRADO: Es una prueba til para variables categricas y estadstica, es aplicable cuando la variable nominal est compuesta por dos o ms categoras. Tiene dos aplicaciones: La prueba de bondad de ajuste Chi-cuadrada. La prueba Chi-cuadrada de asociacin. Ambas pruebas se utilizan para determinar si las frecuencias observadas (O) en las categoras difieren significativamente de las frecuencias esperadas (E). Es una prueba estadstica para evaluar hiptesis acerca de la relacin entre dos variables categricas. CARACTERSTICAS: La distribucin X2 se lee con grados de libertad G.L =(N de filas -1)* (N de columnas -1). No tiene valores negativos. El valor mnimo es cero (0). Todas las curvas son asimtricas. Cuando aumentan los G.L las curvas son menos elevadas y ms extendidas a la derecha. Se utiliza para variables medidas en escala nominal u ordinal. Las frmulas son: | |

ACID EN BASE DE DATOS: ACID son siglas que significan Atomicity, Consistency, Isolation, Durability o, en espaol, Atomicidad, Consistencia, Aislamiento y Durabilidad. En informtica, ACID es un conjunto de caractersticas o propiedades que garantizan que las transacciones en una base de datos son fiables. En el contexto de bases de datos, una transaccin es una nica operacin sobre los datos. Un ejemplo de una transaccin ms compleja es la transferencia de fondos de una cuenta a otra, la cual implica mltiples operaciones individuales. Si un sistema supera la prueba ACID, significa que es fiable. Propiedades ACID Atomicidad: cualquier cambio de estado que produce una transaccin es atmico. Es decir, ocurren todos o no ocurre ninguno. En otras palabras, esta propiedad asegura que una operacin se realiza o no se realiza, por lo tanto no puede quedar el sistema a medias. Consistencia: propiedad que asegura que una transaccin no romper con la integridad de una base de datos, pues respeta todas las reglas y directrices de sta. Aislamiento: propiedad que asegura que no se afectarn entre s las transacciones. En otras palabras, dos o ms transacciones sobre los mismos datos no generarn un problema. Durabilidad: propiedad que asegura la persistencia de una transaccin, es decir, una vez que la transaccin qued aceptada no podr deshacerse aunque falle el sistema. Formas Normales Las formas normales son aplicadas a las tablas de una base de datos. Decir que una base de datos est en la forma normal N es decir que todas sus tablas estn en la forma normal N. En general, las primeras tres formas normales son suficientes para cubrir las necesidades de la mayora de las bases de datos. El creador de estas 3 primeras formas normales (o reglas) fue Edgar F. Codd. Primera Forma Normal (1FN) Una tabla est en Primera Forma Normal slo si todos los atributos son atmicos. Un atributo es atmico si los elementos del dominio son indivisibles, mnimos. La tabla contiene una clave primaria. La tabla no contiene atributos nulos. Si no posee ciclos repetitivos. Una columna no puede tener mltiples valores. Los datos son atmicos. (Si a cada valor de X le pertenece un valor de Y, entonces a cada valor de Y le pertenece un valor de X) Esta forma normal elimina los valores repetidos dentro de una BD

Segunda Forma Normal (2FN) Dependencia Funcional. Una relacin est en 2FN si est en 1FN y si los atributos que no forman parte de ninguna clave dependen de forma completa de la clave principal. Es decir que no existen dependencias parciales. En otras palabras podramos decir que la segunda forma normal est basada en el concepto de dependencia completamente funcional. Una dependencia funcional es completamente funcional si al eliminar los atributos A de X significa que la dependencia no es mantenida, esto es que A X, (X {A}) -x-> Y. Una dependencia funcional es una dependencia parcial si hay algunos atributos que pueden ser removidos de X y la dependencia todava se mantiene, esto es A X, (X {A}) -> Y. Por ejemplo {SSN, PNUMBER} HOURS es completamente dependiente dado que ni SSN HOURS ni PNUMBER HOURS mantienen la dependencia. Sin embargo {SSN, PNUMBER} ENAME es parcialmente dependiente dado que SSN ENAME mantiene la dependencia. Tercera Forma Normal La tabla se encuentra en 3FN si es 2FN y cada atributo que no forma parte de ninguna clave, depende directamente y no transitivamente, de la clave primaria. Un ejemplo de este concepto sera que, una dependencia funcional X->Y en un esquema de relacin R es una dependencia transitiva si hay un conjunto de atributos Z que no es un subconjunto de alguna clave de R, donde se mantiene X->Z y Z->Y. Por ejemplo, la dependencia SSN->DMGRSSN es una dependencia transitiva en EMP_DEPT de la siguiente figura. Decimos +son mantenidas, y DNUMBER no es un subconjunto de la clave de EMP_DEPT. Intuitivamente, podemos ver que la dependencia de DMGRSSN sobre DNUMBER es indeseable en EMP_DEPT dado que DNUMBER no es una clave de EMP_DEPT. Forma Normal de Boyce-Codd (FNBC) La tabla se encuentra en BCNF si cada determinante, atributo que determina completamente a otro, es clave candidata. Cuarta Forma Normal (4FN) Una tabla se encuentra en 4FN si, y slo si, para cada una de sus dependencias mltiples no funcionales X->->Y, siendo X una super-clave que, X es o una clave candidata o un conjunto de claves primarias. Quinta Forma Normal (5FN) Una tabla se encuentra en 5FN si: La tabla esta en 4FN No existen relaciones de dependencias no triviales que no siguen los criterios de las claves. Una tabla que se encuentra en la 4FN se dice que est en la 5FN si, y slo si, cada relacin de dependencia se encuentra definida por las claves candidatas.

Las formas normales se corresponden a una teora de normalizacin iniciada por el propio Codd y continuada por otros autores (entre los que destacan Boyce y Fagin). Codd defini en 1970 la primera forma normal, desde ese momento aparecieron la segunda, tercera, la Boyce-Codd, la cuarta y la quinta forma normal. Una tabla puede encontrarse en primera forma normal y no en segunda forma normal, pero no al contrario. Es decir los nmeros altos de formas normales son ms restrictivos (la quinta forma normal cumple todas las anteriores). La teora de formas normales es una teora absolutamente matemtica, pero en el presente manual se describen de forma ms intuitiva. Hay que tener en cuenta que muchos diseadores opinan que basta con llegar a la forma BoyceCodd, ya que la cuarta, y sobre todo la quinta, forma normal es polmica. Hay quien opina que hay bases de datos peores en quinta forma normal que en tercera. En cualquier caso debera ser obligatorio para cualquier diseador llegar hasta la forma normal de Boyce-Codd. PRIMERA FORMA NORMAL (1FN) Es una forma normal inherente al esquema relacional. Es decir toda tabla realmente relacional la cumple. Se dice que una tabla se encuentra en primera forma normal si impide que un atributo de una tupla pueda tomar ms de un valor. La tabla: TRABAJADOR DNI 12121212 A 12345345G Nombre Andrs Andrea Departamento Mantenimiento Direccin Gestin

Visualmente es una tabla, pero no una tabla relacional (lo que en terminologa de bases de datos relacionales se llama relacin). No cumple la primera forma normal. Sera primera forma normal si los datos fueran: TRABAJADOR DNI 12121212 A 12345345G 12345345G Esa tabla s est en primera forma normal. SEGUNDA FORMA NORMAL (2FN) Ocurre si una tabla est en primera forma normal y adems cada atributo que no sea clave, depende de forma funcional completa respecto de cualquiera de las claves. Toda la clave principal debe hacer dependientes al resto de atributos, si hay atributos que depende slo de Nombre Andrs Andrea Andrea Departamento Mantenimiento Direccin Gestin

parte de la clave, entonces esa parte de la clave y esos atributos formarn otra tabla. Ejemplo: ALUMNOS DNI 12121219A 12121219A 3457775G 5674378J 5674378J Cod Curso 34 25 34 25 34 Nombre Pedro Pedro Ana Sara Sara Apellido1 Valiente Valiente Fernndez Crespo Crespo Nota 9 8 6 7 6

Suponiendo que el DNI y el cdigo de curso formen una clave principal para esta tabla, slo la nota tiene dependencia funcional completa. El nombre y los apellidos dependen de forma completa del DNI. La tabla no es 2FN, para arreglarlo: ASISTENCIA ALUMNOS DNI 12121219A 3457775G 5674378J Nombre Pedro Ana Sara Apellido1 Valiente Fernndez Crespo DNI 12121219A 12121219A 3457775G 5674378J 5674378J TERCERA FORMA NORMAL (3FN) Ocurre cuando una tabla est en 2FN y adems ningn atributo que no sea clave depende transitivamente de las claves de la tabla. Es decir no ocurre cuando algn atributo depende funcionalmente de atributos que no son clave. Ejemplo: ALUMNOS DNI 12121349A 12121219A 3457775G 5674378J 3456858S Nombre Salvador Pedro Ana Sara Marina Apellido1 Velasco Valiente Fernndez Crespo Serrat Cod Provincia 34 34 47 47 08 Provincia Palencia Palencia Valladolid Valladolid Barcelona Cod Curso 34 25 34 25 34 Nota 9 8 6 7 6

La Provincia depende funcionalmente del cdigo de provincia, lo que hace que no est en 3FN. El arreglo sera: ALUMNOS DNI 12121349A 12121219A 3457775G 5674378J 3456858S Nombre Salvador Pedro Ana Sara Marina Apellido1 Velasco Valiente Fernndez Crespo Serrat Cod Provincia 34 34 47 47 08 PROVINCIA Cod Provincia 34 47 08 Provincia Palencia Valladolid Barcelona

Forma Normal de Boyce-Codd (FNBC) (BCFN) Ocurre si una tabla est en tercera forma normal y adems todo determinante es una clave candidata. Ejemplo: TUTORAS DNI 12121219 A 12121219 A 3457775G 5674378J 5674378J 5634823H Asignatura Lenguaje Matemticas Lenguaje Matemticas Lenguaje Matemticas Tutor Eva Andrs Eva Guillermo Julia Guillermo

Esa tabla est en tercera forma normal (no hay dependencias transitivas), pero no en forma de Boyce - Codd, ya que (DNI, Asignatura) -Tutor y Tutor-Asignatura y Tutor-/-(DNI ,Asignatura). En este caso la redundancia ocurre por mala seleccin de clave. La redundancia de la asignatura es completamente evitable. La solucin sera: TUTORAS DNI 12121219 A 12121219 A 3457775 G 5674378 J 5674378 J 5634823 H Tutor Eva Andrs Eva Guillermo Julia Guillermo ASIGNATURASTUTOR Asignatura Lenguaje Matemticas Matemticas Lenguaje Tutor Eva Andrs Guillermo Julia

En las formas de Boyce-Codd hay que tener cuidado al descomponer ya que se podra perder informacin por una mala descomposicin

Cuarta forma normal (4FN). Dependencias Multivaluadas Dependencia multivaluada Para el resto de formas normales (las diseadas por Fagin, mucho ms complejas), es importante definir este tipo de dependencia, que es distinta de las funcionales. Si las funcionales eran la base de la segunda y tercera forma normal (y de la de Boyce-Codd), stas son la base de la cuarta forma normal. Una dependencia multivaluada de X sobre Y (es decir X->>Y), siendo X e Y atributos de la misma tabla, ocurre cuando Y tiene un conjunto de valores bien definidos sobre cualquier valor de X. Es decir, dado X sabremos los posibles valores que puede tomar Y. Se refiere a posibles valores (en plural) y se trata de que los valores de ese atributo siempre son los mismos segn el valor de un atributo y no del otro. Ejemplo: N Curso Profesor Material 17 17 17 17 25 25 Eva Eva Julia Julia Eva Eva 1 2 1 2 1 2 La tabla cursos, profesores y materiales del curso. La tabla est en FNBC ya que no hay dependencias transitivas y todos los atributos son clave sin dependencia funcional hacia ellos. Sin embargo hay redundancia. Los materiales se van a repetir para cualquier profesor dando cualquier curso, ya que los profesores van a utilizar todos los materiales del curso (de no ser as no habra ninguna redundancia).

Los materiales del curso dependen de forma multivaluada del curso y no del profesor en una dependencia multivaluada (no 25 Eva 3 hay dependencia funcional ya que los posibles valores son varios). Para el par N de curso y Profesor podemos saber los materiales; pero lo sabemos por el curso y no por el profesor. Cuarta forma normal (4FN) Ocurre esta forma normal cuando una tabla est en forma normal de Boyce Codd y toda dependencia multivaluada es una dependencia funcional. Para la tabla anterior la solucin seran dos tablas: N Curso 17 17 25 25 25 Material 1 2 1 2 3 N Curso 17 17 25 Profesor Eva Julia Eva

Un teorema de Fagin indica cuando hay tres pares de conjuntos de atributos X, Y y Z si ocurre X>>Y y X->>Z (Y y Z tienen dependencia multivaluada sobre X), entonces las tablas X, Y y X, Z reproducen sin perder informacin lo que posea la tabla original. Este teorema marca la forma de dividir las tablas hacia una 4FN

QUINTA FORMA NORMAL (5FN) Dependencias de JOIN o de reunin


Una proyeccin de una tabla es la tabla resultante de tomar un subconjunto de los atributos de una tabla (se trata de la operacin proyeccin, , del lgebra relacional). Se dice que se tiene una tabla con dependencia de tipo JOIN si se puede obtener esa tabla como resultado de combinar (mediante la operacin JOIN del lgebra relacional) varias proyecciones de la misma.

Quinta forma normal (5FN)


Ocurre cuando est en 4FN y adems no hay proyecciones que combinadas formen la tabla original, o si las hay son consecuencia de aplicar la clave principal. Es la ms compleja y polmica de todas. Polmica pues no est claro en muchas ocasiones est muy claro que el paso a 5FN mejore la base de datos. Fue definida tambin por Fagin. En definitiva una tabla est en 5FN si est en 4FN y no hay restricciones impuestas por el creador de la base de datos. Es raro encontrarse este tipo de problemas cuando la normalizacin llega a 4FN. Se deben a restricciones muy concretas.

Ejemplo: Proveedor 1 1 2 1 Material 1 2 1 1 Proyecto 2 1 1 1

Indican cdigos de material suministrado por un proveedor y utilizado en un determinado proyecto. Si ocurre una restriccin especial como por ejemplo: Cuando un proveedor nos ha suministrado alguna vez un determinado material, si ese material aparece en otro proyecto, haremos que el proveedor nos suministre tambin ese material para ese proyecto. Eso ocurre en los datos como el proveedor nmero 1 nos suministr el material nmero 1 para el proyecto 2 y en el proyecto 1 utilizamos el material 1, aparecer la tupla proveedor 1, material 1 y proyecto 1. La dependencia que produce esta restriccin es lejana y se la llama de reunin. Para esa restriccin esta divisin en tablas sera vlida:

Proveedor 1 1 2

Material 1 2 1

Material 1 2 1

Proyecto 2 1 1

Esa descomposicin no pierde valores en este caso, sabiendo que si el proveedor nos suministra un material podremos relacionarle con todos los proyectos que utilizan ese material. Resumiendo, una tabla no est en quinta forma normal si hay una descomposicin de esa tabla que muestre la misma informacin que la original. Normalmente se crean tablas en quinta forma normal cuando en la misma tabla hay muchos atributos y es casi inmanejable o cuando hay muchos registros y pocos atributos. En el caso de que haya muchos atributos se divide la tabla en dos donde la clave es la misma en ambas tablas.