Vous êtes sur la page 1sur 136

CALIDAD DE INFORMACIN

PORTADA

CALIDAD DE INFORMACIN

CALIDAD DE INFORMACIN

NDICE

- INTRODUCCIN - APROXIMACIONES A LA CALIDAD - MEDICIN DE MODELOS CONCEPTUALES - MEDICIN DE MODELOS LGICOS - CALIDAD DE DATOS - ASPECTOS DE GESTIN

CALIDAD DE INFORMACIN

NDICE

- INTRODUCCIN - APROXIMACIONES A LA CALIDAD - MEDICIN DE MODELOS CONCEPTUALES - MEDICIN DE MODELOS LGICOS - CALIDAD DE DATOS - ASPECTOS DE GESTIN

CALIDAD DE INFORMACIN

INTRODUCCIN

PROBLEMAS DE POLUCIN DE DATOS Facilidad y bajo coste para registrar datos Redundancia no controlada Grandes cantidades de datos histricos caducados
la mitad del coste total de implementar un almacn de datos (datawarehouse) puede deberse a una pobre calidad de datos
Celko (1995)

la pobre calidad de datos ha sido una de las causas de fracaso ms importantes en los proyectos de reingeniera
Gartner Group
4

CALIDAD DE INFORMACIN

INTRODUCCIN

Strong et al. (1997) Si los datos no tienen suficiente calidad, entonces, se pueden convertir en fuentes de problemas: Datos no usados Barreras en la accesibilidad de los datos Dificultades en la utilizacin de los datos y de la informacin

CALIDAD DE INFORMACIN

INTRODUCCIN

Las empresas deben gestionar la informacin como un

producto importante, capitalizar el conocimiento como un activo principal y, de esta manera, sobrevivir y prosperar en la economa digital
Huang et al. (1999)

Datos

Informacin

Conocimiento

CALIDAD DE INFORMACIN

INTRODUCCIN

CALIDAD DE LA INFORMACIN

CALIDAD DE LA BD

CALIDAD DE LA PRESENTACIN

CALIDAD DEL SGBD

CALIDAD MODELO DE DATOS

CALIDAD DE LOS DATOS

CALIDAD DE INFORMACIN

INTRODUCCIN

MUNDO REAL
Valores

objetos y asociaciones con sus propiedades y reglas

MODELADO CONCEPTUAL

Estrutura percibida (no formalizada)

Esquema conceptual
DISEO LOGICO

MODELO CONCEPTUAL

Esquema de base de datos


DISEO FISICO

SGBD MODELO DE BD

Esquema interno

MODELO INTERNO

BASE DE DATOS FISICA

CALIDAD DE INFORMACIN

INTRODUCCIN

Calidad del proceso

(1,n) Nombre_a AUTOR AUTOR (0,n)

N:M Nombre_i (0,n) Trabaja INSTITUCION INSTITUCION

Calidad del producto

Escribe N:M Identificativo (1,n) EJEMPLAR EJEMPLAR (0,n) Nombre_t 1:1 (1,1) Tiene Tiene LIBRO LIBRO (0,n) Edita Edita (1,1) EDITORIAL EDITORIAL Nombre_e (1,n) N:M (0,n) Trata Trata Cod_libro 1:N (1,n) TEMA TEMA (0,n) Fecha_p (0,n) Consta Consta N:M Presta N:M Presta (0,n) SOCIO SOCIO Fecha_s Num_s

BD
9

CALIDAD DE INFORMACIN

NDICE

- INTRODUCCIN - APROXIMACIONES A LA CALIDAD - MEDICIN DE MODELOS CONCEPTUALES - MEDICIN DE MODELOS LGICOS - CALIDAD DE DATOS - ASPECTOS DE GESTIN

10

CALIDAD DE INFORMACIN

APROXIMACIONES

Autor(es) Lindland, Sindre y Solvberg (1994) Krogstie, Lind land y Sindre (1995) Pohl (1994)

Propsito Caractersticas Tipo Entender la calidad en Base lingstica. Marco de el modelado conceptual Separacin de objetivos referencia y medios Definir objetivos y dimensiones de proceso para modelado de req. Evaluar la calidad de modelos E/R Especificacin, representacin y acuerdo Factores de calidad, Estrategias y mtodos de evaluacin Diseo y evaluacin de esquemas alternativos Marco de referencia Marco de referencia Lista

Enfoque Terico

Terico

Moody and Shanks (1994) Moody (1998) Simsion (1994)

Prctico

Batin i, Ceri and Navathe (1992)

Ro man (1985)

Bo man et al. (1997)

Definir caractersticas de calidad para esquemas E/ R Mejorar la calidad de Caractersticas de un esquema de bases de calidad de un buen datos esquema, transformaciones de esquemas Definir propiedades Propiedades asociadas para especificaciones a su utilizacin en el de requisitos proceso de diseo Construir modelos Caractersticas de un conceptuales de calidad buen esquema

Prctico

Lista

Prctico

Lista

Terico

Lista

Prctico

11

CALIDAD DE INFORMACIN

APROXIMACIONES

ROMAN (1985) Conveniencia Limpieza conceptual Eficiencia computacional Facilidad de construccin Estructuracin Precisin, falta de ambigedad, complecin, consistencia Analizabilidad ...
12

CALIDAD DE INFORMACIN

APROXIMACIONES

BATINI, CERI y NAVATHE (1992) Complecin Correccin Minimalidad Expresividad Legibilidad Autoexplicacin

Extensibilidad
Normalidad
13

CALIDAD DE INFORMACIN

APROXIMACIONES

Complecin: un esquema es completo cuando representa todas las caractersticas relevantes del dominio de aplicacin: respecto a los requisitos respecto al esquema Correccin: un esquema es correcto cuando utilizan de forma apropiada los conceptos del modelo E/R. sintctica semntica Minimalidad: un esquema es minimal cuando todo aspecto de los requisitos aparece slo una vez en el esquema

Expresividad: un esquema es expresivo cuando representa los requisitos de una manera natural,sin necesidad de explicaciones adicionales.
14

CALIDAD DE INFORMACIN

APROXIMACIONES

Legibilidad: Es una propiedad del diagrama que representa al esquema. Un diagrama tiene buena legibilidad cuando respeta ciertos criterios estticos que hacen al diagrama elegante. Autoexplicacin: Un esquema es autoexplicativo cuando un gran nmero de propiedades puede representarse utilizando el propio modelo conceptual, sin otros formalismos. Extensibilidad: Un esquema es fcilmente adaptado a cambios en los requisitos cuando se descompone en partes (mdulos, vistas).

Normalidad: pretende conservar los datos en una forma limpia, purificada. (Aplicacin de la teora de la normalizacin del modelo relacional).
15

CALIDAD DE INFORMACIN

APROXIMACIONES

CARACTERSTICAS DE LAS LISTAS


Lindland et al. (1994)

- Muchas definiciones son vagas, complicadas e, incluso, inexistentes - La lista no es estructurada y las propiedades se solapan parcialmente - Se mezclan propiedades de la especificacin con las propiedades del mtodo y del lenguaje

- Presuponen la existencia de diseo/implementacin

- Algunos objetivos son poco realistas, o imposibles


16

CALIDAD DE INFORMACIN

APROXIMACIONES

Lindland et al. (1994, 1995)


MODELO
N:M (1,n) (0,n) Trabaja INSTITUCION INSTITUCION Nombre_i

CALIDAD SEMNTICA
DOMINIO

Nombre_a

AUTOR AUTOR (0,n) Escribe N:M

Identificativo (1,n) EJEMPLAR EJEMPLAR (0,n) Presta Presta (0,n) SOCIO SOCIO

Nombre_t 1:1 (1,1) Tiene Tiene LIBRO LIBRO (0,n) Edita Edita Fecha_s Num_s (1,1) EDITORIAL EDITORIAL Nombre_e 1:N (1,n) (0,n) Trata Trata N:M (1,n) TEMA TEMA (0,n) Fecha_p Cod_libro (0,n) Consta Consta N:M

CALIDAD SINTCTICA

N:M

LENGUAJE

CALIDAD SEMNTICA PERCIBIDA

CALIDAD PRAGMTICA CALIDAD SOCIAL


INTERPRETACIN DE LA AUDIENCIA
17

CONOCIMIENTO PARTICIPANTE

CALIDAD DE INFORMACIN

APROXIMACIONES

OBJETIVOS
Separar las propiedades directas de la especificacin de las del lenguaje y del mtodo Separar los objetivos de calidad de los medios para alcanzarlos (viabilidad) Disponer de un fundamento matemtico

Tener propiedades relacionadas directamente con la especificacin

18

CALIDAD DE INFORMACIN

APROXIMACIONES

ELEMENTOS
Audiencia: unin del conjunto de actores individuales, el conjunto de actores sociales organizacionales y el conjunto de actores tcnicos que necesitan relacionarse con el modelo Modelo: conjunto de todas las sentencias expresadas explcita o implcitamente Lenguaje: conjunto de todas las sentencias que se pueden expresar de acuerdo al vocabulario y la gramtica de los lenguajes de modelado utilizados Dominio: conjunto de todas las sentencias seran correctas y relevantes acerca del problema Interpretacin de la audiencia: conjunto de todas las sentencias de las que la audiencia piensa que consta el modelo Conocimiento de los participantes: unin de los conjuntos de sentencias de todos los actores sociales individuales
19

CALIDAD DE INFORMACIN

APROXIMACIONES

CALIDAD
Sintctica: correccin sintctica
Semntica: validez y complecin (viables) percibidas

Pragmtica: comprensin (viable)


Social: acuerdo (viable), conforme a 2 dimensiones: . Conocimiento vs. acuerdo en la interpretacin del modelo . Acuerdo relativo vs. acuerdo absoluto

20

CALIDAD DE INFORMACIN

APROXIMACIONES
Medios Propiedades modelo Actividades Sintaxis formal Verif. sintctica Semntica formal Verif. Consistencia Modificabilidad Insercin sentencias Borrado sentencias Entrenamiento Economa expresiva Inspeccin Esttica Visualizacin Filtrado Presentacin diag. Parafrasear Explicacin Entrenamiento Ejecutabilidad Ejecucin Animacin Simulacin Modelado conflicto Anlisis punto vista Resolucin conflicto Fusin de modelos
21

Tipos de calidad SINTCTICA SEMNTICA

Objetivos Correccin sintctica Validez viable Complecin viable Percibida Comprensin viable

PRAGMTICA

SOCIAL

Acuerdo viable

CALIDAD DE INFORMACIN

APROXIMACIONES

Moody y Schanks (1994, 1998)


MTODO DE EVALUACIN

STAKEHOLDER

MODELO
N:M (1,n) Nombre_a AUTOR AUTOR (0,n) Escribe Identificativo N:M Nombre_t 1:1 (1,1) Tiene Tiene LIBRO LIBRO (0,n) Edita Edita Fecha_s Num_s (1,1) EDITORIAL EDITORIAL Nombre_e 1:N (1,n) (0,n) Trata Trata N:M (1,n) TEMA TEMA (0,n) (0,n) Presta Presta (0,n) SOCIO SOCIO Fecha_p N:M Cod_libro (0,n) Consta Consta N:M Trabaja (0,n) INSTITUCION INSTITUCION Nombre_i

FACTOR DE CALIDAD

(1,n) EJEMPLAR EJEMPLAR

PESO

VALORACIN ESTRATEGIA DE MEJORA


22

CALIDAD DE INFORMACIN

APROXIMACIONES

ELEMENTOS
Factor de calidad: propiedad deseable de un modelo de datos Stakeholder: personas involucradas en la construccin o utilizacin del modelo Estrategias de mejora: Tcnicas para mejorar la calidad de los modelos de datos Mtodo de evaluacin: modo sistemtico de evaluar factores de calidad Peso: define la importancia relativa de los factores de calidad

Valores: representan la valoracin de un factor de calidad por un stakeholder

23

CALIDAD DE INFORMACIN

APROXIMACIONES

FACTORES DE CALIDAD
Moody (1998)

usuario
complecin

usuario
integridad

usuario
flexibilidad

usuario
comprens.

MODELO DE CALIDAD

correccin

simplicidad

integracin

implem.

analista

analista

admin. datos

desarrollador
24

CALIDAD DE INFORMACIN

APROXIMACIONES

Complecin: capacidad del modelo de tener toda la informacin requerida para cumplir los requisitos del usuario Integridad: grado en el que las reglas del negocio que se aplican a los datos estn definidas en el modelo de datos Flexibilidad: facilidad con la que el modelo de datos se puede adaptar a los cambios en los requisitos

Comprensibilidad: facilidad con la que el modelo de datos puede ser entendido (perceptual y operacional)

25

CALIDAD DE INFORMACIN

APROXIMACIONES

Correccin: se refiere a si el modelo cumple las reglas de las tcnicas de modelado utilizadas Simplicidad: significa que el modelo contiene los mnimos constructores posibles Integracin: nivel de consistencia del modelo de datos con el resto de los datos de la organizacin Implementabilidad: facilidad con la que el modelo de datos puede ser implementado dentro de las restricciones de tiempo, presupuesto y tecnologa del proyecto

26

CALIDAD DE INFORMACIN

APROXIMACIONES

INTERACCIONES ENTRE FACTORES


Moody y Schanks (1994)

COMPREN SIMPLIC FLEXIB COMPLEC IMPLEM INTEGR COMPREN. SIMPLIC. FLEXIB. COMPLEC. IMPLEM. INTEGR.

+ + + + + +

27

CALIDAD DE INFORMACIN

APROXIMACIONES

MARCO INTEGRADO PARA LA CALIDAD


Shanks y Darke (1997)

- AMBOS MARCOS COMPARTEN CONCEPTOS


AUDIENCIA = STAKEHOLDER OBJETIVO, PROPIEDAD = FACTOR DE CALIDAD ACTIVIDAD = ESTRATEGIA

- CONSIDERACIONES TERICAS Y PRCTICAS - VLIDO PARA EL PRODUCTO Y EL PROCESO

28

CALIDAD DE INFORMACIN

APROXIMACIONES

DOMAIN
appropriate for has knowledge of

QUALITY TYPE
classifies represents

Theory Based
is achieved by

MEANS

contains

LANGUAGE
used in appropriate for interprets concerned with is assigned assigns used for

GOAL

PROPERTY

AUDIENCE

MODEL

maps to OR

maps to

ACTIVITY

is achieved by

WEIGHTING

QUALITY FACTOR
is assigned valued by

RATING

scores

EVALUATION METHOD

Practice Based

29

CALIDAD DE INFORMACIN

APROXIMACIONES

ENFOQUE ONTOLGICO
Kesh (1995)

calidad
Funcionamiento Ontologa

Usabilidad (usuario) Precisin

Usabilidad (diseador)

Mantenibilidad

Rendimiento

Estructura adecuacin al problema validez consistencia concisin

Contenido complecin cohesin validez

30

CALIDAD DE INFORMACIN

APROXIMACIONES

Adecuacin Solidez Consistencia Concisin Complecin Cohesin Validez

USABIL. (usuario) X X X X

USABIL. (diseador) X X X X X

MANTENIB. X

EXACT

RENDIM.

X X X X X

31

CALIDAD DE INFORMACIN

APROXIMACIONES

GUAS DE MODELADO (GoM)


Schuette y Rotthowe (1998)

subjetividad
PRINCIPIOS
PRINCIPIO DE ADECUACIN DE LA CONSTRUCCIN

OBJETIVOS Consenso sobre la definicin del problema Consenso sobre la representacin del problema Consistencia intra-modelo Consistencia inter-modelo Minimalidad Correccin del lenguaje Adecuacin del lenguaje Potencia semntica Formalizacin Comprensibilidad del lenguaje
Consenso Aplicacin del lenguaje y comprensibilidad Comparabilidad Estructura sistemtica

PRINCIPIO DE ADECUACIN DEL LENGUAJ E

PRINCIPIO DE EFICIENCIA ECONMICA

32

CALIDAD DE INFORMACIN

APROXIMACIONES

PRINCIPIO DE CLARIDAD

Jerarqua Diseo del formato Filtrado Filtrado metdico Filtrado de contenido Consistencia inter-modelo entre estructura y
modelo de comportamiento Arquitectura de sistema de informacin

PRINCIPIO DE DIS EO SISTEMTICO

PRINCIPIO DE COMPARABILIDAD

Comparabilidad a nivel del meta-modelo Trasferencia/Traduccin completa Traduccin consistencia Comparabilidad a nivel de modelo

33

CALIDAD DE INFORMACIN

NDICE

- INTRODUCCIN - APROXIMACIONES A LA CALIDAD - MEDICIN DE MODELOS CONCEPTUALES - MEDICIN DE MODELOS LGICOS - CALIDAD DE DATOS - ASPECTOS DE GESTIN

34

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

MUNDO REAL
Valores

objetos y asociaciones con sus propiedades y reglas

E/R
MODELADO CONCEPTUAL

Estrutura percibida (no formalizada)

Esquema conceptual
DISEO LOGICO

MODELO CONCEPTUAL

Esquema de base de datos


DISEO FISICO

SGBD MODELO DE BD

UML

Esquema interno

MODELO INTERNO

BASE DE DATOS FISICA

35

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

-Definir slo propiedades deseables no es suficiente para evaluar la calidad, ... por lo que es necesario contar con medidas que permitan evaluar la calidad de los modelos conceptuales de datos de forma cuantitativa y objetiva, ... Moody et al. (1998)

- Medir datos puede ayudar a controlar y predecir

aspectos del modelo de datos durante el proceso de desarrollo software (MacDonell et al., 1997)

36

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Moody (1998)
Complecin N de elementos del modelo de datos que no corresponden con requisitos de usuario N de requisitos de usuario no representados en el modelo de datos N de elementos de datos que corresponden a requisitos de usuario pero definidos de forma inexacta N de inconsistencias con el modelo de procesos Integridad N de reglas del negocio que no se hacen cumplir por el modelo de datos N de restricciones de integridad incluidas en el modelo de datos que no corresponden a polticas del negocio Flexibilidad N de elementos en el modelo que estn sujetos a cambios en el futuro Costes estimados de los cambios Importancia estratgica de los cambios
37

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Moody (1998)
Comprensibilidad Valoracin de los usuarios sobre la comprensibilidad del modelo Capacidad de los usuarios de interpretar el modelo correctamente Valoracin de los desarrolladores de aplicaciones sobre la comprensibilidad del modelo Correccin N de violaciones de las convenciones de modelado de datos N de violaciones a las formas normales N de instancias de redundancia en el modelo Simplicidad N de entidades N de entidades e interrelaciones Suma ponderada de constructos (aNE + bNR + cNA)
38

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Moody (1998)
Integracin N de conflictos con el modelo de datos corporativo N de conflictos con los sistemas existentes Valoracin de los representantes de todas las reas de negocio

Implementabilidad Valoracin de riesgo tcnico Valoracin de riesgo de planificacin Estimacin del coste de desarrollo N de elementos fsicos incluidos en el modelo de datos

39

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Kesh (1995)

Calcular la puntuacin de los componentes ontolgicos individuales Combinar las puntuaciones de los componentes ontolgicos relevantes a cada comportamiento Combinar las puntuaciones de los componentes para calcular la puntuacin de la calidad

Q = w1 . s1 + w2 . s2 + w3 . s3 + w4 . s4 + w5 . s5

40

CALIDAD DE INFORMACIN
USABIL. (usuario) X X X X

MODELOS CONCEPTUALES
MANTENIB. X X X X X X X X X X EXACT RENDIM.

USABIL. (diseador) X X

Adecuacin Solidez Consistencia Concisin Complecin Cohesin Validez

s1 = (o1 + o3 + o4 + o5) / 4 s2 = (o2 + o3 + o5 + o6 + o7) / 5 s3 = (o2 + o4 + o6) / 3 s4 = (o3 + o5) / 2 s5 = (o4 + o5) / 2
41

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

o1 (adecuacin de la estructura): valorada por los usuarios en una escala de 5 puntos o2 (solidez de la estructura): valorada por un grupo de tcnicos o3 (consistencia de la estructura): o3 = M D1 donde M = Mximo de puntos posibles (5) y D1 est basado en el ratio R = (nmero de inconsitencias/nmero de implicacions), dado por 4n1, donde n1 es el nmero de interrelaciones o4 (concisin de la estructura): Si n es el nmero de entidades, el mnimo de interrelaciones ser (n-1), en cuyo caso o4 = 5. La peor situacin posible es c2n, en cuyo caso o4 = 0. En general: o4 = M ((c2n n1) / (c2n (n-1)).

o5 (complecin del contenido): se deduce de un mximo M los datos que faltan segn los informes y consultas que se deben generar de la base de datos.
o6 (cohesin del contenido): para cada entidad se mide el tamao de su clave primaria. Si es simple se punta el mximo. Si utiliza todos los atributos de la entidad se punta o6i = 0, donde i es el nmero de la entidad. En general o6i= M ((ne np) / (ne 1)) donde ne es el nmero de atributos de la entidad y np el nmero de atributos que forman la clave primaria. La cohesin total es: o6 = o6i / n o7 (validez del contenido): se asigna M si todos los atributos son vlidos. En general: o7 = M (1 ni / ne) siendo ni los atributos incorrectos.
42

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Gray et al. (1991) Complejidad de una entidad i:


Ei Di * Fi

Di = Complejidad de la arquitectura de datos Fi = Complejidad funcional

Complejidad de la arquitectura de datos:


Di Ri * ( a * FDAi b* NFDAi ) 0<a<=b Ri = nmero de interrelaciones

FDAi = n de atributos funcionalmente dependientes NFDAi = n atributos no dependientes

43

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Gray (1991)

c n E Ei i 1
Ae E e R e Ae R e E e M A3 E 3 R 3 A3 R 3 E 3

( )

44

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Eick (1991)

1 3 * qu 3 * qu qu3 qu 4 qu
1 2

qu1, nmero de dependencias funcionales que se dan en U no expresadas en Si qu2, nmero de dependencias en existencia que se dan en U no expresadas en Si qu3, nmero de atributos y conexiones de subtipos en Si. qu4, nmero de clases en Si qu5, nmero de etiquetas en Si

45

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Authors

Focus
Expressiveness, complexity, normalizedness

Scope

Objective/ Subjcetive

Theoretical Empirical Validation Validation

Tool

Eick (1991)

S-diagrams

Objective

Gray (1991)

Complexity , ER diagrams Deviation from 3FN Ontological quality and Behavioural quality Completeness, integrity, flexibility, understandability, correctness, simplicity, integration, implementability

Objective

Partially

Partially

Kesh (1995)

ER diagrams

Objective and Subjective

Moody (1998)

ER diagrams

Objective and Subjective

Partially

46

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

ISO 9126
Efficiency Functionality
Portability

SOFTWARE QUALITY

Reliability Maintainability

Usability

47

CALIDAD DE BASES DE DATOS

MODELOS CONCEPTUALES

Maintainability

Understandability

Modifiability

Analysability

Stability

Testability

Compliance

Complexity
48

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Henderson-Sellers (1994) COMPLEXITY

Computational

Psychological

Representational

Problem Complexity

Product or Structural Complexity

Cognitive Complexity

49

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

GOAL
Analyse for the purpose of with respect to their from the point of view of the in the context of ER diagrams Evaluating Maintainability Software designers Software delevopment organisations
50

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Number of entities (NE)


Number of attributes (NA) Number of derived attributes (NDA) Number of composite attributes (NCA) Number of multivalued attributes (NMVA) Number of relationships (NR) Number of M:N relationships (NM:NR)

Number of 1:N relationships (N1:NR)


51

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Number of N-Ary relationships (NN-AryR)

Number of binary relationships (NBinaryR)


Number of IS_A relationships (NIS_AR)

Number of reflexive relationships (NRefR)


Number of redundant relationships (NRR)

52

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

VALIDACIN TERICA
NE, NA, NDA, NCA, NMVA BRIAND ET AL.S FRAMEWORK (1996) ZUSES FRAMEWORK (1998) POELS AND DEDENES FRAMEWORK (1999) Size NR, NM:NR, N1:NR, NBinaryR, NN-ARYR, NIS_AR, NRefR, NRR Complexity

Ratio

Ratio

53

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

VALIDACIN EMPRICA

Empirical studies

Considered metrics NE, NA, NR, NM:NR, N1:NR, NN-AryR, NBinaryR, NIS_AR

Metrics partially validated NE, NA, N1:NR, NBinaryR, NIS_AR NE, NA, NR, N1:NR, NM:NR, NBinaryR, NN-AryR, NRefR NE, NA, NR, N1:NR, NM:NR, NBinaryR

Subjects Professors and Students

FIRST EXPERIMENT

SECOND EXPERIMENT

NE, NA, NR, NM:NR, N1:NR, NBinaryR, NN-AryR, NRefR NE, NA, NR, NM:NR, N1:NR, NBinaryR NE, NA, NR, NM:NR, N1:NR, NBinaryR

Students

THIRD EXPERIMENT

Students

CASE STUDY

NE, NA, NR, NM:NR, N1:NR, NBinaryR Practitioners 54

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Mtricas para modelos conceptuales OO:


Chidamber and Kemerer (1991; 1994) Li and Henry (1993) Brito e Abreu and Carapua (1994) Lorenz and Kidd (1994) Briand et al.s (1997) Marchesi (1998) Harrison et al. (1998) Banisya et al. (1999)

55

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

CK Metrics (Chidamber and Kemerer,1991;1994)

Metrics
DIT: The Depth of Inheritance NOC: The Number of Children

Goal
Measure design complexity in relation with their impact on external quality attributes such as maintainability, reusability, etc.

56

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Theoretical Validation
Chidamber and Kemerer (1994) corroborated that both DIT and NOC accomplish Weyukers axioms for complexity measures (Weyuker, 1988) Briand et al. (1996) classified the DIT metric as a length measure, and the NOC metric as a size measure Zuse (1998) has demonstrated that DIT and NOC are both above the ordinal scale Poels and Dedene (1999) have demonstrated by means of the DISTANCE framework that they can be characterised at ratio scale
57

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Empirical Validation
Basili et al. (1996) have have concluded that the larger the DIT, the greater the probability of fault detection. Also, they observed that the larger the NOC, the lower the probability of fault detection. Cartwright and Shepperd (1996) found a positive correlation between the DIT metric and the number of user-reported problems, however, doubting the use of inheritance. Li and Henry (1993b) showed that Chidamber and Kemerers metrics appeared to be adequate in predicting the frequency of changes across classes during the maintenance phase. Daly et al. (1996) found that the time to perform maintenance tasks was significantly lower in systems with three levels of inheritance depth as compared to systems with no use of inheritance.
58

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Empirical Validation
Chidamber et al. (1998) have carried out studies on three
commercial systems, in order to examine the relationships between MOOSE metrics and productivity, rework effort and design effort. None of the three systems investigated showed significant use of inheritance, so DIT and NOC tended to have minimal values. Chidamber et al. (1998) suggested that low values of DIT and NOC indicate that the reuse opportunities (via inheritance) were perhaps compromised in favour of comprehensibility of the overall architecture of the applications. Tang (1998) have investigated the correlation between these design metrics and the likelihood of the occurrence of OO faults.

59

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Empirical Validation
After carrying about two case studies Briand et al. (1998; 2000b) have concluded that inheritance measures (DIT, NOC, etc) appear not to be consistent indicators of class-fault proneness, but they suggested to the use of inheritance is an important topic for further research. Harrison et al. (2000) used the DIT metric in an empirical study, demonstrating that systems without inheritance are easier to understand and to modify than systems with three or five levels of inheritance. Poels and Dedene (2001) use the DIT metric in an empirical study, demonstrating that the extensive use of inheritance leads to models that are more difficult to modify. Briand et al. (2001) have used the metrics NOC, DIT (and also CBO metric, but we do not consider it in this work) in an empirical study, demonstrating that the use of design principles leads to OO designs that are easier to maintain. 60

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Tool
The authors of these metrics have developed a tool for the metric calculation Chidamber and Kemerer (1994) for C++ code Several commercial and public domain analysers for Java: CodeWork (2000), Metameta (2000), PowerSoftware (2000), ControlCenter (TogetherSoft, 2001) and for C++: Devanbu (2000), ObjectSoft (2000) and Power-Software (2000a) There is at least one tool that can be used to collect the CK metrics directly from design documents (NumberSix-Software, 2000)
61

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES
Objective/ Theoretical Empirical Subjective Validation Validation

Authors

Focus

Scope

Tool

Chidamber and Kemerer (1994)

Complexity

Class

Objective

Partially

Lorenz and Kidd (1994)

Static characteristic of OO designs

Class/ Class diagram

Objective

Partially

Brito e Abreu and Carapua (1994)

Measure the use OO design mechanisms such as inheritance, Class diagram Objective information hiding, coupling and polymorphism

Partially

Marchesi (1998)

System complexity, balancing of responsibilities among packages and classes, and cohesion and coupling among system entities

Class/Class diagram

Objective

Partially

62

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

GOAL
Analyse for the purpose of with respect to their from the point of view of the in the context of UML Class diagrams Evaluating Maintainability Software designers Software delevopment organisations
63

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

CLASS DIAGRAMS-SCOPE METRICS


Number of associations (NAssoc) Number of aggregations (NAgg) Number of aggregation hierarchies (NAggH) Maximum height of aggregation (MaxHagg) Number of generalisations (NGen) Number of generalisation hierarchies (NGenH) Maximum depth of inheritance (MaxDIT) Number of dependencies (NDep)
64

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

CLASS-SCOPE METRICS
Number of associations per class (NAssocC) Height of aggregation (HAgg) Number of direct parts (NDP) Number of parts (NP) Number of wholes (NW) Number of dependencies IN (NDepIN) Number of dependencies OUT (NDepOUT)

65

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

VALIDACIN TERICA

CLASS DIAGRAMS-SCOPE METRICS NAggH, NGenH BRIAND ET AL.S FRAMEWORK(1996) POELS AND DEDENES FRAMEWORK (1999) NAssoc, NDep, NAgg, NGen

CLASS-SCOPE METRICS NAssocC, NDepIn, NDepOut

NDP, NP, NW

HAgg

Size

Complexity

Size

Coupling

Length

Ratio

Ratio

66

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

VALIDACIN EMPRICA
Empirical studies Metrics partially Considered metrics validated Subjects NC, NA, NM, NAssoc, NC, NA, NM, NAssoc, NAgg, NAgg, NDep, NGen, Professors NDep, NGen, NAggH, NAggH, NGenH, MaxHAgg, and NGenH, MaxHAgg, MaxDIT MaxDIT students

FIRST EXPERIMENT

NC, NA, NM, NAssoc, NC, NA, NM, NAssoc, NAgg, NAgg, NDep, NGen, Professors NDep, NGen, NAggH, NAggH, NGenH, MaxHAgg, and SECOND EXPERIMENT NGenH, MaxHAgg, MaxDIT MaxDIT students NC, NA, NM, NAssoc, NAgg, SECOND EXPERIMENT NDep, NGen, NAggH, (REPLICATION) NGenH, MaxHAgg, MaxDIT NC, NA, NM, NAssoc, NAgg, NGen, NAggH, MaxHAgg

Students

THIRD EXPERIMENT

NC, NA, NM, NAssoc, NC, NA, NM, NAssoc, NAgg, NAgg, NDep, NGen, NDep, NGen, NAggH, NAggH, NGenH, MaxHAgg, NGenH, MaxHAgg, MaxDIT MaxDIT

Students
67

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

1. DEFINITION
Analyse UML class diagrams complexity metrics Evaluating The capability to be used as early quality indicators OOIS designers Undergraduate students and professors of the Software Engineering Area in the Department of Computer Science in the UCLM 68

For the purpose of With respect to


From the point of view of In the context of

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

2. PLANNING
Context selection
The experiment run off-line (not industrial software development) The subjects were 10 professors and 20 students enrolled in the final-year of Computer Science at the Department of Computer Science at the UCLM

Selection of subjects
The subjects are chosen for convenience

69

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Variables selection The independent variable is the UML class diagram structural complexity The dependent variable is the UML class diagram maintainability Instrumentation The objects were UML class diagrams The independent variable was measured through the metrics The dependent variable was measured by the time spent doing the experiment, the maintenance time

70

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Hypotheses formulation

Null hypothesis, H0: There is not a significant correlation between the structural complexity metrics we proposed and the maintenance time Alternative hypothesis, H1: There is a significant correlation between the structural complexity metrics we proposed and the maintenance time Experiment design
A within-subject design
71

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

3. OPERATION Preparation The material consists of nine UML class diagrams of different application domains The diagrams have different complexity, considering a broad range of metrics values

Each subject has to modify the class diagrams according to the new requirements and to write down the time spent in performing those modifications (maintenance time)
72

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Execution

The subjects were given all the material. We explained to them how to carry out the experiment We allowed one week to do the experiment We collected all the empirical data Data Validation
We checked if the tests were complete and if the modifications were done correctly We discarded the test of seven subjects, because they included a required modification that was done incorrectly
73

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

4. ANALYSIS AND INTERPRETATION Our goal is to ascertain if any correlation exists between each of the proposed metrics and the maintenance time

For analysing the empirical data we used three techniques: Statistical techniques Fuzzy classification and regression trees (Linares et al., 1996) Fuzzy prototypical knowledge discovery (Olivas, 2000)

74

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

5. VALIDITY EVALUATION Threats to conclusion validity


The only issue that could affect the statistical validity of this study are the size of the sample data (243 values, 9 diagrams and 27 subjects)

Threats to construct validity


The dependent variable we used is the maintenance time, so we consider this variable constructively valid The construct validity of the measures used for the independent variables is guaranteed by Poels and Dedenes framework (Poels and Dedene, 1999; 2000a) used to validate them 75

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

Threats to internal validity


Differences among subjects Knowledge of the universe of discourse Precision in time values Learning effects Fatigue effects Persistence effects Subject motivation Other factors

Threats to external validity


Materials and tasks used Subjects
76

CALIDAD DE INFORMACIN

MODELOS CONCEPTUALES

EXPERIMENT CONCLUSIONS

NC, NA, NM, NAssoc, NAgg, NDep, NGen, NAggH, NGenH, MaxHAgg, MaxDIT are to some extent correlated with maintenance time

NC NA

NM

NAssoc NAgg

NDep

NGen NAggH NGenH MaxHAgg Max DIT

Maintenance Time

0,828

0,557

0,547

0,411

0,575

0,675

0,696

0,555

0,719

77

CALIDAD DE INFORMACIN

NDICE

- INTRODUCCIN - APROXIMACIONES A LA CALIDAD - MEDICIN DE MODELOS CONCEPTUALES - MEDICIN DE MODELOS LGICOS - CALIDAD DE DATOS - ASPECTOS DE GESTIN

78

CALIDAD DE INFORMACIN

MODELOS LGICOS

- Prcticamente no existen mtricas para bases de datos

- Sneed y Foshag (1998) metrics for databases have been neglected in the metric community
- Medir datos puede ayudar a controlar y predecir

aspectos del modelo de datos durante el proceso de desarrollo software (MacDonell et al., 1997) - Un enfoque ms riguroso para asegurar la calidad de las bases de datos

79

CALIDAD DE INFORMACIN

MODELOS LGICOS

MUNDO REAL
Valores

objetos y asociaciones con sus propiedades y reglas

MODELADO CONCEPTUAL

Estrutura percibida (no formalizada)

Esquema conceptual
DISEO LOGICO

MODELO CONCEPTUAL

relacional
SGBD MODELO DE BD

Esquema de base de datos


DISEO FISICO

activa
obj-rel

Esquema interno

MODELO INTERNO

BASE DE DATOS FISICA

80

CALIDAD DE INFORMACIN

MODELOS LGICOS

Bases de datos relacionales


Las ms implantadas en la actualidad
(Leavit, 2000)

Bases de datos activas


Muchos productos comerciales incluyen actividad
(Ceri y Widom, 1996; Paton y Daz, 2000)

Bases de datos objeto-relacionales


En el ao 2003 sustituirn a las relacionales
(Leavit, 2000)

81

CALIDAD DE INFORMACIN

MODELOS LGICOS

Mtricas propuestas para programas tradicionales Lneas de cdigo Nmero de sentencias de programacin SIZE1. Definida como el nmero de ;.
Li y Henry (1993)

Mtricas de la Ciencia del Software (Software Science). Halstead (1977) Puntos Funcin. Albrecht y Gaffney (1983) Complejidad ciclomtica. McCabe (1976) Fan-in y fan-out. Henry y Kafura (1981)
82

CALIDAD DE INFORMACIN

MODELOS LGICOS

Mtricas para modelos lgicos


Bases de datos relacionales

Ratio de normalidad (Gray et al., 1991)

Bases de datos activas

Bases de datos objeto-relacionales

Adaptacin de mtricas para sistemas OO


83

CALIDAD DE INFORMACIN

MODELOS LGICOS

DEFINICIN DE MTRICAS Bases de Datos Relacionales


OBJETIVO (Goal) Propsito: Asunto: Objeto: Punto de vista: Asegurar la mantenibilidad de las bases de datos relacionales desde el punto de vista del diseador de la base de datos
84

CALIDAD DE INFORMACIN

MODELOS LGICOS

PREGUNTAS (Question)
1. Cmo influye la complejidad de las tablas en la mantenibilidad de las bases de datos relacionales? 2. Cmo influye la complejidad entre tablas en la mantenibilidad de las bases de datos relacionales?

85

CALIDAD DE INFORMACIN

MODELOS LGICOS

INTRA ELEMENTO NA(T) NFK(T) BASES DE DATOS RELACIONALES DRT(T) RFK(T)

INTER ELEMENTO NA NFK DRT RFK NT NR COS


86

CALIDAD DE INFORMACIN

MODELOS LGICOS

BASE DE DATOS

NIVEL

MTRICA

BRIAND ET AL. (1996)

ZUSE (1998)

TABLA

RELACIONAL ESQUEMA

NA NFK DRT RFK NA NFK DRT RFK NT NR COS

TAMAO COMPLEJIDAD LONGITUD NO CLASIFICABLE TAMAO COMPLEJIDAD LONGITUD NO CLASIFICABLE TAMAO NO CLASIFICABLE NO CLASIFICABLE

ENCIMA ORDINAL ENCIMA ORDINAL ORDINAL ABSOLUTA ENCIMA ORDINAL ENCIMA ORDINAL ORDINAL ABSOLUTA RATIO ABSOLUTA RATIO

87

CALIDAD DE INFORMACIN

MODELOS LGICOS

DEFINICIN DE MTRICAS Bases de Datos Activas

INTER ELEMENTO NAn BASES DE DATOS ACTIVAS D TP

INTRA ELEMENTO NO NS

88

CALIDAD DE INFORMACIN

MODELOS LGICOS

DEFINICIN DE MTRICAS: Bases de Datos Objeto-Relacionales


INTRA ELEMENTO TS TSSC TSCC CCS SHC BASES DE DATOS OBJETORELACIONALES SC SAC SMC PCC(T) NIC(T) NSC(T) NFK(T) DRT(T) RFK(T) INTER ELEMENTO SS PCC NIC NSC COS NT NFK DRT RFK

89

CALIDAD DE INFORMACIN

MODELOS LGICOS

VALIDACIN EMPRICA
EXPERIMENTO CONTROLADO
SUJETOS MTRICAS DRT, NFK TP, D NS, NO PCC, TS, DRT, RFK, NIC, NSC

R PLICA

CASO DE ESTUDIO

SUJETOS EXPERTOS EXPERTOS ALUMNOS EXPERTOS

MTRICAS DRT, NFK TP, D NS, NO PCC, TS, DRT, RFK, NIC, NSC

SUJETOS EXPERTOS

MTRICAS NT, NA, RFK

RELACIONAL
ACTIVAS INTER INTRA OBJETORELACIONAL

ALUMNOS ALUMNOS ALUMNOS EXPERTOS

90

CALIDAD DE INFORMACIN

MODELOS LGICOS

VALIDACIN EMPRICA: Experimento Relacional

Hiptesis
Hiptesis nula: Diferentes valores de las mtricas no afectan a la entendibilidad del esquema de la base de datos. Hiptesis alternativa 1: El valor de DRT afecta a la entendibilidad del esquema de la base de datos. Hiptesis alternativa 2: El valor de NFK afecta a la entendibilidad del esquema de la base de datos. Hiptesis alternativa 3: La combinacin de valores de DRT y NFK afecta a la entendibilidad del 91 esquema de la base de datos.

CALIDAD DE INFORMACIN

MODELOS LGICOS

Sujetos Alumnos de la E.S. Informtica de la Universidad de Castilla-La Mancha que cursaban una asignatura anual de bases de datos. Fue realizado por 60 alumnos, slo 59 fueron finalmente aceptados. Materiales del experimento La documentacin entregada a cada sujeto constaba de:
los esquemas de las bases de datos las tablas con su contenido la hoja de preguntas y respuestas

92

CALIDAD DE INFORMACIN

MODELOS LGICOS

.
Se realizaron 4 tests diferentes con distintos valores para las mtricas Material: esquema de la BD, tablas, hoja de preguntas y respuestas Ejercicios: insercin, eliminacin y modificacin de la BD

Qu tablas y cuantas columnas por tabla se vern afectadas si borramos de la tabla 5

la columna con cod1=210? Tabla 1 Tabla 2 abla 3 Tabla 4 Tabla 5 Tabla 6

Qu tablas y cuantas columnas por tabla se vern afectadas si modificsemos la columna X de la fila con X=11 en la tabla 3?

Tabla 1

Tabla 2

Tabla 3

Tabla 4

Tabla 5

Tabla 6

Cuntas filas, de que tablas y cuantas columnas por tabla habra que modificar si

quisiramos aadir una nueva fila (con todos los datos nuevos en la base de datos) a la tabla 6? Tabla 1 Tabla 2 Tabla 3 Tabla 4 Tabla 5 Tabla 6

93

CALIDAD DE INFORMACIN

MODELOS LGICOS

Diseo

Factor B (NFK)
LOW HIGH

F a c t o r A

LOW

2,5

2,8

(DRT)
HIGH 5,5 5,8
94

CALIDAD DE INFORMACIN

MODELOS LGICOS

Variables Independientes
Las variables independientes son DRT y NFK. Cada una de estas variables tiene dos niveles que son dos y cinco para DRT y cinco y ocho para NFK.

Variables Dependientes
Se calcula como el nmero de respuestas correctamente respondidas por cada sujeto en cada test. Dimos a los sujetos diez minutos por test evaluando despus el nmero de respuestas correctas obtenidas en ese intervalo de tiempo. El estudio se centr en el nmero de respuestas correctas obtenidas para cada test. nicamente se descart un test por estar en blanco. 95

CALIDAD DE INFORMACIN

MODELOS LGICOS

Variables controladas
Intentamos minimizar la variabilidad entre sujetos escogindolos a todos del mismo curso y con los mismos conocimientos sobre bases de datos Los efectos de variables irrelevantes fueron minimizados haciendo los mismos tests a todos los participantes durante el mismo tiempo El orden de ejecucin de los cuatro tests vari de unos sujetos a otros para contrarrestrar los efectos producidos por el aprendizaje. Igualmente se hizo que cada uno de los cuatro test trabajara con el mismo nmero de tablas aunque 96 se modificara el valor de las mtricas.

CALIDAD DE INFORMACIN

MODELOS LGICOS

Procedimiento
Los tests se realizaron consecutivamente en el transcurso de una hora de clase. Antes de comenzar, fue explicado a los sujetos: tipo de ejercicios que deban realizar, material que se les iba a entregar, tipo de respuestas que deban dar y tiempo que tenan para realizar cada test del experimento. A cada sujeto se le entreg la documentacin completa para los cuatro tests Al finalizar el tiempo asignado a cada test, se inform a los sujetos que, inmediatamente, dejaban de trabajar en el test que estuvieran y pasaban al siguiente.
97

CALIDAD DE INFORMACIN

MODELOS LGICOS

Resultados
Fuente de variacin DRT NFK Interaccin Error Total Grados de Libertad F-Ratio 1 1 1 1 232 1.67 2.84 48.1

F1,232=2.73
98

CALIDAD DE INFORMACIN

MODELOS LGICOS

VALIDACIN EMPRICA: Rplica Relacional

Sujetos
Profesionales de una empresa espaola con una experiencia media de tres aos en el campo de las bases de datos. Once personas desarrollaron el experimento siendo todos ellos vlidos.

99

CALIDAD DE INFORMACIN

MODELOS LGICOS

Variables Dependientes Considerando la amplia experiencia en bases de datos relacionales de los sujetos que iban a desarrollar el experimento, se decidi calcularla en funcin del tiempo necesario para realizar cada uno de los cuatro tests. De esta forma, los tests fueron tomados como vlidos siempre y cuando estuvieran completados. El estudio, por lo tanto, se centr en los tiempos obtenidos para cada test.
100

CALIDAD DE INFORMACIN

MODELOS LGICOS

Procedimiento
Los tests se realizaron consecutivamente en el transcurso de una hora. Antes de comenzar, fue explicado a los sujetos, el tipo de ejercicios a realizar, el material que se les iba a entregar, y el tipo de respuestas a dar y cmo deban anotar el tiempo que invertan en resolver cada uno de los cuatro tests. Antes de comenzar a estudiar cada caso, los sujetos deban anotar la hora de comienzo; al finalizar los ejercicios correspondientes a un test, los sujetos tenan que anotar la hora de finalizacin. De esta forma, cuando un sujeto terminaba un test, poda pasar al siguiente sin necesidad de esperar al resto de compaeros.
101

CALIDAD DE INFORMACIN

MODELOS LGICOS

Resultados
Fuente de variacin DRT NFK Interaccin Error Total Grados de Libertad 1 1 1 1 40 F-Ratio

5.98 6.47 0.469

F1,40=2.84
102

CALIDAD DE INFORMACIN

MODELOS LGICOS

De ambos experimentos se deduce que la mtrica NFK parece ser un indicador slido de la entendibilidad del esquema mientras que resulta ms complicado obtener una conclusin para la mtrica DRT

103

CALIDAD DE INFORMACIN

MODELOS LGICOS

Validez de constructo

Decidi medirse la entendibilidad de forma distinta la primera vez que para la rplica (nro de respuestas correctas dadas vs tiempo para determinar el estado final de la base de datostiempo de anlisis de la base de datos junto al tiempo de ejecucin) debido a la experiencia de los sujetos de la rplica. Sera conveniente hacer ms experimentos, variando las operaciones a realizar en la base de datos.
104

CALIDAD DE INFORMACIN

MODELOS LGICOS

Validez interna

Diferencias entre los esquemas. Seis tablas con ms o menos claves ajenas. Dominio de los esquemas diferente. Esto pudo influir en los resultados obtenidos. Precisin de los valores del tiempo. En la rplica del experimento, era responsabilidad de los sujetos anotar los tiempos de comienzo y fin de cada test. Este procedimiento puede producir que algn sujeto introduzca alguna imprecisin. Efectos de aprendizaje. Los tests de cada experimento fueron colocados en distinto orden.
105

CALIDAD DE INFORMACIN

MODELOS LGICOS

Validez interna
Efectos de fatiga. Tiempo medio de una hora por lo que estos efectos son, prcticamente, inexistentes. Adems, la diferencia en el orden ayuda a evitar este efecto. Efectos de persistencia. El segundo experimento se llev a cabo con un nuevo conjunto de sujetos. Motivacin de los sujetos. Alta en el caso de los alumnos ya que se realizaron ejercicios similares en el examen. En el caso de los profesionales, la motivacin poda ser menor. Otros factores. El plagio y la influencia entre los sujetos fueron controlados.
106

CALIDAD DE INFORMACIN

MODELOS LGICOS

Validez externa
Materiales y tareas utilizados. Intentamos utilizar esquemas y operaciones representativos de casos reales aunque sera interesante realizar ms experimentos con bases de datos relacionales de mayor tamao y complejidad. Sujetos. Debido a la dificultad de conseguir profesionales, el experimento se realiz la primera vez con estudiantes. En este caso, las tareas a realizar no requeran de gran experiencia por lo que los resultados obtenidos con los estudiantes pueden ser considerados correctos (Basili et al., 1999).
107

CALIDAD DE INFORMACIN

MODELOS LGICOS

Validez externa
En general, seran necesarios nuevos experimentos con un mayor nmero de sujetos, tanto con estudiantes como con profesionales y con una mayor diferencia entre los valores que toman las mtricas para poder concluir si la integridad referencial afecta o no a la entendibilidad de las bases de datos relacionales y, por tanto, su mantenibilidad. Intentamos aumentar la validez externa de las mtricas realizando el segundo experimento con los profesionales, con lo que los resultados obtenidos se han podido generalizar considerablemente.
108

CALIDAD DE INFORMACIN

CALIDAD DE DATOS

- INTRODUCCIN - APROXIMACIONES A LA CALIDAD - MEDICIN DE MODELOS CONCEPTUALES - MEDICIN DE MODELOS LGICOS - CALIDAD DE DATOS - ASPECTOS DE GESTIN

109

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

Wang et al. (1993) y (1995) requisitos de la aplicacin

DETERMINAR LA VISTA DE DATOS

requisitos de calidad

VISTA DE APLICACIN

atributos de calidad

DETERMINAR PARMETROS

VISTA DE PARMETROS

110

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

ALUMNO

Mat.

CURSO

nm. nombre

fecha

nm. nombre

nota direc tel. precio descr.

111

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

INSPECCIN

ALUMNO

Mat.
QUIN, CUNDO

CURSO

nm.

fecha

nm.

nombre OPORT. direc OPORT. tel. PRECISIN nota

nombre OPORT. precio COSTE eval. CREDIBILIDAD OPORTUNIDAD


112

FORMATO.

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

VISTA DE PARMETROS

DETERMINAR INDICADORES

VISTA DE CALIDAD

INTEGRAR VISTAS DE CALIDAD

ESQUEMA DE CALIDAD

113

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

QUIN

CUNDO PROC. INSPEC.

RESULTADO

ALUMNO

Mat.
ID. FECHA USUARIO

CURSO

nm. fecha nombre EDAD direc EDAD tel. MTODO RECOGIDA MEDIO nota

nm.

nombre EDAD precio COSTE eval. NOMBRE EVAL FECHA


114

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

ALUMNO William Smith

NOTA SELECTIVIDAD 8 <30/10/90, MEC> 9 <30/10/90, MEC> ...

NOTA MEDIA CARRERA 7 <30/7/95, Esc. Inf.> 6 <10/9/96, Esc. Inf.> ...

Gene Hackman

115

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

Caballero (2004) Marco de Trabajo para la Mejora de la Gestin de la Calidad de los Datos y de la Informacin, con dos componentes: CALDEA. Modelo de referencia de gestin de calidad de datos e informacin basado en niveles de madurez. EVAMECAL. Metodologa de evaluacin y mejora del PGI basada en CALDEA.
116

CALIDAD DE BASES DE DATOS


ACTIVIDADES DE CALDEA ORGANIZADAS POR NIVELES DE MADUREZ

CALIDAD DE DATOS

Optimizante (GPD) Anlisis Causal para la prevencin e identificacin de defectos (GIDO) Innovacin y desarrollo organizacional.

Gestionado Cuantitativamente (GPM) Gestin de Planes de medicin para los componentes del PGI. (GAPM) Gestin de la Automatizacin de los Planes de Medida

Integracin (VV) Validacin y Verificacin de los productos de datos. (GIR) Gestin del impacto de riesgos y de la pobre calidad de datos. (GE) Gestin de la estandarizacin de la calidad de datos (GPO) Gestin de polticas de calidad de datos organizacionales. Definicin (GEGCDI) Gestin de un Equipo de Calidad de Datos (GP) Gestin de un Proyecto para el Proceso de Gestin de Informacin (PyPGI) (GR) Gestin de Requisitos de Usuario. (GCI) Gestin de la Calidad de Datos en los componentes del PGI. (FS) Gestin de fuentes y destinos (sumideros) de datos (ADM) Gestin de proyecto para la adquisicin, el desarrollo o el mantenimiento de una base o almacn de datos. Inicial

117

CALIDAD DE BASES DE DATOS


ACP
(GEGCDI) Gestin de un Equipo de un Equipo de Aseguramiento de Calidad de Datos y de Informacin. (GP) Gestin de un Proyecto para el PGI. (GR) Gestin de Requisitos de Usuario.

CALIDAD DE DATOS
OBJETIVO

Organizar un equipo que se encargue de todas las iniciativas de evaluacin y mejora de los PGI.
Elaborar un proyecto que permita definir todo s los aspectos de cada uno de los PGI que integran el Sistema de Informacin. Recoger y elaborar los documentos pertinentes a los requisitos de usuario para cada uno de los PGI y las caractersticas de calidad de dat os que tienen que tener cada uno de sus componentes. Definir y documentar los aspectos cuantitativos y cualitativos de calidad de datos para cada uno de los componentes de los PGI expresados en trminos de dimensiones y mtricas de calidad de datos. Identificar y documentar las fuentes y sumideros de datos y productos de informacin, as como los formatos en que se intercambiarn los datos con ellos. Asegurar que el lugar donde se va a almacenar los datos responde a los requisitos establecidos tanto a nivel tcnico del producto comercial elegido, como al esquema diseado para albergar los datos. 118

(GCI) Gestin de la Calidad de Datos en los componentes del PGI y en el producto de informacin. (FS) Gestin de fuentes de datos y de los destinos (sumideros) de los productos de informacin. (ADM) Gestin de proyecto para la adquisicin, el desarrollo o el mantenimiento de una base de datos o de un almacn de datos.

CALIDAD DE BASES DE DATOS


ACTIVIDADES DE CALDEA ORGANIZADAS POR NIVELES DE MADUREZ

CALIDAD DE DATOS

Optimizante (GPD) Anlisis Causal para la prevencin e identificacin de defectos (GIDO) Innovacin y desarrollo organizacional.

Gestionado Cuantitativamente (GPM) Gestin de Planes de medicin para los componentes del PGI. (GAPM) Gestin de la Automatizacin de los Planes de Medida

Integracin (VV) Validacin y Verificacin de los productos de datos. (GIR) Gestin del impacto de riesgos y de la pobre calidad de datos. (GE) Gestin de la estandarizacin de la calidad de datos (GPO) Gestin de polticas de calidad de datos organizacionales. Definicin (GEGCDI) Gestin de un Equipo de Calidad de Datos (GP) Gestin de un Proyecto para el Proceso de Gestin de Informacin (PyPGI) (GR) Gestin de Requisitos de Usuario. (GCI) Gestin de la Calidad de Datos en los componentes del PGI. (FS) Gestin de fuentes y destinos (sumideros) de datos (ADM) Gestin de proyecto para la adquisicin, el desarrollo o el mantenimiento de una base o almacn de datos. Inicial

119

CALIDAD DE BASES DE DATOS


ACP
(VV) Validacin y Verificacin de los productos de datos. (GIR) Gestin del impacto de riesgos y de la pobre calidad de datos.

CALIDAD DE DATOS
OBJETIVO

Elaborar un plan para la validacin y verificacin de los productos de datos desarrollados en el PGI. Delimitar, acotar y documentar todos los posibles impactos y riesgos derivados de tener una pobre calidad de datos en los componentes del PGI. Ir creando una cultura organizacional de calidad de datos a travs de las experiencias propias y/o ajenas. A partir del conocimiento de calidad de datos y de las necesidades de la organizacin con respecto a los productos de datos establecer y documentar polticas de calidad de datos que incidan sobre los componentes del PGI.

(GE) Gestin de la estandarizacin de la calidad de datos (GPO) Gestin de polticas de calidad de datos organizacionales.

120

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS
Catlogo de Definicin del estndares de PGI. calidad de datos y de informacin. GE2. Eleccin de Polticas Organizacionales Catlogo de polticas organizacionales.

Definicin del PGI.

Gestin de la Estandarizacin de la Calidad de la Informacin

GE.1. Eleccin de Estndares de Calidad de Datos y de Informacin

Lista con las caractersticas observadas en cada uno de los componentes del PGI o del producto de informacin que son modificadas por los estndares elegidos.

Lista con las caractersticas observadas en cada uno de los componentes del PGI o del producto de informacin que son modificadas por las polticas de calidad elegidas.

ERU-PGI, ERU-CDI ERU-PI.

GE.3. Revisin y complecin de las ERU

Definicin PGI con modelos de datos y procesos

Definicin revisada del PGI con modelos de datos y de procesos

121

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

GE.1.Eleccin de estndares y dimensiones de calidad de datos y de informacin


Entrada Productos Salida Tcnicas y Herramie ntas Catlogo de estndares de calidad de datos y de informacin. Definicin del PGI. Lista con las caractersticas observadas en cada uno de los componentes del PGI o del producto de informacin que son modificadas por los estndares elegidos. Sesiones de Trabajo. Inspeccin de los estndares. EGCDI.

Participantes

Especialistas o Consultores en estndares de calidad de datos.


Todas aquellas personas que desempeen un rol relacionado con los estndares de calidad de datos y de informacin e elegidos Cuando se tenga definido el PGI. 122

Momento de Realizacin de Actividad

CALIDAD DE BASES DE DATOS


ACTIVIDADES DE CALDEA ORGANIZADAS POR NIVELES DE MADUREZ

CALIDAD DE DATOS

Optimizante (GPD) Anlisis Causal para la prevencin e identificacin de defectos (GIDO) Innovacin y desarrollo organizacional.

Gestionado Cuantitativamente (GPM) Gestin de Planes de medicin para los componentes del PGI. (GAPM) Gestin de la Automatizacin de los Planes de Medida

Integracin (VV) Validacin y Verificacin de los productos de datos. (GIR) Gestin del impacto de riesgos y de la pobre calidad de datos. (GE) Gestin de la estandarizacin de la calidad de datos (GPO) Gestin de polticas de calidad de datos organizacionales. Definicin (GEGCDI) Gestin de un Equipo de Calidad de Datos (GP) Gestin de un Proyecto para el Proceso de Gestin de Informacin (PyPGI) (GR) Gestin de Requisitos de Usuario. (GCI) Gestin de la Calidad de Datos en los componentes del PGI. (FS) Gestin de fuentes y destinos (sumideros) de datos (ADM) Gestin de proyecto para la adquisicin, el desarrollo o el mantenimiento de una base o almacn de datos. Inicial

123

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS
OBJETIVO

ACP

(GPM) Gestin de Planes de Medicin para componentes del PGI

Elaborar planes para la medicin de los aspectos de calidad de datos definidos en la actividad (GCD) Gestin de la Calidad de Datos en los componentes del PGI del nivel de Definicin, as como los formatos de presentacin de resultados. Establecer los mecanismos necesarios para automatizar los procesos de medicin.

(GAPM). Gestin de la Auto matizacin de Planes de Medidas para Componentes del PGI.

124

CALIDAD DE BASES DE DATOS


ACTIVIDADES DE CALDEA ORGANIZADAS POR NIVELES DE MADUREZ

CALIDAD DE DATOS

Optimizante (GPD) Anlisis Causal para la prevencin e identificacin de defectos (GIDO) Innovacin y desarrollo organizacional.

Gestionado Cuantitativamente (GPM) Gestin de Planes de medicin para los componentes del PGI. (GAPM) Gestin de la Automatizacin de los Planes de Medida

Integracin (VV) Validacin y Verificacin de los productos de datos. (GIR) Gestin del impacto de riesgos y de la pobre calidad de datos. (GE) Gestin de la estandarizacin de la calidad de datos (GPO) Gestin de polticas de calidad de datos organizacionales. Definicin (GEGCDI) Gestin de un Equipo de Calidad de Datos (GP) Gestin de un Proyecto para el Proceso de Gestin de Informacin (PyPGI) (GR) Gestin de Requisitos de Usuario. (GCI) Gestin de la Calidad de Datos en los componentes del PGI. (FS) Gestin de fuentes y destinos (sumideros) de datos (ADM) Gestin de proyecto para la adquisicin, el desarrollo o el mantenimiento de una base o almacn de datos. Inicial

125

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

ACP

OBJETIVO

(GPD) Anlisis causal para la prevencin e identificacin de defectos. (GIDO) Innovacin y desarrollo organizacional.

A partir de los indicadores de calidad obtenidos en la actividad (GPM) Gestin de Planes de Medicin para componentes del PGI se trata de identificar las causas de los defectos.

Esta actividad tiene como objetivo elaborar propuestas de mejora para el PI o los componentes del PGI.

126

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS

EVAMECAL
Metodologa de evaluacin y mejora basada en el modelo de referencia CALDEA y orientada a la mejora continua de los PGI Al estilo de SCAMPI, ISO/IEC 15504 Basada en Ballou y Tayi (1996) y adaptada al ciclo PDCA de Deming (1986)

127

CALIDAD DE BASES DE DATOS

CALIDAD DE DATOS
Situacin Actual

PGI

del PGI EMC -P.1. D EFINICIN DE LA SITUACIN A CTUAL EMC -P.2. D EFINICIN DE OBJETIVOS DE M EJORA

PLAN

Informe con Objetivos de Mejora

PM PGI -

DO

EMC -D.2. E JECUCIN DEL PM -PGI

EMC -D.1. A NLISIS DE


CAUSAS Y DESARROLLO DE

PM -PGI

Informe de realizacin del Plan

CHECK

EMC - C.1. C OMPROBA CIN DE LA EFICACIA ACCIONES CORRECTORAS

ACT
ECM -A.2. E STANDARI ZAR EL C ONOCIMIENTO O BTENIDO

Informe Listado de Comprobaciones

Conocimiento sobre PGI


ECM -A.1. O BTENER CONCLUSIONES

128

CALIDAD DE INFORMACIN

NDICE

- INTRODUCCIN - APROXIMACIONES A LA CALIDAD - MEDICIN DE MODELOS CONCEPTUALES - MEDICIN DE MODELOS LGICOS - CALIDAD DE DATOS - ASPECTOS DE GESTIN

129

CALIDAD DE INFORMACIN

ASPECTOS DE GESTIN

CAUSAS DE LOS PROBLEMAS DE CALIDAD


Strong et al. (1997)

Mltiples fuentes de la misma informacin producen diferentes valores La informacin se produce utilizando juicios subjetivos, producindose sesgos Errores sistemticos en la produccin de la informacin produce prdida de informacin Grandes volmenes de informacin almacenada hace difcil el acceso en tiempo razonable Sistemas distribuidos heterogneos producen definiciones, formatos y valores inconsistentes La informacin no numrica es difcil de indexar No se dispone todava de anlisis automtico a lo largo de colecciones de datos Al cambiar las tareas de los consumidores de informacin y el entorno organizacional, la informacin que es relevante y til tambin cambia La facilidad de acceso a la informacin puede entrar en conflicto con los requisitos de seguridad, privacidad y confidencialidad La falta de suficientes recursos de computacin limita el acceso
130

CALIDAD DE INFORMACIN

ASPECTOS DE GESTIN

POLTICA DE CALIDAD
Redman (1996)

Todos los empleados de la empresa tienen que asumir que los datos y la informacin as como los procesos de negocio que los crean, almacenan, procesan y utilizan son propiedad de la empresa y que su comparticin dentro de la empresa, as como con terceros deber estar sometida a consideraciones legales o de privacidad.
El director de informtica (CIO) ser el responsable de mantener un inventario actualizado de datos, de su disponiblidad, as como de informar sobre la calidad de los mismos. Los suministradores y creadores de datos deben comprender quin usa los datos y con qu propsitos, implementar las medidas de calidad de datos para asegurar que se satisfacen los requisitos de los usuarios e implementar la gestin del proceso para los datos que crean.
131

CALIDAD DE INFORMACIN

ASPECTOS DE GESTIN

POLTICA DE CALIDAD
Redman (1996)

Los que almacenan y procesan datos deben proporcionar arquitecturas y bases de datos que minimicen la redundancia innecesaria, salvaguardar los datos de daos o accesos no autorizados y disear las nuevas tecnologas con el fin de promover la calidad de los datos. Los usuarios deben trabajar con los suministradores de datos, proporcionar retroalimentacin, asegurar que los datos se intepretan correctamente, asegurar que los datos se utilizan slo para propsitos empresariales legtimos, proteger los derechos de los clientes, empleados, etc. sobre privacidad.

132

CALIDAD DE INFORMACIN

ASPECTOS DE GESTIN

TQdM (Total Quality data Management)


English (1999)

1) Identificar un grupo de informacin que tenga un impacto significativo con el fin de aportar un mayor valor aadido. 2) Establecer objetivos y medidas de la calidad de la informacin, por ejemplo: asegurar la oportunidad de la informacin, midiendo el tiempo que pasa desde que se conoce un dato hasta que se encuentra disponible para un determinado proceso. 3) Identificar la cadena de valor y de costes de la informacin, que consiste en una cadena de valor de negocio extendida y centrada en un grupo de datos. Esta cadena comprender todos los ficheros, documentos y bases de datos, procesos de negocio, programas y roles que tengan relacin con el grupo de datos. 4) Determinar los ficheros o procesos a evaluar. 5) Identificar las fuentes de validacin de datos para evaluar la precisin. 6) Extraer muestras de datos aleatorias, aplicando las tcnicas estadsticas adecuadas 7) Medir la calidad de la informacin, con el fin de determinar su nivel de fiabilidad y descubrir los defectos. 8) Interpretar e informar sobre la calidad de la informacin.
133

CALIDAD DE INFORMACIN

ASPECTOS DE GESTIN

Cuestiones para los directivos


Miller (1996)

Son todava vlidas las percepciones de nuestras necesidades de calidad de informacin que tenamos ayer?
Cmo se traducen las necesidades de calidad en requisitos tecnolgicos? Es nuestra estrategia tecnolgica consistente con nuestras necesidades de calidad? Estn la coleccin, diseminacin y procedimientos de verificacin internos a la altura de los requisitos de calidad?

134

CALIDAD DE INFORMACIN

ASPECTOS DE GESTIN

empresa

satisfaccin del personal satisfaccin del cliente calidad de la informacin


135

CALIDAD DE INFORMACIN

ASPECTOS DE GESTIN

136

Vous aimerez peut-être aussi