Vous êtes sur la page 1sur 33

1.

UMA VISO SINTTICA E COMENTADA DO DMBOK

O objetivo desse trabalho fornecer uma viso sinttica sobre os corpos de


conhecimentos do Data Management Body of Knowledge (DMBOK), adicionando
aspectos prticos sobre gesto de dados desenvolvidos pelo autor nesta rea
por mais de 40 anos. Esse trabalho no tem a pretenso de substituir o
documento DMBOK original, e intenciona servir somente de um guia mais rpido
e comentado sobre as prticas daqueles corpos de conhecimentos. Para
detalhes completos de contedo e de referncias, os documentos DMBOK, tanto
o original, quanto a sua edio brasileira, devero ser consultados.
Esse trabalho surgiu nos cursos de ps-graduao ministrados pelo autor,
originado da necessidade de se ter um texto menor e acessvel aos alunos que
ainda no dispunham (ou no dispem) das referncias originais. Alm disso,
incorpora comentrios correlatos, percepes e vises do autor sobre o tema,
que podem servir para o entendimento das interpretaes realizadas sobre a
pesquisa realizada pela Data Management Association (Dama) Brasil e pelo MEC,
abordando a gesto estratgica de dados.
A Gesto de Dados (no ingls, Data Management ou DM), conforme o DMBOK
(2009), visa controlar e alavancar eficazmente o uso dos ativos de dados e sua
misso e objetivos so atender e exceder s necessidades de informao de
todos os envolvidos (stakeholders) da empresa em termos de disponibilidade,
segurana e qualidade. uma responsabilidade tanto do setor de Tecnologia da
Informao de uma empresa quanto de seus clientes internos e externos e
envolve desde a alta direo, que utiliza dados na gerao de informaes
estratgicas, at profissionais de nvel operacional, que muitas vezes so
responsveis pela coleta e produo dos dados.
O DMBOK (2009) estrutura o processo de DM por meio de funes e atividades e
est distribudo por dez reas de conhecimento, conforme apresentado na Figura
1, a seguir.
1.1reas

Governana de dados

Gerncia da Arquitetura de dados

Desenvolvimento de dados

Gesto de operaes de bancos de dados

Gesto de Segurana de dados

Gesto de Dados mestres e de Referncia

Gesto de Data Warehousing e BI

Gesto de Documentos e contedo

Gesto de Metadados

Gesto de Qualidade de dados

1.1.1 Governana de dados


Definio de Governana de Dados (GD) ampla e plural. um
conceito em evoluo, que envolve o cruzamento de diversas
disciplinas, com foco em qualidade de dados, passando por avaliao,
gerncia, melhoria, monitorao de seu uso, alm de aspectos de
segurana e privacidade associados a eles. Para tal, as empresas
devero definir objetivos organizacionais e processos
institucionalizados, que devero ser implementados dentro do
equilbrio fundamental entre TI e reas de negcios. Atravs da GD, as
empresas hoje tambm definem mecanismos para analisar os
processos que se abastecem de ou produzem os dados, criando um
sentido maior de qualidade conjunta entre esses dois elementos
seminais (dados e processos) e contribuindo para a valorizao desses
ativos, atravs do pleno conhecimento da cadeia produtiva de
informao e conhecimentos.
Segundo o DMBOK (2009), a Governana de Dados se divide em duas
atividades macro, Planejamento e Controle da Gesto dos Dados, etc.

1.1.1.1 Planejamento da gesto de dados


O objetivo :
Entender as necessidades estratgicas de dados da empresa.
Desenvolver e manter uma estratgia de dados.
Estabelecer unidades organizacionais e papis voltadas para dados.
Identificar os Data Stewards.
Estabelecer as camadas de GD e de data stewards.
Desenvolver e aprovar Polticas, Padres e Procedimentos de dados.
Revisar e aprovar a Arquitetura de Dados.
Planejar e patrocinar Projetos e Servios de Gesto de Dados.
Estimar o valor dos Ativos de Dados e custos associados (Riscos).

A viso sinttica :

a. Entender as necessidades estratgicas de dados:


Entender a estratgia e os dados necessrios para apoi-la. So evidentes
questes como:
Para onde vou (em temos de negcios), como vou, quando vou?
Que dados sero necessrios nesse caminho?
Como obt-los, como mant-los?
Como garantir a sua qualidade?
Que reas sero prioritrias no tratamento dos dados, baseado nas
estratgias de negcios?
Para que segmentos vamos caminhar? Big Data, sentiment analysis via
redes sociais, etc.?

b. Desenvolver e manter a estratgia de dados:


Instanciar as aes para a obteno dos dados, sua manuteno, sua
qualidade, baseado nas necessidades estratgicas identificadas
anteriormente.
c. Estabelecer unidades organizacionais e papis para essas atividades de dados
Estruturas in-business (data stewards), estruturas in-TI (AD, DBA, etc.),
estruturas tticas (CDO, DMO, gerencia os data stewards) e estruturas
estratgicas (Comit de GD, que define regras, tira dvidas, resolve
impasses, etc.).

d. Identificar os Data Stewards


Sero os responsveis, dentro da rea de negcios, pelo controle e uso
dos dados. Nos usurios, seriam figuras com amplo domnio de
conhecimento desses assuntos. Tomaro conta daquele recurso, sero os
responsveis (liability) e gerenciaro o seu uso.

e. Estabelecer as estruturas organizacionais (camadas) para Gesto de Dados e


de data stewards
Enquanto no item c h uma viso mais genrica, aqui h uma viso
mais detalhe. Envolve Membros do Comit de GD, principais Data
Stewards, principais componentes do DMO, entre outros. Para as funes
in-business, definir as reas prioritrias (em funo da estratgia) que
devero ter os seus stewards (gestores de dados). H vrias proposies
possveis de estruturas para GD.
Abaixo, na figura 2, uma das proposies com as camadas e suas
principais atribuies:
f. Desenvolver e aprovar polticas, padres e procedimentos de gesto e
governana de dados.
Aqui encontramos trs dos Ps da GD. Polticas so as regras maiores,
definidas em consenso com reas envolvidas, todas aprovadas pelo
Comit e divulgadas. As polticas balizam as grandes direes. Padres
regulam formas de nomes, documentos, layouts, entre outros.
Procedimentos so detalhes especficos de como fazer certas atividades e
que se juntam a descries de processos que sero desenvolvidos.

g. Revisar e aprovar a arquitetura de dados:


Envolve analisar a arquitetura de dados, formada em nveis conceituais
gradativamente detalhados (assuntos, entidades de negcios, entidades
de dados, relacionamentos, principais atributos, etc.) e mostrando a sua
conexo com outras arquiteturas, como de negcios, de sistema, de
processos, de tecnologia, entre outros. Observar que h um processo
(corpo de conhecimento) focado em arquitetura.

h. Planejar e patrocinar projetos e servios da Gesto de dados:


Definir os projetos mais prioritrios para se comear a implementao dos
conceitos de GD. Podem ser melhorias na integrao de dados, na
definio de arquiteturas, na segurana, em foco de dados no
estruturados, em qualidade, entre outros.
Sero definidos de acordo com as prioridades estratgicas dos negcios.

i. Estimar o valor dos ativos de dados e custos associados:

Trabalhar pelo custo negativo (riscos em imagem/reputao, compliance,


etc.). Trabalhar em valorao relativa dos dados com relao aos outros
recursos de um projeto e na aferio de valores que os competidores
dariam por aqueles recursos de dados.

1.1.1.2 Controle da gesto de dados

O objetivo :
Supervisionar as camadas/estruturas e papis envolvidos com dados.
Coordenar as atividades de Governana de Dados.
Gerenciar e resolver conflitos sobre dados.
Monitorar e garantir aderncia a aspectos regulatrios (no que tange a
dados).
Monitorar e garantir a aplicao e conformidade s Polticas, Padres
Procedimentos e Arquitetura.
Supervisionar projetos e servios relativos Gerncia de Dados.
Comunicar e promover os valores dos ativos de dados.

Viso sinttica:
Nesse ponto, a ideia justamente o controle do funcionamento da
estrutura definida anteriormente: Envolve coordenar as atividades de
GD, supervisionar as estruturas definidas para as atividades de dados,
gerenciar conflitos, entre outros.

1.1.2 Gesto da arquitetura de dados

Segundo o DMBOK (2009), o objetivo da Gesto da Arquitetura de Dados :


Entender as necessidades de informao da empresa. Aqui
aparece uma variante com relao outra j mencionada
anteriormente (Gesto de Dados). O foco aqui na necessidade de
informaes, ou seja, algo mais elaborado e focado em negcios e
derivado do anterior.
Desenvolver e manter o modelo corporativo de dados (MCD).
Analisar e alinhar o MCD com outros modelos de negcios.
Definir e manter uma arquitetura de tecnologia de Dados.
Definir e manter uma arquitetura de integrao de dados.
Definir e manter uma arquitetura de Data Warehousing e de
Business Intelligence.
Definir e manter uma taxonomia e padres de nomes
(namespaces) de dados para a empresa.
Definir e manter uma arquitetura de Metadados.

A viso sinttica :

a. Entender as necessidades de informaes da empresa:

Levantar as informaes, criando vises de dados por reas/assuntos


(subject areas). Envolve a criao da viso de dados necessrios em
variados nveis de abstrao. Os dois primeiros so focos da viso
corporativa e os trs ltimos esto dentro da viso de aplicaes:
Modelo de Entidades de negcios por subject area, numa viso de alto
nvel, com meno das principais Entidades de Negcios daquele
domnio.

Modelo conceitual de dados: Um pouco mais detalhado que o anterior,


contemplando vises de relacionamentos e dos principais atributos
envolvidos.

Modelo lgico de dados: Viso mais detalhada que a anterior,


contemplando as Entidades de Dados, com seus relacionamentos e
seus atributos, normalizados, numa viso relacional.

Modelo Fsico, com uma viso de implementao, dentro da restrio


do SGBD/tecnologia.

Viso do implementador, com aspectos relacionados com SQL/DDL,


Views, etc. ou de implementaes pelos SGBD ou FMS (Hadoop,
NOSQL), entre outros.

b. Desenvolver e manter o modelo de dados corporativo:


Envolve a manuteno dos dois nveis anteriormente definidos, em
funo do desenvolvimento dos modelos da aplicao. O grande
objetivo manter a coerncia do significado dos dados (Entidades,
relacionamentos) para toda a empresa. Aqui comea uma parte da
definio semntica das Entidades de Negcios, com extenses
semnticas de classificao e agregao, se necessrio.

c. Analisar e compatibilizar o MCD com outros modelos da empresa:


Aqui ao grande foco manter a coerncia entre o modelo de
negcios da empresa (como grande balizador) e os modelos de
dados, modelos de processos, modelos de sistemas/aplicaes,
modelo de tecnologia e modelo de organizao. Isso significa que
uma Entidade de Negcios (modelo conceitual de dados) ser
criada, atualizada, mantida e eliminada por processos
implementados em sistemas, apoiados em tecnologia e sob a
responsabilidade de reas (organizao). o dado se integrando
nas vrias dimenses da empresa.

d. Definir e manter a arquitetura de tecnologia de dados:


Envolve um framework que contemple os elementos de tecnologias
que compem o domnio de dados da empresa. Por exemplo, os
SGBDs tradicionais, os SGBDs envolvidos em projetos de ERP, que
podem ser diferentes, outros tipos de softwares usados para
tratamento de Big Data, como Hadoop e NoSQL, utilitrios desses
componentes, ferramentas de modelagem de dados, ferramentas
de qualidade e de profiling de dados, ferramentas de metadados,
como dicionrios, catlogos, glossrios, entre outros. Tudo que
tangencia a tecnologia que se usa para dados.

e. Definir e manter a arquitetura de integrao de dados:


Envolve uma viso acerca das ferramentas e solues de
integrao de dados. Inclui o envolvimento dos sistemas/aplicativos
onde os dados so gerados, transformados, consumidos,
eliminados, dentro do conceito de data lineage (linhagem de
dados). Linhagem de dados uma espcie de viso dos dados,
desde a sua origem, observando o seu ciclo de vida. Dessa forma,
essa recomendao do DMBOK inclui sistemas e informaes e
envolve papis que fazem manipulaes (CRUD) de dados e suas
transformaes a fim de torn-los adequados ao uso da empresa.

f. Definir e manter a arquitetura de DW e BI:


No fundo um detalhamento dos itens anteriores, com foco em
Business Intelligence e Data Warehousing. Envolve as estruturas de
armazenamento (DW, Dmarts, ODS), camadas de transformao e
integrao (ETL) e camadas de consumo de informaes
(Relatrios, OLAP, dashboards, estudos de inferncia por tcnicas
de analytics, data mining, etc.).
g. Definir e manter taxonomias e nomes (namespaces) como padres
corporativos:
Envolve a estruturao de taxonomias como, por exemplo,
representaes abstratas de classes/subclasses, heranas, ou
composio e agregao, estendendo a semntica definida nos
modelos conceituais e aprimorando o seu entendimento. uma
forma de se entender os dados do ponto de vista mais de suas
classificaes hierrquicas e de relacionamentos semnticos. Com
relao aos nomes (namespaces), envolve a definio de termos
padres que objetivam a consistncia dos elementos entre os
modelos da empresa.

h. Definir e manter uma arquitetura de metadados:


Envolve a definio do fluxo de metadados, a integrao entre os variados
tipos de depsitos de metadados (catlogos, dicionrios, glossrios, etc.).
Sugere a gerncia sobre como os metadados so criados nas suas fontes,
controlados, integrados e acessados. Visa a garantir a coerncia na
referncia semntica dos metadados, em todos os nveis (dados no
ambiente negocial, transacional e tambm dado no ambiente analtico de
BI) e em todas as suas fontes.

1.1.3 Desenvolvimento de dados

A viso sinttica :

a. Modelagem de dados, anlise e projeto da soluo:


Os itens analisar os requisitos de informao, desenvolver/manter
modelos conceituais/modelos lgicos e modelos fsicos so parte do
processo tradicional de desenvolvimento de aplicaes e dizem respeito
ao levantamento dos requisitos (de dados e de sistemas), com o intuito de
desenvolver os modelos necessrios compreenso das necessidades de
informaes da soluo em projeto. Essa abstrao de dados construda
em vrios nveis, indo da viso conceitual (entidades, relacionamentos,
alguns atributos), lgica (entidades, relacionamentos, atributos, com
maior nvel de detalhe e aspectos de normalizao, domnios, chaves,
etc.), fsica (detalhamento da abstrao anterior, com incorporao de
aspectos associados a ndices, campos nulos, formas de armazenamento
em coerncia com o SGBD a ser usado, etc.). Como qualquer proposio,
o DMBOK no sugere nenhuma abordagem especfica, devendo a
empresa centrar no o qu est sendo sugerido e no no como.

b. Projeto detalhado de dados:


Projetar os Bancos de Dados fsicos se relaciona com colocar as estruturas
de BD de acordo com as caractersticas do SGBD em questo. Significa se
preocupar com aspectos de performance, armazenamento,
particionamento de dados, colunas calculadas definidas como
armazenadas, entre outros. Projetar (desenhar) os produtos de informao
merece uma observao anterior: Produto de informao significa tudo
aqui que se pode extrair direta ou indiretamente de bancos de dados
(Relatrios operacionais, gerenciais, cubos, dashboards, scorecard, sadas
na forma de documentos XML, portal, dados para integrao com outros
aplicativos, etc.). Assim, esse item foca nos projetos das sadas desejadas
do sistema.
Os servios de acesso aos dados podem ser entendidos como a disposio
com que os SGBDs se encontram numa arquitetura ou topologia. Podem
ser servidores linkados, acesso por Servios (SOA), Message Broker
(servios assncronos de mensagens), dispositivos tipo ODBC, JDBC,
arquitetura de bancos distribudos, como replicao, parties,
distribuio, camadas de ETL que fazem leitura de bancos de dados, entre
outros.

Projetar os servios de integrao de dados representa a preservao de


certos conceitos fundamentais do ambiente transacional, como ACID
(Atomicidade, Consistncia, Isolamento e Durabilidade) (ELMASRI, 2000).
Os conceitos de Atomicidade esto associados a mecanismos ou servios
que garantem a execuo conjunta ou integrada de comandos sob o
mesmo escopo ou final dos dados alterados pela transao. Os servios
de isolamento garantem que as transaes executadas em paralelo no
sofrero ou interferiro nas outras, simulando um ambiente exclusivo de
recursos, quando na realidade eles so compartilhados. O conceito de
durabilidade se expressa nos servios que garantem a manuteno do
estado alcanado pela transao, depois que ela foi terminada, mesmo
que ainda alguma intercorrncia possa afetar os dados atualizados por
ela.

Alm disso, tambm devem ser considerados os conceitos de integrao


numa viso mais ampla. Envolve, dessa forma, a definio de camadas de
integrao, como ETL, de persistncia, etc.; e do uso de Stored
Procedures, como camada de aes essenciais de dados como ADD, MOD
e DEL de linhas /registros.

c. Gerncia da qualidade do modelo de dados e do projeto de Bancos de Dados:


Envolve a definio e verificao de padres a serem usados nos
modelos, incluindo nomes de entidades, de atributos, de relacionamentos,
simbologias de entidades, relacionamentos, atributos, cardinalidade, entre
outros. A reviso a verificao dessas aderncias feitas por trabalhos de
QA (Quality Assurance) ou por revises por pares (VER/VAL), garantindo a
compatibilidade entre os requisitos iniciais (de dados) e os elementos
implementados. Inclui tambm a gerncia de versionamento, parte da
gerncia de configurao, garantindo a integridade de modelos, com
controles de versionamento, controles de alteraes (quem fez, porque,
quando, e o que?), entre outros.
d. A implementao de dados:
Est diretamente associada com o desenvolvimento, implementao e
testes (das partes de dados), dentro do contexto geral de teste dos
sistemas. Os testes se referem aos elementos definidos anteriormente
(Bancos de Dados e outros produtos de dados, servios de dados,
integrao de dados, etc.). O conceito de validao de requisitos de dados
aplicado aqui com a avaliao dos pontos levantados na forma de
requisitos (de informao) e a anlise de sua devida transformao em
produtos do sistema. Tambm se relaciona com migrao, preparao e
converso de dados dentro do contexto do projeto, incluindo aspectos de
implantao. transacional, sacramentando todas as aes ou desfazendo-
as completamente. A consistncia um conceito que garante os estados
de consistncia inicial

1.1.4 Gesto de operaes de dados

O objetivo da Gesto de Operaes de Dados, segundo o DMBOK (2009)


planejar, controlar a apoiar os ativos de dados ao longo do seu ciclo de vida,
indo desde a criao e aquisio (obteno) at o arquivamento final (archiving)
e eliminao (purge).
A estrutura :

Suporte a Bancos de dados:


Implementar e controlar ambientes de Bancos de Dados
Obter dados originados de fontes externas.
Planejar para Recuperao de dados (Recovery).
Realizar Backup e Recovery de Bancos de Dados.
Estabelecer nveis de servios relacionados performance de Bancos de
Dados.
Monitorar e ajustar aspectos de performance de Bancos de Dados.
Planejar a reteno de dados.
Arquivar, reter e eliminar dados.
Suportar aspectos de Bancos de Dados especializados.

Gerncia de tecnologia de dados:


Entender os requisitos tecnolgicos de dados.
Definir arquiteturas tecnolgicas de dados, j mencionada anteriormente
na funo Gerncia da Arquitetura de dados como Definir e manter uma
arquitetura de Bancos de Dados.
Avaliar tecnologias de dados.
Instalar e administrar tecnologias de dados.
Controlar e acompanhar aspectos de licenas de tecnologia de dados.
Suportar o uso e as dvidas (pendncias) sobre tecnologia de dados.

A viso sinttica :

a. Suporte a bancos de dados:


Implementar e controlar ambientes de Bancos de Dados: significa ter
controles sobre os possveis diversos ambientes de SGBDs da empresa,
suas vrias instncias, tanto de SGBD quanto de tecnologias correlatas,
gerncia e conhecimento de parmetros e afinamento de SGBD e
correlatos, controle de sua conectividade (com outros SGBD em
ambientes distribudos, ou com outras camadas), ajuste e afinamento de
outras camadas correlatas que dialogam com o SGBD e controle do
ambiente de data storage usado pelos SGBDs e produtos correlatos.
Obter dados originados de fontes externas: Controle de aquisio dos
dados obtidos de fontes externas (na forma de CD, DVD, EDI, XML, RSS,
etc.), como vem (licenciados ou contratos) de onde vem (fontes), com
qual periodicidade chegam, dados de contrato com fornecedores, SLA
com o fornecedor, entre outros; e registro no modelo lgico/conceitual de
dados.
Planejar para recuperao de dados (recovery): Planejamento das
atividades de backup e recovery, com definio de procedimentos,
periodicidades, tipos de backups (integral, incremental), tipos de mdia
destino, SLA definido para tempos mximos de recuperao, tipos de
perdas, tipos de recuperao, tipos de arquivos a serem resguardados
(BD, Logs, cpias lgicas, cpias fsicas, etc.).
Realizar Backup e Recovery de Bancos de Dados: Instanciao do plano
definido acima, com a criao das backups, logs de transaes,
estratgias de imagens em discos RAID, etc.
Estabelecer nveis de servios relacionados performance de Bancos de
dados: SLA definido para a tempo de resposta de BD, de algumas
transaes chaves, de jobs batchs de apoio, como ETL, de tempo de
recuperao de BD, de interrupes fsicas, lgicas, etc.
Monitorar e ajustar aspectos de performance de Bancos de Dados:
Realizar acompanhamento proativo (preventivamente) e reativo (aps
incidentes). Envolve aspectos de gerncia de tempo de resposta ao
usurio, provenientes das mais variadas causas-raiz (problemas de
codificao de SQL, comandos, falhas de projetos de bancos, ausncia de
indexaes corretas, problemas provenientes de desatualizao de
estatsticas usadas pelo otimizador de pesquisas, etc.). Associado a
conceitos de processos do ITIL, MPS-SV, entre outros, para controle de
incidentes e problemas.
Planejar a reteno de dados: Planejar a forma, tempo e tipo de
reteno, transferncia para mdias secundrias e de eliminao de
dados, de acordo com polticas de Governana de dados e/ou aspectos
regulatrios.
Arquivar, reter e eliminar dados: Instanciao do Plano de reteno de
dados definido anteriormente.
Suportar aspectos de Bancos de Dados especializados: Entender que
hoje h uma grande variedade de sistemas gerenciadores de bancos de
dados e de FMS (File Management Systems), cada qual disponvel para
certos tipos de necessidades: OODBMS (SGBD para Bancos orientados a
objetos), XML, NOSQL (para dados semi ou no estruturados),
Hadoop/Map Reduce para armazenamentos de petavolumes, Bancos de
dados de armazenamentos dimensionais, entre outros. Para detalhes
sobre Bancos de Dados NoSQL veja (SADALAGE, 2014).

b. Gerncia de Tecnologia de Dados:


Entender os requisitos tecnolgicos de dados: Como em qualquer
soluo a ser desenvolvida, entender primeiramente o problema posto,
quais as limitaes das tecnologias colocadas e existentes, quais os
requisitos especficos de HDW para aquela tecnologia de dados, quais os
requisitos de sistema operacional, os de conectividade, as habilidades do
peopleware envolvido, as implicaes de custo e se h equivalentes no
domnio de softwares livres.
Definir arquiteturas tecnolgicas de dados (j mencionadas
anteriormente na funo Gerncia da Arquitetura de dados como Definir
e manter uma arquitetura de Bancos de Dados): Significa que tipo de
software ser necessrio em cada camada relacionada com dados: BD
Convencionais, BD especiais (Georreferenciados, XML, NOSQL para big
data, FMS, Bancos de Dados multidimensionais, etc.) e que outras
camadas so necessrias: integrao, ferramentas de modelagem, BI,
ETL, virtualizao de servidores, suites de testes, camadas para gerao
de dados, entre outros.
Avaliar tecnologias de dados: Inclui a anlise de alternativas tecnolgicas
de dados. Isso pode ser feita por um processo de Gerncia de Deciso
(GDE), no modelo MPS.BR ou DAR (CMMI), envolvendo a definio de
critrios e pesos para a melhor opo, benchmarks, visitas, provas de
conceito, etc.
Instalar e administrar tecnologias de dados: Na realidade, a
instanciao dos dois ltimos itens anteriormente discutidos.
Controlar e acompanhar aspectos de licenas de tecnologia de dados:
Considerar a importncia do controle de licenas de uso de SGBD, de
ferramentas de BI, de ferramentas de integrao, de geradores de
relatrios,
de cubos, de mining, entre outros; visando preservar aspectos legais e de
controle de custo.
Suportar o uso e as dvidas (pendncias) sobre tecnologia de dados:
Aqui esto concentradas as aes de apoio, suporte e resoluo de
incidentes associados camada de dados, com processos, por exemplo,
do modelo ITIL, ou MPS-SV, com detalhamento de nveis de apoio. Passa
tambm pela escolha adequada e pelo treinamento ministrado visando
utilizao daquela tecnologia de dados.

1.1.5 Gesto da segurana de dados

Segundo o DMBOK (2009), o objetivo da gesto da segurana de dados


planejar, desenvolver e executar as polticas de segurana e procedimentos a
fim de prover a adequada autenticao, acesso e auditoria de dados e
informaes. A estrutura :
Entender as necessidades de segurana de dados e os requisitos
regulatrios associados.
Definir Poltica de segurana de dados.
Definir Padres de segurana de dados.
Definir Procedimentos e controles de segurana de dados.
Gerenciar usurios, passwords e membros de grupos de usurios.
Gerenciar vises e permisses de acesso aos dados.
Monitorar autenticao de usurios e comportamento de acesso.
Classificar o grau de confidencialidade das informaes.
Auditar a segurana dos dados.

A viso sinttica :

a. Entender as necessidades de segurana de dados e os requisitos regulatrios


associados:
Os requisitos regulatrios normalmente esto associados com modelos do
tipo SOX, Basilia-II, Clerp-Act of Australia, etc.

b. Definir poltica de segurana de dados:


So as regras e diretrizes maiores que devem ser seguidas pela empresa,
em termos de segurana da informao. So normalmente definidas por
administradores de segurana juntamente com gestores de dados e
auditores de segurana externa ou interna. Dever ser aprovada pelo
Conselho de Governana de Dados (GD).

c. Definir padres de segurana de dados:


Os padres de segurana gravitam em torno de: padres de senhas,
grupos de usurios, padres de criptografia, guia para acessos externos,
protocolos de transmisso pela internet, requisitos de documentao das
informaes de segurana, padres de acesso remoto, procedimentos
para relato de incidentes de segurana, padres de armazenamento e
acesso de dados para portveis e descarte (eliminao) desses tipos de
equipamentos.

d. Definir procedimentos e controles de segurana de dados:


Significa, para o DMBOK, estabelecer um grau de detalhe sobre as
diversas atividades, tanto de planejamento, operao quanto de controle
da gesto de segurana de dados.

e. Gerenciar usurios, passwords e membros de grupos de usurios:


Analisar os diversos usurios, passwords, grupos de usurios, privilgios
de usurios e/ou de grupos, tendo uma fotografia correta dessas
entidades e de suas modificaes no contexto da segurana de dados.

f. Gerenciar vises e permisses de acesso aos dados:


Envolve a aplicao dos conceitos de opt in e opt out, ou seja, as
atividades de se garantir privacidade e segurana de dados por conceder
especificamente permisses, atravs de definies explcitas (opt in) ou
por se restringir aes especficas, dentro de um leque amplo de
alternativas concedido por default (opt out). Tambm os conceitos de
vises (views) de bancos de dados so elementos considerados nesse
ponto.

g. Monitorar autenticao de usurios e comportamento de acesso:


Representa o acompanhamento dos acessos, com a observao de
comportamentos atpicos ou de riscos, que devero ser reportados aos
envolvidos. Isso alimenta as futuras alteraes de planos, projetos e
polticas de segurana de dados. Alguns tipos de dados mais sensveis
podero ser monitorados em tempo real, com possibilidade de alertas e
mensagens para administradores, gestores, imediatamente ao seu
acontecimento.

h. Classificar o grau de confidencialidade das informaes:


Classificar o grau de confidencialidade, definindo hierarquias como:
informao para acesso geral (todos podem ver); informaes somente
para uso interno (somente colaboradores podem acessar as informaes
que podero ser mostradas ou discutidas no mbito externo da empresa,
porm no copiadas); informaes confidenciais (no devem ser
compartilhadas por toda empresa); informaes confidenciais restritas
(somente aberta para certos colaboradores previamente identificados
com o status devem saber); informaes confidenciais registradas
(poucos tm acesso e h a estrita necessidade de assinatura de
documento de responsabilidade pelo seu uso ou conhecimento).

i. Auditar a segurana dos dados:


Objetiva a realizao de sesses de auditoria com o propsito de
analisar, validar, aconselhar e recomendar polticas, padres e
atividades relacionadas gerncia de segurana de dados. Pode ser
interna ou externa, porm feitas por pessoas sem nenhum
envolvimento nos processos em auditoria.

1.1.6 Gesto de dados mestres e de referncia

O objetivo da Gesto de dados mestres e de referncia planejar, implementar


e controlar atividades para garantir consistncia de dados Mestres e de
Referncia. Os dados Mestres so os dados fundamentais de uma empresa e
envolvem clientes, fornecedores, colaboradores, contas, locais, entre outros. Os
dados de Referncia so dados relacionados com cdigos, como estado, pas,
status de um pedido, entre outros, e servem como elementos para
categorizar/classificar outros dados. (DMBOK, 2009).

Os dois Mestres e Referncias servem como input para os dados transacionais:


Num pedido, por exemplo, que representa um dado do tipo Transacional
(normalmente associado a uma data) voc tem dados Mestres (clientes e
produtos entregues, vendedor envolvido, etc.), dados de Referncia, como o
status do pedido, CEP padro do fornecedor, entre outros, e no conjunto formam
os dados Transacionais do Pedido.
Essa classificao de tipos de dados est mais detalhada adiante.

A estrutura :
Entender as necessidades de integrao de dados Mestres e de
Referncia.
Identificar Fontes e contribuintes (contributors) de dados Mestre e de
Referncia.
Traar a linhagem do dado, para identificar a suas Fontes originais e
temporrias (BD, FMS, processo, rea organizacional, pessoas,
papis/indivduos envolvidos).
Definir e manter a arquitetura de integrao de dados.
Implementar solues de gerncia de Dados Mestres e de Referncia.
Definir e manter regras de match para os dados replicados.
Definir os Golden Records.
Definir e manter hierarquias e afiliaes (conceitos de MDM).
Planejar e implementar integraes das novas fontes de dados.
Replicar e distribuir Dados Mestres e de Referncia.
Gerenciar alteraes de Dados Mestres e de Referncia.
Algumas consideraes iniciais:
Os dados, h muito, so usados por diferentes reas dentro de uma empresa, de
formas tambm diferentes. As reas de Venda, Fornecedores, Manufatura, etc.
veem os dados de Vendas, por exemplo, de forma diferente, cada uma com uma
viso ou conjunto de atributos especficos, algumas inclusive com definies
diferentes para a mesma entidade ou informao.

Os dados podem ser vistos como enquadradas dentro de trs tipos: Os Mestres,
os de Referncia e os Transacionais:
Os mestres so aqueles dados centrais da empresa, com certa caracterstica de
imutabilidade. Representam entidades de negcios vitais da empresa, como
cliente, fornecedores, empregados, locais, entre outros.
Os dados Mestres so de domnios mais amplos, com variaes semnticas
como pessoas (Fsica, Jurdica), locais, elementos geogrficos, etc.

Os dados de referncia representam elementos com caractersticas mais


voltadas para codificao de valores, como cdigo e descrio, por exemplo.
Servem para categorizar outros dados.

Representam tipos de dados que servem de referncia para algum contexto,


como CEP, cdigos geogrficos (cidade, estado, etc.), cdigos contbeis, lista de
valores de certos domnios, entre outros. Uma das reas onde so muito usados
na Sade. Os cdigos internacionais de doena (CID) e os cdigos de
tratamentos (Current Procedural Terminology - CPT) so fundamentais nas
estatsticas e estudos de doenas e as aes realizadas de tratamento. O CID
est na verso 9, com a previso da incorporao do CID-10 para outubro de
2013. Os dados de referncia possuem relacionamento entre eles (o atributo
cdigo-CEP e o atributo descrio-Local) e entre si (cdigos entre eles-CEPs da
mesma raiz).

Outro exemplo: Considere a trinca cod-produto, desc-produto, cod-produto-pai.


Esses elementos representam uma referncia de cdigo para descrio e uma
relao de hierarquia de cod-produto-pai para cdigo-produto. Os dados de
referncia tendem a ser mais imutveis, pois representam codificaes que
tendem a permanecer.

Ambos (dados mestres e dados de referncia) so insumos para a produo


de dados tipos transacionais. Por exemplo, um cliente comprando
produtos em locais da minha empresa, gera transao de compras (que
podem ter os seus dados prprios, como data, tipo de desconto daquela
compra, etc.).

Os dados Mestres e de Referncia devem ser geridos pela empresa de forma


centralizada, envolvendo os gestores de dados da(s) rea(s) afim(ins). Sua
gerncia envolve a criao, integrao, manuteno uso e descarte.
Contempla tambm a definio das verses abrangentes (que englobem todos
os seus atributos) e, preferencialmente nicas, que representem a verdade dos
dados (golden records).
Buscam, na essncia, a entidade com seus atributos e valores mais ntegros,
atuais e associados ao negcio.

Os DMR (Dados Mestres e de Referncias) so implementados por diversas


ferramentas como ETL, integrao de dados, ODS (Operational Data Store) para
armazenamento das verses nicas, ferramentas de profiling e cleasing, para a
descoberta de duplicatas, entre outras.

Os dados mestres podem ser classificados em alguns domnios: partes


(parties), que representam organizaes, indivduos, seus papis, como
clientes, empregados, fornecedores, vendedores, entre outros.
Na viso de segurana podem ser: cidados, testemunhas, vtimas. No domnio
sade podem ser: clientes, provedores de servios, estes classificados em
mdicos, convnios, etc.
No domnio educao, podem ser: aluno, professor, inspetor, diretor, etc. H
dados Mestres tambm nos domnios de clientes, ambiente financeiro, produtos
ou servios e localizao, dentre outros.

A viso sinttica segundo o DMBOK :


a. Entender as necessidades de integrao de dados Mestres e de Referncia:
Significa ter os devidos controles para compatibilizar os dados que esto
replicados e usados em diferentes sistemas/aplicativos.
Normalmente as causas-raiz de problemas de qualidade de dados revelam
esse aspecto. A soluo Master Data management (MDM) complexa e,
como tal, exige soluo gradativa e incremental.
A sugesto entender a necessidade e o uso daquele dado em estudo,
nas diversas aplicaes/sistema da empresa.

b. Identificar Fontes e contribuintes (contributors) de dados Mestre e de


Referncia:
Depois de entendido, importante traar a linhagem do dado, para
identificar a suas fontes originais e temporrias (BD, FMS, processo, rea
organizacional, pessoas, papis/indivduos envolvidos).

c. Definir e manter a arquitetura de integrao de dados:


J mencionada anteriormente na funo Gerncia da Arquitetura de dados
como Definir e manter uma arquitetura de integrao de dados, a
arquitetura de soluo de MDM passa por topologias parecidas com as de
Bancos de dados distribudos e/ou replicados e busca evitar o
aparecimento de silos de dados ou arquivos isolados e personalizados
para atender aplicaes especficas.

d. Implementar solues de gerncia de Dados Mestres e de Referncia:


Passa por definio de solues que permitam o uso compartilhado do
dado Mestre ou de Referncia, na sua forma golden record por variadas
aplicaes OLTP ou de BI, mantendo a sua integridade.
As topologias devem permitir leituras diretas dos DM (dados mestres ou
de referncia) ou o seu uso em sistemas atravs de replicaes
controladas (sncronas ou assncronas).

e. Definir e manter regras de match para os dados replicados:


Trabalhar padres para que se possa identificar duas ocorrncias como
sendo do mesmo objeto.
Conforme citado anteriormente, dois registros de cliente com nome
Carlos Barbieri so considerados o mesmo objeto (Carlos Barbieri)?
Tal atividade passa por tcnicas de identificao de elementos duplicados,
atravs de regras de inferncia de similaridade, por tcnicas de
eliminao de duplicao de registros iguais e por tcnicas de
consolidao que podem ser:

Match-merge: Essas tcnicas consistem no batimento (match) das


vrias ocorrncias multiplicadas e a produo de um registro
abrangente que as represente.
Match-Link: Tcnicas que definem um registro, com apontadores
para outros, sem consolidao fsica em um nico elemento.

f. Definir os Golden Records:


Golden Records significa o conceito de fonte nica, ntegra e confivel,
que procura garantir a verdade sobre os dados. Por exemplo, um nico
cadastro lgico de clientes, formado por informaes advindas de vrias
fontes fsicas.

g. Definir e manter hierarquias e afiliaes (conceitos de MDM):


As hierarquias e afiliaes complementam as informaes de
relacionamentos dos dados Mestres, mostrando, por exemplo, dois
registros mestres de clientes, relacionados como Todo-Parte (um cliente
parte de um outro cliente, ou seja faz parte do mesmo grupo, ou
afiliada, ou seja tem um relacionamento com a outra empresa).

Tambm h o relacionamento conhecido como um tipo de. As duas


classificaes de dados so muito aplicadas no conceito de objetos (Todo-
Parte ou composio e agregao) e ( um tipo de definindo tipos e
subtipos), adotados em Modelagem de Classes e objetos.

h. Planejar e implementar integraes das novas fontes de dados:


Nesse ponto, o DMBOK se preocupa com a chegada de novas fontes de
dados que devero ser integradas ao ambiente j existente.
Isso envolve:
analisar as requisies feitas de integrao, a complexidade e custo
de sua integrao e avaliar a qualidade dos dados entrantes.
i. Replicar e distribuir Dados Mestres e de Referncia:
Esse ponto versa sobre a arquitetura definida para a soluo de MDM
implementada. Poder ser via bancos distribudos, ou atravs de
replicaes.

j. Gerenciar alteraes de Dados Mestres e de Referncia:


Esse ponto, de crucial importncia, dever ser considerado com cuidado,
pois os dados do ambiente MDM estaro compartilhados e as suas
alteraes implicam controles mais rigorosos, a fim de evitar impactos e
rupturas em sistemas em funcionamento.

Passa por:
criar e receber pedidos de alterao, identificar reas interessadas;
avaliar impactos em funo da solicitao, aceitar ou rejeitar a solicitao
ou transferir a deciso para o mbito da Governana de Dados (GD),
comunicar a deciso s partes interessadas, realizar as mudanas, caso
aprovada, comunicar as partes interessadas acerca das mudanas.

A Figura 3 mostra uma classificao de dados, contemplando DMR (Dados


Mestres e Referenciais) e outros dados como histricos, temporrios e
condicionais, enquadrados em dimenses origem, forma, definio e gnese.
1.1.7 Gesto de data warehousing e business intelligence

O objetivo da Gesto de data warehousing (DW) e business intelligence (BI)


(DMBOK, 2009) planejar, implementar e controlar processos para prover dados
de suporte deciso e apoio a colaboradores envolvidos em produo de
relatrios, consultas e anlises.

A estrutura :
Entender as necessidades de informaes analticas (BI).
Definir e manter a arquitetura de DW e de BI (j mencionada
anteriormente na funo Gerncia da Arquitetura de dados como Definir
e manter uma arquitetura de DW e de BI).
Implementar os DW e DataMarts.
Implementar as ferramentas de BI e de Interface para usurios.
Processar os dados para o ambiente de BI.
Monitorar e ajustar os processos de DW.
Monitorar e ajustar as atividades e aspectos de performance de BI.

A viso sinttica :
a. Entender as necessidades de informaes analticas (BI):
Os requisitos de BI so revestidos de certas diferenas quando
comparados com os requisitos tradicionais de sistemas transacionais. O
fornecedor de requisitos, que vocaliza as necessidades e os problemas de
BI pertence a outro patamar gerencial, normalmente na camada mais
ttica e estratgica. Isso demanda uma observao mais apurada sobre
as necessidades e problemas (requisitos de negcios e de usurios), alm
de tcnicas mais efetivas de comprometimento das partes, como
prottipos, provas de conceito, entre outros. O levantamento das
necessidades de negcios sugere a captura de metadados (significado
dos dados, dos processamentos, de indicadores, etc.). Nesse momento,
importante a observao comparativa dos dados demandados contra os
dados existentes.

b. Definir e manter a arquitetura de DW e de BI:


Passa pelas diferentes alternativa de escolas: Viso de EDW (Bill
Inmonn) e de DMarts evolutivos e integrados (Ralph Kimball), com
todos os elementos que formam uma arquitetura de DW e BI: sistemas
transacionais fomentadores dos dados, camada de ETL, camada de
armazenamento com DataWarehouse, DataMarts, ODS,etc, camada de
ferramentas para produo de informaes, camada de profiling e
cleansing dos dados, etc.

c. Implementar os DW e Data Marts:


Nesta atividade o DMBOK foca na materializao gradativa de DW e BI, em
projetos evolutivos e integrados.

d. Implementar as ferramentas de BI e de interface:


Passa pelos tipos de ferramentas necessrios para se alcanar os
objetivos. So ferramentas de dashboards, ferramentas de visualizao de
dados, ferramentas de relatrios, OLAPs (de cubos), de anlise
preditiva/mining, entre outros, que formaro o arsenal de aplicativos para
atender as necessidades de informao da empresa.

e. Processar os dados para o ambiente de BI:


Relaciona-se com as atividades de ETL (Extrao, Transformao e Carga)
de dados, atividades de cleansing e integrao de dados, considerando
reas intermedirias, como staging, depsitos intermedirios como ODS,
etc.

f. Monitorar e ajustar os processos de DW:


Passa pelos processos de monitorao de performance de bancos dos
dados que compem a estrutura do DW, processos de backup/recovery,
processos de archiving, etc.
g. Monitorar e ajustar as atividade e aspectos de performance de BI:
Passa por atividades de monitorao de tempos de respostas de
aplicativos de BI, nmero de usurios de BI por unidade de tempo, entre
outros. Esses dois ltimos elementos interferem diretamente no SLA de
servios de BI.

1.1.8 Gesto de documentos e contedo

O objetivo planejar, implementar e controlar atividades para armazenar,


proteger e acessar dados encontrados em arquivos eletrnicos e registros fsicos
(texto, grficos, imagens, udio e vdeo), ou seja, o foco em dados no
estruturados, no armazenados em sistemas relacionais (DMBOK, 2009). H
duas grandes subfunes: Gerncia de Documentos e de Registros e Gerncia
de Contedo.
A estrutura de atividades desta funo e suas subfunes descrita abaixo:
Gerncia de Documentos e de Registros
Planejar a gerncia de Documentos e de Registros;
Implementar Sistemas de Gerncia para Aquisio, Armazenamento, Acesso e
controle de Documentos e Registros;
Backup e Recuperao de Documentos e Registros;
Reteno e eliminao de Documentos e Registros;
Auditar a Gerncia de Documentos e Registros.
Gerncia de Contedo
Definir e manter taxonomia corporativa para documentos e contedo (J
mencionada anteriormente na funo Gerncia da Arquitetura de dados como
Definir e manter uma taxonomia e padres de nomes (namespaces) de dados
para a empresa);
Documentar/indexar Metadados sobre informaes de Contedo;
Prover acesso e recuperao de Contedos;
Estabelecer Governana sobre qualidade de Contedos.

1.1.8.1 Gerncia de Documentos e de Registros

Essa gerncia se fundamenta em dois pilares: o primeiro fala sobre a Gerncia


do documento em si e o outro fala do seu contedo. O primeiro se preocupa
com o documento como se fora um objeto e o outro com a sua estruturao e
contedo. O conceito de Big Data, que envolve os diferentes tipos de dados
semi ou no estruturados, no foi (ainda) contemplado diretamente no DMBOK,
devendo ser foco das prximas verses do modelo. Esse corpo de
conhecimento, embora no explicite o termo Big Data, trata fundamentalmente
dos dados no estruturados (DNE) como: arquivos (em formato no relacional),
grficos, imagens, textos, relatrios, formulrios, vdeo, som, entre outros. Os
novos tipos de dados como posts de Linkedin, posts de Facebook, etiquetas de
RFID, dados biomtricos e dados gerados por comunicao mquina-mquina
(M2M), como monitorao de pacientes, medidores inteligentes de energia
eltrica, dados de localizao (GPS), etc. no foram diretamente considerados
nesse contexto, embora a sua governana se revista dos mesmos conceitos.
Esses dados (DNE) constituem cerca de mais de 70% dos dados existentes hoje
num ambiente corporativo e, portanto, passam a merecer a ateno, at porque
muitas regulaes oficiais assim exigem. Aspectos regulatrios como Sarbannes
Oxley (SOX), E-Discovery amendments to Federal rule of civil procedures,
Canada Bills 190, dentre outros, so exigncias presentes em muitos
segmentos da indstria.

A viso sinttica :
a. Planejar a gerncia de documentos e registros:
Nesta atividade o DMBOK foca nos processos, tcnicas e tecnologias que
visam o controle e a organizao dos documentos e registros, quer seja
em meio eletrnico ou papel. Nesta ponto devem ser considerados o
planejamento dos diferentes sistemas de controle de documentos e
registros: sistemas de bibliotecas, sistemas de controle de emails,
sistemas de controle de documentos na forma eletrnica ou em
microficha. Devem ser planejados os seguintes pontos: armazenamento,
integridade, segurana, qualidade do contedo, formas de indexao e de
acesso e guias gerais para a sua gerncia. O planejamento deve
considerar aspectos dos vrios pontos do ciclo de vida do documento, da
sua criao ao descarte/eliminao, passando pela sua classificao
(taxonomia), indexao, arquivamento e uso e recuperao.
O planejamento passa tambm pela definio das polticas e
procedimentos para esses diversos momentos do ciclo de vida do
documento, bem como pela definio das unidades organizacionais (UO)
que devero ser as suas gestoras (stewards). Essas polticas devero,
entre outros pontos, definir aspectos de responsabilidade dos gestores,
polticas de reteno em conformidade com as regulaes existentes,
aspectos de circulao e distribuio interna e externa, entre outros.

b. Implementar sistemas de gerncia para aquisio, armazenamento, acesso e


controle:
Aqui o DMBOK est focando na implementao de sistemas de software
que apoiem esses pontos. Passa por sistemas de Gerncia de Contedo
(ECM), com documentos criados via eletrnica, scanner ou OCR. Devem
permitir facilidades de indexao por palavras chaves ou por elementos
do contedo (aqui as duas partes desse processo DMBOK se encontram).
Dever haver metadados que bem caracterizem aqueles documentos,
como data de criao, data de reviso, nome do criador/responsvel,
entre outros. As referncias bibliogrficas, associadas eventualmente ao
documento formam uma parte de suas informaes estruturadas. O
sistema dever permitir o controle de versionamento de documentos, com
garantia de GCO (configurao), via check-in e check-out e comparaes
de verses, alm de possibilidade de entendimento do seu fluxo (work
flow dos documentos). As facilidades para pesquisa devero contemplar
palavras chaves, buscas via drill-down, etc.

c. Backup e recuperao dos documentos e registros:


Aqui o foco na manuteno da integridade dos documentos, com um
plano de risco associado s suas eventuais perdas. O plano de
backup/recovery aponta aspectos de frequncia de cpia, alternativas de
backup passivas, como cold-site, ou ativas, como hot-site, alm de
polticas e procedimentos para mitigao.

d. Reteno e eliminao de documentos:


Aqui o foco nos aspectos de reteno dos dados no ambiente principal
at serem transferidos para uma mdia secundria. Devero ser
considerados aspectos legais, fiscais e valores histricos do documento.
Um ponto importante a ser considerado a garantia da compatibilidade
do documento com relao verso do sistema de gerncia e do sistema
operacional onde este funciona. Isso importante no caso de
recuperaes de documentos que ao serem trazidos para o ambiente
atual de software, podem apresentar problemas de compatibilidade de
verso. Aspectos de privacidade e de reteno de dados pessoais tambm
devem ser considerados neste item.

e. Auditar a Gerncia de Documentos e Registros:


Envolve aspectos de controle, visando aplicao das polticas,
procedimentos e regras definidas pela Governana dos dados. Envolve
periodicidade de auditorias e observao de vrios aspectos, como:
local de armazenamento, confiabilidade, preciso, classificao e
indexao, acesso e recuperao, mtodos de eliminao (disposition),
segurana e confidencialidade, percepo e entendimento
organizacional sobre a gerncia de documentos, entre outros.

1.1.8.2 Gerncia de Contedo

Esta gerncia est relacionada cincia da informao e a gerncia de


conhecimentos e trata fundamentalmente de aspectos de entendimento e
classificao de contedos de documentos, via aplicao de conceitos de
taxonomia. No fundo, prover uma forma de documentao e entendimento da
arquitetura de contedo atravs de elementos constituintes, relacionamentos
(links), atributos e instncias. So normalmente estruturadas via uma viso
ontolgica (conhecimento de ser ou entes), com taxonomias da seguinte forma:
achatada (com os elementos listados em sequncia, sem uma estruturao
entre eles), hierrquica (com uma organizao dos elementos apresentando
certa forma de subordinao), na forma de facets ou estrelas (com os elementos
dispostos numa forma de radial, dispostos em torno de um ponto central, como
comumente encontrado nos mapas mentais) e de rede (misturando a hierarquia
com facets).
A gerncia de contedo tambm foca nos aspectos de indexao e
documentao dos metadados, visando facilidade de se localizar e identificar
certo documento. Quando se fala de dados no estruturados (DNE), h que se
considerar o aspecto caracterstico de diversidade desses elementos, buscando-
se solues mais evoludas para tal. Muitas delas, agora que esto sendo
desenvolvidas, como indexao de arquivos de udio, de imagens (nesse caso,
considerando cores, formas, texturas, disposio de elementos, etc.),
reconhecimentos faciais, entre outros. Uma vez definidos os mecanismos de
indexao e recuperao, teremos as facilidades para prover acesso e
recuperao.
O DMBOK (2009) tambm foca no estabelecimento de governana sobre esses
tipos de dados no estruturados. O tema sobre a governana desses novos
ativos j comea a ser discutido e ser, certamente, includo nas prximas
verses do modelo DMBOK. At l, muito j se diz e escreve sobre isso, numa
nova capa denominada Big Data Governance. O livro mais recente que toca
no tema, de Sunil Soares e se chama Big Data Governance: an emerging
imperative, lanado em novembro de 2012. O foco justamente a adoo e
adaptao da Governana de dados, digamos tradicional, para ser aplicada na
Governana de Big Data.

1.1.9 Gesto de metadados

O objetivo planejar, implementar e controlar atividades que viabilizem um fcil


acesso aos metadados integrados e de qualidade (DMBOK, 2009).

A estrutura de atividades desta funo descrita abaixo:


Entender os requisitos de Metadados.
Definir a arquitetura de Metadados.
Desenvolver e manter os padres de Metadados.
Implementar um ambiente gerenciado de Metadados.
Criar e manter Metadados.
Integrar Metadados.
Gerenciar Repositrios de Metadados.
Distribuir e entregar Metadados.
Consulta, Relatrios e Anlises sobre Metadados.

A viso sinttica :

a. Entender os requisitos de metadados:


De incio importante entender o que so os metadados, alm da
definio clich de dados sobre os dados. Os metadados esto para os
dados assim como os dados esto para as coisas/entidades colocadas
sob os processos de um sistema computadorizado. Por exemplo, os
objetos, os eventos, as transaes e os relacionamentos so as coisas
controladas num computador, atravs de sistemas. Assim, os dados
definem esses objetos, da mesma forma como os metadados definem os
dados. Assim, a gerncia de metadados um processo que controla a sua
criao (quando se define, se entende e se documenta aquilo que est
sendo objeto do processo), o seu armazenamento (se estrutura, se
carrega e se cuida para que seja acessado com facilidade e rapidez), a
integrao (quando dois ou mais metadados sobre o mesmo o objeto,
diferentemente definidos em tempos distintos, por unidades
organizacionais distintas, no esto consistentes) e o seu controle
(quando se procura mant-los com qualidade e sobre os quais se define
mtricas, no sentido de que no se controla aquilo que no se mede).
Um conceito simples e metafrico de metadado aquela plaquinha que
fica ao lado dos rechauds, nos restaurantes de comida quilo,
indicando o nome do prato, detalhes da sua composio complementar, a
sua localizao. Tambm quando se pensa num catlogo de biblioteca,
entende-se com sentido mais computacional o conceito de metadados, ou
seja, aqueles elementos que ajudam a entender os objetos, a sua
composio, o seu relacionamento, a sua localizao, entre outros. O
porqu de se gerenciar os metadados? Os metadados aumentam o valor
da informao estratgica lhe dando expresso, detalhes, conhecimentos.
Isso reduz, de certa forma, o custo do aprendizado, pois as informaes
sobre os dados esto sempre mais claras. Isso tambm reduz o tempo
gasto na busca pelo entendimento de certos objetos, regras, frmulas,
traduzindo em maior efetividade no seu uso, ou no desenvolvimento de
sistemas em torno ou que usam aquele conceito. Assim, os metadados
melhoram a comunicao entre a rea de negcios e a rea que processa
a informao (TI). Uma razovel gerncia de metadados reduz a
redundncia acerca daquele conceito, minimizando erros de interpretao
que podem ser transformados em falhas graves de sistemas ou produtos.

b. Arquitetura de metadados:
Como a arquitetura dos dados, a de metadados tambm pode ser
centralizada ou descentralizada, dependendo de como os repositrios
(DD, Catlogos, etc.) de metadados esto dispostos. Normalmente, os
produtos de desenvolvimento de software tm um catlogo prprio
(ferramentas Case, SGBD) ou uma rea especfica onde eles so
mantidos. A arquitetura tenta colocar ordem nessa disperso.
A centralizada impe as vantagens de um controle mais rigoroso e de
menor conflito, visando criao de uma estrutura nica e consolidadora.
Tem como desvantagem, por outro, o trabalho de se consolidar os
metadados oriundos de vrias fontes para coloc-los num nico depsito.
A descentralizada tem a vantagem de se economizar nos gastos de
integrao, no havendo persistncia centralizada, porm com um custo
de busca integrada, em vrios depsitos, para se resolver as consultas
solicitadas. Uma arquitetura mista envolve a parte da descentralizao,
com as buscas dinmicas e outra parte de definio centralizada no
catlogo nico, onde so colocadas outras definies de metadados,
acrescidas aos existentes, para se ajustar adequadamente as definies
de negcios da empresa.

c. Desenvolver e manter padres de metadados:


Os metadados so basicamente de dois tipos: negcios e tcnicos. Os
metadados de negcios tem o objetivo de documentar os elementos de
negcios, centrando num patamar mais conceitual. Envolvem definies
de processos de negcios, sistemas, aplicaes e aplicativos, regras de
negcios, formas de clculos, algoritmos, linhagem de dados, modelos
conceituais e lgicos de dados, aspectos de qualidade de dados e de
conceitos de gestores de (meta) dados e das unidades organizacionais
responsveis por eles. Os metadados do ambiente negocial tambm
envolvem regras de CRUD de dados, definio de owners de dados (UO
responsveis por eles), regras de compartilhamento de dados, papis e
definies sobre os gestores de dados, reas de assunto, entre outros. Um
ponto emergente sobre metadados a sua definio para DNE, resultante
do fenmeno Big Data. Sua viso particular sugere a definio de
metadados descritivos (definio, catlogos, etc.), metadados estruturais
(formato de udio, vdeo, email, XML, etc.) e metadados administrativos
(direitos de acesso, planos de integrao, etc.).
H padres formais definidos para os metadados. Os principais so: Case
Definition Interchange Facility (CDIF), usado para facilitar a troca de
metadados entre ferramentas de desenvolvimento, Dublin Core Metadata
Initiative (DCMI), ISO-11179, que versa sobre definio de padres e
especificaes para elementos de dados, e Common Warehouse Metadata
Model (CWM). H tambm sugestes de mtricas para se controlar os
metadados, como, por exemplo: cobertura de metadados (MD) existentes
no escopo desejado (nmero de objetos j definidos com MD/nmero de
objetos estimados no domnio em anlise). Tambm o grau de cobertura
de documentao dos MD (o quanto, em cobertura, os MD esto
documentados, sugerindo a completude de sua definio).

d. Implementar um ambiente de metadados:


A implementao de um ambiente de metadados dever ser revestida de
todo cuidado, devendo-se optar por uma abordagem evolutiva e
incremental, com estabelecimento de pilotos para verificar conceitos,
aderncias e adeses.

e. Outros pontos do processo:


O desafio de se criar e manter metadados muito grande. Da a ainda
baixa incidncia de implementao nas empresas. Normalmente se tem
modelos isolados oriundos das ferramentas adquiridas, sendo a sua
integrao um dos grandes desafios. A devida definio de uma
arquitetura funcional, prtica e que mostre retornos o grande lance da
gesto de metadados. A instanciao dessa gerncia se dar pelo
gerenciamento adequado dos diversos repositrios, que possam produzir,
distribuir e entregar os metadados na forma de consultas, relatrios e
anlise, no momento exigido e com a devida consistncia. Os desafios de
metadados so (quase) os mesmos que sempre enfrentamos na rea de
dados. Alis, no poderia ser diferente, pois estamos falando dos dados
sobre os dados. Um problema, na sua meta referncia.
Os metadados tcnicos j esto mais associados a elementos de
desenvolvimento e implementao, como BD, atributos, modelos fsicos
de dados, tabelas, campos, triggers, aspectos de armazenamento
(storage), padres de acesso, frequncia e tempo de execuo de
relatrios e consultas, entre outros. H tambm, dentro dos metadados
tcnicos, uma viso mais operacional, que envolve: necessidades de
recursos relativos operao de TI; informaes sobre movimentaes de
dados (ETL, por exemplo), como transformaes e erros; sistemas fontes e
targets; frequncia de jobs, erros de schedule; dados sobre backups e
recovery; informaes de controles de auditoria, regras de arquivamento
e reteno de dados, entre outros.
A Gesto de Metadados se mostra, h muito tempo, como a parte da
gesto estratgica de dados com maiores lacunas, dentre todas. Os
metadados podem ser considerados como um dos temas mais falados e
menos implementados no mundo dos dados. O metadado como aquela
placa que identifica comida a quilo, que fica ao lado dos rechauds. Sem
a perfeita identificao dos pratos oferecidos, voc no sabe o que est
consumindo. Poucas empresas se preocupam com uma arquitetura de
metadados, afora aqueles que so produzidos automaticamente pelos
SGBDs para abrigar informaes fsicas sobre tabelas, campos, ndices,
triggers, entre outros. Mas isso muito pouco, e nesse particular a Gesto
Estratgica de Dados ter muito trabalho pela frente. Algumas empresas,
na busca do resgate dos dados e de seus metadados escondidos no
ambiente legado, tm adotado tcnicas de engenharia reversa, visando o
seu levantamento. A Figura 4 mostra, esquematicamente, um fluxo
simplificado usando essa abordagem.
1.1.10 Gesto de qualidade de dados

O objetivo planejar, implementar e controlar atividades que apliquem tcnicas


de gerncia de qualidade de dados para medir, avaliar, melhorar e garantir a
adequao dos dados ao seu uso pretendido.

A estrutura de atividade desta funo :


Desenvolver e promover aspectos de conscientizao sobre Qualidade de
Dados.

Definir requisitos de Qualidade de Dados.

Estabelecer processos de profiling, anlise e avaliao de Qualidade de


Dados.

Definir mtricas para Qualidade de Dados.

Definir regras de negcios para Qualidade de Dados.

Testar e validar os requisitos de Qualidade de Dados.


Definir e avaliar nveis de servios de Qualidade de Dados.

Medir e monitorar continuamente a Qualidade de Dados.

Gerenciar as pendncias de Qualidade de Dados.

Corrigir os defeitos de Qualidade de Dados.

Projetar e implementar procedimentos operacionais de Gerncia de


Qualidade de Dados.

Monitorar os procedimentos operacionais e a performance da Gerncia de


Qualidade de Dados.

A viso sinttica :

a. Desenvolver e promover aspectos de conscientizao sobre Qualidade de


dados:
Aqui a grande questo vender a importncia da qualidade de dados nas
empresas. preciso difundir a importncia dos conceitos, seja por
mecanismos diretos ou indiretos. Os diretos seriam atravs de palestras,
consultorias ou assemelhados. Os meios indiretos so atravs de
exemplos acerca dos efeitos negativos da qualidade de dados nas
empresas. No fundo, a ideia mostrar arranhes na reputao, problemas
com normas regulatrias, entre outros. Mostrar tambm que o problema
no (somente) do domnio da TI, mas principalmente um problema da
esfera de negcios. A qualidade de dados deve ser um dos elementos
fundamentais do arco da Governana de Dados da empresa, que define
poltica, padres, procedimentos, papis, programas e projetos dentre
outros itens do seu escopo, visando tratar e preservar ao ativo dado. A
realizao de um trabalho inicial de profiling dos dados mais importantes
da empresa, mostrando os resultados preocupantes com relao
qualidade dos dados algo a ser fortemente pensado, pois serve como
start-up para todo o processo de convencimento material sobre os
problemas de dados.

b. Definir requisitos de Qualidade de Dados:


Os requisitos de qualidade de dados so definidos diretamente em funo
das necessidades da empresa. H que se pensar nos processos crticos da
empresa, suas regras de negcios, seus dados consumidos e produzidos e
o impacto da qualidade dos dados na sua execuo, tanto como input
quanto output. Esse o incio de tudo. Os requisitos de qualidade de
dados passam por vrios domnios, que podem variar de acordo com os
autores. O mostrado pelo DMBOK :
Preciso (accuracy) ou como as coisas/entidades da vida real
esto corretamente representadas.
Completude (completeness): O quo completos esto os dados
(todos os atributos? Faltam alguns? Todos os essenciais? Alguns
acessrios?) exigidos na execuo daquele processo de negcio.
Consistncia (consistency): Se refere integridade cruzada entre
duas ou mais fontes que armazenam o mesmo dado. H coerncia
entre esses dados que habitam fontes diferentes? A coerncia
existe no mesmo contexto ou em contextos diferentes?
Atualidade (currency): O quanto os dados esto atualizados e
representam o estado corrente e mais atual.
Preciso numrica (accuracy): Representao de valores no grau
de preciso necessria, como casas decimais para dados
numricos.
Disponibilidade (availability): O dado disponibilizado no
momento de sua necessidade?
Unicidade (uniquiness): O fato de haver representao nica de
certa entidade, sem ambiguidade ou sentidos diferentes.

c. Estabelecer processos de profiling, anlise e avaliao de Qualidade de


Dados:
Refere-se necessria fotografia inicial do estado dos dados de certa(s)
rea(s) de assunto ou domnio(s) da empresa. Deve ser uma das
primeiras aes para se estabelecer as baselines dos processos de
melhoria de qualidade de dados da empresa. Permite criar as primeiras
mtricas e a definio dos objetivos a serem alcanados em funo delas.
como se fosse a analise laboratorial solicitada por um mdico para
melhor diagnosticar o estado do paciente e iniciar o seu tratamento.

Definir mtricas para Qualidade de Dados:


As mtricas devero ser definidas para a avaliao do estado atual e da
evoluo dos tratamentos de qualidade dos dados. As mtricas, como todas as
medidas definidas em processos de qualidade devero:
Ser atreladas a objetivos bem definidos.
Responder a questes associadas a esses objetivos.
Ser medidas definidas com clareza, que apontem elementos
quantificveis associveis a objetivos de negcios, com formulaes
claras (como medir), valores definidos para anlise (como analisar), com
faixas aceitveis e no aceitveis (como interpretar), plano de aes no
caso de discrepncias, frequncia de medio (quando medir), entre
outros.

e. Definir regras de negcios para Qualidade de Dados:


Implica na anlise das regras de negcios fundamentais dos processos e
na descoberta dos dados que podem implicar em eventuais quebras de
conformidade delas. Esses dados devero ser observados na sua
qualidade justamente para garantir a conformidade da regra com o
processo. Por exemplo, a regra de negcios que define que nenhum
colaborador com oito horas dirias de turno de trabalho poder ganhar
menos que o salrio mnimo. Um campo de um arquivo enviado ao INSS
contendo um valor abaixo desse estabelecido implica numa quebra de
conformidade do processo (admisso, por exemplo), com as regras de
negcios definidas.

f. Testar e validar os requisitos de Qualidade de Dados:


Nesse ponto, o DMBOK sugere que haja processo de verificao inicial
(data profiling, por exemplo) e verificao constante e recorrente, a fim de
que os dados sejam sempre avaliados nos seus domnios de qualidade.

g. Definir e avaliar nveis de servios de Qualidade de Dados:


Nesse item, sugerida a definio de nveis de servios de qualidade de
dados, o que dever ser garantido por medies e verificaes
constantes. Os nveis de SLA so o compromisso firmado sobre qualidade
da rea gestora dos dados com os seus usurios. Os itens subsequentes,
relativos a medir e monitorar continuamente, gerenciar as pendncias e
corrigir os defeitos so consequncias diretas desse compromisso de nvel
de servios.

h. Projetar e implementar procedimentos operacionais de Gerncia de Qualidade


de dados e monitorar os procedimentos operacionais e a performance da
Gerncia de Qualidade de Dados:
So, no fundo, a materializao do processo de Garantia de Qualidade dos
Dados. Todo processo dever ser constantemente avaliado a fim de se
obter melhorias nos seus procedimentos, polticas e resultados.

Vous aimerez peut-être aussi