Vous êtes sur la page 1sur 87

6 Fundamentos da Teoria Geral de Sistemas.

7 Sistemas de informação.

•7.1 Fases e etapas de sistema de informação.

8 Teoria da informação.

•8.1 Conceitos de informação, dados, representação de dados, de


conhecimentos, segurança e inteligência.
•9.3 Dados estruturados e não estruturados.

BLOCO II - 9 Banco de dados.

•9.1 Base de dados,

INFORMÁTICA •Administração de dados


•Documentação e prototipação.
•9.2 Modelagem conceitual: abstração, modelo entidade-relacionamento,
análise funcional.
•9.4 Banco de dados relacionais: conceitos básicos e características.
•9.5 Chaves e relacionamentos.
•9.6 Noções de mineração de dados: conceituação e características.
•9.7 Noções de aprendizado de máquina.
•9.8 Noções de bigdata: conceito, premissas e aplicação.
•12 Noções de programação R.

14 Metadados de arquivos.
Fundamentos de Teoria Geral dos Sistemas
CONCEITOS
BÁSICOS

• A TGS surgiu com os trabalhos do biólogo


austriaco Ludwig von Bertalanffy.
• “Um sistema pode ser definido como um
conjunto de elementos em inter-relação
entre si e com o ambiente”
Os sistemas existem dentro de subsistemas. Cada sistema é
constituído de subsistemas e, ao mesmo tempo, faz parte de um
sistema maior, o supra-sistema. Cada subsistema pode ser detalhado
em seus subsistemas componentes, e assim por diante. Esse
encadeamento parece ser infinito. As moléculas existem dentro de
células, que existem dentro de tecidos, que compõem os órgãos,
que compõem os organismos, e assim por diante.

ALGUMAS Os sistemas são abertos. É uma decorrência da premissa anterior.


Cada sistema existe dentro de um meio ambiente constituído por
outros sistemas. Os sistemas abertos são caracterizados por um
PREMISSAS processo infinito de intercâmbio com o seu ambiente para trocar
energia e informação.

BÁSICAS As funções de um sistema dependem de sua estrutura. Cada


sistema tem um objetivo ou finalidade que constitui seu papel no
intercâmbio com outros sistemas dentro do meio ambiente.
1. Propósito ou objetivo: buscam um objetivo ou finalidade a alcançar.

2. Globalismo ou totalidade: qualquer estimulação em qualquer unidade do


sistema afetará todas as unidades devido ao relacionamento existente entre
elas.

CONCEITOS 3. Entropia: a tendência que os sistemas têm para o desgaste, para a

BÁSICOS desintegração, para o afrouxamento dos padrões e para um aumento da


aleatoriedade. À medida que a entropia aumenta, os sistemas se decompõem
em estados mais simples, levando-os à degradação, desintegração e ao seu
desaparecimento.

4. Homeostasia: esse conceito de homeostasia aplicada aos sistemas trata do


equilíbrio dinâmico obtido através da autorregularão, ou seja, através do
autocontrole do sistema, pois todo sistema tem a capacidade de manter certas
variáveis dentro de limites, mesmo quando os estímulos do meio externo
forçam essas variáveis a assumirem valores que ultrapassam os limites da
normalidade.
• A entropia é uma lei universal da
natureza que estabelece que todas
as formas de organização tendem à

ENTROPIA desordem ou à morte.


• A energia tende a ser dissipada
• O sistema aberto, por importar mais
NEGATIVA energia do ambiente do que
necessita, pode, com este
mecanismo, adquirir entropia
negativa.
ESTADO FIRME E HOMEOSTASE DINÂMICA
• Estado firme: existe um influxo
contínuo de energia do ambiente
exterior e uma exportação
contínua dos produtos do sistema.
• O estado firme é observado no
processo homeostático que regula
a temperatura do corpo: as
condições externas de
temperatura e umidade podem
variar, mas a temperatura do
corpo permanece a mesma.
SISTEMAS ABERTOS
1) O todo é superior à soma das suas partes e tem características próprias.
2) As partes integrantes de um sistema são interdependentes.
3) Sistemas e subsistemas relacionam-se e estão integrados numa cadeia hierárquica
(nesta perspectiva pode encarar-se o universo como uma vasta cadeia de sistemas).
4) Os sistemas exercem autorregulação e controle, visando a manutenção do seu
equilíbrio.
5) Os sistemas influenciam o meio exterior e vice-versa (através do input/output de
energia e informação).
6) A autorregulação dos sistemas implica a capacidade de mudar, como forma de
adaptação a alterações do meio exterior.
7) Os sistemas têm a capacidade de alcançar os seus objetivos através de vários
modos diferentes.
AINDA SOBRE SISTEMAS
Sistemas de Informação

Fase e etapas de um sistema de informação


CONCEITOS:
SISTEMA E SISTEMA
DA INFORMAÇÃO

• Sistemas:
• Grupo de componentes inter-
relacionados que operam rumo à
consecução de uma meta comum
mediante a aceitação de entradas e
produção de saídas em um processo
organizado.
• Sistemas de informação:
• Utiliza os recursos de pessoas,
hardware, software, dados e redes
para executar atividades de entrada,
processamento, saída,
armazenamento e controle que
convertem dados em informação
SISTEMA DE
INFORMAÇÃO
ÁREA FUNCIONAL OU NÍVEL ORGANIZACIONAL?

SAE/SIE

SIG/SAD

SPT
FASES E ETAPAS DE UM SISTEMA DE INFORMAÇÃO

Estudo da Engenharia de Modelagem do Codificação e Teste


Implantação Avaliação
viabilidade requisitos (Análise) sistema (Desenho) (Desenvolvimento)

MANUTENÇÃO

A MANUTENÇÃO PODE GERAR REFLEXOS OU RECEBER


ENTRADAS DE TODAS AS OUTRAS ETAPAS DO PROCESSO
INFORMAÇÃO ADICIONAL! ☺

• Para compreender totalmente os sistemas de informação,


você precisa conhecer suas dimensões mais amplas: a
organizacional, a humana e a tecnológica, bem como seu
poder de fornecer soluções para os desafios e problemas
no ambiente empresarial.
• Chamamos essa compreensão mais ampla de sistemas de
informação, que abrange um entendimento das
dimensões organizacional e humana dos sistemas, bem
como de suas dimensões técnicas, de capacitação em
sistemas de informação.
Teoria da informação
Conceitos de informação, dados, representação de dados, de
conhecimentos, segurança e inteligência.
Dados estruturados e não estruturados.
Dados Informação Conhecimento

Simples observações sobre Dados dotados de Informação valiosa da


o estado do mundo. relevância e propósito mente humana. Inclui
reflexão, síntese e contexto
• Facilmente estruturado
• Facilmente obtido por • De difícil estruturação
• Requer unidade de
máquinas • De difícil captura em
análise
• Frequentemente máquinas
• Exige consenso em
quantificado • Frequentemente tácito
relação ao significado
• Facilmente transferido • De difícil transferência.
• Exige mediação
humana
Vamos incluir a inteligência!
DADOS, INFORMAÇÃO, CONHECIMENTO E INTELIGÊNCIA

Inteligência – experiência, melhoria de


desempenho

Conhecimento – informações úteis a um


propósito (entendimento)

Informação – contextualização e
significado

Dado – é um fato registrado


OUTRA FORMA DE ORGANIZAR

• Experência
Inteligência • Intuição
• Complexidade

Síntese • Confiabilidade
Conhecimento • Relevância
• Importância
Avaliação

• Dados que passam por algum


Informação processamento
Processamento

• Fatos
Dados • Textos
• Imagens
Dados organizados em blocos semânticos (relações)

Dados de um mesmo grupo possuem as mesmas


Dados descrições (atributos)

estruturados Descrições para todas as classes de um grupo possuem o


mesmo formato (esquema)

Dados mantidos em um SGBD são chamados de Dados


Estruturados por manterem a mesma estrutura de
representação (rígida), previamente projetada (esquema)
Atualmente, muitos dados não são mantidos em Bancos de dados

Dados Dados Web, por exemplo, apresentam uma organização bastante


heterogênea.

semiestruturados
A alta heterogeneidade dificulta as consultas a estes dados
• Que são classificados como semiestruturados
• Não são estritamente tipados
• Não são completamente não-estruturados

Os dados semiestruturados são dados onde o esquema de representação está


presente (de forma explícita ou implícita)
Definição à posteriori

• Esquemas são definidos após a existência dos dados


• Investigação de suas estruturas particulares

Estrutura irregular

• Não existe um esquema padrão para os dados


Dados • Coleções de dados são definidos de maneiras diferentes,
contendo informações incompletas
semiestruturados
(Características) Estrutura implícita

• Muitas vezes existe uma estrutura implícita

Estrutura parcial

• Apenas parte dos dados disponíveis podem ter uma


estrutura
DADOS NÃO-
ESTRUTURADOS
• São os dados que não possuem uma
estrutura definida.
• Normalmente caracterizados por
documentos textos, imagens, vídeos,
etc.
• Nem as estruturas são descritas
implicitamente
• Grande maioria dos dados atuais na
Web e nas empresas seguem este
formato.
- Dados são independente de estruturas e são
armazenados.
Não estruturado
- Ex: Documentos em texto, PDFs, imagens e
vídeos.

Arquivos de dados em formato de texto com


Semiestruturado um padrão aparente
Ex: XML e JSON

Os dados possuem um modelo de dados,


Estruturado formato e estrutura.
Ex: Banco de dados.
Bancos de dados
Base de dados, Administração de dados,
Documentação e prototipação.
BANCO DE DADOS
• Banco de dados é um conjunto de dados
estruturados que são confiáveis, coerentes e
compartilhados por usuários que têm necessidades
de informações diferentes

• Um Sistema de Gerenciamento de Banco de


Dados (SGBD) é um conjunto de programas que
permitem armazenar, modificar e extrair
informações de um banco de dados. Seu principal
objetivo é proporcionar um ambiente tanto
conveniente quanto eficiente para a recuperação e
armazenamento das informações do banco de
dados.

• O sistema de banco de dados (SBD) é


considerado a união entre o banco de dados e o
sistema de gerenciamento de banco de dados.
Arquitetura três esquemas
A arquitetura ANSI/SPARC se divide em três
níveis, conhecidos como nível interno, nível
externo e nível conceitual, embora também Alterar o esquema
sejam utilizados outros nomes. De modo geral:
■ O nível interno (também conhecido como Esquemas externos
nível de armazenamento) é o mais próximo do ou visões do usuário
meio de armazenamento físico – ou seja, é
aquele que se ocupa do modo como os dados
são fisicamente armazenados dentro do
Independência de
sistema.
dados lógica
■ O nível externo (também conhecido como
nível lógico do usuário) é o mais próximo dos Independência de
usuários – ou seja, é aquele que se ocupa do dados física
modo como os dados são vistos por usuários
individuais.
■ O nível conceitual (também conhecido como
nível lógico de comunidade, ou às vezes
apenas nível lógico, sem qualificação) é um
nível “indireto” entre os outros dois.
Categorias de modelos de dados
Esquemas Conceituais
Conceituais
Alto nível

Esquemas Representativos
Lógicos
Implementação

Físicos
Esquemas
Físicos Baixo nível
ADMINISTRAÇÃO DE DADOS

• O AD é a pessoa que toma as decisões


estratégicas e de normas com relação aos dados
da empresa.
• Os administradores de dados também podem
ser conhecidos por projetista de dados.
• Suas tarefas são realizadas principalmente antes
do banco de dados ser realmente implementado
e/ou recebe dados para armazenamento.
TAREFAS DO AD

• Padronizar os nomes dos objetos criados no BD


• Gerenciar e auxiliar na definição das regras de
integridade
• Controlar a existência de informações
redundantes
• Trabalhar de forma corporativa nos modelos de
dados da organização
ADMINISTRAÇÃO DE BANCO DE DADOS
• O DBA é o responsável por autorizar o acesso ao banco de dados,
coordenar e monitorar seu uso, adquirir recursos de software e
hardware conforme a necessidade e por resolver problemas tais
como falhas de segurança ou demora no tempo de resposta do
sistema.
– Definir o esquema interno
– Contatar com os usuários
– Definir restrições de segurança e integridade
– Monitorar o desempenho e responder a requisitos de mudanças.
– Definir normas de descarga e recarga (dumping ou backup)
Modelagem
Conceitual
Abstração, modelo entidade-relacionamento, análise
funcional.
PROJETO
DE BANCO
DE DADOS
PROTOTIPAÇÃO
• É um método rápido de construir interativamente um modelo
funcional do aplicativo de banco de dados proposto.
• É um dos métodos de desenvolvimento rápido de aplicativos (RAD)
para projetar um sistema de banco de dados.
• O RAD é um processo interativo de repetição rápida das etapas de
análise, design e implementação até preencher os requisitos do
usuário.
• Portanto, prototipação é um processo interativo de
desenvolvimento de sistemas de banco de dados no qual os
requisitos do usuário são traduzidos para um sistema que é
continuamente revisado através de um trabalho próximo entre o
designer de banco de dados e os usuários.
SOBRE PROTOTIPAÇÃO

Um sistema
funcionando
Prototipação
evolucionária
Requisitos
compreendidos
Elaborar os
requisitos
Validar ou derivar
os requisitos
Prototipação
descartável
Protótipo +
especificação do
sistema
ELEMENTOS BÁSICOS
CARDINALIDADE
Grau de Relacionamento
• Grau de um tipo Relacionamento
– É o número de entidades
que participam desse
relacionamento
– Grau 2 - Binário, Grau 3 -
Ternário
HERANÇA
Herança
Atributos de entidade de
nível superior são herdados
pelos conjuntos de
entidades de nível inferior

Na prática a generalização é
simplesmente o inverso da
especialização.
Disjunção e sobreposição
Especialização: Total ou parcial
• Ao longo do processo de
criação de banco de dados,
você gerou várias listas,
folhas de especificações e
diagramas usados para
registrar vários aspectos do
design do banco de dados.
• Você deve organizá-los em
um repositório central,
• Incidentalmente, você
poderia gerar e
armazenar esses
documentos usando
um programa de
computador.

DOCUMENTAÇÃO
ELEMENTOS
DOCUMENTADOS
• O repositório de design deve consistir dos seguintes
conjuntos de documentos:
• Lista final da tabelas do sistemas
• Diagramas de Relacionamentos
• Especificações dos Campos ou atributos
• Especificações de regra de negócios
• Lista de campos calculados
• Diagramas de visão
• Diagramas da estrutura das tabelas
• Especificações da visões
RAZÕES PARA DOCUMENTAÇÃO

• Fornecer um registro completo da estrutura


do banco de dados.
• Fornecer um conjunto completo de
especificações e instruções sobre como o
banco de dados deve ser criado durante o
processo de implementação.
• Caso pareça necessário modificar o banco de
dados durante o processo de implementação,
a documentação de design pode ser usada
para determinar os efeitos e as
consequências de quaisquer modificações.
Modelo Relacional

Chave e Relacionamento
RELAÇÃO
RELAÇÃO

• Tipos são (conjuntos de) coisas sobre as quais


podemos falar.
– Um tipo de dados define os valores que um dado
pode assumir e as operações que podem ser
efetuadas sobre o mesmo. Tipos podem ser, por
exemplo: inteiros, reais, caracteres, etc.
• Relações são (conjuntos de) coisas que dizemos a
respeito das coisas sobre as quais podemos falar.
PROPRIEDADES DE UMA RELAÇÃO

• 1. Cada tupla contém exatamente um valor (do tipo


apropriado) para cada atributo.
• 2. Atributos não são ordenados da esquerda para a
direita. Essa propriedade acontece, pois, uma tupla é
definida em termos de conjuntos matemáticos, que
não possuem ordenação dos seus elementos.
• 3. Tuplas não são ordenadas de cima para baixo.
• 4. Não existem tuplas duplicadas.
CONCEITOS BÁSICOS
• Um banco de dados relacional é um banco de dados percebido por seus usuários
como uma coleção de RelVars ( relvars ) ou, de modo mais informal, tabelas.
• Um sistema relacional é um sistema que admite bancos de dados relacionais e
operações sobre esses bancos de dados, incluindo em particular as operações de
restrição , projeção e junção .
– Essas operações, e outras semelhantes a elas, são conhecidas coletivamente como álgebra
relacional, e todas elas são operações em nível de conjunto .
– A propriedade de fechamento dos sistemas relacionais significa que a saída de toda operação
é do mesmo tipo de objeto que a entrada (são todas relações), o que significa que podemos
escrever expressões relacionais aninhadas .
• As RelVars podem ser atualizadas por meio da operação de atribuição relacional;
as conhecidas operações de atualização INSERT , UPDATE e DELETE podem ser
consideradas atalhos para certas atribuições relacionais comuns.
CONCEITOS BÁSICOS
• A teoria formal em que se baseiam os sistemas relacionais é chamada
modelo relacional de dados.
• O modelo relacional trata apenas de questões lógicas, não de questões
físicas.
• Ele está relacionado com três aspectos principais dos dados:
– a estrutura de dados,
– a integridade de dados e
– a manipulação de dados.
• O aspecto estrutural tem a ver com as relações propriamente ditas; o
aspecto de integridade está relacionado com (entre outras coisas) chaves
primárias e chaves estrangeiras; e o aspecto manipulativo tem a ver com
os operadores (de restrição, projeção, junção etc.).
CABEÇALHO E CORPO

• Toda relação tem um cabeçalho e um corpo ; o


cabeçalho é um conjunto de pares nome de
coluna:nome de tipo, e o corpo é um conjunto de
linhas em conformidade com o cabeçalho.
• O cabeçalho de determinada relação pode ser
considerado um predicado , e cada linha no corpo
indica uma certa proposição verdadeira , obtida pela
substituição dos parâmetros do predicado por certos
valores de argumentos do tipo apropriado.
CHAVES

• SuperChave
– Chave candidata
– Chave primária
– Chave alternativa
– Chave secundária
– Chave estrangeira
• Chave natural x chave artificial
REVISANDO
RELACIONAMENTO
QUESTÃO CESPE BASA 2018
• Julgue os itens seguintes, referentes à modelagem relacional de dados.
• 115 Considerando-se a propriedade da unicidade do conjunto de atributos que compõem uma
tabela, é correto afirmar que toda tabela tem pelo menos uma chave candidata.
• 116 O valor de uma chave estrangeira que apareça em uma tabela deve, necessariamente, ser
considerado como chave primária de outra tabela.
• 117 Após definir-se uma visão, é disponibilizada para o usuário uma tabela virtual que não compõe
o modelo lógico de dados, na qual o usuário tem plena liberdade para realizar operações de
consulta, inclusão, exclusão ou alteração.
• 118 Uma tabela não pode ter valores de chaves estrangeiras nulos, em decorrência da regra de
integridade referencial.
• 120 As restrições de integridade classificadas como restrições de transição tanto podem referir-se a
apenas uma tabela, como a um conjunto de tabelas. Nessa última situação, denominam-se
restrições de transição de banco de dados
Noções de mineração de dados

Conceituação e características
O QUE É MINERAÇÃO DE DADOS?
• A mineração de dados é a prática de pesquisar automaticamente grandes bases de dados para
descobrir padrões e tendências que vão além da simples análise. A mineração de dados usa
algoritmos matemáticos sofisticados para segmentar os dados e avaliar a probabilidade de eventos
futuros. A mineração de dados também é conhecida como descoberta de conhecimento em dados
(KDD). As principais propriedades da mineração de dados são:
– Descoberta automática de padrões
– Previsão de resultados prováveis
– Criação de informação acionável
– Concentra-se em grandes conjuntos de dados e bancos de dados
• A mineração de dados pode responder a perguntas que não podem ser abordadas por meio de
técnicas simples de consulta e geração de relatórios.
• Descoberta Automática
– A mineração de dados é realizada pela construção de modelos. Um modelo usa um algoritmo para atuar em
um conjunto de dados. A noção de descoberta automática refere-se à execução de modelos de mineração
de dados. Os modelos de mineração de dados podem ser usados ​para explorar os dados nos quais eles são
construídos, mas a maioria dos modelos é generalizável para novos dados. O processo de aplicar um modelo
a novos dados é conhecido como pontuação (scoring).
MINERAÇÃO DE DADOS

A mineração de dados é um campo interdisciplinar que reúne técnicas de aprendizado de máquina,


reconhecimento de padrões, estatísticas, banco de dados e visualização para abordar a questão da
extração de informações a partir de grandes bases de dados”

• Descritiva – caracterizam as propriedades gerais dos


dados em um banco de dados
– Achar padrões reconhecidos por seres humanos para
descrever os dados
• Preditiva – essas tarefa realiza uma inferências sobre os
dados atuais para fazer previsões sobre os mesmos
– Usa variáveis para prever valores futuros ou
desconhecidos de outras variáveis
Classificação. Regras de associação.

Análise de agrupamentos
Detecção de anomalias.
(clusterização).
CRISP-DM - FASES
Entendimento Entendimento Preparação
Modelagem Avaliação Entrega
do negócio dos dados dos dados

Coletar os dados Selecionar os dados


Determinar os Seleção de técnicas Avaliação dos Planejar a entrega
iniciais
objetivos resultados
Limpar os dados
Planejar o
Descrever os dados Projeto de testes monitoramento e a
Contruir os dados manutenção
Revisão do
Conhecer a situação
preocesso
Integrar os dados Construção do Produzir um
Explorar os dados
modelo relatório final
Formatar os dados
Produzir um plano Determinar os
de projeto Verificar a próximos passos
Ajuste do modelo Lições aprendidadas
qualidade dos dados Descrição da base
Noções de aprendizado de máquina
DEFINIÇÃO
• Machine Learning (ML) ou aprendizado de máquina é uma área da
inteligência artificial cujo objetivo é o desenvolvimento de técnicas
computacionais sobre o aprendizado bem como a construção de
sistemas capazes de adquirir conhecimento de forma automática.
• Um sistema de aprendizado é um programa de computador que
toma decisões baseado em experiências acumuladas por meio de
solução bem-sucedida de problemas anteriores.
• É uma ferramenta poderosa para aquisição automática de
conhecimento, entretanto, não existe um único algoritmo ou
solução que apresente melhor desempenho para todos problemas.
VIES E VARIÂNCIA

• Viés é a tendência de um
classificador aprender
consistentemente uma
generalização incorreta.
• Variância é o valor que a
estimativa da função de
destino mudará se forem
usados dados de
treinamento diferentes.
OVERFITTING
• Overfitting ocorre quando um algoritmo de aprendizado de
máquina captura o ruído dos dados.
• Intuitivamente, o overfitting ocorre quando o modelo ou o
algoritmo ajusta os dados muito bem.
• Especificamente, o overfitting ocorre se o modelo ou algoritmo
mostrar baixo viés, mas alta variância.
• O overfitting é muitas vezes o resultado de um modelo
excessivamente complicado, e pode ser evitado através da
adaptação de vários modelos e usando validação ou validação
cruzada para comparar as suas precisões de previsão nos dados de
teste.
UNDERFITTING
• O underfitting ocorre quando um modelo estatístico ou um
algoritmo de aprendizado de máquina não consegue capturar a
tendência subjacente dos dados.
• Intuitivamente, o underfitting ocorre quando o modelo ou o
algoritmo não se ajustam bem aos dados.
• Especificamente, o underfitting ocorre se o modelo ou algoritmo
mostrar baixa variância, mas alto viés.
• O underfitting é frequentemente resultado de um modelo
excessivamente simples.
• O overfitting e o underfitting levam a previsões ruins sobre novos
conjuntos de dados.
UNDERFITTING E OVERFITTING
CATEGORIAS

• Aprendizado supervisionado - os recursos de


entrada e os rótulos de saída são definidos.
• Aprendizado não supervisionado - o conjunto de
dados não é rotulado e o objetivo é descobrir
relacionamentos ocultos.
• Aprendizado por reforço - alguma forma de
retroalimentação está presente e existe a
necessidade de otimizar alguns parâmetros.
TAXONOMIA

Linguagem de
Modos Paradigmas Formas
Descrição
• Supervisionado • Simbólico • Incremental • Exemplos ou
• Não • Estatístico • Não objetos
supervisionado • Baseado em incremental • Hipóteses
• Por reforço exemplos • Conhecimento
• Conexista do domínio
• Evolutivo
ALGORITMOS DE APRENDIZADO
Noções de bigdata

Conceito, premissas e aplicação


Escalabilidade horizontal

Ausência de esquema ou esquema


flexível
Suporte nativo a replicação

Características API simples para acesso aos dados

Consistência eventual

Persistência poliglota
Conceitos
Consistência - uma leitura em qualquer um dos nodos de um sistema
retorna como resultado a mesma informação

Disponibilidade - requisições de leitura e escrita sempre serão


reconhecidas e respondidas

Tolerância a partições - o cluster pode suportar falhas na


comunicação que o dividam em múltiplas partições
CAP
Theorem
Big Data
•Volume,
Variedade,
Velocidade
Chave-valor

Hadoop
Documentos
Map- NoSQL
Reduce +
HDFS
Colunar

Grafos

Teorema
BASE X ACID
CAP
• 5 Vs:
• Velocidade, Variedade, Volume, Valor e Veracidade
• Escalabilidade horizontal
• Persistência poliglota
• Teorema CAP

CONCEITOS Bases de dados NoSQL
• Chave-valor
• Documento
• Grafo
• Colunar
• Hadoop
• Map Reduce
• HFDFS
Noções de programação R
CONCEITOS

• R é uma linguagem e também um ambiente de desenvolvimento integrado para cálculos


estatísticos e gráficos.
• Foi criada originalmente por Ross Ihaka e por Robert Gentleman no departamento de Estatística da
universidade de Auckland, Nova Zelândia, e foi desenvolvido em um esforço colaborativo de
pessoas em vários locais do mundo.
• O código fonte do R está disponível sob a licença GNU GPL e as versões binárias pré-compiladas são
fornecidas para Windows, Macintosh, e muitos sistemas operacionais Unix/Linux.
• R é também altamente expansível com o uso dos pacotes, que são bibliotecas para sub-rotinas
específicas ou áreas de estudo específicas.
• Um conjunto de pacotes é incluído com a instalação de R, com muito outros disponíveis na rede de
distribuição do R (em inglês CRAN - Comprehensive R Archive Network).
• A linguagem R é largamente usada entre estatísticos e analistas de dados para desenvolver
software de estatística e análise de dados.
• A R é uma linguagem interpretada tipicamente utilizada através de um Interpretador de comandos.
RECURSOS DE PROGRAMAÇÃO

• Como muitas outras linguagens, a R suporta


matrizes aritméticas.
• A estrutura de dados da R inclui escalares,
vetores, matrizes, data frames (similares a tabelas
numa base de dados relacional) e listas.
• O sistema de objetos da R é extensível e inclui
objetos para, entre outros, modelos de regressão,
séries temporais e coordenadas geoespaciais.
COERÇÃO E
RECICLAGEM

• Coerção ocorre quando


objetos de diferentes
classes são misturados em
um determinado objeto
NUM <- C(10,5,2,4,8,9)
homogêneo. O R tenta
fazer a coerção, caso não
seja possível inclui um NA.
• Reciclagem ocorre quando
os elementos de um vetor
são reaproveitados para
manter a compatibilidade
entre os tamanhos os
objetos usados em uma
operação.
GRÁFICOS EM R
EXEMPLOS
Metadados de Arquivos
VAMOS
CONTEXTUALIZAR
• Os metadados podem ser subdivididos em
três tipos importantes:
• descritivo (incluindo elementos como
TIPOS DE autor, título, resumo e palavras-chave)
METADADOS • estrutural (descrevendo como um objeto
é constituído e como os elementos são
DE organizados)
• administrativo (incluindo elementos
ARQUIVOS como data e hora da criação, tipo de
dados e outros detalhes técnicos).

Vous aimerez peut-être aussi