Académique Documents
Professionnel Documents
Culture Documents
+ +
50+ milhes
usurios ativos
~1B de eventos/ms
mais de 20 mquinas
separao de responsabilidades
escalar horizontalmente
aplicaes
processamento de dados
O comeo do fim
Location
em que bairro / cidade / estado / pas temos mais pontos de localizao
qual o comportamento da localizao indoor em determinado estabelecimento
erro / preciso mdia de localizao dado parmetros (WiFi, GPS, aplicativo, proximidade de estabelecimento)
Publisher
requests, impresses, fill rate, cliques, CTR, receita, eCPM (da base toda, por publisher, por app e por slot de anncio)
Ad Ops
tempo mdio de visita por estabelecimento
perfil sociodemogrfico impactado por campanha
quantos usurios que so X foram impactados por campanha C e foram ao estabelecimento E depois de tempo T e depois
Fazendo Data Science em larga escala
Entregar
Muda esse parmetro e roda de novo por favor
problemas
~100GB de logs comprimidos/dia
tempo do desenvolvedor
financeiro
Presto on Parquet: 9s
SELECT COUNT(DISTINCT mad_id) WHERE DAY = 'YYYY/MM/DD'
~336x speedup
ganhos
flexibilidade de anlise
anlise de dados em near real time
Deixando apenas o "time de Dados" sabendo onde os dados esto e como usar
Como no fazer Data Science
Deixando apenas o "time de Dados" sabendo onde os dados esto e como usar
www.inlocomedia.com