Académique Documents
Professionnel Documents
Culture Documents
Na Redao
Estudos de Caso
Hackatona Mapa76
Faturas de hospitais
Coletando dados
Entendendo os Dados
O po de 32 libras
Comunicando os dados
Introduo
Imagem 1. Chamado para ajudar a investigar os gastos dos Membros do Parlamento (MPs) - (the
Guardian)
O Centro Europeu de Jornalismo realizou uma pesquisa para saber mais sobre
as necessidades de formao dos jornalistas. Descobrimos que h uma grande
vontade de sair da zona de conforto do jornalismo tradicional e investir tempo
em dominar novas habilidades. Os resultados da pesquisa nos mostraram que
os jornalistas veem a oportunidade, mas precisam de um pouco de apoio para
acabar com os problemas iniciais que os impedem de trabalhar com dados.
Existe uma confiana de que se o jornalismo de dados for adotado mais
universalmente, os fluxos de trabalho, ferramentas e os resultados vo melhorar
muito rapidamente. Pioneiros como The Guardian, The New York Times, Texas
Tribune, e Die Zeit continuam a elevar o nvel com suas histrias baseadas em
dados.
Ser que o jornalismo de dados permanecer restrito a um pequeno grupo de
pioneiros, ou ser que cada organizao de notcias em breve vai ter sua prpria
equipe dedicada ao jornalismo de dados? Esperamos que este manual ajude
mais jornalistas e redaes a tirar proveito deste campo emergente.
incluir desde a Reportagem com o Auxlio do Computador (RAC, que usa dados
como uma "fonte") at as mais avanadas visualizaes de dados e aplicativos de
notcias. O objetivo em comum jornalstico: proporcionar informao e anlise
para ajudar a nos informar melhor sobre as questes importantes do dia.
Aron Pilhofer, New York Times
Como o fotojornalismo, s que com laptop
programao (ou saber onde buscar pessoas que podem ajudar) incrivelmente
valioso.
Um reprter da Folha de S.Paulo estava trabalhando com um oramento local e
me chamou para agradecer o fato de termos colocado online as contas da cidade
de So Paulo (dois dias de trabalho para um nico hacker!). Ele disse que vinha
transcrevendo essas informaes manualmente ao longo de trs meses,
tentando construir uma reportagem. Eu tambm lembro de ter solucionado uma
questo ligada a um PDF para o Contas Abertas, uma organizao de notcias de
monitoramento parlamentar: 15 minutos e 15 linhas de cdigo conseguiram o
mesmo resultado que um ms de trabalho.
Pedro Markun, Transparncia Hacker
Uma parte essencial do pacote de ferramentas dos jornalistas
Idealmente, usa-se dados para identificar fatos que fogem ao padro, reas de
interesse ou coisas que so surpreendentes. Neste sentido, eles podem agir
como um norte ou como pistas. Os nmeros podem ser interessantes, mas
apenas escrever sobre eles no suficiente. Voc ainda vai precisar fazer
reportagem para explicar o que eles significam.
Cynthia OMurchu, Financial Times
Adaptao a Mudanas no nosso ambiente informacional
Podemos pintar histrias de toda a nossa vida por meio de nossos rastros
digitais. Do que consumimos e pesquisamos a onde e quando viajamos, nossas
preferncias musicais, nossos primeiros amores, as realizaes de nossos filhos,
e at os nossos ltimos desejos, tudo isso pode ser monitorado, digitalizado,
armazenado na nuvem e disseminado. Esse universo de informaes pode vir
tona para contar histrias, responder a questes e oferecer uma compreenso da
Meu exemplo favorito o a srie Do No Harm de 2010 do Las Vegas Sun sobre
servio hospitalar. O The Sun analisou mais de 2,9 milhes de registros
financeiros de hospitais, que revelaram mais de 3.600 leses, infeces e erros
mdicos que poderiam ter sido prevenidos. Eles obtiveram as informaes por
meio de uma requisio de dados pblicos e identificaram mais de 300 casos
nos quais pacientes morreram por conta de erros que poderiam ter sido
evitados. A reportagem possui diferentes elementos, que incluem: um grfico
interativo que permite ao leitor ver, por hospital, onde leses decorrentes de
cirurgia aconteceram mais que o esperado; um mapa e uma linha do tempo que
mostra infeces se alastrando hospital por hospital e um grfico interativo que
permite aos usurios ordenar os dados por leses evitveis ou por hospital para
ver onde as pessoas esto se machucando. Gosto deste trabalho porque muito
fcil de entender e navegar. Os usurios podem explorar os dados de uma
maneira muito intuitiva.
Alm disso, a iniciativa causou um impacto real: o legislativo de Nevada reagiu
com seis projetos de lei. Os jornalistas envolvidos trabalharam arduamente para
obter e limpar os dados. Um dos jornalistas, Alex Richards, mandou as
informaes de volta aos hospitais e para o Estado no mnimo uma dzia de
vezes para que as falhas fossem corrigidas.
Anglica Peralta Ramos, La Nacin (Argentina)
Murder Mysteries
Message Machine
Chartball
Imagem 10. Mortalidade do exrcito britnico por Florence Nightingale (imagem da Wikipedia)
Esse breve histrico sugere que o jornalismo guiado por dados no foi
assimilado pelas redaes brasileiras atravs da divulgao promovida por
associaes profissionais internacionais, imprensa e jornalistas, que tem se
intensificado desde 2010, mas vem sendo constitudo como prtica na cultura
jornalstica brasileira em paralelo com o processo de informatizao. Todavia,
pode-se inferir que o interesse crescente de empresas e profissionais do mundo
inteiro pelo jornalismo guiado por dados alimenta e incentiva o interesse pelo
tema nas redaes do Brasil. Nmeros da ferramenta de buscas Google mostram
que, a partir de 2010, h um volume crescente de procura por pginas
relacionadas ao jornalismo guiado por dados, como pode ser verificado na
figura abaixo.
Imagem 11. Volume de buscas por data journalism entre janeiro de 2010 e agosto de 2013
(Google Trends, 18 set. 2013)
Pior, por culpa do prximo ponto que descrevo, tambm est se blindando
contra colegas que possam ajudar nessa tarefa.
4. A obrigatoriedade do diploma: A deciso nscia de fazer o diploma
universitrio de jornalismo obrigatrio para o exerccio da profisso pode
dificultar o emprego de gente com perfil diverso para as redaes a no ser
em posies de segunda categoria. Alem disso, a exigncia do diploma
servir tambm como desculpa para que os departamentos de Jornalismo
no sintam a necessidade de se renovarem para oferecer aos estudantes um
melhor treinamento em habilidades conceituais e tecnolgicas.
Por que isto um grande desafio? Hoje muito difcil achar jornalistas
diplomados que, ao mesmo tempo, tenham conhecimentos cientficos ou
tcnicos profundos. No s que o jornalista mdio no saiba mexer com
dados; que no sabe nem ler uma tabela de nmeros, colocar eles em contexto,
e extrair histrias, o que muito mais importante. Como consequncia, a
grande mdia precisa contar com especialistas (cientistas, economistas,
socilogos, etc.) como reprteres e editores, e tambm com profissionais de
cincias da computao para colaborar na anlise profunda e na gesto de
dados.
Me permitam fazer um parntese neste ponto, e ser muito claro. Um hacker que
desenvolve ferramentas para que os cidados acessem dados pblicos, e que
segue as regras ticas prprias da profisso, to jornalista quanto o reprter
que escreve sobre o ltimo escndalo do Governo, gostem os partidrios do
diploma obrigatrio ou no. Se for contratado por um meio de comunicao,
deve ser na posio de jornalista ou, pelo menos, com salrio e poder de deciso
equivalentes aos de um reprter ou editor no mesmo nvel.
Eu leciono infografia e visualizao numa escola de Comunicao e Jornalismo.
No conheo nenhum caso de ex-estudante que tenha mostrado o seu diploma
para um empregador durante uma entrevista. Os jovens jornalistas so
avaliados pelas suas habilidades e conhecimentos.
Por que ter esperana
Na Redao
Foi feito com cinco pginas de mapas interativos, visualizao de dados e texto.
No era exclusivamente jornalismo de dados, mas um hbrido de diferentes
formas de jornalismo nascido da mistura das pessoas na equipe e do tema, um
dos assuntos mais quentes na Australia.
O projeto Coal Seam Gas by the Numbers foi ambicioso no contedo e na escala.
O mais importante para mim foio que aprendemos e como poderamos fazer
isso de uma maneira diferente da prxima vez"
O projeto juntou um monte de pessoas que normalmente no se encontravam
na ABC: em termos leigos, os hacks e os hackers. Muitos de ns no falvamos a
mesma lngua e nem mesmo acompanhvamos o trabalho do outro grupo.
Jornalismo de dados disruptivo!
Lies prticas:
Olhando o Contexto
No site da BBC News, utilizamos dados para fornecer servios e ferramentas aos
nossos usurios h mais de uma dcada.
O exemplo mais consistente, publicado primeiramente em 1999, so as
nossas Tabelas da rede escolar, que utilizam dados publicados anualmente pelo
governo. Os leitores podem encontrar escolas locais, inserindo um cdigo
postal, e compar-las de acordo com uma srie de indicadores. Jornalistas de
Educao tambm trabalham com a equipe de desenvolvimento para arrastar os
dados s suas matrias antes da publicao.
Quando comeamos a faz-las, no havia site oficial que providenciasse uma
maneira para o pblico explorar os dados. Mas agora que o Ministrio da
Educao tem o seu prprio servio de comparativo, passamos a nos concentrar
mais sobre as histrias que emergem a partir dos dados.
O desafio nesta rea deve ser o de proporcionar o acesso aos dados nos quais h
um claro interesse pblico. Um exemplo recente de um projeto que exps um
grande conjunto de dados, normalmente no disponveis para o pblico, foi a
reportagem especial Every Death on Every Road (Cada morte em Cada estrada).
Ns fornecemos uma busca por cdigo postal, permitindo que os usurios
encontrem a localizao de todas as fatalidades ocorridas nas estradas do Reino
Unido na ltima dcada.
Ns fizemos visualizaes de alguns dos principais fatos e nmeros que
emergem a partir dos dados da polcia e, para dar ao projeto uma sensao mais
dinmica e uma face humana, fizemos uma parceria com a London Ambulance
Association e a rdio e TV BBC de Londres para monitorar acidentes em toda a
capital medida que aconteciam. Isto foi relatado online e em tempo real, e
tambm atravs do Twitter utilizando a hashtag #crash24, e as colises
foram mapeadas medida que eram relatadas.
Ferramentas Simples
Mas onde est o jornalismo em tudo isso? Uma definio mais tradicional do
jornalismo de dados descobrir histrias a partir de dados. Existe informao
exclusiva que se esconde na base de dados? Os nmeros so precisos? Ser que
eles provam ou refutam um problema? Estas so questes que um jornalista de
dados ou algum que pratica Reportagem com Auxlio do Computador (RAC)
deve se perguntar. Mas uma quantidade considervel de tempo pode ser gasta
para se peneirar conjuntos gigantescos de dados na esperana de encontrar algo
excepcional.
Nesta rea, descobrimos que mais produtivo fazer parceria com equipes de
investigao ou com programas que tm experincia e tempo para investigar
uma histria. O programa Panorama da BBC, sobre temas cotidianos, levou
meses trabalhando com o Centre for Investigative Journalism, coletando dados
sobre os salrios do setor pblico. O resultado foi um documentrio televisivo e
um relatrio on-line especial, Public Sector pay: The numbers, (Salrios do
Setor Pblico: Os Nmeros) onde todos os dados foram publicados e
visualizados com anlises feitas por setor.
Alm da parceria com jornalistas investigativos, ter acesso a uma srie de
jornalistas com conhecimento especializado essencial. Quando um colega da
editoria de negcios analisou dados sobre cortes de gastos anunciados pelo
governo do Reino Unido, chegou concluso de que o governo estava fazendo
parecer com que os cortes fossem maiores do que realmente eram. O resultado
foi uma reportagem exclusiva, Making sense of the datacomplementada por
uma clara visualizao, que ganhou um prmio da Royal Statistical Society.
Entendendo um problema
A equipe que produz o jornalismo de dados para o site da BBC News composta
por cerca de 20 jornalistas, designers e desenvolvedores.
de lado e seguir para o prximo. uma alegria que dividimos com os reprteres,
e toda semana aprendemos algo novo.
trabalho, mas o link no recebe muitas visitas. Isso no nos surpreende. "Ei,
hoje eu quero ver dados!" no algo que todo mundo diz.
Adoramos ter pageviews e adoramos os elogios de nossos colegas, mas no
isso que faz valer o esforo. A motivao deve sempre ser o impacto: na vida das
pessoas, na lei, no controle dos polticos, e por a vai. O texto vai dialogar com as
tendncias e as humanizar com algumas histrias. Mas o que o leitor deve fazer
quando termina a reportagem? Sua famlia est segura? Suas crianas esto
sendo corretamente educadas? Ficamos felizes quando, com o nosso trabalho,
ajudamos o leitor a encontrar sua prpria histria nos dados. Exemplos de
trabalhos personalizados e impactantes incluem nossos aplicativos deRelatrio
de Segurana de Casas de Repouso e de Boletim Escolar.
Brian Boyer, Chicago Tribune
Gradualmente, o trabalho do Datablog foi aparecendo nas histrias com que nos
deparamos e as enriquecendo. Ns fizemos um crowdsourcing
(disponibilizamos online) 458 mil documentos relativos aos gastos dos
membros do parlamento ingls e analisamos em conjunto com os usurios os
dados detalhados sobre as alegaes dos parlamentares nos documentos.
Ajudamos nossos usurios a explorar bancos de dados relativos a gastos
pblicos e publicamos os dados por trs das notcias.
Mas a grande mudana para o jornalismo de dados aconteceu na Primavera de
2010, comeando com uma planilha: 92.201 linhas de dados, cada uma
contendo detalhes de uma ao militar no Afeganisto. Este foi o War Logs
(registros de guerra) liberado pelo WikiLeaks. Quer dizer, a primeira parte dele.
Houve ainda dois outros episdios em seguida: o do Iraque e o dos cabos. O
termo oficial utilizado para nomear o banco de dados das duas primeiras partes
foi SIGACTS: Banco de Dados de Aes Significativas dos Estados Unidos
(Significant Actions Database).
A organizao das notcias est muito ligada geografia dentro do jornal e
proximidade com a redao. Se voc est perto, mais fcil sugerir pautas e se
tornar parte do processo; vendo pelo outro lado, estar fora de vista estar
literalmente fora da cabea do reprter. Antes do WikiLeaks, ns ficvamos
num andar diferente, com quem faz grficos. Desde o surgimento do WikiLeaks,
ns passamos a ficar no mesmo andar, perto da redao. Isso significa que
mais fcil para ns sugerir ideias para as editorias, e faz com que reprteres da
redao lembrem-se de ns para ajud-los com suas reportagens.
No faz muito tempo, jornalistas eram os guardies dos dados oficiais. Ns
escrevamos reportagens sobre nmeros e soltvamos para um pblico
agradecido, que no estava interessado nas estatsticas puras. A ideia de
liberarmos informaes brutas nos jornais era um antema.
Agora a dinmica mudou completamente. Nosso papel nos tornarmos
intrpretes; ajudando as pessoas a compreenderem os dados, ou at mesmo
apenas public-los, j que eles so interessantes por si mesmos.
Mas os nmeros sem anlise so s nmeros, e a que entramos. Quando o
Primeiro Ministro britnico declarou que os protestos em Agosto de 2011 no
tinham a ver com a pobreza, ns fomos capazes de mapear os endereos dos
manifestantes e verific-los com indicadores de pobreza a fim de mostrar a
verdade por trs desta declarao.
Por entre as reportagens e excertos de poemas, um tero dessa pgina de trs foi
tomado por fatos. Uma tabela completa mostrava os custos das escolas
naquela rea, "algo nunca antes informado ao pblico", escreve "N.H.".
N.H. queria seus dados publicados porque, caso contrrio, os fatos seriam
reportados por clrigos destreinados. Sua motivao era que "O contedo de tal
informao valoroso; porque, sem saber em que medida a educao
prevalece, as melhores opinies que podem ser formadas sob a condio e o
progresso futuro da sociedade sero necessariamente incorretas." Em outras
palavras, se as pessoas no sabem o que est acontecendo, como a sociedade
pode melhorar?
No consigo pensar numa anlise melhor para o que ns estamos tentando
fazer. O que antes era reportagem para a pgina de trs do jornal pode, hoje, ser
a notcia da primeira pgina.
Simon Rogers, The Guardian
Primeiro, a nossa equipe editorial decidiu quais fatos pareciam teis para tornar
os padres de vida comparveis e quais deveriam ser visualizados, incluindo:
Com a ajuda da equipe de design, esses fatos foram traduzidos em cones autoexplicativos. Uma programao de design foi construda para fazer comparaes
entre diferentes pases, olhando para eles como se fossem cartas de baralho.
Depois, ns entramos em contato com o pessoal do German Open Data
Network para procurar desenvolvedores que poderiam ajudar com o projeto.
Essa comunidade de pessoas altamente motivadas nos sugeriu Gregor Aisch, um
talentoso designer de informao, para codificar os aplicativos que fariam os
nossos sonhos se tornar realidade (isso sem utilizar o Flash, o que era muito
importante para ns!). Gregor criou uma visualizao interativa de alta
qualidade com um lindo estilo de bolhas, baseado noRaphal-Javascript
Library.
O resultado da nossa colaborao foi um sucesso interativo que gerou muito
trfego na internet. simples comparar quaisquer dois pases, o que faz o
aplicativo til como uma ferramenta de referncia. Ns podemos reutiliz-lo no
nosso trabalho editorial dirio. Por exemplo, se estamos cobrindo algo
relacionado situao de vida na Indonsia, podemos rapidamente e facilmente
embutir um grfico comparando a situao de vida da Indonsia com a da
Alemanha. O know-how ganho pela a nossa equipe foi um grande investimento
para projetos futuros.
No Zeit Online, ns descobrimos que nossos projetos de jornalismo de
dados tm aumentado o trfego e ajudado a envolver o pblico de novas formas.
Por exemplo, houve muita cobertura sobre a situao da usina nuclear em
Fukushima depois do tsunami no Japo. Depois que o material radioativo
escapou da usina nuclear, os moradores que estavam em um raio de 30
quilmetros foram retirados de suas casas. As pessoas podiam ler um monte de
coisas sobre as evacuaes. O Zeit Online encontrou uma forma inovadora para
explicar o impacto ao pblico alemo. Ns perguntamos: quantas pessoas
moram perto de uma usina nuclear na Alemanha? Quantas vivem em um raio
de 30 quilmetros? Um mapa mostra quantas pessoas poderiam ter de deixar
suas casas se algo semelhante acontecesse na Alemanha. O resultado: muitos
acessos; na verdade, o projeto tornou-se viral nas mdias sociais. Projetos de
jornalismo de dados podem ser relativamente fceis de se adaptar a outros
Imagem 9. Figurinha carimbada: hackers so geralmente fceis de serem notados (foto de Lucy
Chambers)
Voc pode tentar uma busca rpida por uma rea de conhecimento na
sua regio (por exemplo, "javascript" + "london"). Sites como o
Meetup.com tambm so um excelente lugar para se comear.
Competies e Hackathonas
Geeks andam com outros geeks. O boca a boca sempre um bom modo
de achar gente boa com quem se trabalhar.
Lucy Chambers, Open Knowledge Foundation
Habilidades Hacker
Imagem 11. Novas comunidades em volta do jornalismo de dados (foto por Heinze Havinga)
Em vrios casos, muito mais fcil obter informao fora do pas onde o
jornalismo investigativo opera. Informao obtida via bancos de dados
estrangeiros ou por meio de leis de acesso informao de outros pases
pode ser exatamente o que voc precisa para fechar o quebra-cabeas de
uma apurao investigativa. Criminosos e oficiais corruptos no mantm
o dinheiro no mesmo lugar onde ele foi roubado. Eles preferem depositar
em bancos estrangeiros ou investir em outros pases. Crime global.
Bases de dados que ajudam o jornalista investigativo a rastrear o
dinheiro podem ser encontradas em vrios lugares na internet. Por
exemplo, o Investigative Dashboard (da imagem acima) permite a
jornalistas seguir o dinheiro atravs das fronteiras.
Faa uso das redes existentes de jornalismo investigativo
A empresa conduz cerca de 100 projetos por ano, com durao que
varia de algumas horas a alguns meses. Alm disso, investe
continuamente em projetos que ampliam sua capacidade e suas
ofertas. O servio de monitoramento de celebridade era um
experimento desse tipo. Outro envolveu coleta de dados na internet
(scraping) para notcias de execues hipotecrias e criao de mapas
delas. Os scios dizem que o primeiro critrio para iniciar projetos o
quanto eles gostam do trabalho e podem aprender com ele. A busca da
empresa pelo mercado vem depois que um novo servio est definido.
Eles deixam claro que, dentro da grande mdia, encontraram
dificuldade para desenvolver novos mtodos e novos negcios.
Mulvad comenta que:
No temos editores ou chefes para decidir quais projetos podemos
fazer, qual software ou hardware devemos comprar. Podemos comprar
nossas ferramentas de acordo com o que o projeto precisa, bem como
as melhores solues para a coleta de informaes da internet e
minerao de dados. Nosso objetivo ser vanguarda nestas reas.
Tentamos obter clientes que esto dispostos a pagar, ou se o projeto
divertido, fazemos isso por um custo menor.
Valor criado: Marcas Pessoais, Coorporativas e Receitas
Mas como isso gera dinheiro para o jornalismo? O grande mercado que est se
abrindo em todo o planeta tem a ver com a transformao de dados disponveis
publicamente em algo que podemos processar: tornar os dados visveis e
humanos. Queremos ser capazes de nos relacionar com os grandes nmeros que
ouvimos todos os dias no noticirioo que os milhes e bilhes significam para
cada um de ns.
H algumas empresas baseadas em mdia de dados muito rentveis, que
simplesmente aplicaram este princpio antes que outras. Elas gozam taxas de
crescimento saudveis e lucros s vezes impressionantes. Um exemplo a
Bloomberg. A empresa opera cerca de 300 mil terminais e fornece dados
financeiros aos seus usurios. Se voc est no negcio financeiro, esta uma
ferramenta poderosa. Cada terminal vem com um teclado com cdigo de cores e
at 30.000 aes para pesquisar, comparar, analisar e ajudar voc a decidir o
que fazer em seguida. Esse negcio gera cerca de US$ 6,3 bilhes (EUA) por
anopelo menos o que foi estimado em uma matria de 2008 no The New
York Times. Como resultado, Bloomberg tem contratado jornalistas de direita,
esquerda e centro. Eles compraram a venervel mas deficitria Business
Week, e assim por diante.
Outro exemplo o conglomerado de mdia canadense conhecido atualmente
como Thomson Reuters. Eles comearam com um jornal, compraram alguns
ttulos bem conhecidos no Reino Unido, e ento decidiram h duas dcadas sair
do negcio de jornais. Em vez disso, eles cresceram com base em servios de
informao, com o objetivo de fornecer uma perspectiva mais profunda a
clientes de uma srie de reas. Se voc se preocupa em ganhar dinheiro com
informao especializada, meu conselho seria ler sobre a histria da empresa na
Wikipdia.
E observem a Economist. A revista tem construdo uma marca excelente,
influente em seu aspecto de mdia. Ao mesmo tempo, a "Economist Intelligence
Unit'' agora mais uma empresa de consultoria, elaborao de relatrios sobre
tendncias relevantes e previses para quase todos os pases do mundo. Eles
esto empregando centenas de jornalistas e alegam servir cerca de 1,5 milho de
clientes em todo o mundo.
E existem muitos nichos de servios de dados que podem servir como
inspirao: eMarketer nos EUA, que fornece comparaes, grficos e conselhos
para qualquer pessoa interessada em marketing na internet; Stiftung Warentest,
neles. Com o tempo, tais colees se tornam melhores, mais profundas e mais
valiosas.
Isto pode no funcionar da primeira vez. Mas funcionar ao longo do tempo.
Um indicador muito esperanoso que o Texas Tribune e a ProPublica, duas
empresas que podemos considerar de mdia ps-impressa, informaram que o
financiamento para as suas organizaes de jornalismo sem fins lucrativos
ultrapassou suas metas muito mais cedo do que o planejado.
Tornar-se proficiente em os dados sobre tudoseja como um generalista ou
como um especialista focado em um aspecto da cadeia de dadosfornece uma
perspectiva valiosa para as pessoas que acreditam no jornalismo. Como um
editor bem conhecido na Alemanha disse recentemente em uma
entrevista,"existe este novo grupo que se diz jornalistas de dados. E no esto
mais dispostos a trabalhar por mixaria.''
Mirko Lorenz, Deutsche Welle
Estudos de Caso
Hackatona Mapa76
Faturas de hospitais
ter uma taxa de governismo de 85%. No importa que o deputado seja, como ,
do DEM (partido de oposio) nem que ele tenha faltado a 112 votaes. Conta
apenas e exclusivamente o que ele fez transparentemente em plenrio.
A taxa de governismo das bancadas partidrias obtida pela mdia das taxas de
todos os parlamentares do partido que tenham participado de alguma votao
computada pelo Basmetro. Todos entram nesse clculo, inclusive os que por
uma razo ou outra no exeram mais o mandato. Busca-se assim medir o
comportamento histrico da bancada, no apenas o instantneo.
O Basmetro foi concebido para permitir ao usurio fazer recortes temporais,
partidrios ou geogrficos simplesmente deslizando seus marcadores ou
acionando seus filtros.
possvel comparar, por exemplo, o tamanho da base governista na Cmara dos
Deputados durante o primeiro ano do governo Dilma Rousseff (79% de apoio
mdio) com o da primeira metade do terceiro ano (71%). Ou, mais
especificamente, o grau de fidelidade do PMDB: nesse perodo, caiu de 93%
para 73%.
Alm dos "sliders" de tempo localizados no eixo horizontal da interface, outro
"slider" colocado no eixo vertical permite contar, automaticamente, quantos
deputados ou senadores votaram com que frequncia junto com o governo.
Se o usurio pesquisar o tamanho do "ncleo duro" da base de Dilma na
Cmara, por exemplo, descobrir que ele foi reduzido a um tero entre 2011 e o
primeiro semestre de 2013. No comeo do governo, nada menos do que 306
deputados votavam pelo menos 90% das vezes junto com o governo. Entre
janeiro e junho de 2013 esse nmero havia sido reduzido a 103 (e 79 deles so
do PT).
Uma das questes fundamentais foi criar uma base de dados de reportagens
sobre os temas que seriam representados nos mapas. Usando uma planilha de
Google Docs, onde havia uma coluna de coordenadas geogrficas, comeamos a
acumular notcias em portugus, ingls e espanhol sobre desmatamento,
queimadas, conservao, minerao e outras questes relevantes. No
lanamento, a tabela possua 180 matrias. Um ano depois, cerca de 800 j
tinham sido agregadas .
Modelo para distribuir e replicar
Os dados incluram todas as escolas pblicas em bairros com trs mil alunos ou
mais. Mais de trs quartos de todos os estudantes de escolas pblicas foram
representados. Um reprter de nossa redao obteve os dados e nosso diretor de
Reportagem com Auxlio do Computador (RAC) os limpou extensivamente.
Foi um projeto com aproximadamente trs meses de durao. Ao todo, seis
pessoas trabalharam juntas na matria e no aplicativo de notcias: dois editores,
um reprter, uma pessoa de RAC e dois desenvolvedores. A maioria de ns no
estava trabalhando exclusivamente no projeto durante este perodo.
O projeto realmente exigiu a combinao de nossas habilidades: profundo
conhecimento na rea, entendimento das melhores prticas com dados, design e
habilidades em programao, e por a vai. Mais importante foi a habilidade de
encontrar a histria dentro dos dados. O projeto tambm exigiu edio, no s
para a matria que resultaria dos dados, mas tambm para prprio aplicativo de
notcias.
Para o tratamento e anlise dos dados foram utilizados principalmente Excel e
scripts de tratamento, bem como o Microsoft Access. O aplicativo de notcias foi
escrito em Ruby on Rails e usa muito JavaScript.
Alm de uma reportagem mais geral sobre o problema, nossa cobertura incluiu
um aplicativo de notcias interativo permitindo encontrar exemplos na imensa
base de dados. Usando nosso aplicativo, um leitor poderia identificar sua escola
localpor exemploCentral High School in Newark, N.J.e imediatamente ver
a performance dela em reas variadas. Apertando o boto Comparar com
escolas de alto e baixo ndice de pobreza, veria uma comparao outros colgios,
sua pobreza relativa e seu nvel de ensino de matemtica, participao no
Advanced Placement (programa criado nos Estados Unidos para oferecer
matrias de nvel universitrio a alunos do Ensino Mdio) e outros cursos
importantes. A situao de pobreza dos estudantes mostrada pelo percentual
de alunos que podem ingressar num programa de almoo grtis do governo.
Em nosso exemplo, ao clicar no boto, Central High comparada a Millburn Sr.
High (menos pobre) e International High (mais pobre). O Opportunity Gap
mostra que apenas 1% dos estudantes de Milburn podem ter almoo gratuito e
72% deles cursaram ao menos uma disciplina do Advanced Placement (AP). No
outro extremo,a escola International High, 85% dos seus alunos so elegveis ao
almoo grtis, mas somente 1% deles cursou disciplinas do AP.
Por meio deste exemplo, o leitor pode usar algo que ele conhea - uma escola de
ensino mdio - para entender algo que no conhea: a distribuio do acesso
educao e o quanto a pobreza um indicador desse acesso.
Ns tambm integramos o aplicativo ao Facebook, de maneira que ele
informasse automaticamente os leitores sobre as escolas de seu interesse
quando estes acessassem a rede social.
O trfego para todos os nossos aplicativos de notcias excelente, e estamos
particularmente orgulhosos da maneira como este app conta uma histria
complexa indo mais direto ao ponto, ele ajuda os leitores a contar suas
prprias histrias para si mesmos.
Tal como em muitos projetos que comeam a partir de dados governamentais,
foi necessrio limpar muito os dados. Por exemplo, enquanto existem apenas
Imagem 5. Investigao dos Fundos Estruturais Europeus (Financial Times e Bureau of Investigative
Journalism)
Antes de encarar um projeto com esse nvel de esforo, voc deve ter certeza que
os achados sero originais, e que ao fim voc ter boas histrias que ningum
mais tem.
O processo foi dividido em diferentes passos.
1. Identificar quem possui os dados e como esto armazenados
Nossas pautas surgiam a partir desses dois mtodos, mas tambm por meio
de investigao em campo e pesquisas secundrias.
A rechecagem da integridade das informaes (agregando e confrontando
com aquilo que as autoridades disseram estar sendo alocado) levou um tempo
considervel. Um dos principais problemas era que as autoridades em sua
maioria divulgavam somente o montante de "financiamento da UE e
nacional". De acordo com as regras da UE, cada programa pode financiar
determinados percentuais do total de dinheiro para os subsdios. O
financiamento da UE estabelecido, no nvel do programa, pela chamada
taxa de co-financiamento. Cada programa (por exemplo, competitividade
regional) composto de numerosos projetos. Um projeto pode, tecnicamente,
receber 100% de financiamento da UE e outro, nada; contanto que estejam
agrupados, o montante de financiamento do programa no pode ser maior
que a taxa de co-financiamento aprovada.
Isso significava que precisvamos checar cada montante de financiamento
que citvamos em nossas reportagens com a empresa beneficiria em
questo.
Cynthia OMurchu, Financial Times
Durante as trs semanas seguintes fui caa dos nmeros: mtricas sobre
casamento, mortalidade, tamanho da famlia e gastos com a sade. Li sobre
condies de vida e nmeros de divrcio, vi questionrios sobre bem-estar e
taxas de poupana. Pesquisei nos departamentos nacionais de estatsticas,
telefonei ao escritrio do Population Bureau da ONU, ao FMI, Eurostat e OCDE
at que encontrei um economista que tinha passado a sua carreira
acompanhando famlias europeias. Ele me levou at uma especialista em
composies familiares, que me indicou vrios documentos sobre o assunto.
Com o meu editor, Sam Enriquez, reduzi o nmero de pases. Juntamos uma
equipe para discutir a abordagem visual e quais reprteres poderiam nos
entregar palavras, udios e histrias. Matt Craig, o editor de fotografia da
primeira pgina, iniciou o trabalho de encontrar os fotgrafos. Matt Murray,
Vice-Chefe de Redao para cobertura global, enviou um memorando aos
diretores das sucursais solicitando a ajuda dos reprteres (isto foi crucial:
aprovao da direo).
Mas primeiro, aos dados. Durante as manh, exportava os dados para planilhas
e construa grficos para identificar tendncias: reduo das poupanas,
desaparecimento das penses, mes voltando ao trabalho, gastos na sade,
juntamente com a dvida do governo e desemprego. Durante as tardes eu
analisava os grupos de dados, comparando pases para encontrar histrias.
Imagem 7. Julgar a utilidade de um conjunto de dados pode ser uma tarefa bastante demorada
(Sarah Slobin)
E ento os dados ganharam corpo novamente assim que percebi que ainda tinha
perguntas, e que ainda no entendia as famlias. Precisava ver, dar forma a eles.
Ento fiz um conjunto de grficos no Illustrator e comecei a ajust-los e edit-
los. Assim que que os grficos surgiam, tambm surgia um retrato coeso das
famlias.
Imagem 9. Nmeros so pessoas: o valor dos dados est nas histrias individuais que eles
representam (Wall Street Journal)
A partir da, acordava cedo para verificar o meu e-mail, levando em conta a
diferena de fuso horrio. Os reprteres responderam com belos assuntos,
sumrios, e surpresas que eu no tinha previsto.
Para a parte fotogrfica, sabamos que queramos retratos de geraes. A ideia
do Matt era fazer com que os seus fotgrafos acompanhassem um membro da
famlia ao longo de um dia de suas vidas. Ele escolheu jornalistas visuais que
tinham coberto assuntos internacionais, noticias e at guerras. Matt queria que
cada sesso de fotos terminasse na mesa de jantar. Sam sugeriu que
inclussemos os menus.
A partir de ento, foi uma questo de esperar para ver que histria as fotos
contavam. Para ver o que as famlias diziam. Desenhamos o visual do aplicativo
interativo. Roubei uma paleta dum livro do Tintin, trabalhamos na interao. E
quando estava tudo reunido e tnhamos os storyboards, voltamos a acrescentar
alguns (no muitos, mas alguns) dos grficos originais. Apenas o suficiente para
pontuar cada histria, apenas o suficiente para dar corpo aos temas. Os dados
tornaram-se uma pausa na histria, uma maneira de alterar o ritmo.
No fim, os dados eram as pessoas: elas eram as fotografias e as histrias. Elas
eram o que emoldurava cada narrativa e conduzia a tenso entre os pases.
Quando publicamos, logo antes do Ano Novo, conhecia todos os membros das
famlias pelo nome. Ainda penso em como esto agora. E se isto no parece um
projeto de dados, por mim tudo bem. Porque todos esses momentos que esto
documentados no Vida na Zona do Euro, essas histrias de sentar para uma
refeio e falar sobre o trabalho e a vida com a sua famlia eram algo que
podamos dividir com os nossos leitores. Entender os dados foi o que tornou
isso possvel.
O projeto permitiu aos usurios explorar dados pblicos de vrias fontes usando
ferramentas intuitivas de cdigo aberto. Ganhamos um prmio para ajudar a
desenvolver um prottipo, e posteriormente recebemos financiamento do 4IP
(fundo de inovao do canal Channel 4) para transform-lo num aplicativo web
completo. O guru do design da informao David McCandless (do Information
is Beautiful) criou visualizaes diferentes dos dados que ajudaram as pessoas a
se relacionar com os grandes nmerosincluindo a "Country and Regional
Analysis", que mostra como o dinheiro gasto nas diferentes partes do pas
e "Daily Bread", que mostra aos cidados um detalhamento de quantas libras
so pagas por dia em impostos.
Imagem 12. A calculadora de impostos do Daily Bread do projeto "Where Does My Money Go?"
(Open Knowledge Foundation)
Naquela poca, o santo graal para o projeto eram os dados do COINS, acrnimo
paraCombined Online Information System (Sistema Online de Informaes
Combinadas), o banco de dados mais abrangente e detalhado das finanas do
governo do Reino Unido. Trabalhando com Lisa Evans (antes de ela integrar o
time do Guardian Datablog), Julian Todd, Francis Irving (agora no famoso
Scraperwiki) e Martin Rosenbaum (BBC), entre outros, ns preenchemos
inmeros requerimentos para obter os dadossem sucesso em muitos deles.
Quando os dados foram finalmente liberados, em meados de 2010, o fato foi
considerado uma grande vitria pelos defensores da transparncia. Ganhamos
acesso avanado aos dados para carreg-los no nosso projeto, e recebemos uma
ateno significativa da imprensa quando isso se tornou pblico. No dia da
liberao dos dados, havia dzias de jornalistas no nosso canal no IRC
questionando sobre como abri-los e explor-los (os arquivos tinham dezenas de
gigabytes). Enquanto alguns especialistas afirmaram que a liberao em massa
dos dados era to complicada que estava escondendo por meio de
transparncia, muitos jornalistas se debruaram sobre os eles para dar a seus
leitores um retrato sem precedentes de como as verbas pblicas so gastas. O
Guardian criou um blog em tempo real sobre a liberao e muitos veculos da
Imagem 13. OffenerHaushalt, a verso alem do Where Does My Money Go? (Open Knowledge
Foundation)
Imagem 14. A verso italiana do Where Does My Money Go? (La Stampa)
Em 2011 ns trabalhamos com o Publish What You Fund (Publique o que voc
financia) e oOverseas Development Institute para mapear o financiamento da
ajuda humanitria a Uganda entre 2003 e 2006. Pela primeira vez voc podia
ver o fluxo do financiamento dentro do oramento nacionalpermitindo ver
at que ponto as prioridades dos doadores se alinhavam com as prioridades do
governo. Houve alguns resultados interessantespor exemplo, tanto
programas de combate ao HIV como de planejamento familiar se revelaram
como quase totalmente financiados por doadores externos. Isto foi coberto
pelo Guardian.
Ns tambm vnhamos trabalhando com ONGs e grupos de ativistas para cruzar
dados de gastos com outras fontes de informaes. Por exemplo, a Privacy
International nos procurou com uma grande lista de empresas de tecnologia de
segurana e uma lista de agncias que compareceram a uma famosa feira
internacional de segurana, conhecida informalmente como o "baile dos
arapongas". Ao relacionar os nomes das companhias com dados de gastos
pblicos, foi possvel identificar quais delas possuam contratos com o
governoque poderiam ento ser investigados por meio de pedidos oficiais de
informao com base no FOI (Freedom of Information Act). O Guardian cobriu
essa histria.
Trabalhamos atualmente para aumentar o conhecimento fiscal entre os
jornalistas e o pblico, como parte de um projeto chamado Spending Stories,
que permite aos usurios relacionar dados sobre gastos pblicos com
reportagens ligadas a esses gastos, para mostrar os nmeros por trs das
notcias.
Por meio de nosso trabalho nesta rea, ns aprendemos que:
2. Brainstorm de ideias
tivemos que combinar esses dois, criando um arquivo que continha trs colunas:
doador, recebedor e total. Se os polticos tinham provido todo o dinheiro da
prpria campanha, no nosso formato de dados aparecia Politico A doou X euros
para Politico A. Contra-intuitivo, talvez, mas isso funcionou no Cytoscape.
Quando os dados foram limpos e reformatados, logo os passamos pelo
Cytoscape. Depois, o nosso departamento grfico fez uma pgina inteira de
grficos externos.
Finalmente, criamos uma belssima visualizao no nosso site. No foi um
grfico de anlise de rede. Queramos dar s pessoas uma maneira fcil de
explorar quanto existe de financiamento de campanha e quem financia. A
primeira visualizao mostra a distribuio de financiamento entre os membros
do parlamento. Quando voc clica em um membro, voc detalha os resultados
dos financiamentos dele. Voc tambm pode votar se determinado doador
bom ou no. A visualizao foi feita por Juha Houvinen e Jukka Kokko, de uma
agncia chamada Satumaa. A verso web de visualizao de financiamento de
campanha utiliza os mesmos dados que a anlise de rede.
4. Publicar os dados
Hack Eleitoral um projeto que exibe dados dos resultados parciais das eleies
de outubro de 2011 na Argentina. O sistema tambm conta com informaes de
eleies anteriores e estatsticas sociodemogrficas de todo o pas. O projeto foi
atualizado em tempo real com informaes da contagem dos votos das eleies
nacionais de 2011 na Argentina e fornecia parciais. Foi uma iniciativa do
Hacks/Hackers Buenos Aires com o analista poltico Andy Tow. Um esforo
colaborativo de jornalistas, programadores, designers, analistas, cientistas
polticos e outros membros do Hacks/Hackers local.
Que dados ns usamos?
Prs
Contras
O sistema foi planejado inicialmente para ser uma ferramenta que pudesse
ser usada para combinar e exibir quaisquer dados, assim os jornalistas
poderiam facilmente exibir dados que os interessassem na internet. Mas
tivemos que deixar isso para uma outra oportunidade.
Como o projeto foi construdo por voluntrios num curto espao de tempo,
foi impossvel fazermos tudo que queramos. Entretanto, alcanamos um
grande progresso na direo certa.
Consequncias
Tambm comeamos a filtrar os dados para que nos ajudassem a contar uma
das principais histrias da guerra: o aumento de ataques com dispositivos
explosivos improvisados (IED na sigla em ingls), bombas caseiras de beira de
estrada, imprevisveis e difceis de combater. Esse conjunto especfico de dados
ainda era gigante, mas mais fcil de gerenciar. Houve cerca de 7.500 exploses
com IEDs ou emboscadas (uma emboscada onde o ataque combinado com,
por exemplo, pequenas armas de fogo ou granadas-foguete) entre 2004 e 2009.
Outros 8.000 IEDs foram encontrados e desarmados. Esses dados nos
permitiram ver que o sul do pas, onde as tropas Inglesas e Canadenses estavam
at ento, era a pior rea de impactoo que confirmava as informaes de
nossos reprteres que cobriram a guerra.
O lanamento dos dirios de guerra do Iraque em Outubro de 2010 liberou
outros 391.000 registros da guerra para debate pblico. Em comparao com o
vazamento do Afeganisto, atingiu um outro nvel. Pode-se dizer que isso fez
desta guerra a mais documentada na histria. Cada mnimo detalhe estava l
agora, para que pudssemos analisar e desvendar. Mas um fator se destacava: o
volume absoluto de mortes, a maioria de civis.
Assim como com o Afeganisto, o Guardian decidiu no republicar a base de
dados inteira, em grande parte porque no conseguamos ter certeza de que o
Um resumo do despacho.
Cdigos
Hackatona Mapa76
Ns lanamos o Hacks/Hackers Buenos Aires em abril de 2011. Tivemos dois
encontros iniciais para divulgar a ideia de uma maior colaborao entre
jornalistas e desenvolvedores de software, que contaram com 120 a 150 pessoas
em cada um dos eventos. Para o terceiro encontro, organizamos uma hackatona
de 30 horas com oito pessoas durante uma conferncia de jornalismo digital na
cidade de Rosrio, a 300 quilmetros de Buenos Aires.
Um tema recorrente nos encontros era o desejo de obter grandes volumes de
dados da internet e represent-los visualmente. Para ajudar com isso, nasceu o
projeto Mapa76, que ajuda usurios a extrair dados e mostr-los usando mapas
e linhas do tempo. No foi uma tarefa fcil.
com a interpretao. No fim das contas, isto significa que, frequentemente, fatos
so ignorados e hipteses ficam limitadas. Mapa76 uma ferramenta
investigativa que d livre acesso a essas informaes para fins jornalsticos,
legais, jurdicos e histricos.
Para nos preparar para a hackatona, criamos uma plataforna que
desenvolvedores e jornalistas poderiam usar para colaborar no dia do evento.
Martin Sarsale desenvolveu alguns algoritmos bsicos que extraa dados
estruturados a partir de documentos de texto simples. Algumas bibliotecas do
projeto DocumentCloud.org tambm foram usadas, mas no muitas. A
plataforma automaticamente analisava e extraa nomes, datas e locais dos
textose permitia que os usurios explorassem fatos importantes sobre casos
diferentes (por exemplo, data de nascimento, local de priso, o suposto local do
desaparecimento, e assim por diante).
Nosso objetivo era criar uma plataforma para extrao automtica de dados dos
julgamentos da ditadura militar na Argentina. Ns queramos uma maneira
para automaticamente (ou, ao menos, semi-automaticamente) mostrar dados
importantes relacionados a casos de 1976-1983 que fossem baseados em
evidncias escritas, argumentaes e julgamentos. Os dados extrados (nomes,
lugares e datas) so coletados, armazenados e podem ser analisados e refinados
pelo pesquisador, assim como ser explorado utilizando-se mapas, linhas do
tempo e ferramentas de anlise de redes.
O projeto vai permitir que jornalistas, pesquisadores, promotores e
testemunhas sigam a histria da vida de uma pessoa, incluindo o perodo de
priso e de desaparecimento ou soltura subsequente. Onde houver ausncia de
informao, os usurios podero vasculhar um vasto nmero de documentos em
busca de dados que podero ser relevantes para o caso.
Para a hackatona, fizemos um anncio por meio do Hacks / Hackers Buenos
Aires, que, ento, tinha cerca de 200 membros (no momento em que escrevo,
so 540). Ns tambm entramos em contato com vrias associaes de direitos
humanos. A reunio teve a presena de cerca de 40 pessoas, incluindo
jornalistas, organizaes de advogados, desenvolvedores e designers.
Durante a hackatona, identificamos as tarefas que os diferentes tipos de
participantes poderiam exercer independentemente para ajudar as coisas a
funcionarem bem. Por exemplo, pedimos aos designers que trabalhassem em
uma interface que juntasse mapas e linhas do tempo, pedimos aos
Nosso objetivo era desenvolver um projeto para alguns usurios e tipos de uso
especficos:
Pais que querem saber como a escola de seu filho est avaliada
Pais que esto procurando um lugar para morar, uma vez que a qualidade da
escola tem peso significativo nessa deciso.
Na sua primeira verso, o site de escolas era um projeto de seis semanas e dois
desenvolvedores. Na atualizao que fizemos em 2011, passou a ser de quatro
semanas e dois desenvolvedores (na realidade, havia trs pessoas trabalhando
ativamente no projeto, mas nenhuma em tempo integralento consideremos
duas pessoas).
Uma pea-chave desse projeto era o design da informao. Embora
apresentemos uma verso reduzida dos dados, ainda assim h muitos dados, e
fazer isso tudo ficar compreensvel era um desafio. Felizmente, conseguimos
trazer para o projeto um designer especialista em apresentar informaes
complexas. Ele nos guiou a uma apresentao amigvel, mas que no subestima
a habilidade ou a disposio do leitor de entender os nmeros.
O site foi desenvolvido em Python e Django. Os dados esto hospedados em
MongoDBos dados sobre as escolas so heterogneos e hierrquicos, no
cairia bem numa base de dados relacional (seno, teramos provavelmente
usado PostgreSQL).
Experimentamos pela primeira vez o framework Twitter Bootstrap (um kit de
desenvolvimento para criar interfaces na web) nesse projeto, e ficamos
satisfeitos com os resultados. Os grficos foram desenhados com o Flot.
O aplicativo tambm abriga uma srie de reportagens que escrevemos sobre o
desempenho das escolas. Funciona como uma espcie de portal no seguinte
sentido; quando h uma nova reportagem sobre o desempenho escolar,
colocamos no topo do aplicativo, ao lado de listas de escolas relevantes para a
matria (e quando uma nova reportagem ganha repercusso, os leitores do
chicagotribune.com so redirecionados para o aplicativo, e no para a
reportagem).
Relatrios recentes mostram que os leitores adoram o aplicativo. O retorno que
recebemos foi altamente positivo (ou, ao menos, construtivo!), e o nmero de
visitas est bem alto. Para completar, esses dados ainda devem gerar interesse
por ao menos um anoapesar de esperarmos que as visitas diminuam
medida que as reportagens sobre as escolas saiam da pgina inicial, nossa
experincia passada mostra que os leitores continuam a acessar o site ao longo
do ano.
Pea ajuda redao. Esse foi o segundo projeto em que realizamos uma
enquete e entrevistas com a redao, e foi uma excelente maneira de
conhecer a opinio de pessoas atenciosas que, assim como seu pblico, tm
diferentes bagagens e, em geral, sentem certo desconforto com
computadores.
Mostre seu trabalho! Muitos dos retornos que tivemos foram solicitaes dos
dados que usamos na aplicao. Disponibilizamos muitos deles
publicamente via API, e em breve vamos lanar dados que no havamos
pensado em incluir inicialmente.
Faturas de hospitais
Reprteres investigativos da CaliforniaWatch receberam informaes de que
uma grande rede de hospitais na Califrnia poderia estar burlando de forma
sistemtica o programa federal Medicare, que paga os custos de tratamentos
mdicos de americanos com 65 anos ou mais. O esquema denunciado
chamado de upcoding, que significa relatar pacientes com condies de sade
mais complicadasas quais do o direito a receber um valor de reembolso
maiordo que realmente existiam. Mas uma fonte-chave da denncia era um
sindicato que estava brigando com a gerncia da rede de hospitais, e a equipe da
CaliforniaWatch sabia que seria necessria uma verificao independente para
que a histria tivesse credibilidade.
Felizmente, o Departamento de Sade da Califrnia tem documentos pblicos
que do informaes muito detalhadas sobre cada caso tratado em todos os
hospitais do Estado. As 128 variveis incluem at 25 cdigos de diagnstico da
"Classificao Estatstica Internacional de Doenas e Problemas Relacionados
Sade" (mais conhecida como CID-9), publicada pela Organizao Mundial de
Sade (OMS). Embora os pacientes no sejam identificados pelo nome nos
registros, outras variveis dizem a idade do paciente, como os custos so pagos e
qual hospital o tratou. Os jornalistas perceberam que, com esses registros,
podiam ver se os hospitais pertencentes rede estavam mesmo relatando certas
condies raras a taxas significativamente mais altas do que as verificadas em
outros hospitais.
As bases de dados eram muito grandes, quase 4 milhes de registros por ano. Os
reprteres queriam estudar o equivalente a seis anos de registros, a fim de ver
como os padres mudaram ao longo do tempo. Eles pediram os dados agncia
estatal, que chegaram em CD-ROMs facilmente copiados para um computador.
O reprter encarregado da anlise de dados usou um sistema chamado SAS para
trabalhar com eles. O SAS muito poderoso (permite a anlise de muitos
milhes de registros) e usado por agncias governamentais, incluindo o
Departamento de Sade da Califrnia, mas caroo mesmo tipo de anlise
poderia ter sido feito com qualquer uma de uma variedade de outras
ferramentas de bancos de dados, como o Microsoft Access ou o opensource MySQL.
Com os dados em mos e os programas apropriados para estud-los, encontrar
padres suspeitos seria relativamente simples. Por exemplo, uma das alegaes
foi de que aquela rede estava relatando vrios graus de desnutrio em taxas
muito mais elevadas do que as taxas vistas em outros hospitais. Usando o SAS, o
analista de dados extraiu tabelas de frequncia que mostraram os nmeros de
casos de desnutrio relatados a cada ano por cada um dos mais de 300
hospitais de emergncia da Califrnia. Em seguida, as tabelas de frequncia
foram importadas para o Excel para uma inspeo mais prxima dos padres de
cada hospital. A capacidade do Excel para classificar, filtrar e calcular taxas dos
nmeros brutos fez com que os padres fossem fceis de identificar.
Foi particularmente notvel o fato de existirem relatos de uma condio
chamada Kwashiorkor, uma sndrome de deficincia de protena vista quase que
exclusivamente em crianas famintas nos pases em desenvolvimento afetados
pela falta de alimentos. Ainda assim, os hospitais da rede estavam
diagnosticando casos de Kwashiorkor entre californianos idosos em taxas at 70
vezes maiores do que a mdia de todos os hospitais do Estado.
Em outras reportagens, a anlise usou tcnicas semelhantes para examinar as
taxas informadas de condies raras como a septicemia, encefalopatia,
hipertenso maligna e doenas do sistema nervoso autnomo. E outra anlise
examinou as alegaes de que a rede estava transferindo da emergncia os para
leitos hospitalares percentuais acima do normal de pacientes do Medicare, cujo
pagamento para a assistncia hospitalar mais certo do que para a emergncia.
Resumindo, reportagens como essas se tornam possveis quando voc usa os
dados para produzir evidncias e testar de forma independente as denncias
feitas por fontes que poderiam estar enviesadas. Essas histrias tambm so um
bom exemplo da necessidade de fortes leis de acesso informao; a razo pela
qual o governo obriga hospitais a informar esses dados para que esse tipo de
anlise possa ser feita, seja por parte do governo, da academia, de
pesquisadores, jornalistas ou mesmo cidados. O tema dessas reportagens
importante porque analisa se milhes de dlares de dinheiro pblico esto
sendo gastos corretamente.
Steve Doig, Walter Cronkite School of Journalism, Arizona State University
Os dados nos foram entregues em um documento PDF de 1,2 mil pginas, que
tivemos que converter em uma planilha para anlise. Alm das nossas
concluses, publicamos o arquivo de Excel (com mais de 14 mil linhas de dados)
no site BBC News junto com nossa reportagem. Isso permitiu que todos
acessassem os dados em um formato mais simples.
O resultado foi que outras pessoas comearam a usar esses dados para suas
prprias anlises, as quais no tivemos tempo de fazer em funo da pressa para
publicar rapidamente a reportagem (algumas delas, na verdade, superaram
nossas capacidades tcnicas naquele momento). Isso incluiu a verificao dos
ndices de reprovao de carros com outras idades, comparando registros de
fabricantes, e a criao de bases de dados para consulta por modelos
individuais. Acrescentamos links para esses sites em nossa matria, de modo
que leitores pudessem conhecer os outros trabalhos.
Isso mostrou algumas vantagens de divulgar dados brutos para numa
reportagem baseada em dados. Pode haver excees (por exemplo, se voc
planeja usar os dados para reportagens posteriores e quer guard-los enquanto
isso), mas publicar as informaes tem vrios benefcios importantes:
Outros podem se basear em seu trabalho para desenvolver uma anlise mais
detalhada, ou usar tcnicas diferentes para apresentar ou visualizar os
nmeros, usando ideias ou capacidades prprias que podem investigar os
dados de outras maneiras.
Imagem 27. Comparao da idade da frota ao montante de dinheiro que as empresas recebem do
governo (La Nacin)
Imagem 28. O projeto de jornalismo cidado "Amigos de Januria" ensina habilidades fundamentais
para transformar cidados em jornalistas de dados
Imagem 29. O grande quadro com os resultados das eleies (New York Times)
O que faz disso uma bela pea de jornalismo visual? Para comear, os olhos do
leitor so logo atrados para a grande barra que mostra no alto os votos do
colgio eleitoral, o que podemos chamar no contexto jornalstico de lide. Conta
exatamente o que o leitor quer saber, e o faz rapidamente, com simplicidade e
sem nenhum rudo visual.
Em seguida, o leitor conduzido ao agrupamento dos estados americanos em
cinco colunas diferentes, divididos de acordo com a avaliao do New York
Times de quo inclinado um estado estava por um ou por outro candidato. E
justamente na coluna central vem o que chamaramos no jargo jornalstico
de olho grfico, onde explicamos por que Obama ganhou. A pea interativa
torna o fato cristalino: Obama venceu em todos os estados onde sua vitria era
esperada e em quatro dos estados indecisos.
Para mim, essa arquitetura com cinco colunas um exemplo de como o
jornalismo visual difere de outras formas de design. Idealmente, uma pea
memorvel de jornalismo visual ser ao mesmo tempo bela e informativa. Mas
ao optar entre a notcia ou a esttica, o jornalismo deve pender para o lado da
histria. E enquanto esse layout pode no ser aquele que um designer purista
escolheria para apresentar esses dados, ele entrega a notcia muito, muito bem.
E, por fim, como qualquer ferramenta interativa na web, ela convida o leitor a
aprofundar a leitura. H detalhes como porcentagens de votao em cada estado
e o nmero de votos no colgio eleitoral, enquanto as porcentagens so
deliberadamente exibidas com menos destaque, para no competir com os
pontos principais da histria.
Tudo isso faz do "grande quadro'' um bela pea de jornalismo visual que
delineia com perfeio a velha e boa pirmide invertida.
Aron Pilhofer, New York Times
Coletando dados
Ento voc est pronto para comear o seu primeiro projeto de jornalismo de
dados. E agora? Primeiro voc precisa de alguns dados. Esta seo mostra onde
encontr-los na web, como solicit-los usando as leis de acesso informao,
como usar a tcnica de scraping para extrai-los de fontes no estruturadas e
como usar crowdsourcing para montar suas prprias bases de dados com a
ajuda dos leitores. Por fim, falaremos sobre o que a lei diz a respeito da
reproduo de bases de dados de terceiros e como usar ferramentas simples
para permitir que outros republiquem as informaes.
Apesar de nem sempre serem fceis de serem achadas, muitas bases de dados
na web so indexadas por mecanismos de busca, intencionalmente ou no.
Algumas dicas:
Nos ltimos anos, vrios portais, hubs e outros sites especificamente dedicados
a dados apareceram na web. So bons locais para se familiarizar com os
diferentes formatos que existem por a. Se voc principiante, deve dar uma
olhada em:
Se voc acha que podem haver excees para o pedido que est fazendo,
quando estiver preparando as perguntas, separe a questo possivelmente
problemtica das demais e envie dois pedidos separadamente. Assim,
voc evita que as outras questes no deixem de ser respondidas por
conta de uma exceo.
Solicite acesso aos arquivos
Faa a sua solicitao por escrito e mantenha uma cpia para que voc
possa, no futuro, comprovar que seu pedido foi enviado, caso precise
apelar devido a uma ausncia de resposta. Isso tambm fornecer provas
de que voc fez a solicitao, caso voc pretenda escrever uma
reportagem a respeito do processo.
Torne pblico
Envolva colegas
A mesma situao de carncia de demanda afeta boa parte dos estados do pas, e
pelo mesmo motivo: o subdesenvolvimento incompatvel com a formulao de
demandas por informao.
Observe-se que a constatao da pobreza da demanda antecede a promulgao
da lei de acesso a informao. Embora de modo desigual, a esfera federal
brasileira, bem como diversos estados, produzem h muitos anos uma grande
quantidade de dados sobre assuntos variados. O aproveitamento dessa
informao pelos atores esperados (ONGs, jornais etc.) tem sido muito
pequeno.
H mltiplas razes para isso. A imprensa nacional que de fato demanda
informao constituda basicamente de trs jornais dirios e duas revistas
semanais (deixando de lado os meios eletrnicos, cuja pauta no normalmente
investigativa). Entre as ONGs, das muitssimas que h no pas resta um
punhado, contado nos dedos de uma mo, que se dedica a buscar e processar
dados pblicos para atingir seus objetivos institucionais.
A academia, por sua vez, opera com maturao lenta e sua produo tem
repercusso pblica limitada. Por fim, cidados privados no fazem demandas
estruturadas.
Dado esse quadro de carncia generalizada, no se deve esperar que a
regulamentao do acesso a informao resulte em um salto significativo na
qualidade do monitoramento do Estado. Os progressos que se possam esperar
sero lentos, dar-se-o primordialmente na esfera federal e secundariamente
nos estados e municpios mais ricos. Os mais pobres permanecero com os
mesmos fluxos de informao deficientes que os afetavam antes da promulgao
da lei.
Claudio Weber Abramo, Transparncia Brasil
Todos os anos, a Unio Europeia paga quase 60 bilhes de euros aos fazendeiros
e ao setor agrcola. Todos os anos. Isso acontece desde o final dos anos 1950 e o
argumento poltico que os subsdios ajudam os agricultores mais pobres. No
entanto, uma descoberta com base na lei de acesso informao na Dinamarca
em 2004 indicou que esta era apenas uma desculpa. Os pequenos agricultores
estavam com dificuldades, como tantas vezes reclamaram, e, na realidade, a
maior parte do dinheiro foi para um pequeno nmero de grandes proprietrios
de terra e para a agroindstria. Obviamente, eu queria descobrir se isso era um
padro na Europa.
No vero de 2004, pedi os dados Comisso Europeia. Todos os anos, em
fevereiro, a Comisso recebe os dados dos pases membros. Na informaes,
esto quem se candidata para receber o financiamento da Unio Europeia,
quanto os beneficirios conseguem, e se pegam os recursos para cultivar a terra,
desenvolver a regio deles ou para exportar leite em p. A Comisso recebia as
estatsticas como arquivos CSV em um CD. Uma grande quantidade de dados,
mas, em princpio, fcil de trabalhar. Isto , se voc conseguisse por as mos
neles.
A Comisso recusou-se a divulgar os dados. O principal argumento era de que
eles estavam dentro de um banco de dados e no poderiam ser recuperados sem
um extenso trabalho. Uma explicao que o Ombudsman Europeu considerou
como m administrao. Voc pode encontrar todos os documentos sobre este
caso no site wobbing.eu. Mas no tnhamos tempo a perder com questes legais.
Queramos os dados.
Assim, nos juntamos com parceiros em toda a Europa para obter os dados pas
por pas. Colegas ingleses, suecos e holandeses conseguiram as informaes em
2005. Finlndia, Polnia, Portugal, regies da Espanha, Eslovnia e outros
pases abriram os dados tambm. Mesmo na Alemanha, onde difcil usar a lei
de acesso, obtive informaes na provncia da Rennia do Norte-Westfalia em
2007. Tive de ir at o Tribunal de Justia para obter os dados, mas isso resultou
em alguns artigos legais na revista Stern.
Coincidncia a Dinamarca e o Reino Unido terem sido os primeiros a abrir os
dados? No necessariamente. Naquela poca, os subsdios agrcolas estavam
sendo contestados na Organizao Mundial do Comrcio (OMC). Dinamarca e
Reino Unido esto entre os pases mais liberais da Europa, portanto, pode ser
que ventos polticos tenham soprado na direo da transparncia naqueles
pases.
A histria no parou por a; para mais episdios e para obter os dados,
vejafarmsubsidy.org.
Lio: use e abuse das leis de informao. H uma fabulosa diversidade de leis
do tipo na Europa e diferentes pases podem ter diferentes interesses polticos
em pocas diferentes. Pode-se tirar vantagem da.
Conhea seus direitos
Todos somos cobaias quando se trata de tomar remdio. As drogas podem ter
efeitos colaterais. Ns sabemos: pesamos os benefcios e riscos potenciais e
tomamos uma deciso. Infelizmente, nem sempre estamos bem informados
para tomar essa deciso.
Quando adolescentes tomam uma plula contra espinhas, eles esperam uma pele
macia e no um sbito mau humor. Mas foi exatamente isso que aconteceu
com um medicamento: os jovens se tornaram depressivos e at mesmo suicidas
depois de tom-lo. A informao sobre o perigo deste efeito colateraluma
histria bvia para jornalistasno estava facilmente disponvel.
H dados sobre efeitos colaterais. Os fabricantes tm de entregar regularmente
para as autoridades de sade informaes sobre efeitos colaterais observados.
Esses dados so mantidos por autoridades nacionais ou europeias depois que a
droga permitida no mercado.
O primeiro furo novamente veio da Dinamarca, da esfera federal. Durante uma
investigao sobre o tema envolvendo uma equipe de dinamarqueses,
holandeses e belgas, a Holanda tambm liberou seus dados. Outro exemplo de
uso de leis de acesso informao: ajudou bastante no caso chamar a ateno
das autoridades holandesas para o fato de que os dados estavam acessveis na
Dinamarca.
Mas a histria era verdadeira: na Europa, havia jovens suicidas e, infelizmente,
tambm suicdios em vrios pases como resultado do medicamento.
Jornalistas, pesquisadores e a famlia de uma jovem vtima estavam fazendo de
tudo para ter acesso a essa informao. O Ombudsman europeu ajudou a
pressionar por transparncia na Agncia Europeia de Medicamentos, e ao que
parece, ele foi bem-sucedido. Ento, os jornalistas puderam se debruar sobre
Obter os dados atravs de APIs web, interfaces providas por bases de dados
e por vrias aplicaes web modernas (incluindo Twitter, Facebook, dentre
outras). Essa uma maneira fantstica de acessar tanto dados do governo ou
dados privados quanto dados de sites de mdias sociais.
Diante de todas essas opes, no esquea das mais simples: vale investir tempo
buscando arquivos com dados j em formatos interpretveis por mquinas ou
at mesmo entrar em contato com a instituio que cuida dos dados que voc
deseja. Neste captulo mostraremos um exemplo bsico de como extrair dados
(scraping) de uma pginas feita em HTML.
O que so Dados Legveis por Mquinas?
Voc visita um site, v uma tabela interessante e tenta copi-la para o Excel para
acrescentar dados ou simplesmente guard-la. S que isso muitas vezes no
funciona, ou a tabela que voc quer est espalhada por vrias pginas. Como
copiar manualmente pode se tornar um trabalho tedioso, pode fazer sentido
automatizar o trabalho escrevendo um pouco de cdigo.
A vantagem deste tipo de captura que voc pode faz-la em praticamente
qualquer site, de previses do tempo a gastos do governo, mesmo que o site no
oferea nenhuma API de acesso aos dados brutos.
O que possvel capturar
Existem limites para o que voc consegue capturar por cdigo. Alguns fatores
podem dificultar o processo:
Bloqueio, por parte dos administradores dos sites, de acessos em massa aos
dados.
H vrios programas que podem ser usados para extrair informaes em massa
de um site. Dependendo do seu browser, ferramentas como Readability (que
ajudam a extrair texto de uma pgina) ou DownThemAll (que permite que voc
baixe vrios arquivos de uma nica vez) ajudaro a automatizar tarefas tediosas.
J o Scraper extension do Chrome foi criado especificamente para extrair
tabelas de sites. Extenses como o FireBug permitem acompanhar exatamente
como um site construdo e quais comunicaes acontecem entre o navegador e
o servidor.
ScraperWiki uma pgina que permite que voc codifique programas de
captura em vrias linguagens de programao diferentes, incluindo Python,
Ruby e PHP. Se quiser comear a criar programas de captura sem armar um
ambiente de programao no seu computador, esse o caminho. Outros
servios, como o Google Spreadsheets e o Yahoo! Pipes tambm ajudam a fazer
capturas de alguns sites.
<td>
<div> ,
que basicamente
esses elementos usando uma developer toolbar no seu navegador: ela permite
que, ao deixar o cursor do mouse sobre qualquer parte da pgina web, voc veja
o cdigo por trs daquele elemento.
Tags trabalham marcando o incio e o trmino de uma unidade. Por
exemplo <em> signifca o incio de pedao de texto que foi enfatizado com o
estilo itlico e
</em>
<tr> ,
que
Tente ser o mais preciso que puder e no assuma que o programa sabe alguma
coisa sobre a pgina que voc est tentando capturar.
Tendo escrito algum pseudo cdigo, vamos compar-lo a esse cdigo essencial
para o seu primeiro capturador:
import scraperwiki
from lxml import html
lxml
url ,
pgina da AIEA. Isso diz ao programa de captura que queremos prestar ateno
a esse fator. Observe que a URL est entre aspas pois no faz parte do cdigo do
programa mas se trata apenas de uma string, uma sequncia de caracteres.
url
Neste passo final, usamos o DOM para encontrar cada linha na tabela e extrair o
ttulo dos eventos de seu cabealho. Dois novos conceitos so usados: o "for
loop" (para cada vez que um evento ocorra disparar outro) e o elemento de
seleo ( .cssselect ). O cdigo for loop ir atravessar uma lista de itens,
associar a cada um pseudnimo temporrio ( row nesse caso) e depois executar
qualquer instruo para cada item.
O outro novo conceito, elemento de seleo, faz uso de uma linguagem especial
para encontrar elementos dentro do documento. Seletores CSS so
normalmente usados para adicionar informao de leiaute aos elementos HTML
e podem ser usados para precisamente selecionar um elemento de uma pgina.
Nesse caso (linha 6), estamos selecionando #tblEvents tr , no qual ir
corresponder cada
<tr>
tblEvents
sinal # significa ID). Observe que isso ir retornar uma lista de elementos
(o
<tr> .
Isso pode ser visto na linha seguinte (linha 7) onde ns estamos aplicando ourto
seletor para encontrar qualquer <a> (que um hyperlink) dentro de
um
<h4>
apenas um ttulo por linha), ento ns temos que coloc-lo para fora do topo da
lista retornada pelo seletor com a funo .pop() .
Observe que alguns elementos no DOM contm texto (isto , texto que no
parte de nenhuma linguagem de marcao), que podemos acessar usando a
sintaxe [elemento].text conforme vemos na linha 8. Finalmente, na linha 9,
estamos imprimindo o texto no console do ScraperWiki. Se voc executar o seu
programa de captura, a janela menor dever iniciar a listagem dos nomes dos
eventos do site web da IAEA.
Agora voc pode ver um programa bsico de captura operando: ele baixa a
pgina web, a transforma em DOM, e em seguida permite que voc possa
selecionar e extrair certos contedos. Aps ter essa noo bsica, voc pode
tentar e resolver alguns dos problemas restantes usando o ScraperWiki e a
documentao do Python:
Conforme voc for tentando resolver esses desafios, d uma olhada em torno do
ScraperWiki: existem vrios exemplos teis nos programas de captura j feitos;
frequentemente os dados tambm so bastantes interessantes. Dessa forma,
Alguns mdicos franceses so livres para escolher suas prprias taxas, de forma
que uma pessoa pode pagar entre 70 e 500 Euros por uma consulta de 30
minutos a um oncologista, por exemplo. Esses dados das taxas so legalmente
pblicos, mas a administrao somente disponibiliza uma base de dados online
de difcil navegao. Para mostrar uma boa viso das taxas dos mdicos para o
Le Monde, decidi capturar a base de dados inteira.
A onde a diverso comea. O formulrio de busca uma aplicao Flash que
redireciona para uma pgina HTML de resultados atravs de uma requisio
POST. Com a ajuda de Nicolas Kayser-Bril, demorou um pouco para descobrir
como a aplicao poderia usar uma terceira pgina como um passo "escondido''
entre o formulrio de busca e a pgina de resultado. Essa pgina foi de fato
usada para armazenar um cookie com valores do formulrio de busca que
depois foram acessados pela pgina de resultados. Teria sido difcil pensar em
um processo mais complicado, mas as opes da biblioteca cURL no PHP
tornam fcil contornar os obstculos, uma vez que voc saiba onde eles esto!
No final, domar a base de dados foi uma tarefa de 10 horas, mas valeu a pena.
Alexandre Lchenet, Le Monde
Primeiro, alguns servios que voc pode usar para descobrir mais sobre um site
inteiro, em vez de sobre uma pgina em particular:
Whois
mesmo servidor por ser muito mais barato. Essas estatsticas do a voc
uma viso sobre a estrutura de negcio escondida dos sites que voc
estiver pesquisando.
Imagem 7. Entendendo a popularidade na web: quem se liga a quem? Outra aba til a "Crawl
stats", especialmente a seo "Cohosted with" ("Co-patrocinado por"). (Blekko.com)
Compete.com
Imagem 10. O que est em voga? Qual a demanda?: Hotspots na web (Compete.com)
Quanto mais gente usa o servio de micro-blogging, mais ele se torna til
como um indicador de como as pessoas esto compartilhando e falando
sobre pedaos individuais de contedo. extremamente simples
descobrir conversas pblicas sobre um link. Voc apenas informa na
caixa de busca a URL em que est interessado e clica em "more tweets"
para visualizar o conjunto completo de resultados.
Cache do Google
s vezes voc precisa saber a origem de uma imagem, mas sem uma
legenda clara no existe uma maneira bvia de se fazer isso com os
mecanismos de busca tradicionais, como o Google. TinEye oferece um
processo de "busca reversa", onde voc fornece a imagem e ele encontra
outras na web que parecem similares. Como ele usa reconhecimento de
imagens para fazer a correspondncia, isso funciona mesmo quando a
imagem foi cortada, distorcida ou comprimida. Isso pode ser
Received: .
Google Insights
Voc pode ter uma viso clara dos hbitos de busca do pblico usando
o Insights do Google. Escreva um conjunto de frases comuns de busca,
como "Justin Bieber vs Lady Gaga", e voc ver um grfico do nmero
relativo de buscas ao longo do tempo. H vrias opes para refinar a
visualizao de dados, desde restringir por reas geogrficas at obter
mais detalhes sobre o tempo de acesso. A nica desvantagem a falta de
valores absolutosvoc obtm apenas porcentagens relativas, que
podem ser difceis de interpretar.
Imagem 12. Cpia j editada das despesas extras de Stephen Pound (the Guardian)
Imagem 13. Quantos ingressos olmpicos voc conseguiu?: os resultados dos leitores (The
Guardian)
menos ingressos do que esperava pode estar mais disposto a falar com a gente, e
coisas do tipo.
No sabamos qual seria o resultado. Descobrimos que cerca de metade das 7
mil pessoas que encomendaram ingressos e entraram em contato conosco no
receberam nenhum. Apresentamos todas essas informaes, e, porque muita
gente havia participado na vspera, houve muito interesse nos resultados.
Semanas depois, o relatrio oficial foi divulgado, e nossos nmeros eram
impressionantemente prximos. Eram quase exatos. Imagino que em parte por
uma questo de sorte, mas tambm porque ns conseguimos que tanta gente
nos respondesse.
Se voc pergunta aos leitores sobre algo deste tipo no espao de comentrios do
texto, estar limitado sobre o que poder fazer com as respostas. Ento, deve-se
comear a pensar: "Qual a melhor ferramenta para o que eu quero saber?".
um espao para comentrios? Ou construir um aplicativo? E se for construir
um aplicativo, deve-se pensar: "Valer a demora? E valer investir os recursos
necessrios para faz-lo?"
Neste caso lembramos dos formulrios do Google, o Google Forms. Se algum
preenche o formulrio, o resultado pode ser visto como uma linha em uma
tabela. Mesmo se os dados ainda estiverem chegando, possvel abrir uma
tabela e ver todos os resultados imediatamente.
Eu poderia ter tentado fazer o trabalho no Google, mas eu o baixei no Microsoft
Excel e ento fiz coisas como organizar do menor valor para o maior; tambm
descobri espaos onde as pessoas escreveram os nmeros (ao invs de pr
apenas os dgitos) do quanto eles gastaram e consertei tudo isso. Algumas
pessoas usaram outras moedas, e as converti em libras. Tentei levar em conta
todos os resultados e, em vez de excluir os invlidos, eu os arrumeio que deu
bastante trabalho.
Mas toda a anlise ficou pronta em algumas horas, e eu descartei as respostas
claramente tolas. Muitas pessoas decidiram mostrar que no tinham gasto nada
com ingressos. O que pode parecer um pouco engraado, mas tudo bem. Foram
menos de cem respostas deste tipo em um total de mais de sete mil.
Tambm houve algumas dezenas que cadastraram cifras elevadas claramente
falsas para tentar distorcer os resultados. Coisas como dez milhes de libras.
Ento, essa limpeza me deixou com um conjunto de dados com os quais eu
poderia trabalhar usando os princpios normais que usamos todos os dias. Eu fiz
uma tabela dinmica e calculei algumas mdias. Este tipo de coisa.
Ns no tnhamos nenhuma ideia das possibilidades do projeto, ento ramos
apenas eu e o editor do blog de Esportes trabalhando nisso. Juntamos nossas
ideias e imaginamos que poderia ser divertido. Ns o fizemos, do comeo ao
fim, em 24 horas. Tivemos a ideia, bolamos alguma coisa na hora do almoo,
colocamos no site, vimos que estava se tornando bem popular, o mantivemos na
pgina de abertura do site o resto do dia, e apresentamos os resultados online
na manh seguinte.
Decidimos usar Google Docs porque ele te d controle completo sobre os
resultados. Eu no tive que usar as ferramentas de anlise de mais ningum.
Posso coloc-los facilmente em um software de banco de dados ou em planilhas.
Quando voc usa programas especiais para pesquisas, geralmente fica restrito s
ferramentas deles. Se fssemos perguntar algo mais delicado, talvez tivssemos
pensado em programar. Mas geralmente muito fcil pr um formulrio do
Google no site do Guardian, e para o usurio praticamente invisvel o fato de
estarmos usando tal formulrio.
Nosso conselho sobre crowdsourcing que voc precisa querer perguntar coisas
bem especficas. Faa questes de "mltipla escolha" tanto quanto possvel.
Tente obter alguns dados demogrficos bsicos daqueles a quem so dirigidas as
questes, para checar se sua amostra no estar enviesada. Se voc est
perguntando sobre quantidades, tente especificar que o preenchimento deve ser
feito com dgitos, em uma moeda especfica, e detalhes como esse. Muitos no o
faro, mas quanto mais voc os guiar, melhor. E sempre, sempre, acrescente um
espao para comentrios, porque muitas pessoas vo preencher os campos mas
o que elas realmente querem dar sua opinio sobre o caso. Principalmente
numa reportagem que afetam consumidores ou sobre pessoas que esto
injuriadas.
Marianne Bouchart, Data Journalism Blog, entrevistando James Ball, The
Guardian
Entendendo os Dados
O que fazer com os dados depois de consegui-los? Quais ferramentas usar? Esta
seo pretende aprimorar seu conhecimento no tema, com dicas para trabalhar
com nmeros e estatsticas, e ideias para trabalhar com conjuntos de dados
desorganizados, imperfeitos e em situao irregular. Vamos aprender como
extrair histrias a partir de dados, ver quais so as melhores ferramentas, e
como usar a visualizao para conseguir insights sobre o tpico que voc est
analisando.
O po de 32 libras
Guardian faz com seu grupo de visualizao de dados no Flickr. Suas bases de
dados podem ser combinadas a outras para dar a voc e a seus leitores uma
compreenso maior sobre um tema. Coisas que os outros fazem com seus dados
podem dar pistas para novas reportagens, ou ideias de pauta, ou ideias para
outros projetos guiados por dados. E certamente vo lhe trazer aplausos.
Quando algum se d conta de que liberar obras sob licenas pblicas uma
necessidade, a questo se torna "qual licena"? Esse dilema em geral
respondido pelo projeto ou comunidade sobre cujo material voc est
trabalhando, ou para a qual voc espera contribuiruse a mesma licena que
eles. Se voc precisar se aprofundar, comece pelas licenas livres e abertasisto
, nas quais qualquer um tem permisso para qualquer tipo de uso (atribuio
de crdito e compartilhamento pela mesma licena podem ser colocados como
condies). O que as definies de Software Livre e Software Open Source fazem
pelos programas, a Open Knowledge Definition faz para todo o conhecimento,
inclusive bancos de dados: define o que torna uma obra aberta e quais
permisses as licenas do aos usurios.
liberados.
bom lembrar que privacidade e outras consideraes podem ser
necessrias no caso de alguns bancos de dados. S porque ter o "open data"
elimina barreiras tcnicas e outras relacionadas ao copyright, no significa
que voc no precise seguir outras leis que se aplicam quele contedo. Mas,
como sempre, h muitos recursos e algumas protees para jornalistas, caso
seu bom senso o leve a investigar bancos de dados mais controversos.
Boa sorte! Mas o mais provvel que voc precise dessa sorte em outras
reas do seu projeto, no no gerenciamento dos (baixos) riscos jurdicos.
Mike Linksvayer, Creative Commons
O jeito mais fcil de mostrar dados espetaculares fabric-los. Soa bvio, mas
dados sobre o Produto Interno Bruto (PIB) podem ser bem enganadores. O exembaixador do Reuino Unido no Uzbequisto Craig Murray diz em seu
livro Murder in Samarkand que as taxas de crescimento no pas asitico so
objeto de intensas negociaes entre o governo local e grupos internacionais. Ou
seja, nada tm a ver com a economia.
O PIB usado como o indicador nmero um porque os governos precisam dele
para supervisionar sua principal fonte de rendaos impostos sobre o consumo.
Quando um governo no financiado por essas taxas, ou quando seu oramento
no pblico, no h razo para coletar dados de PIB e pode se dar melhor
perante aos eleitores fabricando esses dados.
Criminalidade sempre est em ascenso
"80% esto insatisfeitos com o sistema judicial'', diz uma pesquisa que saiu no
jornal Dirio de Navarra. Como possvel saltar de 800 entrevistados para 46
milhes de espanhis? Certamente os dados esto inflados, no? No.
Ao pesquisar uma grande populao (mais de alguns milhares), voc raramente
precisa de mais de mil participantes para alcanar uma margem de erro inferior
a 3%. Isso significa que, para cada 20 vezes que voc refizesse a pesquisa, 19
apontariam um resultado 3 pontos percentuais acima ou abaixo da distribuio
real daquilo na populao.
Beber muito ch reduz o risco de Acidente Vascular Cerebral (AVC)
controlarem para fatores de estilo de vida nos estudos sobre chs, eles no
permitem dizer nada mais do que "pessoas ricas so mais saudveis -- e
provavelmente bebem ch."
O que voc pode fazer
A melhor dica para lidar com dados divertir-se. Eles podem parecer
assustadores. Mas deixar-se intimidar no leva a lugar nenhum. Trate-os
como algo a descobrir e explorar e veja como eles vo revelar segredos e
histrias com uma facilidade surpreendente. Pense nisso como um exerccio
de imaginao. Seja criativo e imagine histrias que poderiam ser explicadas
por aqueles dados, e coloque-as a prova. Perguntar "que outra histria
poderia explicar esse fenmeno?" um modo prtico de descobrir como
nmeros grandes ou ruins podem ter uma outra explicao que no esteja
relacionada com o que voc procurava.
A investigao uma matria. O relato sobre como voc tentou fazer a sua
descoberta pode ser uma tima pea jornalsitica, mostrando como voc foi
de uma prova outrae isso se aplica s evidncias dos dados, nas quais
raro um nmero ser suficiente. Fontes diferentes oferecem novos ngulos,
novas ideias e uma compreenso mais completa. Me pergunto se no
estamos muito presos a uma vontade de nos mostrar como autoridades e
apresentar uma resposta ao pblicoe, assim, deixamos passar a
oportunidade de nos mostrar como detetives.
A coleta dos dados deve comear com uma lista de perguntas que voc quer
responder.
De certa forma, trabalhar com dados como entrevistar uma pessoa. Voc faz
perguntas e faz com que eles revelem as respostas. Assim como uma fonte s
pode informar sobre o que conhece, bases de dados s podem responder
perguntas para as quais tm os registros certos e as variveis adequadas. Isso
significa que voc deve avaliar com cuidado as perguntas para as quais busca
resposta antes mesmo de coletar os dados. Basicamente, o trabalho feito de
trs para frente. Primeiro, liste o que voc pretende demostrar em sua
reportagem usando dados. Depois, decida quais variveis voc deve coletar e
analisar para chegar a esse resultado.
Digamos que voc queira fazer uma reportagem sobre o padres de
criminalidade em sua cidade abordando as horas e os dias em que so mais
frequentes, assim como os locais onde cada tipo de delito acontece mais.
Voc vai se dar conta que sua coleta de dados deve incluir o dia e horrio que
cada crime foi cometido, o tipo de delito (homicdio, furto, roubo, etc.), assim
como o local em que ocorreu. Ento, data, hora, tipo de delito e endereo so as
variveis mnimas que voc precisa para responder suas perguntas.
Veja, porm, que h diversas questes potencialmente interessantes que essas
quatro variveis no podero responder, como a cor e o gnero das vtimas, o
valor roubado, ou quais policiais prendem o maior nmero de criminosos. Alm
disso, s ser possvel conseguir registros abrangendo um determinado perodo,
como os ltimos trs anos. Isso significa que no ser possvel afirmar se os
padres de criminalidade mudaram ao longo da dcada, por exemplo. Essas
perguntas podem estar fora do foco da matria, e tudo bem. O que no d certo
, durante a anlise dos dados, decidir de repente que necessrio saber qual a
porcentagem de crimes que resulta em prises em cada parte da cidade.
Uma lio aqui que normalmente uma boa ideia pedir todos os registros e
variveis de um conjunto de dados, em vez de um recorte que permita apenas
responder s perguntas imediatas da reportagem. (Na verdade, conseguir todos
os dados pode ser mais barato do que um subconjunto, caso seja necessrio
pagar pelo trabalho de programao para selecionar uma parte especfica.) Alm
disso, sempre possvel fazer o recorte por conta prpria e ter o contedo
completo permite responder novas questes que possam surgir e pode render
novas ideias ou sutes para as matrias. Pode acontecer de a divulgao de
algumas variveis ser proibida por leis de confidencialidade, como nome de
vtimas ou informantes. Ainda assim, uma base de dados parcial melhor que
nenhuma, desde que se saiba quais perguntas ela pode ou no responder.
Limpando Dados
Graas a uma forte legislao para garantir o acesso a informaes pblicas nos
Estados Unidos, conseguir dados aqui no um problema to grande como em
outros pases. Mas ainda precisamos enfrentar dados coletados com propsitos
burocrticos e no analticos. Frequentemente esto "sujos", ou seja, com
valores no padronizados. Vrias vezes recebi dados que no correspondiam ao
suposto formato de arquivo e ao dicionrio de dados que os acompanhavam.
Algumas agncias insistem em enviar dados em formatos inadequados como
.pdf, que precisam ser convertidos. Problemas como esses fazem com que voc
fique grato quando recebe um conjunto de dados sem complicaes.
Steve Doig, Walter Cronkite School of Journalism, Arizona State University
O po de 32 libras
Uma matria do jornal Wales sobre quanto o governo gals est gastando em
produtos sem glten trouxe na manchete uma informao de que estavam
sendo pagos 32 libras (cerca de R$ 100) por um po. No entanto, eram 11 pes
que custaram 2,82 libras cada.
Os nmeros, obtidos de uma resposta redigida pela Assembleia Galesa e num
release de estatsticas do Servio Nacional de Sade (National Health Service,
NHS) gals, foram listados como custo por item. Entretanto, no foi dada
nenhuma definio adicional no dicionrio de dados para explicar a que se
refere um item ou qual seria sua unidade de medida.
O jornal assumiu que o dado tratava de uma unidade de po, e no de um
pacote com vrios peso que era realmente. Ningum, nem os parlamentares
responsveis pela resposta nem a assessoria de imprensa, levantou a questo
sobre a quantidade at a segunda-feira depois que a histria foi publicada.
Portanto, no assuma que as notas explicativas para os dados do governo vo
ajudar a esclarecer as informaes apresentadas ou que as pessoas responsveis
pelos dados vo perceber que eles no so claros, mesmo quando voc lhes
disser qual sua suposio equivocada.
Geralmente os jornais querem boas manchetes, ento, a menos que algo
obviamente contradiga uma interpretao, mais fcil ficar com o que traz um
bom ttulo em vez de verificar em detalhes e arriscar que a matria caia,
especialmente sob prazos apertados.
"O gasto das prefeituras em clipes de papel ao longo do ltimo ano foi o
dobro do oramento nacional de ajuda externa."
Tambm h outras formas de explorar os dados de maneira contextualizada ou
comparativa:
Mudana ao longo do tempo
Ser que algum dia vou ser programadora? Dificilmente! Certamente no acho
que todos os reprteres precisam aprender a programar. Mas acredito que
muito til ter uma noo geral do que possvel fazer, alm, claro, de saber
como conversar com programadores.
Se voc est comeando agora, v com calma. Primeiro, preciso convencer
seus colegas e editores de que o jornalismo de dados vale a pena. Isso porque
Minha ferramenta mais til o Excel, que pode lidar com a maioria dos
problemas de Reportagem com Auxlio de Computador (RAC) e tem a vantagem
de ser fcil de aprender e estar disponvel para a maioria dos reprteres.
Quando preciso unir tabelas, costumo usar o Access, mas depois exporto o
contedo de volta ao Excel para continuar o trabalho. Utilizo o ArcMap da ESRI
para anlises geogrficas; uma ferramenta poderosa utilizada por agncias que
coletam dados geocodificados. O TextWrangler bom para examinar dados
textuais por meio de layouts peculiares e delimitados, e tem a opo de localizar
e substituir expresses regulares. Quando tcnicas estatsticas como a regresso
linear so necessrias, utilizo o SPSS, que tem um menu intuitivo. Para
trabalhos ainda mais pesados, por exemplo filtrar e programar conjuntos de
dados com milhes de registros, recorro ao SAS.
Walter Cronkite School of Journalism Steve Doig
Redes
que os herdeiros dos mais ricos da Noruega tambm herdaram as redes sociais
dos seus pais. Ao todo, foram mais de 26.000 conexes, e os grficos foram
todos finalizados manualmente com o Photoshop. Usamos Access, Excel, Bloco
de Notas e a ferramenta de anlise de redes sociais Ucinet.
Imagem 24. Aves ricas de mesma plumagem voam juntas (Verdens Gang)
Mapas
Minerao de texto
Imagem 26. Minerao de texto dos discursos de lderes partidrios (Verdens Gang)
Concluso
Tem havido uma tendncia clara nos ltimos trs anos para criar grficos
interativos e tabelas que permitem ao leitor se aprofundar em temas diferentes.
Uma boa visualizao como uma boa fotografia. Voc entende do que se trata
s de olhar para ela por um momento ou dois. Quanto mais voc olhar para a
visualizao, mais voc a v. A visualizao ruim quando o leitor no sabe por
onde comear ou terminar, e quando a visualizao est sobrecarregada de
detalhes. Neste cenrio, talvez um texto seja melhor, no?
John Bones, Verdens Gang
Para conseguir engajar os usurios, temos que entender o que eles querem. Com
o que o cidado nigeriano se preocupa? Onde eles veem uma lacuna de
informao? Como podemos tornar os dados relevantes para suas vidas? O alvo
imediato do BudgIT o nigeriano de educao mdia, conectado a fruns online
e mdias sociais. Para competir pela ateno de usurios, temos que apresentar
os dados de maneira breve e concisa. Aps transmitir uma prvia dos dados na
forma de um tweet ou infogrfico, h oportunidade para um envolvimento
sustentado. Isso pode ser feito por meio de uma experincia mais interativa, a
fim de entregar aos usurios um contexto mais amplo.
Na visualizao de dados, importante entender o nvel de compreenso que os
usurios tm desse tipo de informao. Por mais bonitos e sofisticados que
sejam, vimos que diagramas complexos e aplicativos interativos podem no ser
ideais para uma comunicao efetiva com os nossos leitores. Uma boa
visualizao vai falar com o usurio por meio de um uma linguagem que ele
entenda, assim como contar uma histria com a qual ele sinta uma conexo
imediata.
Conseguimos engajar mais de 10 mil nigerianos na questo do oramento, e os
dividimos em trs categorias para dar a eles informaes de maior valor. As
categorias esto explicadas resumidamente abaixo:
Usurios ocasionais
Mais que tudo, eles podem contribuir com ideias sobre o tema tratado,
ajudando a definir as prximas tarefas do projeto de cobertura.
Primeiro, no precisa nem dizer que o ideal publicar os dados brutos em suas
reportagens. Voc pode apresentar os dados em uma planilha CSV ou hospedlos em outros servios, como o Google Docs. Assim, voc ter apenas uma
verso dos dados e poder atualiz-la a qualquer momento, por exemplo para
corrigir possveis erros. Se puder, a melhor alternativa fazer as duas coisas.
Permita que as pessoas acessem as informaes brutas da sua reportagem da
forma mais fcil possvel.
Ento, pense em outras formas de interagir com o pblico. Acompanhe as
mtricas que revelam quais partes de suas bases de dados esto conseguindo
mais ateno provvel que as reas de maior trfego digam algo sobre
detalhes que voc tenha perdido. Por exemplo, voc pode no ter dado destaque
para as estatsticas de pobreza da Islndia, mas se esses blocos recebem muitas
visitas, porque pode valer a pena estud-los melhor.
Pense alm da caixa de comentrios. Voc pode anexar comentrios a clulas
particulares de uma planilha? Ou a uma regio especfica de um infogrfico?
Enquanto a maioria dos sistemas de edio no permitem esse tipo de
incorporao de informaes, vale a pena avaliar essa possibilidade se estiver
criando um material mais elaborado. Os benefcios que esse recurso pode trazer
aos seus dados no podem ser subestimados.
Certifique-se de que os demais usurios tambm vejam esses comentriosem
muitos casos, eles tm quase tanta importncia quanto os dados originais, e se
voc mantiver essa informao somente para si, vai privar o pblico desse valor.
Finalmente, outras pessoas podem querer publicar seus prprios infogrficos e
histrias baseados nas mesmas fontes de dados. Por isso, pense em qual a
melhor forma de vincul-los e alinhar o trabalho deles. Voc tambm pode usar
uma hashtag especfica para o conjunto de dados. Ou, se ele for muito pictrico,
compartilhe em um grupo do Flickr.
Tambm pode ser til contar com uma via confidencial de compartilhamento de
informaes. Em alguns casos, algumas pessoas podem no se sentir seguras de
fazer suas contribuies publicamente, ou mesmo no se sentir confortveis
nesse contexto. Elas podem preferir submeter informaes por meio de um
endereo de e-mail, ou at mesmo usar uma caixa de comentrios annimos.
A coisa mais importante que voc pode fazer com seus dados divulg-los da
forma mais ampla e aberta possvel. Permitir que os leitores verifiquem seu
trabalho, encontrem erros e apontem detalhes perdidos que tornaro melhores
tanto o seu jornalismo como a experincia do pblico.
Duncan Geere, Wired.co.uk
Comunicando os dados
Depois de observar bem os dados e decidir que eles rendem uma boa matria,
como voc transmite tudo isso ao pblico? Esta seo comea com histrias
curtas sobre como os jornalistas tm mostrado dados aos leitoresindo de
infogrficos e plataformas de dados abertos a links de download. Vamos
examinar com mais detalhes como construir aplicativos de notcias e os prs e
contras da visualizao de dados. Finalmente, daremos uma olhada no que se
pode fazer para engajar o pblico no seu projeto.
Mostrando ao mundo
Nosso fluxo de trabalho geralmente comea com o Excel. uma maneira fcil e
rpida de se trabalhar os dados. Se identificamos informaes valiosas, vamos
redaotemos a sorte de estar ao lado da redao principal do Guardian.
Ento, observamos como devemos visualizar ou exibir os dados na pgina, e
escrevemos o post que os acompanhar. Quando estou escrevendo, geralmente
tenho ao lado do editor de texto uma verso reduzida da planilha em questo.
Muitas vezes, tambm fao partes da anlise enquanto escrevo, com o fim de
destacar coisas interessantes. Por fim, publico o post e gasto um pouco de
tempo tuitando sobre o tema, garantindo que a histria esteja presente em
todos os canais necessrios e seja enviada aos lugares certos
Metade do trfego de alguns dos nossos posts vem do Twitter e do Facebook.
Estamos muito orgulhosos com o fato de que a mdia de tempo gasto pelo
usurio lendo um post do Datablog seja de 6 minutos. Em comparao com a
mdia de 1 minuto do resto do site do The Guardian, um tempo muito bom.
importante lembrar que o tempo gasto numa pgina uma das principais
mtricas para analisar audincia.
Esses nmeros ajudam a convencer nossos colegas sobre o valor do que estamos
fazendo. Isso e as grandes reportagens de dados com as quais trabalhamos:
COINS (banco de dados do Tesouro do Reino Unido), WikiLeaks e os protestos
violentos que atingiram o pas. Para os dados sobre gastos do sistema COINS,
tivemos 5 a 6 reprteres especializados ajudando quando as informaes foram
liberadas pelo governo do Reino Unido. Tambm tivemos outra equipe de 5 a 6
profissionais quando a administrao britnica liberou informaes de gastos
acima de 25 mil librasincluindo reprteres renomados, como Polly Curtis. O
projeto WikiLeaks tambm foi, obviamente, muito importante, cheio de
histrias sobre o Iraque e o Afeganisto. Os protestos violentos e saques no pas
tambm merecem destaque, com mais de 550 mil acessos em dois dias.
Mas no se trata apenas de sucessos no curto prazo: ser uma fonte confivel de
informaes teis tambm importante. Tentamos ser o lugar onde voc pode
obter informaes significativas sobre os temas que cobrimos.
Simon Rogers, The Guardian
Publicando os dados
Facilitar o acesso do pblico aos dados que usamos em nosso trabalho a coisa
certa a fazer por vrias razes. Os leitores podem se certificar de que no
torturamos os dados para chegar a concluses injustas. Abrir nossos dados , na
tradio da cincia social, permitir que pesquisadores repliquem o nosso
trabalho. Incentivar os leitores a estudarem os dados pode gerar dicas que viram
outras reportagens com aqueles dados. Finalmente, os leitores interessados em
seus dados so mais suscetveis a sempre voltar ao site.
Steve Doig, Faculdade de Jornalismo Walter Cronkite, Universidade do
Estado do Arizona
Iniciando uma plataforma de dados abertos
O ano de 2012 pode ser considerado o ano das notcias abertas para o Guardian.
Elas esto no corao de nossa ideologia editorial e emitem uma mensagemchave na nossa marca atual. No meio de tudo isso, claro que precisamos de um
processo aberto para o jornalismo de dados. Este processo no s deve ser
alimentado por dados abertos, mas tambm ser ativado por ferramentas
abertas. Esperamos ser capazes de oferecer, para cada visualizao que
publicamos, o acesso tanto aos dados por trs dela como ao cdigo que a
alimenta.
Muitas das ferramentas usadas hoje na visualizao so de cdigo fechado.
Outras vm com licenas que probem o uso de dados derivados. Muitas vezes,
as bibliotecas existentes de cdigo aberto resolvem bem um nico problema,
mas no oferecem uma metodologia mais abrangente. De modo geral, esses
fatores dificultam que certos trabalhos sejam usados como base para outros.
Esse cenrio fecha dilogos, em vez de iniciar. Para que isso acontea, estamos
desenvolvendo um grupo de ferramentas abertas para a produo de narrativas
interativasThe Miso Project (@themisoproject).
Estamos discutindo este trabalho com uma srie de outras organizaes de
mdia. O envolvimento da comunidade importante para que se possa atingir o
pleno potencial do software de cdigo aberto. Se formos bem-sucedidos, vai
prevalecer uma dinmica diferente entre nossos leitores. As contribuies
podem ir alm de comentriospor exemplo, promovendo a correo de bugs
ou a reutilizao de dados de formas inesperadas.
Alastair Dant, The Guardian
Adicione um link para download
Nos ltimos anos, tenho trabalhado com alguns gigabytes de dados para
projetos ou reportagens, de varreduras de tabelas datilografadas dos anos 1960
H uma grande diferena entre hackear por diverso e construir uma estrutura
para obter escala e desempenho. Certifique-se de que voc estabeleceu uma
parceria com pessoas que tm o conjunto de habilidades adequadas para o seu
projeto. No se esquea do design. Design de usabilidade, experincia de
usurio e apresentao podem influenciar muito o sucesso de seu projeto.
Chrys Wu, Hacks/Hackers
Identificar valores atpicos: boas histrias, ou talvez erros, nos seus dados
Esses papis sugerem que voc deve comear cedo a incluir visualizaes na sua
reportagem, mesmo que no inicie ao mesmo tempo o trabalho eletrnico com
os dados. No considere a visualizao uma etapa separada, aps a redao de
grande parte da matria. Deixe-a ajudar a guiar suas reportagens.
s vezes, comear significa apenas colocar uma forma visual nas anotaes que
voc j fez. Considere este grfico abaixo, publicado pelo Washington Post em
2006.
Ele mostra a renda agrcola dos ltimos 45 anos associada a subsdios e eventos
importantes. Esta visualizao levou meses para ficar pronta. Foi um desafio
encontrar dados com definies e significados semelhantes que podiam ser
comparados ao longo do tempo. Investigar todos os altos e baixos do processo
nos ajudou a manter sempre em mente o contexto geral da reportagem at o fim
da apurao. Tambm significou que uma parte importante da investigao foi
concluda mesmo antes de as histrias comearem a ser escritas.
Aqui vo algumas dicas de uso da visualizao para comear a explorar sries de
dados.
Dica 1: Utilize mltiplos pequenos para se orientar rapidamente em meio a um
grande conjunto de dados
Neste caso, foi realmente mais fcil ver isso em uma srie de grficos, e no em
uma tabela de nmeros. Um formulrio interativo nos permitiu checar vrios
tipos de subsdios, regies e agncias. Mapas divididos em mltiplos pequenos
Troque ideias sobre a produo dos grficos com ilustradores e designers de sua
redao. Eles podem indicar boas alternativas de visualizao dos dados, sugerir
formas de interao e tambm dar ideias sobre como conectar dados e histrias.
Sua tarefa ser muito mais fcil se souber, desde o comeo, o que tem de
pesquisar ou, ento, se deve alertar sua equipe de que no possvel fazer um
determinado tipo de grfico quando no se tem os dados necessrios.
Dicas para publicao
Voc pode ter gasto apenas alguns dias ou algumas horas na apurao, ou ter
levado meses para reunir as informaes necessrias para a sua histria. Mas
quando chega o momento de public-la, precisa ficar atento a dois importantes
aspectos.
Lembra daquele ano sobre o qual faltavam informaes e que deixou sua
apurao incompleta? De repente, voc se d conta de que no pode mais
avanar na investigao sem esses dados. E todas aquelas informaes
problemticas que acabaram sendo ignoradas? Reaparecem para assombr-lo.
A questo que no d para escrever sobre dados ruins. No h soluo
intermediria para um grfico: ou se tem tudo o que necessrio para construlo, ou no se tem.
Combine o esforo de coleta de dados com o grfico interativo
Certifique-se de que h uma nica coisa especfica que voc quer que as
pessoas vejam. Decida qual a impresso geral que deseja transmitir ao
leitor e faa todo o resto desaparecer. Em muitos casos, isso significa
remover as informaes, mesmo quando a internet permite ampliar o
contexto. A menos que seu principal objetivo seja garantir a
transparncia do trabalho jornalstico, a maioria dos detalhes reunidos
em sua linha do tempo e cronologia simplesmente no so importantes.
Em um grfico esttico, so intimidantes. Em um grfico interativo,
chatos.
Sarah Cohen, Universidade de Duke
Imagem 4. A taxa de desemprego para pessoas como voc (The New York Times)
Mesmo depois que voc para de observ-la, uma boa visualizao de dados fica
na memria e deixa um modelo mental duradouro de um fato, tendncia ou
processo. Quantas pessoas viram as animaes de tsunamis apresentadas por
pesquisadores em dezembro de 2004, que mostravam ondas em cascata sendo
irradiadas pelo Oceano ndico por conta de um terremoto indonsio,
ameaando milhes de moradores de reas costeiras no sul da sia e leste da
frica?
A visualizao de dadose as associaes estticas que ela engendrapode at
se tornar uma referncia cultural, tal como a representao de profundas
divises polticas nos Estados Unidos aps as eleies de 2000 e 2004. Naquele
momento, estados republicanos "vermelhos" encheram a rea central, e os
democratas "azuis" agruparam-se no nordeste e no extremo oeste. No importa
que, na mdia dos EUA anterior ao ano 2000, as principais redes de televiso
alternassem livremente o vermelho e o azul para representar cada partido,
algumas fazendo isso de quatro em quatro anos. Da a lembrana de alguns
norte-americanos da vitria pica de Ronald Reagan em 49 estados "azuis" para
os republicanos em 1984.
Mas para cada grfico que gera um clich visual, aparece outro com um
poderoso testemunho factual, como no mapa de 2006 do The New York Times.
O material usou crculos de uma forma diferente para mostrar onde centenas de
milhares de pessoas retiradas de Nova Orleans aps o furaco Katrina estavam
vivendo, espalhadas por todo o pas devido a uma mistura de conexes pessoais
e programas sociais. Ser que essas pessoas faro o caminho de volta para casa?
Portanto, agora que j discutimos o poder da visualizao de dados, justo
perguntar: quando devemos us-la, e quando no devemos us-la? Primeiro,
olhemos para alguns exemplos em que ela pode ser til para ajudar a contar
uma histria.
Mostrando a mudana atravs do tempo
Comparando valores
Imagem 10. Previses oramentrias comparadas com a realidade (New York Times)
H um ditado que diz que "um nmero sozinho no diz nada". Uma frase
comum dos editores de notcias em resposta a uma estatstica citada :
"em comparao com o qu?" A tendncia subir ou baixar? O que
normal?
Quando seus dados variam pouco e no revelam uma tendncia clara
A ideia parece simples, mas, mesmo nos dias atuais, difcil domin-la e
compreend-la caso no seja usada com sabedoria.
Imagem 13. Mapa coropltico da Frana indicando os nveis de criminalidade (Andr-Michel Guerry)
Imagem 14. Um grfico de barras simples: til para representar informaes descontnuas
Vamos ver porque deveriam ser barras, em vez de um grfico de linha. Grficos
de linha so ideais para dados contnuos. Com nossos nmeros de vendas, temse o somatrio do ms, no contnuo. Como uma barra, sabemos que, em
janeiro, a empresa gerou US$ 100, e, em fevereiro, US$ 120. Se tratssemos
essas informaes como um grfico de linha, ele continuaria a representar US$
100 e US$ 120 no comeo de cada ms, mas o grfico de linha faria com que
parecesse que a empresa gerou apenas US$ 110 no dia 15. O que no verdade.
Barras so usadas para unidades descontnuas de medida, enquanto linhas so
usadas quando se tem um valor contnuo, tal como a temperatura.
Imagem 15. Grficos de linha simples: teis para representar informaes contnuas
Podemos ver no grfico acima que, s 8h, a temperatura era de 20C e, s 9h, de
22C. Se olharmos para a linha para adivinhar a temperatura s 8h30, diramos
que era de 21C, o que uma estimativa correta, uma vez que a temperatura
contnua e cada ponto no a soma de outros valores. Ela representa o valor
exato naquele momento ou uma estimativa entre duas medies exatas.
Tanto os grficos de barra quanto a linha possuem uma variao onde se
empilham as variveis. Essa uma excelente ferramenta para contar histrias e
pode funcionar de diferentes formas. Tomemos, por exemplo, uma empresa
com 3 locais.
Para cada ms, temos 3 barras, uma para cada uma das lojasum total de 36
para o ano. Quando as colocamos prximas umas s outras, podemos ver
rapidamente qual loja estava faturando mais. Essa uma histria interessante e
vlida, mas existe outra escondida dentro dos mesmos dados. Se empilharmos
as barras, para que tenhamos apenas a cada ms, perdemos a habilidade de ver
qual loja a mais lucrativa, mas veremos em quais meses a empresa faz o
melhor negcio como um todo.
Imagem 16. Grfico de barras agrupadas mostra diferena de vendas entre lojas
Tableau Public
O Tableau feito para PCs, mas est sendo elaborada uma verso para
Mac. Enquanto isso, use um mirror como o parallels para faz-lo
funcionar.
Grficos do Google Spreadsheet
Um site que precisa ser tratado com um pouco mais de carinho o Many
Eyes, da IBM. Quando foi lanado, criao de Fernanda B. Vigas e Martin
Wattenberg, era uma ferramenta singular ao permitir o upload e a
visualizao de bases de dados. Agora que seus criadores trabalham para o
Google, o site parece meio abandonado com suas paletas de cores sem
graa; no apresenta nada novo em termos de visualizao h algum
tempo.
Dica
Voc no pode mais editar os dados depois de fazer o upload, ento tenha
certeza de que esto corretos antes de enviar.
Color Brewer
Se nenhuma dessas dicas o que procurava, vale a pena conferir essa lista
do DailyTekk, que tem ainda mais opes. As ferramentas acima no so
as nicas, mas apenas aquelas que usamos com mais frequncia. H
muitas outras opes, incluindo:
Redes
que os herdeiros dos mais ricos da Noruega tambm herdaram as redes sociais
dos seus pais. Ao todo, foram mais de 26.000 conexes, e os grficos foram
todos finalizados manualmente com o Photoshop. Usamos Access, Excel, Bloco
de Notas e a ferramenta de anlise de redes sociais Ucinet.
Imagem 24. Aves ricas de mesma plumagem voam juntas (Verdens Gang)
Mapas
Minerao de texto
Imagem 26. Minerao de texto dos discursos de lderes partidrios (Verdens Gang)
Concluso
Tem havido uma tendncia clara nos ltimos trs anos para criar grficos
interativos e tabelas que permitem ao leitor se aprofundar em temas diferentes.
Uma boa visualizao como uma boa fotografia. Voc entende do que se trata
s de olhar para ela por um momento ou dois. Quanto mais voc olhar para a
visualizao, mais voc a v. A visualizao ruim quando o leitor no sabe por
onde comear ou terminar, e quando a visualizao est sobrecarregada de
detalhes. Neste cenrio, talvez um texto seja melhor, no?
John Bones, Verdens Gang
Para conseguir engajar os usurios, temos que entender o que eles querem. Com
o que o cidado nigeriano se preocupa? Onde eles veem uma lacuna de
informao? Como podemos tornar os dados relevantes para suas vidas? O alvo
imediato do BudgIT o nigeriano de educao mdia, conectado a fruns online
e mdias sociais. Para competir pela ateno de usurios, temos que apresentar
os dados de maneira breve e concisa. Aps transmitir uma prvia dos dados na
forma de um tweet ou infogrfico, h oportunidade para um envolvimento
sustentado. Isso pode ser feito por meio de uma experincia mais interativa, a
fim de entregar aos usurios um contexto mais amplo.
Na visualizao de dados, importante entender o nvel de compreenso que os
usurios tm desse tipo de informao. Por mais bonitos e sofisticados que
sejam, vimos que diagramas complexos e aplicativos interativos podem no ser
ideais para uma comunicao efetiva com os nossos leitores. Uma boa
visualizao vai falar com o usurio por meio de um uma linguagem que ele
entenda, assim como contar uma histria com a qual ele sinta uma conexo
imediata.
Conseguimos engajar mais de 10 mil nigerianos na questo do oramento, e os
dividimos em trs categorias para dar a eles informaes de maior valor. As
categorias esto explicadas resumidamente abaixo:
Usurios ocasionais
Mais que tudo, eles podem contribuir com ideias sobre o tema tratado,
ajudando a definir as prximas tarefas do projeto de cobertura.
Primeiro, no precisa nem dizer que o ideal publicar os dados brutos em suas
reportagens. Voc pode apresentar os dados em uma planilha CSV ou hospedlos em outros servios, como o Google Docs. Assim, voc ter apenas uma
verso dos dados e poder atualiz-la a qualquer momento, por exemplo para
corrigir possveis erros. Se puder, a melhor alternativa fazer as duas coisas.
Permita que as pessoas acessem as informaes brutas da sua reportagem da
forma mais fcil possvel.
Ento, pense em outras formas de interagir com o pblico. Acompanhe as
mtricas que revelam quais partes de suas bases de dados esto conseguindo
mais ateno provvel que as reas de maior trfego digam algo sobre
detalhes que voc tenha perdido. Por exemplo, voc pode no ter dado destaque
para as estatsticas de pobreza da Islndia, mas se esses blocos recebem muitas
visitas, porque pode valer a pena estud-los melhor.
Pense alm da caixa de comentrios. Voc pode anexar comentrios a clulas
particulares de uma planilha? Ou a uma regio especfica de um infogrfico?
Enquanto a maioria dos sistemas de edio no permitem esse tipo de
incorporao de informaes, vale a pena avaliar essa possibilidade se estiver
criando um material mais elaborado. Os benefcios que esse recurso pode trazer
aos seus dados no podem ser subestimados.
Certifique-se de que os demais usurios tambm vejam esses comentriosem
muitos casos, eles tm quase tanta importncia quanto os dados originais, e se
voc mantiver essa informao somente para si, vai privar o pblico desse valor.
Finalmente, outras pessoas podem querer publicar seus prprios infogrficos e
histrias baseados nas mesmas fontes de dados. Por isso, pense em qual a
melhor forma de vincul-los e alinhar o trabalho deles. Voc tambm pode usar
uma hashtag especfica para o conjunto de dados. Ou, se ele for muito pictrico,
compartilhe em um grupo do Flickr.
Tambm pode ser til contar com uma via confidencial de compartilhamento de
informaes. Em alguns casos, algumas pessoas podem no se sentir seguras de
fazer suas contribuies publicamente, ou mesmo no se sentir confortveis
nesse contexto. Elas podem preferir submeter informaes por meio de um
endereo de e-mail, ou at mesmo usar uma caixa de comentrios annimos.
A coisa mais importante que voc pode fazer com seus dados divulg-los da
forma mais ampla e aberta possvel. Permitir que os leitores verifiquem seu
trabalho, encontrem erros e apontem detalhes perdidos que tornaro melhores
tanto o seu jornalismo como a experincia do pblico.
Duncan Geere, Wired.co.uk