Vous êtes sur la page 1sur 10

As máquinas herdarão nossos

preconceitos?
As entregas da Amazon privilegiam bairros brancos.
O tradutor do Google é machista. Os algorítmos
ajudam a condenar negros. Aos poucos, alguns
pesquisadores tentam reverter estes vieses. Terão
forças para tanto?
Aaron M. Bornstein
Publicado 27/02/2019 às 21;53 - Atualizado 27/02/2019 às 21;59

Por Aaron M. Borstein | Tradução: Felipe Calabrez

Não sabemos como são nossos clientes “, disse Craig Berman, vice-
presidente de comunicações globais da Amazon, à Bloomberg News em
junho de 2015. Berman estava respondendo às alegações de que o
serviço de “entrega no mesmo dia” da empresa discriminavam pessoas
negras. No sentido mais literal, a defesa da Berman era verdadeira: a
Amazon seleciona áreas de entrega no mesmo dia com base em fatores
de custo e benefício, como a renda familiar e a acessibilidade à entrega.
Mas esses fatores são agregados por CEP, significando que eles
carregam outras influências que moldaram — e continuam a moldar — a
geografia cultural. Olhando para o mapa de serviço de “entrega no
mesmo dia”, a correspondência com a cor da pele é inegável.

Esses mapas lembram homens como Robert Moses, o planejador-mestre


que, ao longo de décadas, moldou grande parte da infra-estrutura da
moderna cidade de Nova York e de seus subúrbios. De maneira infame,
ele não queria que os pobres, em particular as pessoas negras, usassem
os novos parques públicos e praias que estava construindo em Long
Island. Embora tivesse trabalhado para aprovar uma lei proibindo ônibus
públicos nas rodovias, Moses sabia que a lei poderia ser revogada algum
dia. Então construiu algo muito mais duradouro: dezenas de viadutos que
eram muito baixos para permitir que os ônibus públicos passassem,
literalmente concretizando a discriminação. O efeito dessas e de dezenas
de decisões semelhantes foi profundo e persistente. Décadas mais tarde,
as leis de ônibus foram de fato derrubadas, mas as cidades que cercam
as rodovias permanecem tão segregadas quanto antes. “A legislação
pode sempre ser mudada”, disse Moses. “É muito difícil derrubar uma
ponte que já foi construída”.

Hoje, um novo conjunto de superestradas, construído a partir de dados


moldados pelas estruturas antigas, atualiza essas divisões. Embora os
arquitetos da nova infraestrutura possam não ter a mesma intenção
insidiosa, eles também não podem alegar desconhecimento de seu
impacto. Profissionais de Big Data entendem que conjuntos de dados
grandes e ricamente detalhados, do tipo que a Amazon e outras
corporações usam para fornecer serviços personalizados,
inevitavelmente contêm impressões digitais de atributos como cor da
pele, gênero e orientação sexual e política. As decisões que os
algoritmos tomam com base nesses dados podem, invisivelmente, ativar
esses atributos de maneiras tão inescrutáveis quanto antiéticas.

Kate Crawford investiga o preconceito algorítmico da Microsoft Research


e co-fundou a iniciativa “AI Now”, um esforço de pesquisa focado nos
perigos representados pelos sistemas de inteligência artificial como eles
estão sendo usados hoje. Ela me disse que uma questão fundamental na
justiça algorítmica é o grau em que algoritmos podem ser levados a
entender o contexto social e histórico dos dados que eles usam. “Você
pode dizer a um operador humano para tentar levar em conta a maneira
pela qual os dados são em si uma representação da história humana”, diz
Crawford. “Como você treina uma máquina para fazer isso?” As
máquinas que não conseguem entender o contexto dessa forma, na
melhor das hipóteses, apenas passam a discriminação institucionalizada
– o que é chamado de “bias in, bias out”.

Esforços incompletos para corrigir preconceitos ocultos podem piorar as


coisas. Um colega de trabalho de Crawford, Solon Barocas, da Cornell
University, observou que os usuários finais podem “aceitar sem crítica as
alegações dos fornecedores” de que os algoritmos foram livrados do
preconceito. Isto é particularmente verdadeiro em instituições, como o
sistema judicial, onde o status quo é repleto de preconceitos e há grande
atração para a promessa de máquinas mais objetivas. Eliminar o viés
algorítmico também pode exigir privilegiar uma definição mais subjetiva
do que significa ser justo — mas o que é escolhido, em geral, é o que é
mais fácil de quantificar e não o que é mais justo.

Apesar de todas as suas armadilhas, encontrar e combater preconceitos


em dados e algoritmos também trás uma oportunidade: Pode ser uma
nova maneira de tornar visíveis os contornos do preconceito.

O COMPAS é um software usado pelos tribunais dos Estados Unidos. O


programa estima a probabilidade de um réu reincidir com base em sua
resposta a um questionário de 137 perguntas. Essa estimativa é usada
para informar as decisões de fiança

O questionário do COMPAS não pergunta sobre a cor da pele, herança


ou mesmo CEP. Mas faz perguntas como a de se um réu mora em um
bairro com “muito crime” ou se tem problemas para encontrar empregos
que pagam “mais do que o salário mínimo”. O fato de que essas
perguntas seriam mais apropriadas se colocadas para uma sociedade do
que para um indivíduo, ressalta o viés contido nelas: As respostas são
correlacionadas com atributos ocultos, como a “raça”, o que significa que
os algoritmos podem aprender a “ver” efetivamente esses atributos nos
dados. No entanto, a Northpointe, a empresa por trás da COMPAS,
afirmou ter calibrado o sistema para que a precisão de suas predições
sobre rearprisionamento seja independente da cor da pele.

Em 2015, jornalistas da ProPublica decidiram testar essa alegação


usando os registros públicos de um cliente da COMPAS, o Condado de
Broward, na Flórida. Eles descobriram que quando o COMPAS previu que
um réu era de alto risco, e o réu foi preso de novo, sua previsão era
realmente livre de preconceitos no sentido mais direto. Mas quando a
previsão do COMPAS era imprecisa (ou por prever nova detenção
quando não aconteceu, ou por não prever uma nova detenção),
subestimava rotineiramente a probabilidade de reincidência branca e
superestimava a probabilidade de reincidência negra. Em outras
palavras, ele continha um viés oculto da perspectiva de um conjunto de
estatísticas, mas claramente visível em outro.

A ProPublica relatou essa descoberta em um artigo intitulado “Existem


softwares usados em para prever criminosos futuros. E são tendenciosos
contra os negros”. A Northpointe contestou sua avaliação e respondeu
com uma re-análise estatística de suas alegações. A Northpointe desviou
o argumento da disparidade nas taxas de erro, concentrando-se no fato
de que as pontuações de risco refletem uma prevalência subjacente real:
Mais réus afro-americanos de fato passam a ser novamente presos. Isso
significa, eles argumentaram, que não surpreendente que tenham
maiores índices de risco como população.

No centro do argumento da Northpointe havia uma falácia essencial.


Como as pessoas que a policia classificava como afro-americanas eram
novamente presas nos ensaios do programa, eles alegaram, justificava-
se que o COMPAS predissesse que outras pessoas classificadas como
afro-americanas tivessem maior probabilidade de ser novamente presas.
A circularidade que vai da classificação para os dados e em seguida
reforça a classificação ecoa uma definição de W.E.B. Dubois, em 1923: “o
homem negro é aquele de quem você tem medo à noite” [O original é
intraduzível: “the black man is the man who has to ride Jim Crow in
Georgia”, sendo que Jim Crow é um conjunto de leis discriminatórias que
vigorou nos EUA entre 1877 e meados dos anos 1960 (Nota de Outras
Palavras)]

Esse episódio, que ilustra muitos dos perigos das decisões algorítimicas,
também provocou uma onda de pesquisas acadêmicas que levaram a
uma conclusão surpreendente: a própria idéia de atribuir uma pontuação
de risco a um réu implica uma troca entre duas definições diferentes e
incompatíveis da palavra “justo”. É algo universal. “Qualquer sistema que
realize esse processo terá esse desafio”, diz Jon Kleinberg, professor de
ciência da computação da Cornell, “seja um algoritmo ou um sistema de
tomadores de decisões humanas”.

Kleinberg e seus colegas publicaram um estudo provando que as duas


definições de justiça usadas pela Northpointe e pela ProPublica são
matematicamente incompatíveis. Em termos técnicos, o que eles
mostraram é que a paridade preditiva (se as pontuações de risco têm a
mesma exatidão geral para os réus negros e brancos) e o equilíbrio da
taxa de erro (se as pontuações de risco resultam em erros da mesma
forma, para grupos diferentes) se excluem mutuamente. Quando a taxa
de base da reincidência é diferente entre os dois grupos, aplicar o
mesmo padrão a ambos os grupos necessariamente introduzirá viés de
taxa de erro contra o grupo com a taxa básica mais alta. A “calibração “é
o que está provocando esse problema”, disse Kleinberg. Isso vale para
qualquer sistema que use pontuações de risco — seja um algoritmo de
máquina ou uma instituição humana — independentemente dos fatores
usados para gerá-los.

É estranho, mas essa incompatibilidade nunca havia sido demonstrada


antes. A descoberta aponta para um dos grandes benefícios da era do
Big Data: a lógica de nossas decisões pode ser formalmente analisada e
numericamente escolhida, de maneiras que antes eram impossíveis.
Como resultado, os juízes agora sabem considerar os tipos de
desequilíbrio mais amplos nas decisões que tomam. “Os problemas que
a ProPublica pôs à tona têm a ver com nossas formas de pensar tanto a
previsão quanto os algoritmos”, diz Kleinberg.

Acadêmicos também sugeriram como o COMPAS pode ser corrigido.


Alexandra Chouldechova, professora de estatística e políticas públicas na
Carnegie Mellon Universityʼs mostrou que, se os criadores da COMPAS
permitirem que ela seja um pouco mais imprecisa para os réus afro-
americanos, eles poderão garantir que o algoritmo cometa erros na
mesma proporção para as diferentes raças. “Pode ser uma troca
desejável”, ela observa

……….

O Google Tradutor carrega um sexismo velado. Para vê-lo, tente traduzir


as frases “o bir doktor” ou “o bir hemsire” do turco para o inglês. Como
as frases em turco usam o pronome de gênero neutro “o”, o Google
Tradutor é forçado a escolher um pronome de gênero por conta própria.
O resultado: traduz a primeira frase para “ele é um médico” e a segunda
para “ela é uma enfermeira”.

A tradução é o foco de um artigo de 2016, de Tolga Bolukbasi e seus


colegas da Universidade de Boston, sobre um tipo de modelo de
linguagem conhecido como incorporação de palavras. Esses modelos,
usados para fornecer serviços de tradução, algoritmos de pesquisa e
recursos de preenchimento automático, são treinados para examinar
trechos de linguagem natural (como os artigos do Google Notícias),
geralmente sem muita intervenção de especialistas em linguagem
humana. As palavras no modelo são mapeadas como pontos em um
espaço de alta dimensão, de modo que a distância e a direção entre um
determinado par de palavras indica quão próximos eles estão do
significado e qual relação semântica eles têm.
Por exemplo, a distância entre “Homem” e “Mulher” é aproximadamente
a mesma, e na mesma direção, que a existente entre “Rei” e “Rainha”. Os
modelos de incorporação de palavra também podem perpetuar
preconceitos ocultos, como os da tradução do Google. A infra-estrutura,
bilhões de textos coletados ao longo de décadas, está começando a
informar nossa comunicação diária de maneiras difíceis de entender e de
mudar. Mas muitos dos preconceitos codificados pela infra-estrutura
antecedem sua institucionalização na forma digital. E, como no COMPAS,
estudar esses preconceitos, e a forma como eles aparecem nos
algoritmos, é uma nova oportunidade.

Bolukbasi e seus colegas criaram uma técnica para “desenviezar” a


linguagem, movendo palavras dentro dos espaços dos modelos de
incorporação. Imagine colocar as palavras “médico”, “enfermeiro”,
“homem” e “mulher” nos vértices de um quadrado, com “homem” e
“mulher” no piso e “médico” e “enfermeira” no topo. A linha que conecta
médico e enfermeiro é exatamente paralela àquela entre homem e
mulher. Como resultado, o sistema trata seu relacionamento como
análogo. A estratégia de desenviezamento de Bolukbasi empurra tanto o
médico quanto a enfermeira até o ponto médio da borda superior, de
modo que “médico” e “enfermeiro” estejam à mesma distância de
“homem” e “mulher”. O sistema “esqueceu” a analogia; que pronome a
tradução poderia usar é uma escolha deixada aos projetistas do sistema.

O impacto de mudar assossiações entre palavras pode ser considerável.


Arvin Narayanan, professor de ciência da computação na Universidade
de Princeton, desenvolveu uma ferramenta para medir o preconceito em
modelos de aprendizagem de máquina, em conjunto com os colegas
Aylin Caliskan e Joanna Bryson. O trio começou com uma medida
psicológica muito estudada, chamada Teste de Associação Implícita. Em
uma variante comum do teste, quanto maior a velocidade com que os
sujeitos afirmam a associação de palavras positivas com palavras que
refletem as categorias sociais, maior a sua desenvoltura com essa
associação. Em muitos desses pares, a diferença média no tempo de
resposta — geralmente na ordem de milissegundos — é uma medida do
grau de viés implícito. Narayanan e seus colegas trocaram o tempo de
resposta pela distância entre as palavras, criando o que eles chamam de
um teste de associação de incorporação de palavras. A associação entre
palavras replicou o mesmo conjunto de estereótipos que os estudos de
Teste de Associação Implícita identificaram.

Ao longo de duas décadas, o Teste de Associação Implícita expôs uma


ampla variedade de vieses implícitos, de gênero a nacionalidade e raça,
entre populações e em muitos contextos diferentes. Como o preconceito
é muito difundido, alguns especularam que tendências humanas naturais
— por exemplo, hierarquias dominantes e identificação em grupo — são
responsáveis por esses vieses. Nesta visão, o preconceito é um fato
inevitável da natureza humana. Os autores do artigo do teste de
associação da palavra incorporada especulam que seu trabalho apoia
outra possibilidade, embora não exclusiva: que “a mera exposição à
linguagem contribui para esses vieses implícitos em nossas mentes”. Em
outras palavras, se preconceitos refletem e são, assim, transmitidos nas
estatísticas da linguagem, então a maneira como falamos não apenas
comunica a maneira como nos vemos, como a constrói. Se projetos de
desvio de opinião, como os de Bolukbasi, puderem funcionar, podemos
começar a mudar nossos preconceitos em escala e de uma maneira
antes impossível: com o software. Se não, enfrentamos o perigo de
reforçar e perpetuar esses preconceitos por meio de uma infraestrutura
digital que pode durar por gerações.

…….

“A ideia de que você pode fazer isso é bem legal ”, diz Narayanan. Ainda
assim, ele se pergunta até onde isso pode ir. Ele aponta que o artigo de
Bolukbasi assume que o gênero é binário, ou pelo menos que a conexão
entre as palavras de gênero segue uma linha reta. “Eu não acho que
tenhamos qualquer indício de como o desenviezamento pode funcionar
para um conceito que é, talvez, um pouco mais complexo”, ele adverte.
Ele aponta em particular para os estereótipos raciais, em que a própria
noção de categorias é tão problemática quanto os meios usados para
defini-las

Quando perguntado a respeito, Bolukbasi respondeu que a abordagem


pode funcionar, a princípio, com qualquer número e categorias, embora
ele admita que o esforço requer categorias definidas a priori. Ele usou os
trabalhadores da multidão recrutados do Mechanical Turk da Amazon
(um serviço chamado de “inteligência artificial artificial”) para decidir as
categorias em seu trabalho de gênero. Os mesmos trabalhadores
também avaliaram quais analogias eram tendenciosas e o sucesso do
programa na remoção desses vieses. Em outras palavras, a decisão
sobre o que é tendencioso e o que significa um viés ser removido
permanece profundamente ligada ao consenso social mediano, o que
equivale a um freio conservador.

Há preocupações ainda mais assustadoras. Barocas e Crawford


recentemente ressaltaram que a maioria dos trabalhos sobre equidade
em algoritmos tem se concentrado no que é conhecido como “danos
alocativos” — o rateio de recursos, como a entrega no mesmo dia pela
Apple, ou julgamentos, como pontuações de risco. Eles pedem mais
atenção para o que os acadêmicos críticos de raças chamam de “danos
representacionais”. Uma pesquisa por “executivo-chefe” (ou “CEO”) no
Google Image, por exemplo, produz imagens que são
predominantemente de homens brancos. Narayanan diz que esses
problemas podem ser negligenciados em discussões de justiça porque
“eles são mais difíceis de formular matematicamente. Na ciência da
computação, se você não pode estudar algo em termos formais, sua
existência não é tão legítima quanto algo que você pode transformar em
uma equação ou um algoritmo”.

Na pior das hipóteses, essas e outras limitações ao nosso tratamento de


viés nos dados transformarão os algoritmos que estamos construindo
nas pontes de concreto dessa geração, projetando o status quo para os
próximos anos. Na melhor das hipóteses, a infraestrutura de dados nos
forçará a expor e confrontar nossas definições de justiça e tomada de
decisão de maneiras que talvez não tivéssemos feito sem ela.
É difícil conciliar essas tensões com nossas noções usuais de progresso
tecnológico. É tentador presumir que a tecnologia muda mais
rapidamente que a sociedade e que o software pode reforçar o
progresso social codificando rapidamente novas normas e isolando os
atores regressivos ou maliciosos. Um algoritmo de sentenciamento pode
causar menos danos do que um juiz descaradamente fanático. Mas
também pode obscurecer a história e o contexto de preconceito e
prejudicar, ou mesmo inviabilizar o progresso. A infraestrutura é
complicada e a janela de oportunidade está diminuindo: a tecnologia
pode melhorar no futuro, mas estamos tomando decisões sobre quais
trocas decidir agora. Não está claro com que frequência, ou mesmo se,
teremos a oportunidade de revisitar essas decisões.

Afinal, quanto mais generalizados forem os algoritmos, menor a


probabilidade de eles serem substituídos. Embora possamos atualizar
nossos telefones a cada dois anos, há fortes impedimentos para renovar
a infra-estrutura básica de software. Considere como uma tecnologia
muito potente já permeia nossas vidas — sistemas de controle de tráfego
aéreo, por exemplo, são executados em grande parte em software
construído na década de 1970. O recente “WannaCry” que prejudicou os
sistemas hospitalares em todo o Reino Unido, explorou o fato de que
esses sistemas funcionavam em uma versão décadas atrasadas do
Windows, que a Microsoft nem se dava ao trabalho de atualizar. Uma
compreensão mecânica da linguagem, incorporada nos principais
serviços, poderia levar adiante preconceitos atuais por anos ou décadas.
Nas palavras da artista Nicole Aptekar, a base material derrota as
intenções.

O maior perigo da nova infraestrutura digital não é que ela irá tornar-se
obsoleta, ou tornar-se vulnerável a ataques, mas sim que suas piores
características persistirão. Uma vez construída a ponte, é muito difícil
derrubá-la.

Gostou do texto? Contribua para manter e ampliar nosso jornalismo


de profundidade: OutrosQuinhentos