Ruído – Uma falha no julgamento humano
Ruído – Uma falha no julgamento humano, por Daniel Kahneman, Olivier Sibony e Cass R. Sunstein.
Ideias centrais:
1 – Em processos parecidos por desvio de dinheiro, um réu tinha sido sentenciado a 117 dias de prisão, enquanto outro, a vinte anos. Enumerando diversos casos desse tipo, o juiz Marvin Frankel deplorou os poderes exorbitantes de juízes federais nos EUA. A variabilidade nesses e em outros julgamentos é chamada de ruído.
2 – Robyn Dawes obteve uma grande simplificação das tarefas preditivas. Sua ideia: em vez de usar a regressão múltipla para determinar o peso preciso de cada variável preditora, ele propôs peso igual a todas elas.
3 – A invisibilidade do ruído é consequência direta do pensamento causal. O ruído é inerentemente estatístico: ele se torna visível apenas quando pensamos de modo estatístico sobre um conjunto de julgamentos similares.
4 – Se tiramos a média de uma centena de julgamentos, reduzimos o ruído em 90%, se tiramos a média de 400 julgamentos, reduzimos em 95%, praticamente eliminando-o. Essa lei estatística é o mecanismo por trás da abordagem da sabedoria das multidões.
5 – Como seriam as organizações se fossem reformadas para reduzir o ruído. Hospitais, comitês de contratação, analistas econômicos, agências de governo, sistemas de justiça criminal e outros setores ficariam alertas ao problema. A auditoria de ruído se tornaria rotineira.
Sobre os autores:
Daniel Kahneman é professor de Psicologia na Universidade de Princeton e de Relações Públicas na Woodrow Wilson School of Public and International Affairs. Recebeu inúmeros prêmios, entre eles o Nobel de Economia em 2002. É autor do best-seller internacional Rápido e Devagar.
Olivier Sibony é professor de estratégia e política empresarial nos programas de MBA da École des Hautes Études Commercialles de Paris. É consultor especializado em tomada de decisão estratégica e organização de processos decisórios.
Cass R. Sunstein é especialista em direito constitucional, políticas regulatórias e análise econômica das leis. Escreve para inúmeros veículos de comunicação, como The New York Times, The Washington Post e outros. É coautor de Nudge e O custo dos direitos.
Introdução
Para compreender o erro no julgamento, devemos compreender tanto o viés quanto o ruído. Às vezes, como veremos, o ruído é o problema mais importante. Mas, em discussões públicas sobre o erro humano e em organizações do mundo todo, ele raramente é reconhecido. O viés rouba a cena. O ruído é um ator secundário, normalmente nos bastidores. O tema do viés é debatido em milhares de artigos científicos e dezenas de livros populares, mas poucos mencionam o problema do ruído. Este livro é uma tentativa de restabelecer o equilíbrio.
Em decisões do mundo real, a quantidade de ruído com frequência é escandalosamente alta. Eis alguns exemplos de quantidade alarmante de ruído em situações em que a precisão importa.
- A medicina é ruidosa. Para um mesmo paciente, diferentes médicos oferecem diferentes julgamentos sobre câncer de pele ou de mama, cardiopatia, tuberculose, pneumonia, depressão e uma série de outras enfermidades. O ruído é particularmente alto na psiquiatria, na qual o julgamento subjetivo obviamente é importante.
- Previsões especializadas são ruidosas. Analistas profissionais oferecem previsões altamente variáveis sobre as vendas de um novo produto, o crescimento provável da taxa de desemprego, a probabilidade de falência de uma empresa em crise e praticamente qualquer coisa.
- Decisões pessoais são ruidosas. Pessoas realizando entrevistas de emprego fazem avaliações amplamente diferentes dos mesmos candidatos. Análises de desempenho de um mesmo funcionário também são altamente variáveis e dependem mais de quem faz a avaliação do que do desempenho que está sendo avaliado.
- A ciência forense é ruidosa. Fomos ensinados a pensar na identificação de impressões digitais como infalível. Mas os examinadores de digitais às vezes divergem quando comparam a impressão encontrada na cena do crime com a de um suspeito.
Parte I: Encontrando o ruído
Nos anos 1970, o entusiasmo universal com a discricionariedade dos magistrados começou a desmoronar por um simples motivo: a evidência alarmante de ruídos. Em 1973, um famoso juiz, Marvin Frankel, chamou a atenção para o problema. Antes disso, ele atuara como um apaixonado defensor da liberdade de expressão e dos direitos humanos, ajudando a fundar o Lawyers Committee for Human Rights (organização conhecida atualmente como Human Rights First).
Frankel não forneceu nenhum tipo de análise estatística para sustentar seu argumento, mas ofereceu uma série de casos convincentes, mostrando disparidades injustificáveis no tratamento de indivíduos similares. Dois homens, ambos sem ficha criminal, tinham sido condenados por descontar cheques falsificados no valor de 58,40 e 35,20 dólares, respectivamente. O primeiro pegara quinze anos de prisão, o segundo, trinta dias. Em processos parecidos por desvio de dinheiro, um réu tinha sido sentenciado a 117 dias de prisão, enquanto outro, a vinte anos. Enumerando diversos casos desse tipo, Frankel deplorou o que chamou de “poderes quase completamente indiscriminados e ilimitados” dos juízes federais, que resultava em “crueldades arbitrárias perpetradas diariamente”, por ele consideradas inaceitáveis em um “governo das leis, não dos homens”.
Na década de 1970, os argumentos de Frankel e os resultados empíricos nos quais se baseavam chegaram ao conhecimento de Edward M. Kennedy, irmão do presidente assassinado John Kennedy e um dos membros mais influentes do Senado americano. Kennedy ficou chocado. Em 1975, o senador introduziu uma legislação para a reforma judiciária que não foi para a frente. Mas ele não desistiu. Mencionando as evidências, continuou ano após ano a pressionar pela aprovação da legislação. Em 1984, finalmente conseguiu. Para combater a variabilidade injustificada, o Congresso aprovou a Lei de Reforma das Sentenças de 1984.
A nova legislação se destinava a atacar o problema do ruído no sistema restringindo “o poder discricionário irrestrito que a lei confere a esses juízes e comitês de redução de pena responsáveis por impor e implementar tais sentenças. Em particular, os membros do Congresso se referiram a uma disparidade penal “injustificadamente ampla”, citando a descoberta de que na Grande Nova York a pena em casos reais idênticos podia variar de três a vinte anos de prisão. Como o juiz Frankel recomendara, a lei criou a Comissão de Sentenças dos Estados Unidos, cuja principal função era clara: produzir diretrizes que fossem obrigatórias e estabelecessem um alcance restrito para as sentenças criminais.
Parte II: Sua mente é um instrumento de medição
Julgamento avaliativo. Até aqui, nosso foco foram as tarefas de julgamento preditivo, e a maioria dos julgamentos que veremos é deste tipo. Mas o capítulo 1 sobre Frankel e o ruído nas sentenças dos juízes federais examina outro tipo de julgamento. Sentenciar alguém por um crime não é uma previsão. É um julgamento avaliativo que busca equiparar a sentença à gravidade do crime. Jurados em concursos de vinhos e competições de patinação ou salto ornamental; professores dando notas a alunos, comissões concedendo bolsas a projetos de pesquisa, todos fazem julgamentos avaliativos.
Um tipo diferente de julgamento avaliativo ocorre em decisões envolvendo múltiplas opções e preferências entre elas. Considere gerentes selecionando candidatos, investidores decidindo entre diferentes estratégias ou mesmo presidentes respondendo a uma epidemia na África. Sem dúvida, o input para todas estas decisões depende de julgamentos preditivos – por exemplo, como o candidato se sairá no primeiro ano, como o mercado de ações reage a determinada manobra ou com que rapidez a epidemia vai se espalhar se não for controlada. Mas as decisões finais requerem escolhas entre prós e contras das várias opções e essas escolhas são feitas por julgamentos avaliativos.
Como o preditivo, o julgamento avaliativo envolve uma expectativa de discordância restrita. Dificilmente ouviremos um juiz federal que se dê ao respeito dizer: “Prefiro essa punição e não ligo se meus colegas pensam diferente”. E o tomador de decisão escolhendo entre diversas opções estratégicas espera que os colegas e observadores munidos da mesma informação e partilhando dos mesmos objetivos concordem com ele, ou ao menos não discordem demais. O julgamento avaliativo depende em parte dos valores e preferências de quem o faz, mas não é mera questão de gosto ou opinião.
Por esse motivo, a fronteira entre os julgamentos preditivo e avaliativo é vaga e a pessoa que elabora o julgamento com frequência não está ciente disso. Juízes determinando sentenças ou professores dando notas estão muito concentrados na tarefa e empenhados em encontrar a resposta “certa”.
Parte III: O ruído no julgamento preditivo
Mais simplicidade: robustez e beleza. Robyn Dawes foi outro membro da extraordinária equipe em Eugene, Oregon, que estudou o julgamento nas décadas de 1960 e 1970. Em 1974, Dawes obteve um grande progresso na simplificação de tarefas preditivas. Sua ideia era surpreendente, quase herética: em vez de usar a regressão múltipla para determinar o peso preciso de cada variável preditora, ele propôs peso igual a todas elas.
Dawes batizou a fórmula dos pesos iguais de modelo linear impróprio. Sua descoberta surpreendente foi de que esses modelos de pesos iguais são praticamente tão precisos quanto os modelos de regressão “apropriados’, e muito superiores a julgamentos clínicos.
Hoje, muitos anos após a grande inovação de Dawes, o fenômeno estatístico que tanto surpreendeu seus contemporâneos é bem compreendido. Como explicamos anteriormente neste livro, a regressão múltipla computa os pesos “ótimos” que minimizam os erros quadráticos. Mas a regressão múltipla minimiza o erro nos dados originais. A fórmula, portanto, se ajusta para prever os acasos aleatórios nos dados. Se, por exemplo, a amostra inclui alguns gerentes com elevadas habilidades técnicas que também se saíram excepcionalmente bem por motivos não relacionados, o modelo vai exagerar o peso da habilidade técnica.
O desafio é o seguinte: quando a fórmula for aplicada fora da amostra – ou seja, quando é usada para prever resultados em um diferente conjunto de dados –, os pesos não serão mais ótimos. Os acasos na amostra original não estão mais presentes, precisamente porque eram acasos; na nova amostra, gerentes com altas habilidades técnicas não de destacam. E a nova amostra tem diferentes acasos, que a fórmula não consegue prever. A medida correta de precisão de um modelo preditivo é seu desempenho em uma nova amostra, chamada de correlação de validação cruzada. Na prática, um modelo de regressão é bem-sucedido demais na amostra original e uma correlação de validação cruzada é quase sempre mais baixa do que o foi nos dados originais. Dawes e Corrigan compararam modelos de peso igual a modelos de regressão múltipla (de validação cruzada) em diversas situações. Um de seus exemplos envolveu previsões de média escolar no primeiro ano para noventa alunos de pós-graduação em Psicologia da Universidade de Illinois, usando variáveis ligadas ao sucesso acadêmico: pontuações no teste de aptidão, notas, classificações variadas pelos pares (por exemplo, extroversão) e autoclassificações (por exemplo, integridade). O modelo de regressão múltipla padrão obteve uma correlação de 0,69, que encolheu para 0,57 (PC = 69%) na validação cruzada. A correlação do modelo de pesos iguais com a média escolar do primeiro ano foi praticamente a mesma: 0,60 (PC = 70%). Resultados similares foram obtidos em muitos outros estudos.
Parte IV: Como o ruído acontece
O ruído é estatístico. Como já fizemos notar, nosso modo normal de pensar é causal. Atentamos de modo natural para o particular, acompanhando e criando relatos causalmente coerentes sobre casos individuais, em que os fracassos são com frequência atribuídos a erros, e os erros a vieses. A facilidade com que julgamentos ruins podem ser explicados não deixa margem para o ruído em nossos relatos de erros.
A invisibilidade do ruído é consequência direta do raciocínio causal. O ruído é inerentemente estatístico: ele se torna visível apenas quando pensamos de modo estatístico sobre um conjunto de julgamentos similares. Na verdade, a partir daí, dificilmente passa despercebido: ele é a variabilidade nas estatísticas retrospectivas sobre decisões de sentença e prêmios de seguro; é a gama de possibilidades quando você e outros consideram como prever um resultado futuro; é a dispersão dos tiros em um alvo. Causalmente, o ruído não está em lugar algum; estatisticamente, está em toda parte.
Adotar a perspectiva estatística não é fácil. Invocamos com tranquilidade causas para os eventos que observamos, mas pensar estatisticamente sobre eles exige estudo e domínio do assunto. Causas são naturais; estatísticas são difíceis.
O resultado é um marcado desequilíbrio em nossa visão do viés e do ruído como fontes de erro. Talvez você já tenha visto por aí um tipo de ilustração usado em psicologia introdutória em que uma figura detalhada se destaca contra um fundo indistinto. Nossa atenção se fixa com firmeza na figura mesmo quando ela é pequena contra o segundo plano. As demonstrações figura/fundo são uma metáfora adequada para nossas intuições quanto ao viés e ao ruído: o viés é uma figura que atrai o olhar, enquanto o ruído é o segundo plano, ao qual não prestamos atenção. Desse modo, permanecemos em boa parte alheios a uma ampla falha em nosso julgamento.
Estamos devidamente focados em reduzir os vieses. Devemos nos preocupar também em reduzir o ruído.
Parte V: Aprimorando os julgamentos
Melhorando as previsões. A pesquisa também oferece sugestões para reduzir o ruído e o viés. Não as revisaremos exaustivamente aqui, mas abordaremos duas estratégias de redução de ruído com ampla aplicação. Uma é a utilização do princípio mencionado anteriormente: selecionar juízes melhores produz julgamentos melhores. A outra é uma das estratégias de higiene da decisão mais universalmente aplicáveis: agregar múltiplas estimativas independentes.
O modo mais fácil de agregar previsões diversas é tirar uma média. A média é uma garantia matemática de redução do ruído; especificamente, ela o divide pela raiz quadrada do número médio de julgamentos. Isso significa que, se tiramos a média de uma centena de julgamentos, reduzimos o ruído em 90%, se tiramos a média de 400 julgamentos, o reduzimos em 95% – essencialmente eliminando-o. Essa lei estatística é o mecanismo por trás da abordagem da sabedoria das multidões.
Como a média em nada contribui para a redução do viés, seu efeito no erro total (EQM) depende das proporções de viés e ruído que ele contém. É por isso que a sabedoria das multidões funciona melhor quando os julgamentos são independentes, e portanto com menor probabilidade de conter vieses compartilhados. Empiricamente, amplas evidências sugerem que a média de múltiplas previsões aumenta em grau elevado a precisão, por exemplo, do “consenso” de analistas de investimento sobre o mercado de ações. Com respeito a previsões em vendas, meteorologia e economia, a média não ponderada de grupo supera a maioria dos previsores individuais, e às vezes todos eles. A média de previsões obtidas por diferentes métodos exerce o mesmo efeito: em uma análise de trinta comparações empíricas em diversas áreas, as previsões combinadas reduziram os erros em 12,5%, na média.
A média aritmética simples não é a única maneira de agregar previsões. Uma estratégia de multidão seleta, que seleciona os melhores juízes segundo a precisão de seus julgamentos recentes e tira a média dos julgamentos de um pequeno número de juízes (por exemplo, cinco), pode ser tão eficaz quanto a média simples. Também é mais fácil para o tomador de decisão que respeita o conhecimento especializado compreender a adotar uma estratégia baseada tanto na agregação como na seleção.
Um método para produzir previsões agregadas é usar mercados preditivos, em que os indivíduos apostam nos resultados prováveis e são desse modo incentivados a fazer previsões corretas. Na maior parte das vezes os mercados preditivos se saíram muito bem, no sentido de que, se o preço do mercado preditivo sugere que os eventos têm, digamos, 70% de chance de acontecer, eles acontecem cerca de 70% do tempo. Muitas empresas em vários setores usam mercados preditivos para agregar opiniões diversas.
Parte VI: Ruído otimizado
Estabelecer padrões sem especificar detalhes geralmente leva a ruído, que pode ser controlado mediante algumas estratégias já vistas, como agregar julgamentos e usar o protocolo de avaliações mediadoras. Às vezes, os líderes querem estabelecer regras sem que na prática consigam concordar com elas. Nas próprias constituições encontramos muitos padrões (proteger a liberdade de religião, por exemplo). O mesmo é verdade da Declaração Universal dos Direitos Humanos (“Todos os seres humanos nascem livres e iguais em dignidade e direitos”).
A grande dificuldade em fazer com que pessoas diversas concordem sobre regras de redução de ruído é um dos motivos para o estabelecimento de padrões em vez de regras. Os líderes de uma empresa podem ser incapazes de concordar com palavras específicas que determinam como os funcionários devem lidar com o cliente. A melhor maneira de conseguir isso talvez sejam padrões. O setor público é análogo. Legisladores podem chegar a um acordo acerca de um padrão (e tolerar o ruído resultante) se esse for o preço a pagar pelo próprio exercício da legislatura. Médicos podem concordar com padrões para diagnosticar doenças, mas se alguém tenta impor regras, normalmente surge uma discordância intratável.
Mas divisões sociais e políticas não são o único motivo para as pessoas recorrerem a padrões em vez de regras. Às vezes, o real problema é carecerem de informação que as capacitaria a produzir regras sensatas. Uma universidade pode ser incapaz de criar regras para governar suas decisões de promover membros do corpo docente. Um empregador pode ter dificuldade para antever todas as circunstâncias que o levariam a manter ou suspender algum funcionário. Deputados federais podem não saber o nível adequado de poluentes do ar – material particulado, ozônio, óxido de nitrogênio, chumbo. O melhor a fazer é aprovar algum tipo de padrão e confiar nos especialistas para especificar seu significado, mesmo que a consequência seja o ruído.
Regras podem ser enviesadas de muitas formas. Uma lei poderia proibir mulheres na polícia. Ainda que criem um amplo viés, as regras reduzirão nitidamente o ruído (se todos as cumprirem). Se a lei diz que são proibidos a venda e o consumo de bebidas alcoólicas a menores de 21 anos e todos a respeitam, provavelmente haverá pouco ruído. Já os padrões são um convite ao ruído.
Nos negócios e no governo, a escolha entre regras e padrões com frequência é intuitiva, mas ela pode ser feita de forma mais disciplinada. Como uma primeira aproximação, a escolha depende de apenas dois fatores: (1) o custo das decisões e (2) o custo dos erros.
Com padrões, o custo das decisões pode ser muito alto para juízes de todo tipo, simplesmente porque cabe a eles trabalhar para lhes atribuir conteúdo. O exercício do julgamento pode ser oneroso. Para fazer seu melhor diagnóstico, o médico teria de refletir longamente sobre cada caso (e os julgamentos podem muito bem ser ruidosos). Quando médicos contam com diretrizes claras para decidir se os pacientes têm faringite, suas decisões podem ser rápida e relativamente inequívocas. Se o limite de velocidade é de 100 km/h, o policial não precisa perder tempo pensando no quanto os carros podem correr, mas, se houver um padrão afirmando que não devem dirigir numa “velocidade exagerada”, ele vai quebrar a cabeça para se decidir (e a imposição da lei será certamente ruidosa). Com regras, os custos das decisões em geral são muito mais baixos.
Mesmo assim, é complicado. A aplicação de uma regra pode ser inequívoca, mas, antes de ser estabelecida, alguém tem de decidir em que ela consiste. Criar uma regra pode ser difícil. Às vezes, o custo é proibitivo. Sistemas legais e empresas privadas desse modo usam com frequência palavras como razoável, prudente e viável. Por esse motivo termos como esses desempenham um papel igualmente importante em áreas como medicina e engenharia.
Epílogo
Imagine como seriam as organizações se fossem reformadas para reduzir o ruído. Hospitais, comitês de contratação, analistas econômicos, agências de governo, companhias de seguro, autoridades de saúde pública, sistemas de justiça criminal, escritórios de advocacia e universidades ficariam mais alertas ao problema e tentariam reduzi-lo. A auditoria de ruído seria rotineira: poderia ser realizada anualmente.
Os líderes das organizações usariam algoritmos para substituir o julgamento humano ou para suplementá-lo em muito mais áreas do que hoje. As pessoas decomporiam os julgamentos complexos em avaliações mediadoras mais simples. Saberiam da higiene da decisão e seguiriam suas prescrições. Julgamentos independentes seriam feitos e agregados. As reuniões de negócios teriam aspecto bem diferente; as discussões seriam mais estruturadas. Uma visão de fora seria mais sistematicamente integrada ao processo decisório. As discordâncias evidentes seriam mais frequentes e resolvidas de forma mais instrutiva.
O resultado seria um mundo menos ruidoso. Isso economizaria bastante dinheiro, melhoraria a segurança e a saúde públicas, aumentaria a justiça e preveniria erros evitáveis. Nosso objetivo ao escrever este livro foi chamar a atenção para essa oportunidade. Esperamos que vá aproveitá-la.
Ficha técnica:
Título: Ruído – Uma falha no julgamento humano
Título original: Noise: A Flaw in Human Judgment
Autores: Daniel Kahneman, Olivier Sibony e Cass R. Sunstein
Primeira edição: Objetiva
Resenha: Rogério H. Jönck
- Aumentar
- Diminuir
- Compartilhar
Deixe um comentário
Você precisa fazer o login para publicar um comentário.