Modelos de IA julgam mal as violações de regras: decisões entre humanos e máquinas

blog

LarLar / blog / Modelos de IA julgam mal as violações de regras: decisões entre humanos e máquinas

Oct 20, 2023

Modelos de IA julgam mal as violações de regras: decisões entre humanos e máquinas

Resumo: Os pesquisadores descobriram que os modelos de IA muitas vezes falham em replicar com precisão

Resumo: Os pesquisadores descobriram que os modelos de IA geralmente falham em replicar com precisão as decisões humanas em relação às violações de regras, tendendo a julgamentos mais severos. Isso é atribuído ao tipo de dados em que esses modelos são treinados; muitas vezes rotulados de forma descritiva em vez de normativa, o que leva a diferentes interpretações de violações de regras.

A discrepância pode resultar em sérias consequências no mundo real, como sentenças judiciais mais rígidas. Portanto, os pesquisadores sugerem melhorar a transparência do conjunto de dados e combinar o contexto de treinamento com o contexto de implantação para obter modelos mais precisos.

Fatos principais:

Fonte:COM

Em um esforço para melhorar a justiça ou reduzir os atrasos, os modelos de aprendizado de máquina às vezes são projetados para imitar a tomada de decisão humana, como decidir se as postagens de mídia social violam as políticas de conteúdo tóxico.

Mas pesquisadores do MIT e de outros lugares descobriram que esses modelos muitas vezes não replicam decisões humanas sobre violações de regras. Se os modelos não forem treinados com os dados corretos, eles provavelmente farão julgamentos diferentes, muitas vezes mais severos do que os humanos.

Nesse caso, os dados "certos" são aqueles rotulados por humanos aos quais foi perguntado explicitamente se os itens desafiam uma determinada regra. O treinamento envolve mostrar a um modelo de aprendizado de máquina milhões de exemplos desses "dados normativos" para que ele possa aprender uma tarefa.

Mas os dados usados ​​para treinar modelos de aprendizado de máquina são normalmente rotulados de forma descritiva – o que significa que os humanos são solicitados a identificar características factuais, como, digamos, a presença de frituras em uma foto.

Se "dados descritivos" forem usados ​​para treinar modelos que julgam violações de regras, como se uma refeição viola uma política escolar que proíbe frituras, os modelos tendem a superestimar as violações de regras.

Essa queda na precisão pode ter sérias implicações no mundo real. Por exemplo, se um modelo descritivo for usado para tomar decisões sobre a probabilidade de reincidência de um indivíduo, as descobertas dos pesquisadores sugerem que ele pode lançar julgamentos mais rígidos do que um humano faria, o que poderia levar a valores de fiança mais altos ou sentenças criminais mais longas.

“Acho que a maioria dos pesquisadores de inteligência artificial/aprendizado de máquina assume que os julgamentos humanos em dados e rótulos são tendenciosos, mas esse resultado está dizendo algo pior.

“Esses modelos nem mesmo reproduzem julgamentos humanos já tendenciosos porque os dados nos quais estão sendo treinados têm uma falha: os humanos rotulariam os recursos de imagens e textos de maneira diferente se soubessem que esses recursos seriam usados ​​para um julgamento.

“Isso tem grandes ramificações para sistemas de aprendizado de máquina em processos humanos”, diz Marzyeh Ghassemi, professor assistente e chefe do Grupo de ML Saudável no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL).

Ghassemi é o autor sênior de um novo artigo detalhando essas descobertas, publicado hoje na Science Advances. Juntando-se a ela no artigo estão a autora principal Aparna Balagopalan, uma estudante de pós-graduação em engenharia elétrica e ciência da computação; David Madras, aluno de pós-graduação da Universidade de Toronto; David H. Yang, um ex-aluno de pós-graduação que agora é cofundador da ML Estimation; Dylan Hadfield-Menell, professor assistente do MIT; e Gillian K. Hadfield, Schwartz Reisman Chair em Tecnologia e Sociedade e professor de direito na Universidade de Toronto.

Discrepância de rotulagem

Este estudo surgiu de um projeto diferente que explorou como um modelo de aprendizado de máquina pode justificar suas previsões. Ao coletar dados para esse estudo, os pesquisadores notaram que os humanos às vezes dão respostas diferentes se forem solicitados a fornecer rótulos descritivos ou normativos sobre os mesmos dados.

Para reunir rótulos descritivos, os pesquisadores pedem aos rotuladores que identifiquem características factuais — este texto contém linguagem obscena? Para reunir rótulos normativos, os pesquisadores dão aos rotuladores uma regra e perguntam se os dados violam essa regra – este texto viola a política de linguagem explícita da plataforma?