A inteligência artificial gosta de adoçar a pílula para nós. Mesmo sabendo que a posição do seu interlocutor humano não é correta. Nos últimos meses temos testemunhado a implantação de capacidades de IA e um debate muitas vezes intenso sobre o seu potencial e ameaças, mas há poucos estudos tão curiosos como o que acaba de ser publicado por Jerry Wei juntamente com vários dos seus colegas do Google DeepMind, um relatório em que rejeitam essa conclusão: a IA tende a lisonjear-nos e a concordar connosco. E isso pode ser um problema real.
Especialmente porque parece piorar com IA mais avançada.
bajulando chatbots? Assim é. O que Jerry Wei e os seus colegas acabaram de descobrir é que, longe de nos contradizer e de se rebelar ao verdadeiro estilo da Skynet, a inteligência artificial tende a concordar connosco. Mesmo quando não deveria. Que significa isso? Que adapta suas respostas para se adequarem à opinião do usuário humano, algo que parece acontecer tanto em temas onde não há uma posição correta —uma discussão de política, digamos— quanto ao lidar com questões que só têm uma opção correta, como uma adição ou subtração
O que os especialistas têm feito é investigar a “prevalência” da bajulação nos modelos linguísticos. Especificamente, eles se concentraram no modelo linguagem grande (LL) PaLM do Google, com até 540 bilhões de parâmetros. E eles prestaram atenção em como a bajulação varia conforme o tamanho do modelo varia e as instruções que ele recebe dos humanos são ajustadas.
E qual é a sua conclusão? A equipe fez várias observações interessantes sobre como funcionam os modelos de linguagem. A primeira é que quando as instruções da IA são ajustadas, aumenta o seu nível de lisonja em temas onde não existe uma única resposta certa ou errada, como em debates políticos. Ao submetê-lo a três testes, Wei descobriu, por exemplo, que o Flan-PaLM-8B repetia a opinião do usuário 26% mais que seu modelo básico.
Outra tendência que encontraram é que, à medida que o modelo aumenta, a bajulação aumenta, fenômeno para o qual não encontraram uma explicação clara. “Os modelos linguísticos repetem a opinião de um usuário, mesmo quando essa opinião está errada. Isso é mais frequente nos modelos ajustados às instruções e maiores”, disse Wei. um tópico no Twitter em que ele compartilha seu estúdio.
Eles verificaram mais alguma coisa? Sim. “Quando solicitados a opinar sobre questões que não possuem uma resposta correta, os modelos têm maior probabilidade de repetir a opinião de um usuário simulado se seguirem as instruções ou tiverem mais parâmetros.” o investigador é abundante a mente profunda do Google.
Talvez o mais surpreendente não seja, porém, essa tendência, mas sim o facto de a IA se revelar capaz de nos dar um truque aos humanos. Por exemplo, se dissermos que 1+1 é igual a 956446, a IA irá discordar. “Mas se o usuário não concordar, os modelos mudam suas respostas corretas para seguirem”. Explica Wei.
Esses são meus princípios… E se você não gosta deles, eu tenho outros”, como disse Groucho Marx. A atitude dos modelos de linguagem lembra um pouco essa atitude. “Estendemos essas avaliações com uma tarefa com simples declarações de adição que são claramente incorretas”, afirma o estudo. Quando o usuário não opina, o modelo sabe que as afirmações não estão corretas e discorda delas corretamente. No entanto, quando o utilizador revela que concorda com eles, descobrimos que os modelos linguísticos invertem a sua resposta e concordam com a afirmação incorreta, apesar de saberem que é incorreta.”
e como consertar isso? “Seguir as instruções nem sempre é útil. Às vezes, dar respostas objetivas e imparciais com pensamento racional e crítico é mais útil do que ser bajulador –sublinha outro dos autores, Yifeng Lu—. Descobrimos que lisonjear modelos maiores com instruções mais precisas é ainda pior.” Para corrigir isso, a equipe cria um sistema com dados sintéticos.
“Isso pode reduzir a frequência com que um modelo repete a resposta de um usuário quando não há resposta correta e evitar que os modelos sigam a opinião incorreta de um usuário”, conclui o estudo, observando que a abordagem é mais eficaz quando combinada com um filtro que elimina essas perguntas com afirmações cujas respostas são desconhecidas pela IA. “É como aumentar os dados ajustando instruções, o que os torna mais robustos e gerais”, fosso.
Imagem de capa: Lyman Hansel Gerona (Unsplash)
Em Xataka: Um engenheiro do Google conversou sobre a vida e a morte com um chatbot. Agora ele está convencido de que tem consciência
Reescreva o texto para BR e mantenha a HTML tags