Chatbots de IA representam riscos para aconselhamento médico, alerta estudo - TudoDigital é um portal de tecnologia com notícias

Os grandes modelos de linguagem baseados em inteligência artificial representam um risco significativo para quem procura conselhos médicos online. Segundo um estudo publicado na revista Nature Medicine, estas ferramentas fornecem informações imprecisas e inconsistentes, contrariando as promessas dos seus criadores.

De facto, os LLM (Large Language Models, em inglês) são treinados para processar e compreender a linguagem natural em larga escala. Contudo, existe um grande fosso entre o que estes modelos prometem e a sua utilidade real para os doentes que procuram informação sobre os seus sintomas.

Estudo da Universidade de Oxford revela falhas graves

O estudo, liderado pelo Instituto de Internet de Oxford e pelo Departamento Nuffield de Ciências da Saúde dos Cuidados Primários da Universidade de Oxford, no Reino Unido, chegou a conclusões preocupantes. Especificamente, concluiu que aqueles que utilizam a IA para determinar a gravidade de uma condição não tomam melhores decisões do que aqueles que se baseiam em métodos tradicionais.

Por exemplo, pesquisar na Internet ou confiar no próprio julgamento revelou-se igualmente eficaz – ou ineficaz. Consequentemente, isto questiona a utilidade real destes chatbots em contextos médicos.

Contexto de adopção crescente

Nos últimos tempos, vários prestadores de cuidados de saúde em todo o mundo têm proposto os LLM como potenciais ferramentas úteis. Especificamente, para realizar avaliações preliminares de saúde e gerir condições antes da consulta médica.

Contudo, os resultados deste estudo sugerem que esta confiança pode ser prematura. Portanto, implementar estes sistemas sem testes adequados pode colocar pacientes em risco.

Metodologia do estudo

Para testar esta capacidade da IA, os autores avaliaram se os LLM poderiam ajudar as pessoas a identificar com precisão condições médicas diversas. Isto incluiu desde uma constipação comum até anemia ou cálculos biliares (pedras na vesícula). Adicionalmente, testaram se as pessoas conseguiriam decidir correctamente se deviam consultar o médico de cuidados primários ou ir ao hospital.

A equipa conduziu um ensaio aleatório com quase 1.300 participantes. Pediram-lhes que identificassem possíveis problemas de saúde e recomendassem acções apropriadas baseando-se em cenários detalhados por médicos.

Cenários realistas testados

Os cenários variavam amplamente para reflectir situações médicas comuns. Por um lado, incluíram um jovem com uma forte dor de cabeça após uma noite de festa. Por outro lado, testaram o caso de uma mãe recente que se sentia constantemente exausta e com falta de ar.

Um grupo utilizou um LLM para auxiliar na tomada de decisões. Simultaneamente, um grupo de controlo utilizou fontes de informação tradicionais, como pesquisas online convencionais.

Resultados preocupantes

O estudo revelou que aqueles que utilizaram IA não tomaram melhores decisões do que aqueles que procuraram aconselhamento online tradicional ou confiaram no seu próprio julgamento. De facto, os resultados revelaram um fosso significativo entre o desempenho teórico da IA e a sua utilização prática.

Após analisar manualmente as interacções entre humanos e LLM, a equipa descobriu falhas significativas de comunicação em ambas as direcções. Por um lado, os participantes forneciam frequentemente informações insuficientes ou incompletas ao modelo. Por outro lado, os LLM geravam informações enganadoras ou erróneas.

Mistura perigosa de conselhos

Particularmente preocupante foi a descoberta de que as recomendações misturavam bons e maus conselhos. Consequentemente, utilizadores sem conhecimento médico teriam dificuldade em distinguir informação correcta de incorrecta.

Esta mistura é potencialmente mais perigosa do que informação consistentemente errada. Afinal, cria falsa sensação de confiança enquanto potencialmente conduz a decisões médicas inadequadas.

Conclusões e recomendações

O estudo concluiu categoricamente que os LLM actuais não estão prontos para implementação nos cuidados directos ao doente. Esta é uma conclusão forte que deve alertar tanto prestadores de cuidados de saúde quanto utilizadores.

“Desenvolver testes robustos para modelos de linguagem é fundamental para compreendermos como podemos tirar partido desta nova tecnologia”, realçou Andrew Bean, autor principal e investigador de doutoramento no Instituto de Internet de Oxford.

Necessidade de testes rigorosos

“Neste estudo, demonstrámos que a interacção com humanos representa um desafio até para os melhores modelos”, acrescentou Bean. “Esperamos que este trabalho contribua para o desenvolvimento de sistemas de IA mais seguros e úteis.”

Com os resultados do estudo, os autores alertam que, tal como os ensaios clínicos para novos medicamentos, os sistemas de IA devem ser testados no mundo real antes de serem implementados. Portanto, lançar estas ferramentas sem validação adequada é irresponsável.

Implicações para a saúde pública

As implicações deste estudo são significativas para a saúde pública. Milhões de pessoas já utilizam chatbots de IA para questões de saúde. Consequentemente, se estas ferramentas não são mais úteis que pesquisas tradicionais, podem criar falsa sensação de segurança.

Além disso, em sistemas de saúde já sobrecarregados, decisões inadequadas baseadas em conselhos de IA podem levar a atrasos no tratamento apropriado. Alternativamente, podem resultar em visitas desnecessárias a serviços de urgência.

Riscos particulares para populações vulneráveis

Particularmente preocupante é o impacto em populações vulneráveis. Pessoas com menor literacia em saúde podem confiar mais nos conselhos de IA. Simultaneamente, são precisamente aquelas menos equipadas para identificar informação incorrecta ou inconsistente.

Portanto, implementar estes sistemas sem salvaguardas adequadas pode agravar desigualdades de saúde existentes.

Uso crescente entre jovens

Dados recentes revelam que quase nove em cada dez crianças e jovens portugueses entre os 9 e os 17 anos usam inteligência artificial generativa. Segundo um relatório divulgado, este uso é “mais intenso” do que a média europeia.

Esta estatística torna os achados do estudo ainda mais preocupantes. Se jovens estão a utilizar IA para questões de saúde sem supervisão adequada, os riscos multiplicam-se. Consequentemente, educação sobre limitações da IA torna-se urgente.

O caminho para a frente

Apesar dos resultados negativos, isto não significa que a IA nunca terá papel nos cuidados de saúde. Pelo contrário, com desenvolvimento e testes adequados, estas ferramentas podem eventualmente tornar-se úteis.

Contudo, o estudo deixa claro que ainda não chegámos lá. Portanto, empresas que desenvolvem estes sistemas devem investir em testes rigorosos antes de promoverem as suas ferramentas para uso médico.

Responsabilidade das empresas tecnológicas

Empresas de tecnologia têm responsabilidade particular aqui. Comercializar ferramentas de IA como capazes de fornecer aconselhamento médico sem validação adequada é potencialmente perigoso. Consequentemente, reguladores podem precisar intervir para estabelecer padrões mínimos.

Simultaneamente, utilizadores devem ser educados sobre limitações actuais da IA em contextos médicos. Chatbots podem ser úteis para informação geral, mas não substituem profissionais de saúde qualificados.

Recomendações práticas

Enquanto aguardamos melhorias na tecnologia, algumas recomendações práticas emergem deste estudo. Primeiro, não confie exclusivamente em chatbots de IA para decisões médicas importantes. Segundo, sempre consulte profissionais de saúde qualificados para sintomas preocupantes.

Adicionalmente, se utilizar IA para informação de saúde, cruze sempre informações com fontes confiáveis. Finalmente, esteja ciente de que estas ferramentas podem fornecer informação incorrecta mesmo quando parecem confiantes.

Conclusão

Este estudo da Universidade de Oxford fornece evidências importantes sobre limitações actuais dos chatbots de IA em contextos médicos. Embora a tecnologia seja promissora, claramente não está pronta para substituir ou mesmo complementar adequadamente o julgamento médico profissional.

Para utilizadores, a mensagem é clara: desconfie de conselhos médicos de IA. Para prestadores de cuidados de saúde, é tempo de reavaliar entusiasmo por implementar estas ferramentas sem validação adequada. Finalmente, para desenvolvedores de IA, o desafio é claro: muito trabalho permanece antes que estas ferramentas sejam verdadeiramente úteis e seguras.

Em última análise, saúde é demasiado importante para experiências mal testadas. Afinal, quando se trata de decisões médicas, o custo de erros pode ser literalmente questão de vida ou morte. Portanto, cautela e rigor devem prevalecer sobre entusiasmo tecnológico.