Quão boa é essa IA
2 minutos de leitura
Num relance:
Ferramentas de IA que criam relatórios narrativos detalhados de tomografia computadorizada ou raio-X de um paciente com rapidez e precisão podem aliviar muito a carga de trabalho de radiologistas ocupados.
Em vez de apenas identificar a presença ou ausência de anormalidades em uma imagem, esses relatórios de IA transmitem informações diagnósticas complexas, descrições detalhadas, descobertas diferenciadas e graus apropriados de incerteza. Em suma, refletem a forma como os radiologistas humanos descrevem o que vêem num exame.
Obtenha mais notícias do HMS aqui
Vários modelos de IA capazes de gerar relatórios narrativos detalhados começaram a aparecer em cena. Com eles vieram sistemas de pontuação automatizados que avaliam periodicamente essas ferramentas para ajudar a informar seu desenvolvimento e aumentar seu desempenho.
Então, quão bem os sistemas atuais avaliam o desempenho radiológico de um modelo de IA?
A resposta é boa, mas não ótima, de acordo com um novo estudo realizado por pesquisadores da Harvard Medical School publicado em 3 de agosto na revista Patterns.
Garantir que os sistemas de pontuação sejam confiáveis é fundamental para que as ferramentas de IA continuem a melhorar e para que os médicos confiem nelas, disseram os pesquisadores, mas as métricas testadas no estudo não conseguiram identificar de forma confiável erros clínicos nos relatórios de IA, alguns deles significativos. A descoberta, disseram os pesquisadores, destaca uma necessidade urgente de melhoria e a importância de projetar sistemas de pontuação de alta fidelidade que monitorem de forma fiel e precisa o desempenho da ferramenta.
Saúde do coração. Nutrição. Saúde cerebral. E mais.
A equipe testou várias métricas de pontuação em relatórios narrativos gerados por IA. Os pesquisadores também pediram a seis radiologistas humanos que lessem os relatórios gerados pela IA.
A análise mostrou que, em comparação com os radiologistas humanos, os sistemas de pontuação automatizados tiveram pior desempenho na sua capacidade de avaliar os relatórios gerados pela IA. Eles interpretaram mal e, em alguns casos, ignoraram os erros clínicos cometidos pela ferramenta de IA.
“Avaliar com precisão os sistemas de IA é o primeiro passo crítico para gerar relatórios radiológicos que sejam clinicamente úteis e confiáveis”, disse o autor sênior do estudo, Pranav Rajpurkar, professor assistente de informática biomédica no Instituto Blavatnik da HMS.
Em um esforço para projetar melhores métricas de pontuação, a equipe desenvolveu um novo método (RadGraph F1) para avaliar o desempenho de ferramentas de IA que geram automaticamente relatórios radiológicos a partir de imagens médicas.
Eles também desenvolveram uma ferramenta de avaliação composta (RadCliQ) que combina múltiplas métricas em uma única pontuação que corresponde melhor a como um radiologista humano avaliaria o desempenho de um modelo de IA.
Usando essas novas ferramentas de pontuação para avaliar vários modelos de IA de última geração, os pesquisadores encontraram uma lacuna notável entre a pontuação real dos modelos e a pontuação máxima possível.
“Medir o progresso é fundamental para levar a IA na medicina ao próximo nível”, disse o coautor Feiyang 'Kathy' Yu, pesquisador associado do laboratório Rajpurkar. “Nossa análise quantitativa nos aproxima da IA que capacita os radiologistas para fornecer melhor atendimento ao paciente.”
A longo prazo, a visão dos investigadores é construir modelos generalistas de IA médica que executem uma série de tarefas complexas, incluindo a capacidade de resolver problemas nunca antes encontrados. Tais sistemas, disse Rajpurkar, poderiam conversar fluentemente com radiologistas e médicos sobre imagens médicas para auxiliar no diagnóstico e nas decisões de tratamento.
A equipe também pretende desenvolver assistentes de IA que possam explicar e contextualizar os achados de imagem diretamente aos pacientes, usando uma linguagem simples do dia a dia.
“Ao nos alinharmos melhor com os radiologistas, nossas novas métricas acelerarão o desenvolvimento de IA que se integra perfeitamente ao fluxo de trabalho clínico para melhorar o atendimento ao paciente”, disse Rajpurkar.
Autoria, financiamento, divulgações
Os coautores incluem Mark Endo, Ryan Krishnan, Ian Pan, Andy Tsai, Eduardo Pontes Reis, Eduardo Kaiser, Ururahy Nunes Fonseca, Henrique Min, Ho Lee, Zahra Shakeri, Hossein Abad, Andrew Ng, Curtis P. Langlotz e Vasantha Kumar Venugopal.