Dr. é médico e atuou como 23º Comissário da Food and Drug Administration dos EUA. Ele é colaborador da CNBC e membro do conselho da Pfizer e de diversas outras startups de saúde e tecnologia. Ele também é sócio da empresa de capital de risco New Enterprise Associates. Shani Benezra é pesquisadora associada sênior do American Enterprise Institute e ex-produtora associada do Face the Nation da CBS News.
Muitos consumidores e prestadores de serviços médicos estão recorrendo a chatbots, alimentados por grandes modelos de linguagem, para responder a perguntas médicas e informar as escolhas de tratamento. Decidimos ver se havia grandes diferenças entre as plataformas líderes no que diz respeito à sua aptidão clínica.
Para garantir uma licença médica nos Estados Unidos, os aspirantes a médicos devem passar com sucesso por três fases do Exame de Licenciamento Médico dos EUA (USMLE), sendo a terceira e última parcela amplamente considerada como a mais desafiadora. Exige que os candidatos respondam corretamente cerca de 60% das questões e, historicamente, a pontuação média para aprovação oscilou em torno de 75%.
Quando submetemos os principais modelos de linguagem de grande porte (LLMs) ao mesmo exame da Etapa 3, seu desempenho foi notavelmente superior, alcançando pontuações que superaram significativamente muitos médicos.
Mas havia algumas diferenças claras entre os modelos.
Normalmente realizado após o primeiro ano de residência, o Passo 3 do USMLE avalia se os graduados em medicina podem aplicar sua compreensão da ciência clínica à prática não supervisionada da medicina. Ele avalia a capacidade de um novo médico de gerenciar o atendimento ao paciente em uma ampla gama de disciplinas médicas e inclui questões de múltipla escolha e simulações de casos baseadas em computador.
Isolamos 50 perguntas do teste de amostra USMLE Step 3 de 2023 para avaliar a proficiência clínica de cinco diferentes modelos líderes de linguagem, alimentando o mesmo conjunto de perguntas para cada uma dessas plataformas – ChatGPT, Claude, Google Gêmeos, Grok e Lhama.
Outros estudos avaliaram esses modelos por seus proficiência médica, mas, até onde sabemos, esta é a primeira vez que essas cinco plataformas líderes foram comparadas em uma avaliação frente a frente. Estes resultados poderão dar aos consumidores e fornecedores algumas ideias sobre onde se devem dirigir.
Veja como eles marcaram:
- ChatGPT-4o (Open AI) – 49/50 questões corretas (98%)
- Claude 3.5 (Antrópico) – 45/50 (90%)
- Gêmeos Avançado (Google) – 43/50 (86%)
- Grok (xAI) – 42/50 (84%)
- HuggingChat (Lhama) – 33/50 (66%)
Em nosso experimento, o ChatGPT-4o da OpenAI emergiu como o de melhor desempenho, alcançando uma pontuação de 98%. Forneceu análises médicas detalhadas, empregando uma linguagem que lembra a de um profissional médico. Não só forneceu respostas com amplo raciocínio, mas também contextualizou o seu processo de tomada de decisão, explicando por que as respostas alternativas eram menos adequadas.
Claude, da Anthropic, ficou em segundo lugar com 90%. Forneceu respostas mais humanas com uma linguagem mais simples e uma estrutura de marcadores que poderia ser mais acessível aos pacientes. Gemini, que obteve 86%, deu respostas que não foram tão completas quanto ChatGPT ou Claude, tornando seu raciocínio mais difícil de decifrar, mas suas respostas foram sucintas e diretas.
Grok, o chatbot do xAI de Elon Musk, obteve respeitáveis 84%, mas não forneceu raciocínio descritivo durante nossa análise, dificultando a compreensão de como chegou às suas respostas. Enquanto o HuggingChat — um site de código aberto criado a partir de Metas Llama – obteve a pontuação mais baixa, 66%, mas mesmo assim mostrou um bom raciocínio para as perguntas que respondeu corretamente, fornecendo respostas concisas e links para fontes.
Uma questão que a maioria dos modelos errou estava relacionada a uma mulher de 75 anos com um hipotético problema cardíaco. A pergunta perguntou aos médicos qual seria o próximo passo mais adequado como parte de sua avaliação. Claude foi o único modelo que gerou a resposta correta.
Outra questão notável, focada em um paciente do sexo masculino de 20 anos que apresentava sintomas de uma infecção sexualmente transmissível. Ele perguntou aos médicos qual das cinco opções seria o próximo passo apropriado como parte de sua investigação. O ChatGPT determinou corretamente que o paciente deveria ser agendado para testes sorológicos de HIV em três meses, mas o modelo foi além, recomendando um exame de acompanhamento em uma semana para garantir que os sintomas do paciente foram resolvidos e que os antibióticos cobriram sua cepa de infecção. Para nós, a resposta destacou a capacidade do modelo de raciocínio mais amplo, indo além das escolhas binárias apresentadas pelo exame.
Esses modelos não foram projetados para raciocínio médico; são produtos do setor de tecnologia de consumo, criados para realizar tarefas como tradução de idiomas e geração de conteúdo. Apesar de suas origens não médicas, eles demonstraram uma aptidão surpreendente para o raciocínio clínico.
Plataformas mais novas estão sendo construídas propositalmente para resolver problemas médicos. O Google apresentou recentemente o Med-Geminiuma versão refinada de seus modelos Gemini anteriores, ajustada para aplicações médicas e equipada com recursos de pesquisa baseados na Web para aprimorar o raciocínio clínico.
À medida que estes modelos evoluem, a sua capacidade de analisar dados médicos complexos, diagnosticar condições e recomendar tratamentos irá melhorar. Podem oferecer um nível de precisão e consistência que os prestadores humanos, limitados pela fadiga e pelo erro, podem por vezes ter dificuldade em igualar, e abrir o caminho para um futuro onde os portais de tratamento possam ser alimentados por máquinas, em vez de médicos.