IA supera 94% dos virologistas em teste difícil criado pela elite da área
Um novo estudo mostra que modelos de IA (inteligência artificial), como ChatGPT e Gemini, são capazes de superar especialistas na resolução de problemas complexos na área de virologia. O trabalho internacional que tem a participação de um pesquisador brasileiro levanta discussões sobre os benefícios e os riscos dessas plataformas.
Se, de um lado, o uso positivo estaria ligado a desenvolver melhores vacinas e medicamentos, de outro, pessoas mal intencionadas teriam um assistente para conseguir manipular vírus e, quem sabe, criar armas biológicas.
Como é o teste
VCT, sigla em inglês para teste de capacidade em virologia, mediu a capacidade das IAs em elementos práticos da área científica. Foram testadas diferentes versões do ChatGPT, do Gemini e do Claude. Elas tinham de solucionar questões propositalmente difíceis relacionadas a metodologias e protocolos feitos em laboratórios.
Teste tinha 322 questões multimodais (com texto e imagem). A IA com melhor desempenho, o OpenAI o3, atingiu 43,8% de precisão nas respostas, superando 94% dos 36 virologistas especialistas, mesmo em suas subáreas de especialização. Enquanto isso, os especialistas atingiram, média, 22% de precisão.
Estudo começou em maio do ano ado. Os pesquisadores analisaram que as versões mais atuais das IAs conseguiram resultados ainda melhores. A pesquisa foi conduzida por cientistas do Center for AI Safety, do MIT Media Lab, da UFABC (Universidade Federal do ABC) e da SecureBio, entidade sem fins lucrativos que atua para prevenir danos biológicos e futuras pandemias.
Existe uma discussão: será que responder perguntas é um bom indicativo das capacidades dessas IAs? O fato duro é que elas respondem perguntas melhor do que os especialistas. Pedro Medeiros, biólogo e farmacêutico, mestre em biossistemas e bioinformata, que é pesquisador na universidade brasileira e na SecureBio
Como o teste foi desenvolvido
Estudo foi desenhado para ser muito difícil. Quase 60 especialistas em virologia contribuíram com perguntas para o teste, todos com doutorado, pós-doutorado ou em processo de obter o título. É a elite da área, diz Medeiros, de diferentes países, inclusive do Brasil.
Além da alta dificuldade, as perguntas tinham de ser inéditas. Também deveria haver imagens autorais que contivessem elementos para a resposta que não estivessem no texto e à prova do Google, ou seja, as respostas não podiam ser encontradas online.
Questões foram revisadas por pares duas vezes e por um editor final. Cientistas tiveram o cuidado para a pessoa não revisar a própria pergunta e de forma anônima para garantir a liberdade dos apontamentos na revisão.
Participação humana é um diferencial do estudo. Outros testes usam IA para formular perguntas. No final, as 322 questões foram respondidas por três grupos: um de especialistas em virologia, um de não especialistas (com nível superior de educação em áreas como engenharia e matemática) e outro de inteligências artificiais.
Desses três grupos, com certeza, as IAs se saíram melhor e consistentemente melhor a cada novo modelo. Pedro Medeiros, pesquisador e coautor do estudo
Capacidade das IAs foi analisada em aspectos subjetivos. Os pesquisadores pediram aos especialistas que as perguntas envolvessem metodologias e problemas que, em tese, só eles poderiam resolver, que tivessem um quê de inesperado. Medeiros dá um exemplo: você pega a receita de bolo da sua mãe e reproduz à risca, mas o sabor e a textura não ficam exatamente iguais ao dela. E se algo der errado, você não entenderá o porquê. Existe um conhecimento baseado em intuição e prática que só a pessoa tem, não está em manuais nem é simples de explicar.
É algo da experiência e a gente tentou ar esse aspecto no teste, porque, em teoria, um modelo de IA não teria tanto o a essa experiência humana. Pedro Medeiros, pesquisador
Questionado sobre se os modelos são capazes de interpretar imagens, o pesquisador é cauteloso: "Não sei se ela consegue interpretar. Sei que ela acerta." É um cuidado para não humanizar demais as IAs.
Grandes poderes, grandes responsabilidades
Riscos no futuro? Medeiros faz parte do time de inteligência artificial e biossegurança na SecureBio, mais especificamente na aferição de possíveis riscos que as IAs podem trazer nesse contexto. O VCT foi o primeiro projeto na área de virologia que mediu a capacidade —não os riscos— desses recursos.
Um dos conceitos de capacidade é o duplo uso (ou dual-use, em inglês): algo que pode beneficiar em alguns aspectos e trazer malefícios em outros. "É basicamente o conceito de que um conhecimento traz responsabilidade, porque o conhecimento pode ser utilizado de diversas maneiras."
Cientista destaca que a performance de um modelo depende de quem o está usando, porque manipular um vírus não é para qualquer um. "Mas a pessoa pode não necessariamente ser uma especialista e ter expertise para fazer boas perguntas à IA", diz.
Estudo e análises futuras podem ajudar as empresas a criar mecanismos de segurança. A pesquisa do grupo já é mencionada pelas companhias de IA na parte descritiva do que o modelo é capaz de fazer. "Tendo esse conhecimento, elas conseguem se autorregular e, de repente, facilitar o diálogo com a sociedade e basicamente limitar os danos possíveis", afirma.
Essa capacidade pode ser traduzida em risco, para que a política possa agir em cima desse dado e saber se restrições são cabíveis ou não e onde se deve atuar para que a sociedade possa extrair o melhor dessa tecnologia. Pedro Medeiros, pesquisador
Com todo o potencial que as IAs aparentam ter, Medeiros afirma: "A máquina é incapaz de responsabilidade. Os responsáveis continuam sendo as pessoas."