Os biólogos computacionais aproveitam aprendizado de máquina para entender os dados do sistema imunológico.
Pesquisadores do sistema imunológico desenvolveram uma ferramenta computacional para aumentar a preparação para pandemias. Os cientistas podem usar este novo algoritmo para comparar dados de experiências muito diferentes e prever melhor como os indivíduos podem responder às doenças.
“Estamos tentando entender como os indivíduos combatem diferentes vírus, mas a beleza do nosso método é que você pode aplicá-lo geralmente em outros ambientes biológicos, como comparações de diferentes medicamentos ou diferentes linhas celulares de câncer”, diz Tal Einav, Ph. D., professor assistente do Instituto La Jolla de Imunologia (LJI) e co-líder do novo estudo em Relatórios de células Métodos.
Este trabalho aborda um grande desafio na pesquisa médica. Os laboratórios que estudam doenças infecciosas – até mesmo laboratórios focados nos mesmos vírus – coletam tipos de dados extremamente diferentes. “Cada conjunto de dados torna-se a sua própria ilha independente”, diz Einav.
Alguns pesquisadores podem estudar modelos animais, outros podem estudar pacientes humanos. Alguns laboratórios concentram-se em crianças, outros coletam amostras de idosos imunocomprometidos. A localização também é importante. Células coletadas de pacientes na Austrália podem reagir de maneira diferente a um vírus em comparação com células coletadas de um grupo de pacientes na Alemanha, apenas com base em exposições virais anteriores nessas regiões.
“Há um nível adicional de complexidade na biologia. Os vírus estão sempre evoluindo e isso também altera os dados”, afirma Einav. “E mesmo que dois laboratórios analisassem os mesmos pacientes no mesmo ano, eles poderiam ter realizado testes ligeiramente diferentes.”
Um método computacional unificador
Trabalhando em estreita colaboração com Rong Ma, Ph.D., pós-doutorado na Universidade de Stanford, Einav decidiu desenvolver um algoritmo para ajudar a comparar grandes conjuntos de dados. Sua inspiração veio de sua formação em física, uma disciplina onde – não importa quão inovador seja um experimento – os cientistas podem ter certeza de que os dados se enquadrarão nas leis conhecidas da física. E sempre será igual a mc2.
“O que gosto de fazer como físico é reunir tudo e descobrir os princípios unificadores”, diz Einav.
O novo método computacional não precisa saber exatamente onde ou como cada conjunto de dados foi adquirido. Em vez disso, Einav e Ma aproveitaram o aprendizado de máquina para determinar quais conjuntos de dados seguem os mesmos padrões subjacentes.
“Você não precisa me dizer que alguns dados vieram de crianças, adultos ou adolescentes. Apenas perguntamos à máquina ‘quão semelhantes são os dados entre si’ e então combinamos os conjuntos de dados semelhantes em um superconjunto que treina algoritmos ainda melhores”, diz Einav. Com o tempo, estas comparações poderão revelar princípios consistentes nas respostas imunitárias – padrões que são difíceis de detetar nos muitos conjuntos de dados dispersos que abundam na imunologia.
Potenciais Impactos no Design de Vacinas e Imunologia
Por exemplo, os investigadores poderiam conceber vacinas melhores descobrindo exactamente como os anticorpos humanos atacam as proteínas virais. É aqui que a biologia fica realmente complicada novamente. O problema é que os humanos podem produzir cerca de um quintilhão de anticorpos únicos. Enquanto isso, uma única proteína viral pode ter mais variações do que átomos no universo.
“É por isso que as pessoas estão a recolher conjuntos de dados cada vez maiores para tentar explorar o parque quase infinito da biologia”, diz Einav.
Mas os cientistas não têm tempo infinito, por isso precisam de formas de prever a vasta gama de dados que não conseguem recolher de forma realista. Einav e Ma já demonstraram que o seu novo método computacional pode ajudar os cientistas a preencher estas lacunas. Eles demonstram que seu método para comparar grandes conjuntos de dados pode revelar uma miríade de novas regras de imunologia, e essas regras podem então ser aplicadas a outros conjuntos de dados para prever como deveriam ser os dados faltantes.
O novo método também é suficientemente completo para proporcionar aos cientistas confiança nas suas previsões. Nas estatísticas, um “intervalo de confiança” é uma forma de quantificar o quão certo um cientista está de uma previsão.
“Essas previsões funcionam um pouco como o algoritmo da Netflix, que prevê quais filmes você gostaria de assistir”, diz Einav. O algoritmo Netflix procura padrões em filmes que você selecionou anteriormente. Quanto mais filmes (ou dados) você adicionar a essas ferramentas de previsão, mais precisas serão essas previsões.
“Nunca conseguiremos reunir todos os dados, mas podemos fazer muito com apenas algumas medições”, diz Einav. “E não apenas estimamos a confiança nas previsões, mas também podemos dizer quais experimentos adicionais aumentariam ao máximo essa confiança. Para mim, a verdadeira vitória sempre foi obter uma compreensão profunda de um sistema biológico, e esta estrutura visa fazer exatamente isso.”
Direções e Colaborações Futuras
Einav ingressou recentemente no corpo docente do LJI após concluir seu treinamento de pós-doutorado no laboratório de Jesse Bloom, Ph.D., no Fred Hutch Cancer Center. À medida que continua seu trabalho na LJI, ele planeja se concentrar no uso de ferramentas computacionais para aprender mais sobre as respostas imunológicas humanas a muitos vírus, começando pela gripe. Ele está ansioso para colaborar com os principais imunologistas e cientistas de dados da LJI, incluindo o professor Bjoern Peters, Ph.D., também um físico treinado.
“Você obtém uma bela sinergia quando tem pessoas com origens diferentes”, diz Einav. “Com a equipe certa, resolver esses problemas grandes e abertos finalmente se torna possível.”
Referência: “Using interpretable machine learning to extend heterogeneous anticorpo-virus datasets” por Tal Einav e Rong Ma, 25 de julho de 2023, Métodos de relatórios de células.
DOI: 10.1016/j.crmeth.2023.100540