CLASSIX Clustering Coronavírus

Imagem estilizada de um resultado de agrupamento CLASSIX sobreposto a uma ilustração de coronavírus. Crédito: Universidade de Manchester, CDC / Alissa Eckert, MSMI; Dan Higgins, MAMS

Uma estrutura de IA ajuda a identificar e rastrear novos COVID 19 variantes, usando um novo algoritmo chamado CLASSIX para processar com eficiência grandes conjuntos de dados genômicos e aprimorar os esforços de detecção precoce.

Cientistas das Universidades de Manchester e Oxford desenvolveram uma estrutura de IA que pode identificar e rastrear variantes novas e preocupantes da COVID-19 e pode ajudar com outras infecções no futuro.

A estrutura combina técnicas de redução de dimensão e um novo algoritmo de agrupamento explicável chamado CLASSIX, desenvolvido por matemáticos da Universidade de Manchester. Isto permite a rápida identificação de grupos de genomas virais que podem representar um risco no futuro devido a grandes volumes de dados.

O estudo, apresentado esta semana na revista PNASpoderia apoiar métodos tradicionais de rastreamento da evolução viral, como a análise filogenética, que atualmente requer extensa curadoria manual.

Roberto Cahuantzi, pesquisador da Universidade de Manchester e primeiro e correspondente autor do artigo, disse: “Desde o surgimento do COVID-19, vimos múltiplas ondas de novas variantes, maior transmissibilidade, evasão de respostas imunológicas e aumento da gravidade de doença.

“Os cientistas estão agora a intensificar esforços para identificar estas novas variantes preocupantes, como alfa, delta e ómicron, nas fases iniciais do seu surgimento. Se conseguirmos encontrar uma forma de o fazer de forma rápida e eficiente, isso permitir-nos-á ser mais proactivos na nossa resposta, como o desenvolvimento de vacinas personalizadas, e poderá até permitir-nos eliminar as variantes antes que se estabeleçam.”

Método proposto para identificar variantes emergentes do COVID 19

Diagrama mostrando as etapas do método proposto para identificar variantes emergentes da COVID-19. Crédito: Universidade de Manchester

Como muitos outros ARN vírus, o COVID-19 tem uma alta taxa de mutação e um curto período de tempo entre gerações, o que significa que evolui extremamente rapidamente. Isto significa que a identificação de novas estirpes que provavelmente serão problemáticas no futuro requer um esforço considerável.

Atualmente, existem quase 16 milhões de sequências disponíveis na base de dados GISAID (Iniciativa Global sobre Partilha de Todos os Dados da Gripe), que fornece acesso a dados genómicos dos vírus da gripe.

O mapeamento da evolução e da história de todos os genomas da COVID-19 a partir destes dados é feito atualmente utilizando quantidades extremamente grandes de tempo humano e computacional.

O método descrito permite a automação de tais tarefas. Os pesquisadores processaram 5,7 milhões de sequências de alta cobertura em apenas um ou dois dias em um laptop moderno padrão; isto não seria possível com os métodos existentes, colocando a identificação de estirpes patogénicas preocupantes nas mãos de mais investigadores devido à redução das necessidades de recursos.

Thomas House, professor de Ciências Matemáticas da Universidade de Manchester, disse: “A quantidade sem precedentes de dados genéticos gerados durante a pandemia exige melhorias nos nossos métodos para analisá-los minuciosamente. Os dados continuam a crescer rapidamente, mas sem mostrar um benefício na curadoria destes dados, existe o risco de serem removidos ou eliminados.

“Sabemos que o tempo dos especialistas humanos é limitado, por isso a nossa abordagem não deve substituir completamente o trabalho dos humanos, mas trabalhar em conjunto com eles para permitir que o trabalho seja feito muito mais rapidamente e libertar os nossos especialistas para outros desenvolvimentos vitais.”

O método proposto funciona quebrando sequências genéticas do vírus COVID-19 vírus em “palavras” menores (chamadas 3-mers) representadas como números, contando-os. Em seguida, ele agrupa sequências semelhantes com base em seus padrões de palavras usando aprendizado de máquina técnicas.

Stefan Güttel, professor de matemática aplicada na Universidade de Manchester, disse: “O algoritmo de cluster CLASSIX que desenvolvemos é muito menos exigente em termos computacionais do que os métodos tradicionais e é totalmente explicável, o que significa que fornece explicações textuais e visuais dos clusters computados.”

Roberto Cahuantzi acrescentou: “Nossa análise serve como prova de conceito, demonstrando o uso potencial de métodos de aprendizado de máquina como uma ferramenta de alerta para a descoberta precoce de grandes variantes emergentes, sem depender da necessidade de gerar filogenias.

“Embora a filogenética continue sendo o ‘padrão ouro’ para a compreensão da ancestralidade viral, esses métodos de aprendizado de máquina podem acomodar várias ordens de magnitude a mais sequências do que os métodos filogenéticos atuais e a um baixo custo computacional.”

Referência: “Identificação não supervisionada de linhagens significativas de SARS-CoV-2 por meio de métodos escaláveis ​​de aprendizado de máquina” por Roberto Cahuantzi, Katrina A. Lythgoe, Ian Hall, Lorenzo Pellis e Thomas House, 13 de março de 2024, Anais da Academia Nacional de Ciências.
DOI: 10.1073/pnas.2317284121



Share. Facebook Twitter Pinterest LinkedIn Tumblr Email

Formado em Educação Física, apaixonado por tecnologia, decidi criar o site news space em 2022 para divulgar meu trabalho, tenho como objetivo fornecer informações relevantes e descomplicadas sobre diversos assuntos, incluindo jogos, tecnologia, esportes, educação e muito mais.