Novo sistema de IA desenvolvido em Harvard desbloqueia o código-fonte da biologia

Por Universidade de Harvard, Departamento de Biologia Organísmica e Evolutiva 23 de abril de 2024

Um estudo inovador realizado por Yunha Hwang e sua equipe desenvolveu o gLM, um sistema de IA que decodifica a linguagem complexa da genômica a partir de extensos dados microbianos. Esta inovação permite uma compreensão mais profunda das funções e regulamentações dos genes, levando a novas descobertas em genômica. O gLM exemplifica o potencial da IA no avanço das ciências da vida e no enfrentamento dos desafios globais. Crédito: SciTechDaily.com

Os sistemas de Inteligência Artificial (IA), como o ChatGTP, conquistaram o mundo. Não há muita coisa em que eles não participem, desde recomendar o próximo programa de TV que vale a pena até ajudar a navegar no trânsito. Mas será que os sistemas de IA podem aprender a linguagem da vida e ajudar os biólogos a revelar avanços emocionantes na ciência?

Em um novo estudo publicado em Comunicações da Naturezauma equipe interdisciplinar de pesquisadores liderada por Yunha Hwang, doutorando no Departamento de Biologia Organísmica e Evolutiva (OEB) de Harvard, foi pioneira em um sistema de inteligência artificial (IA) capaz de decifrar a intrincada linguagem da genômica.

A linguagem genômica é o código-fonte da biologia. Descreve as funções biológicas e a gramática regulatória codificadas nos genomas. Os pesquisadores perguntaram: podemos desenvolver um mecanismo de IA para “ler” a linguagem genômica e nos tornarmos fluentes na linguagem, compreendendo o significado, ou funções e regulações, dos genes? A equipe alimentou o conjunto de dados metagenômicos microbianos, o maior e mais diversificado conjunto de dados genômicos disponível, na máquina para criar o Modelo de Linguagem Genômica (gLM).

O desafio dos dados genômicos

“Na biologia, temos um dicionário de palavras conhecidas e os pesquisadores trabalham com essas palavras conhecidas. O problema é que esta fração de palavras conhecidas constitui menos de um por cento das sequências biológicas”, disse Hwang, “a quantidade e a diversidade de dados genômicos estão explodindo, mas os humanos são incapazes de processar uma quantidade tão grande de dados complexos”.

Grandes modelos de linguagem (LLMs), como o GPT4, aprendem o significado das palavras processando grandes quantidades de dados de texto diversos que permitem a compreensão das relações entre as palavras. O modelo de linguagem genômica (gLM) aprende a partir de dados metagenômicos altamente diversos, provenientes de micróbios que habitam vários ambientes, incluindo o oceano, o solo e o intestino humano. Com esses dados, o gLM aprende a compreender a “semântica” funcional e a “sintaxe” regulatória de cada gene, aprendendo a relação entre o gene e seu contexto genômico. O gLM, como os LLMs, é um modelo auto-supervisionado – isso significa que ele aprende representações significativas de genes apenas a partir de dados e não requer rótulos atribuídos por humanos.

Desvendando o desconhecido na genômica

Os pesquisadores sequenciaram alguns dos organismos mais comumente estudados, como pessoas, E. coli e moscas da fruta. No entanto, mesmo para os genomas mais estudados, a maioria dos genes permanece pouco caracterizada. “Aprendemos muito nesta era revolucionária de ‘ômicas’, inclusive o quanto não sabemos”, disse o autor sênior, Professor Peter Girguis, também da OEB em Harvard. “Perguntamos: como podemos extrair o significado de algo sem depender de um dicionário proverbial? Como podemos compreender melhor o conteúdo e o contexto de um genoma?”

O estudo demonstra que o gLM aprende funções enzimáticas e módulos genéticos co-regulados (chamados operons) e fornece contexto genômico que pode prever a função genética. O modelo também aprende informações taxonômicas e dependências de contexto das funções genéticas. Surpreendentemente, o gLM não sabe qual enzima está vendo, nem de que bactéria vem a sequência. No entanto, por ter visto muitas sequências e compreender as relações evolutivas entre as sequências durante o treinamento, é capaz de derivar as relações funcionais e evolutivas entre as sequências.

O potencial do gLM em biologia

“Tal como as palavras, os genes podem ter “significados” diferentes dependendo do contexto em que são encontrados. Por outro lado, genes altamente diferenciados podem ter funções “sinónimas”. O gLM permite uma estrutura muito mais sutil para a compreensão da função genética. Isto contrasta com o método existente de mapeamento um a um da sequência à anotação, que não é representativo da natureza dinâmica e dependente do contexto da linguagem genômica”, disse Hwang.

Hwang se uniu aos co-autores Andre Cornman (um pesquisador independente em aprendizado de máquina e biologia), Sergey Ovchinnikov (ex-John Harvard Distinguished Fellow e atual professor assistente em COM) e Elizabeth Kellogg (professora associada do St. Jude Children’s Research Hospital) para formar uma equipe interdisciplinar com sólida experiência em microbiologia, genomas, bioinformática, ciência de proteínas e aprendizado de máquina.

“No laboratório, estamos presos a um processo passo a passo de encontrar um gene, produzir uma proteína, purificá-la, caracterizá-la, etc. e assim descobrimos apenas o que já sabemos”, disse Girguis. O gLM, no entanto, permite aos biólogos observar o contexto de um gene desconhecido e o seu papel quando é frequentemente encontrado em grupos semelhantes de genes. O modelo pode dizer aos pesquisadores que esses grupos de genes trabalham juntos para alcançar algo e pode fornecer respostas que não aparecem no “dicionário”.

“O contexto genômico contém informações críticas para a compreensão da história evolutiva e das trajetórias evolutivas de diferentes proteínas e genes”, disse Hwang. “Em última análise, o gLM aprende essas informações contextuais para ajudar os pesquisadores a compreender as funções dos genes que anteriormente não eram anotadas.”

“Os métodos tradicionais de anotação funcional normalmente se concentram em uma proteína por vez, ignorando as interações entre as proteínas. O gLM representa um grande avanço ao integrar o conceito de vizinhanças genéticas com modelos de linguagem, proporcionando assim uma visão mais abrangente das interações proteicas”, afirmou Martin Steinegger (Professor Assistente, Universidade Nacional de Seul), especialista em bioinformática e aprendizado de máquina, que não foi envolvido no estudo.

Com a modelagem da linguagem genômica, os biólogos podem descobrir novos padrões genômicos e descobrir uma nova biologia. O gLM é um marco significativo na colaboração interdisciplinar que impulsiona avanços nas ciências da vida.

“Com o gLM podemos obter novos insights sobre genomas mal anotados”, disse Hwang. “O gLM também pode orientar a validação experimental de funções e permitir descobertas de novas funções e mecanismos biológicos. Esperamos que o gLM possa acelerar a descoberta de novas soluções biotecnológicas para as alterações climáticas e a bioeconomia.”

Referência: “O modelo de linguagem genômica prevê a co-regulação e função das proteínas” por Yunha Hwang, Andre L. Cornman, Elizabeth H. Kellogg, Sergey Ovchinnikov e Peter R. Girguis, 3 de abril de 2024, Comunicações da Natureza.
DOI: 10.1038/s41467-024-46947-9

What's Hot

Celine Dion se apresenta na cerimônia de abertura das Olimpíadas

Quem é mais rica Virginia ou Deolane?

SpaceX avança com lançamentos após aprovação da FAA

Novo sistema de IA desenvolvido em Harvard desbloqueia o código-fonte da biologia

O desafio dos dados genômicos

Desvendando o desconhecido na genômica

O potencial do gLM em biologia

O aprendizado de máquina acelera os estudos de difusão em 100 vezes

Cientistas de Yale desvendam os mistérios do acasalamento do tamboril do fundo do mar

O caminho de Alnylam, desde a descoberta em laboratório até tratamentos que mudam vidas

Nêutrons iluminam os mistérios do vidro espacial

Uma nova reviravolta na guerra antibiótica

“Descoberta sem precedentes” – Novo catalisador de baixo custo converte dióxido de carbono em produtos químicos valiosos

What's Hot

Novo sistema de IA desenvolvido em Harvard desbloqueia o código-fonte da biologia

O desafio dos dados genômicos

Desvendando o desconhecido na genômica

O potencial do gLM em biologia

Confira também