Conceito de software de ciência da computação de IA

DataCebo, um spinoff do MIT, aproveita a IA generativa para produzir dados sintéticos, auxiliando organizações em testes de software, melhoria no atendimento ao paciente e redirecionamento de voos. Seu Cofre de Dados Sintéticos, usado por milhares de pessoas, demonstra a crescente importância dos dados sintéticos para garantir a privacidade e melhorar as decisões baseadas em dados. Crédito: SciTechDaily.com

COM spinout DataCebo ajuda as empresas a reforçar seus conjuntos de dados criando dados sintéticos que imitam os reais.

A IA generativa está recebendo muita atenção por sua capacidade de criar textos e imagens. Mas esses meios de comunicação representam apenas uma fração dos dados que proliferam na nossa sociedade hoje. Os dados são gerados sempre que um paciente passa por um sistema médico, uma tempestade afeta um voo ou uma pessoa interage com um aplicativo de software.

Usar IA generativa para criar dados sintéticos realistas em torno desses cenários pode ajudar as organizações a tratar pacientes de maneira mais eficaz, redirecionar aviões ou melhorar plataformas de software – especialmente em cenários onde os dados do mundo real são limitados ou confidenciais.

Cofre de dados sintéticos do DataCebo

Nos últimos três anos, o DataCebo, spinout do MIT, ofereceu um sistema de software generativo chamado Synthetic Data Vault para ajudar as organizações a criar dados sintéticos para fazer coisas como testar aplicativos de software e treinar aprendizado de máquina modelos.

O Synthetic Data Vault, ou SDV, foi baixado mais de 1 milhão de vezes, com mais de 10.000 cientistas de dados usando a biblioteca de código aberto para gerar dados tabulares sintéticos. Os fundadores – o principal pesquisador Kalyan Veeramachaneni e a ex-aluna Neha Patki ’15, SM ’16 – acreditam que o sucesso da empresa se deve à capacidade da SDV de revolucionar os testes de software.

Cofre de dados sintéticos DataCebo

DataCebo oferece um sistema de software generativo chamado Synthetic Data Vault para ajudar as organizações a criar dados sintéticos para fazer coisas como testar aplicativos de software e treinar modelos de aprendizado de máquina. Crédito: Cortesia de DataCebo. Editado por Notícias do MIT.

Adoção viral e diversas aplicações

Em 2016, o grupo de Veeramachaneni no Data to AI Lab revelou um conjunto de ferramentas generativas de IA de código aberto para ajudar as organizações a criar dados sintéticos que correspondam às propriedades estatísticas de dados reais.

As empresas podem usar dados sintéticos em vez de informações confidenciais em programas, preservando ao mesmo tempo as relações estatísticas entre os pontos de dados. As empresas também podem usar dados sintéticos para executar novos softwares por meio de simulações para ver seu desempenho antes de lançá-los ao público.

O grupo de Veeramachaneni se deparou com o problema porque estava trabalhando com empresas que queriam compartilhar seus dados para pesquisa.

“O MIT ajuda você a ver todos esses diferentes casos de uso”, explica Patki. “Você trabalha com empresas financeiras e empresas de saúde, e todos esses projetos são úteis para formular soluções em todos os setores.”

Kalyan Veeramachaneni, Andrew Montanez e Neha Patki

“Nos próximos anos, os dados sintéticos de modelos generativos transformarão todo o trabalho com dados”, diz Kalyan Veeramachaneni. A partir da esquerda: Kalyan Veeramachaneni, cofundador; Andrew Montanez, Diretor de Engenharia; e Neha Patki, cofundadora e vice-presidente de produto. Crédito: Cortesia de DataCebo

Em 2020, os pesquisadores fundaram a DataCebo para construir mais recursos SDV para organizações maiores. Desde então, os casos de uso têm sido tão impressionantes quanto variados.

Com o novo simulador de voo da DataCebo, por exemplo, as companhias aéreas podem planejar eventos climáticos raros de uma forma que seria impossível usando apenas dados históricos. Noutra aplicação, os utilizadores do SDV sintetizaram registos médicos para prever resultados de saúde para pacientes com fibrose cística. Uma equipa da Noruega utilizou recentemente o SDV para criar dados sintéticos de estudantes para avaliar se várias políticas de admissão eram meritocráticas e isentas de preconceitos.

Em 2021, a plataforma de ciência de dados Kaggle organizou uma competição para cientistas de dados que usaram SDV para criar conjuntos de dados sintéticos para evitar o uso de dados proprietários. Cerca de 30 mil cientistas de dados participaram, construindo soluções e prevendo resultados com base em dados realistas da empresa.

E à medida que a DataCebo cresceu, manteve-se fiel às suas raízes no MIT: todos os funcionários atuais da empresa são ex-alunos do MIT.

Teste de software de superalimentação

Embora suas ferramentas de código aberto estejam sendo usadas para diversos casos de uso, a empresa está focada em aumentar sua força em testes de software.

“Você precisa de dados para testar esses aplicativos de software”, diz Veeramachaneni. “Tradicionalmente, os desenvolvedores escrevem scripts manualmente para criar dados sintéticos. Com modelos generativos, criados usando SDV, você pode aprender com uma amostra de dados coletados e, em seguida, amostrar um grande volume de dados sintéticos (que têm as mesmas propriedades dos dados reais), ou criar cenários específicos e casos extremos, e usar os dados para teste seu aplicativo.”

Por exemplo, se um banco quisesse testar um programa concebido para rejeitar transferências de contas sem dinheiro, teria de simular transações simultâneas de muitas contas. Fazer isso com dados criados manualmente levaria muito tempo. Com os modelos generativos do DataCebo, os clientes podem criar qualquer caso extremo que queiram testar.

“É comum que as indústrias tenham dados confidenciais em alguma capacidade”, diz Patki. “Muitas vezes, quando você está em um domínio com dados confidenciais, você está lidando com regulamentações e, mesmo que não existam regulamentações legais, é do interesse das empresas ser diligentes sobre quem tem acesso a quê e em que momento. Portanto, os dados sintéticos são sempre melhores do ponto de vista da privacidade.”

Dimensionando dados sintéticos

Veeramachaneni acredita que a DataCebo está avançando no campo do que chama de dados corporativos sintéticos, ou dados gerados a partir do comportamento do usuário em aplicativos de software de grandes empresas.

“Dados empresariais deste tipo são complexos e não há disponibilidade universal deles, ao contrário dos dados linguísticos”, diz Veeramachaneni. “Quando as pessoas usam nosso software disponível publicamente e relatam se funciona em um determinado padrão, aprendemos muitos desses padrões exclusivos e isso nos permite melhorar nossos algoritmos. De uma perspectiva, estamos construindo um corpus desses padrões complexos, que para linguagem e imagens está prontamente disponível. “

A DataCebo também lançou recentemente recursos para melhorar a utilidade do SDV, incluindo ferramentas para avaliar o “realismo” dos dados gerados, chamadas de Biblioteca SDMetrics bem como uma forma de comparar o desempenho dos modelos chamada SDGym.

“Trata-se de garantir que as organizações confiem nestes novos dados”, afirma Veeramachaneni. “(Nossas ferramentas oferecem) dados sintéticos programáveis, o que significa que permitimos que as empresas insiram sua visão e intuição específicas para construir modelos mais transparentes.”

À medida que as empresas de todos os setores se apressam em adotar a IA e outras ferramentas de ciência de dados, a DataCebo está, em última análise, ajudando-as a fazer isso de uma forma mais transparente e responsável.

“Nos próximos anos, os dados sintéticos de modelos generativos transformarão todo o trabalho de dados”, diz Veeramachaneni. “Acreditamos que 90% das operações empresariais podem ser realizadas com dados sintéticos.”



Share. Facebook Twitter Pinterest LinkedIn Tumblr Email

Formado em Educação Física, apaixonado por tecnologia, decidi criar o site news space em 2022 para divulgar meu trabalho, tenho como objetivo fornecer informações relevantes e descomplicadas sobre diversos assuntos, incluindo jogos, tecnologia, esportes, educação e muito mais.