Lar
Ginkgo Datapoints lança iniciativa VCPI para enfrentar os desafios de dados de descoberta de medicamentos por IA
Durante anos, a IA na descoberta de medicamentos foi prejudicada por um problema aparentemente simples: dados de baixa qualidade. Grandes quantidades de dados de sequenciamento, estudos de perturbação agrupados e experimentos com células mistas criaram uma ilusão de progresso, mas o salto preditivo que os desenvolvedores previram nunca chegou. O campo gerou ruído em vez de clareza, desvio experimental em vez de reprodutibilidade. Os conjuntos de dados foram otimizados para escala em vez de integridade científica, sem as medições precisas e específicas de farmacologia necessárias para treinar modelos de células virtuais confiáveis.
Esse é o contexto para o lançamento da Iniciativa de Farmacologia de Células Virtuais (VCPI) pela Ginkgo Datapoints. Esse projeto tem como objetivo fornecer dados melhores, e não apenas mais dados - um recurso criado especificamente para modelos de IA que preveem como moléculas semelhantes a medicamentos afetam sistemas biológicos reais. Conforme o anúncio oficial, a VCPI gerará mais de 12 bilhões de pontos de dados a partir do perfil de 100.000 compostos, estabelecendo o primeiro conjunto de dados de farmacologia padronizado projetado para modelagem de células virtuais.
Por que "mais dados" falharam
Ao apresentar o VCPI, Ginkgo usa uma analogia reveladora: imagine jogar um punhado de comprimidos em uma gaiola de ratos e depois tentar determinar qual rato consumiu qual comprimido. Agora, amplie isso para um milhão de camundongos em uma gaiola gigante. Isso ilustra a falha fundamental dos experimentos de farmacologia de célula única agrupados. Eles produzem conjuntos de dados enormes, mas o projeto experimental obscurece a ligação clara entre um composto específico e seu efeito biológico resultante.
O problema não é a falta de tecnologia, mas uma arquitetura experimental falha. A crença de que conjuntos de dados maiores criam automaticamente modelos de IA melhores se mostrou incorreta. A postagem do blog da Ginkgo rotula essa mentalidade como "vício em dados", argumentando que, sem entradas bem estruturadas e de alta qualidade, até mesmo a IA mais avançada aprenderá padrões incorretos.
O VCPI representa uma ruptura decisiva com essa abordagem. Ele prioriza a rastreabilidade biológica, o rigor experimental e a estrutura controlada - os elementos de que a IA realmente precisa para aprender farmacologia - em detrimento do volume de dados.
Como o VCPI reconstrói o pipeline de dados
Afastando-se dos ensaios agrupados, a VCPI emprega o DRUG-seq, um método de sequenciamento de RNA em massa de alto rendimento. Cada composto é testado em um poço isolado e com código de barras, permitindo medições de resposta específicas do tratamento com uma relação sinal-ruído muito mais limpa do que os métodos agrupados permitem. De acordo com o comunicado à imprensa, a infraestrutura automatizada da Ginkgo pode processar mais de cem placas de 384 poços semanalmente, gerando milhões de medições de RNA de alta fidelidade em escala industrial.
Igualmente importante é a introdução da V-Ref293, uma linha celular de referência padronizada e recém-projetada. Ao fornecer uma linha de base biológica universal - um "gêmeo orgânico" das células virtuais - a VCPI elimina a variabilidade causada por diferentes laboratórios que usam versões mutantes ou geneticamente desviadas da mesma linha de células. Isso aborda uma importante fonte de irreprodutibilidade na farmacogenômica e oferece aos modelos de IA a verdade básica estável de que eles precisam.
A iniciativa está criando um conjunto de dados voltado para a comunidade com vários recursos importantes:
- Participação aberta para pesquisadores, equipes farmacêuticas e desenvolvedores de IA
- Perfil de RNA de alto rendimento gratuito para compostos enviados
- Opções para que os colaboradores embarguem os dados ou mantenham acesso proprietário permanente
- Lançamentos mensais de dados orientados por votação da comunidade
- Oportunidades de compartilhamento de modelos, priorização de compostos e status de "superusuário" de acesso antecipado
Um modelo criado pela comunidade, não um depósito de dados
Um dos aspectos mais característicos da VCPI é seu lançamento antes da conclusão do conjunto de dados. Em vez de apresentar um recurso acabado, a Ginkgo está convidando a comunidade científica a ajudar a decidir quais compostos são mais valiosos e a colaborar em tempo real à medida que o conjunto de dados se expande.
Essa estrutura também reduz o risco para os participantes. As empresas de biotecnologia em estágio inicial podem enviar compostos e receber dados farmacológicos reais sem o alto custo de uma triagem dedicada. As equipes de IA podem ajudar a garantir que o conjunto de dados inclua as perturbações biológicas específicas necessárias para o treinamento do modelo. Os laboratórios acadêmicos podem contribuir e, ao mesmo tempo, manter uma janela de dados exclusiva de 90 dias.
Essa abordagem transforma a geração de dados de um produto estático em um processo científico dinâmico e participativo.
O que isso significa para o futuro da bio-IA
As implicações do VCPI vão além do Ginkgo ou de qualquer outro projeto de célula virtual. Para que os modelos de células virtuais ganhem credibilidade científica, eles devem ser treinados com dados reprodutíveis e específicos do tratamento, ancorados em uma referência biológica estável. Sem essa base, a IA continuará alucinando, prevendo erroneamente ou se ajustando excessivamente a artefatos experimentais.
Iniciativas como a VCPI marcam uma mudança na forma como o campo vê os dados. O projeto experimental agora é reconhecido como sendo tão importante quanto a arquitetura do modelo. A reprodutibilidade está recuperando seu lugar como um requisito essencial, não como um ideal opcional. Os projetos de infraestrutura aberta e orientados pela comunidade estão começando a superar os conjuntos de dados proprietários fechados em seu potencial de acelerar a inovação.
Se as células virtuais se tornarem ferramentas preditivas confiáveis - capazes de classificar compostos, sinalizar toxicidades ou iluminar caminhos biológicos antes do início dos experimentos em laboratório úmido - será porque projetos como o VCPI criaram o ambiente de dados estruturado e confiável necessário para seu desenvolvimento.
Ao priorizar dados melhores em vez de simplesmente mais dados, a Ginkgo está reformulando os fundamentos da biologia orientada por IA. O VCPI não aborda apenas a crise de dados na descoberta de medicamentos; ele prepara o terreno para uma nova era em que os experimentos biológicos e os pipelines de treinamento de IA evoluem juntos - de forma aberta e com um objetivo claro.
Artigo relacionado
O boom do capital de risco em IA eleva a receita em uma única temporada para mais de um trilhão de yuans, desencadeando uma nova onda de inovação
O capital de risco global em inteligência artificial está em franca ascensão. No primeiro trimestre deste ano, foram fechadas quase 600 rodadas de financiamento relacionadas à IA, totalizando mais de
A OpenAI retira de circulação os modelos de grande porte o3 e GPT-4.5
Como pioneira em inteligência artificial, cada iniciativa técnica da OpenAI causa grande repercussão no setor. Recentemente, a empresa fez um grande anúncio: retirará dois modelos clássicos — o o3 e o
Atualização importante do AIGCPanel 2.0.0: o mecanismo de fluxo de trabalho inaugura uma nova era na criação automatizada de humanos digitais
O AIGCPanel, uma poderosa ferramenta para a criação local de humanos digitais, acaba de lançar a versão 2.0.0 — anunciada como “a atualização mais significativa até agora”. Essa reformulação completa
Recomendações de tópicos especiais relacionados
Comentários (0)
Durante anos, a IA na descoberta de medicamentos foi prejudicada por um problema aparentemente simples: dados de baixa qualidade. Grandes quantidades de dados de sequenciamento, estudos de perturbação agrupados e experimentos com células mistas criaram uma ilusão de progresso, mas o salto preditivo que os desenvolvedores previram nunca chegou. O campo gerou ruído em vez de clareza, desvio experimental em vez de reprodutibilidade. Os conjuntos de dados foram otimizados para escala em vez de integridade científica, sem as medições precisas e específicas de farmacologia necessárias para treinar modelos de células virtuais confiáveis.
Esse é o contexto para o lançamento da Iniciativa de Farmacologia de Células Virtuais (VCPI) pela Ginkgo Datapoints. Esse projeto tem como objetivo fornecer dados melhores, e não apenas mais dados - um recurso criado especificamente para modelos de IA que preveem como moléculas semelhantes a medicamentos afetam sistemas biológicos reais. Conforme o anúncio oficial, a VCPI gerará mais de 12 bilhões de pontos de dados a partir do perfil de 100.000 compostos, estabelecendo o primeiro conjunto de dados de farmacologia padronizado projetado para modelagem de células virtuais.
Por que "mais dados" falharam
Ao apresentar o VCPI, Ginkgo usa uma analogia reveladora: imagine jogar um punhado de comprimidos em uma gaiola de ratos e depois tentar determinar qual rato consumiu qual comprimido. Agora, amplie isso para um milhão de camundongos em uma gaiola gigante. Isso ilustra a falha fundamental dos experimentos de farmacologia de célula única agrupados. Eles produzem conjuntos de dados enormes, mas o projeto experimental obscurece a ligação clara entre um composto específico e seu efeito biológico resultante.
O problema não é a falta de tecnologia, mas uma arquitetura experimental falha. A crença de que conjuntos de dados maiores criam automaticamente modelos de IA melhores se mostrou incorreta. A postagem do blog da Ginkgo rotula essa mentalidade como "vício em dados", argumentando que, sem entradas bem estruturadas e de alta qualidade, até mesmo a IA mais avançada aprenderá padrões incorretos.
O VCPI representa uma ruptura decisiva com essa abordagem. Ele prioriza a rastreabilidade biológica, o rigor experimental e a estrutura controlada - os elementos de que a IA realmente precisa para aprender farmacologia - em detrimento do volume de dados.
Como o VCPI reconstrói o pipeline de dados
Afastando-se dos ensaios agrupados, a VCPI emprega o DRUG-seq, um método de sequenciamento de RNA em massa de alto rendimento. Cada composto é testado em um poço isolado e com código de barras, permitindo medições de resposta específicas do tratamento com uma relação sinal-ruído muito mais limpa do que os métodos agrupados permitem. De acordo com o comunicado à imprensa, a infraestrutura automatizada da Ginkgo pode processar mais de cem placas de 384 poços semanalmente, gerando milhões de medições de RNA de alta fidelidade em escala industrial.
Igualmente importante é a introdução da V-Ref293, uma linha celular de referência padronizada e recém-projetada. Ao fornecer uma linha de base biológica universal - um "gêmeo orgânico" das células virtuais - a VCPI elimina a variabilidade causada por diferentes laboratórios que usam versões mutantes ou geneticamente desviadas da mesma linha de células. Isso aborda uma importante fonte de irreprodutibilidade na farmacogenômica e oferece aos modelos de IA a verdade básica estável de que eles precisam.
A iniciativa está criando um conjunto de dados voltado para a comunidade com vários recursos importantes:
- Participação aberta para pesquisadores, equipes farmacêuticas e desenvolvedores de IA
- Perfil de RNA de alto rendimento gratuito para compostos enviados
- Opções para que os colaboradores embarguem os dados ou mantenham acesso proprietário permanente
- Lançamentos mensais de dados orientados por votação da comunidade
- Oportunidades de compartilhamento de modelos, priorização de compostos e status de "superusuário" de acesso antecipado
Um modelo criado pela comunidade, não um depósito de dados
Um dos aspectos mais característicos da VCPI é seu lançamento antes da conclusão do conjunto de dados. Em vez de apresentar um recurso acabado, a Ginkgo está convidando a comunidade científica a ajudar a decidir quais compostos são mais valiosos e a colaborar em tempo real à medida que o conjunto de dados se expande.
Essa estrutura também reduz o risco para os participantes. As empresas de biotecnologia em estágio inicial podem enviar compostos e receber dados farmacológicos reais sem o alto custo de uma triagem dedicada. As equipes de IA podem ajudar a garantir que o conjunto de dados inclua as perturbações biológicas específicas necessárias para o treinamento do modelo. Os laboratórios acadêmicos podem contribuir e, ao mesmo tempo, manter uma janela de dados exclusiva de 90 dias.
Essa abordagem transforma a geração de dados de um produto estático em um processo científico dinâmico e participativo.
O que isso significa para o futuro da bio-IA
As implicações do VCPI vão além do Ginkgo ou de qualquer outro projeto de célula virtual. Para que os modelos de células virtuais ganhem credibilidade científica, eles devem ser treinados com dados reprodutíveis e específicos do tratamento, ancorados em uma referência biológica estável. Sem essa base, a IA continuará alucinando, prevendo erroneamente ou se ajustando excessivamente a artefatos experimentais.
Iniciativas como a VCPI marcam uma mudança na forma como o campo vê os dados. O projeto experimental agora é reconhecido como sendo tão importante quanto a arquitetura do modelo. A reprodutibilidade está recuperando seu lugar como um requisito essencial, não como um ideal opcional. Os projetos de infraestrutura aberta e orientados pela comunidade estão começando a superar os conjuntos de dados proprietários fechados em seu potencial de acelerar a inovação.
Se as células virtuais se tornarem ferramentas preditivas confiáveis - capazes de classificar compostos, sinalizar toxicidades ou iluminar caminhos biológicos antes do início dos experimentos em laboratório úmido - será porque projetos como o VCPI criaram o ambiente de dados estruturado e confiável necessário para seu desenvolvimento.
Ao priorizar dados melhores em vez de simplesmente mais dados, a Ginkgo está reformulando os fundamentos da biologia orientada por IA. O VCPI não aborda apenas a crise de dados na descoberta de medicamentos; ele prepara o terreno para uma nova era em que os experimentos biológicos e os pipelines de treinamento de IA evoluem juntos - de forma aberta e com um objetivo claro.
O boom do capital de risco em IA eleva a receita em uma única temporada para mais de um trilhão de yuans, desencadeando uma nova onda de inovação
O capital de risco global em inteligência artificial está em franca ascensão. No primeiro trimestre deste ano, foram fechadas quase 600 rodadas de financiamento relacionadas à IA, totalizando mais de
A OpenAI retira de circulação os modelos de grande porte o3 e GPT-4.5
Como pioneira em inteligência artificial, cada iniciativa técnica da OpenAI causa grande repercussão no setor. Recentemente, a empresa fez um grande anúncio: retirará dois modelos clássicos — o o3 e o
Atualização importante do AIGCPanel 2.0.0: o mecanismo de fluxo de trabalho inaugura uma nova era na criação automatizada de humanos digitais
O AIGCPanel, uma poderosa ferramenta para a criação local de humanos digitais, acaba de lançar a versão 2.0.0 — anunciada como “a atualização mais significativa até agora”. Essa reformulação completa











