Maison
Ginkgo Datapoints lance l'initiative VCPI pour relever les défis liés aux données de découverte de médicaments par l'IA
Pendant des années, l'IA dans la découverte de médicaments a été freinée par un problème d'une simplicité trompeuse : la mauvaise qualité des données. D'énormes quantités de données de séquençage, d'études de perturbation regroupées et d'expériences sur des cellules mixtes ont créé une illusion de progrès, mais le saut prédictif attendu par les développeurs n'a jamais eu lieu. Le domaine a généré du bruit au lieu de la clarté, une dérive expérimentale au lieu de la reproductibilité. Les ensembles de données ont été optimisés pour l'échelle plutôt que pour l'intégrité scientifique, sans les mesures précises et spécifiques à la pharmacologie nécessaires pour former des modèles cellulaires virtuels fiables.
C'est dans ce contexte que Ginkgo Datapoints a lancé l'initiative de pharmacologie cellulaire virtuelle (VCPI). Ce projet vise à fournir de meilleures données, et pas seulement plus de données - une ressource spécialement conçue pour les modèles d'IA qui prédisent comment les molécules apparentées aux médicaments affectent les systèmes biologiques réels. Comme l'indique l'annonce officielle, la VCPI générera plus de 12 milliards de points de données à partir du profilage de 100 000 composés, établissant ainsi le premier ensemble de données pharmacologiques normalisées conçu pour la modélisation de cellules virtuelles.
Pourquoi "plus de données" a échoué
En présentant le VCPI, M. Ginkgo utilise une analogie parlante : imaginez que vous jetiez une poignée de pilules dans une cage de souris, puis que vous essayiez de déterminer quelle souris a consommé quelle pilule. Imaginez maintenant un million de souris dans une cage géante. Cette analogie illustre le défaut fondamental des expériences de pharmacologie unicellulaire regroupées. Elles produisent des ensembles de données considérables, mais la conception expérimentale masque le lien clair entre un composé spécifique et l'effet biologique qui en résulte.
Le problème n'est pas un manque de technologie, mais une architecture expérimentale défectueuse. La croyance selon laquelle des ensembles de données plus importants créent automatiquement de meilleurs modèles d'intelligence artificielle s'est révélée erronée. L'article de blog de Ginkgo qualifie cet état d'esprit de "dépendance aux données", arguant que sans données bien structurées et de haute qualité, même l'IA la plus avancée apprendra des modèles incorrects.
Le VCPI représente une rupture décisive avec cette approche. Il donne la priorité à la traçabilité biologique, à la rigueur expérimentale et à la structure contrôlée - les éléments dont l'IA a réellement besoin pour apprendre la pharmacologie - plutôt qu'au simple volume de données.
Comment le VCPI reconstruit le pipeline de données
S'éloignant des essais groupés, VCPI utilise DRUG-seq, une méthode de séquençage de l'ARN en vrac à haut débit. Chaque composé est testé dans un puits isolé, avec un code-barres, ce qui permet de mesurer la réponse spécifique au traitement avec un rapport signal/bruit beaucoup plus net que ne le permettent les méthodes de regroupement. Selon le communiqué de presse, l'infrastructure automatisée de Ginkgo peut traiter plus d'une centaine de plaques à 384 puits par semaine, générant ainsi des millions de mesures d'ARN de haute fidélité à l'échelle industrielle.
L'introduction de V-Ref293, une nouvelle lignée cellulaire de référence standardisée, est tout aussi importante. En fournissant une base biologique universelle - un "jumeau organique" des cellules virtuelles - VCPI élimine la variabilité causée par différents laboratoires utilisant des versions mutées ou génétiquement dérivées de la même lignée cellulaire. Il s'agit là d'une source majeure d'irreproductibilité en pharmacogénomique, qui offre aux modèles d'IA la vérité de base stable dont ils ont besoin.
L'initiative consiste à créer un ensemble de données piloté par la communauté et présentant plusieurs caractéristiques essentielles :
- Participation ouverte aux chercheurs, aux équipes pharmaceutiques et aux développeurs d'IA
- profilage gratuit de l'ARN à haut débit pour les composés soumis
- Possibilité pour les contributeurs d'imposer un embargo sur les données ou de conserver un accès propriétaire permanent
- Publication mensuelle de données guidée par le vote de la communauté
- Possibilités de partage du modèle, de hiérarchisation des composés et d'accès anticipé au statut de "super-utilisateur".
Un modèle construit par la communauté, pas un déversement de données
L'un des aspects les plus distinctifs de VCPI est son lancement avant l'achèvement de l'ensemble des données. Plutôt que de présenter une ressource finie, Ginkgo invite la communauté scientifique à participer au choix des composés les plus intéressants et à collaborer en temps réel à mesure que l'ensemble de données s'enrichit.
Cette structure réduit également les risques pour les participants. Les entreprises de biotechnologie en phase de démarrage peuvent soumettre des composés et recevoir des données pharmacologiques réelles sans avoir à supporter le coût élevé d'un criblage spécifique. Les équipes d'intelligence artificielle peuvent s'assurer que l'ensemble de données comprend les perturbations biologiques spécifiques nécessaires à l'entraînement du modèle. Les laboratoires universitaires peuvent contribuer tout en conservant potentiellement une fenêtre de données exclusive de 90 jours.
Cette approche transforme la génération de données d'un produit statique en un processus scientifique dynamique et participatif.
Ce que cela signifie pour l'avenir de la bio-informatique
Les implications du VCPI vont au-delà de Ginkgo ou de tout autre projet de cellule virtuelle. Pour que les modèles de cellules virtuelles gagnent en crédibilité scientifique, ils doivent être formés sur des données reproductibles et spécifiques à un traitement, ancrées dans une référence biologique stable. Sans cette base, l'IA continuera à halluciner, à faire des prévisions erronées ou à s'adapter de manière excessive aux artefacts expérimentaux.
Des initiatives telles que le VCPI marquent un changement dans la manière dont le domaine considère les données. La conception expérimentale est désormais reconnue comme étant aussi importante que l'architecture du modèle. La reproductibilité redevient une exigence fondamentale et non plus un idéal facultatif. Les projets d'infrastructure ouverte menés par la communauté commencent à surpasser les ensembles de données propriétaires fermés en ce qui concerne leur potentiel d'accélération de l'innovation.
Si les cellules virtuelles deviennent un jour des outils prédictifs fiables, capables de classer les composés, de signaler les toxicités ou d'éclairer les voies biologiques avant le début des expériences en laboratoire, c'est parce que des projets comme le VCPI ont créé l'environnement de données structuré et fiable nécessaire à leur développement.
En donnant la priorité à l'amélioration des données plutôt qu'à l'augmentation du nombre de données, Ginkgo recadre les fondements de la biologie pilotée par l'IA. Le VCPI ne se contente pas de résoudre la crise des données dans le domaine de la découverte de médicaments ; il ouvre la voie à une nouvelle ère où les expériences biologiques et les pipelines d'apprentissage de l'IA évoluent conjointement, de manière ouverte et dans un but précis.
Article connexe
Google va renforcer son investissement dans Anthropic, pour un montant total pouvant atteindre 40 milliards de dollars
Dans la course effrénée à l'IA, les géants de la tech multiplient les initiatives audacieuses. Selon les dernières informations, Google prévoit d'investir jusqu'à 10 milliards de dollars dans la start
Lancement de Maia 3, un moteur d'échecs open source gratuit basé sur l'IA, destiné à améliorer l'expérience de jeu des joueurs humains
L'équipe de Maia Chess a lancé un nouveau moteur d'échecs open source, Maia 3, entraîné sur 250 millions de parties jouées par de vrais joueurs. Il atteint un classement Elo d'environ 1
L'essor du capital-risque dans le domaine de l'IA fait passer le chiffre d'affaires annuel au-delà du billion de yuans, déclenchant une nouvelle vague d'innovation
Les investissements mondiaux en capital-risque dans le domaine de l'intelligence artificielle sont en forte hausse. Au premier trimestre de cette année, près de 600 tours de table liés à l'I
Recommandations de sujets spéciaux liés
commentaires (0)
Pendant des années, l'IA dans la découverte de médicaments a été freinée par un problème d'une simplicité trompeuse : la mauvaise qualité des données. D'énormes quantités de données de séquençage, d'études de perturbation regroupées et d'expériences sur des cellules mixtes ont créé une illusion de progrès, mais le saut prédictif attendu par les développeurs n'a jamais eu lieu. Le domaine a généré du bruit au lieu de la clarté, une dérive expérimentale au lieu de la reproductibilité. Les ensembles de données ont été optimisés pour l'échelle plutôt que pour l'intégrité scientifique, sans les mesures précises et spécifiques à la pharmacologie nécessaires pour former des modèles cellulaires virtuels fiables.
C'est dans ce contexte que Ginkgo Datapoints a lancé l'initiative de pharmacologie cellulaire virtuelle (VCPI). Ce projet vise à fournir de meilleures données, et pas seulement plus de données - une ressource spécialement conçue pour les modèles d'IA qui prédisent comment les molécules apparentées aux médicaments affectent les systèmes biologiques réels. Comme l'indique l'annonce officielle, la VCPI générera plus de 12 milliards de points de données à partir du profilage de 100 000 composés, établissant ainsi le premier ensemble de données pharmacologiques normalisées conçu pour la modélisation de cellules virtuelles.
Pourquoi "plus de données" a échoué
En présentant le VCPI, M. Ginkgo utilise une analogie parlante : imaginez que vous jetiez une poignée de pilules dans une cage de souris, puis que vous essayiez de déterminer quelle souris a consommé quelle pilule. Imaginez maintenant un million de souris dans une cage géante. Cette analogie illustre le défaut fondamental des expériences de pharmacologie unicellulaire regroupées. Elles produisent des ensembles de données considérables, mais la conception expérimentale masque le lien clair entre un composé spécifique et l'effet biologique qui en résulte.
Le problème n'est pas un manque de technologie, mais une architecture expérimentale défectueuse. La croyance selon laquelle des ensembles de données plus importants créent automatiquement de meilleurs modèles d'intelligence artificielle s'est révélée erronée. L'article de blog de Ginkgo qualifie cet état d'esprit de "dépendance aux données", arguant que sans données bien structurées et de haute qualité, même l'IA la plus avancée apprendra des modèles incorrects.
Le VCPI représente une rupture décisive avec cette approche. Il donne la priorité à la traçabilité biologique, à la rigueur expérimentale et à la structure contrôlée - les éléments dont l'IA a réellement besoin pour apprendre la pharmacologie - plutôt qu'au simple volume de données.
Comment le VCPI reconstruit le pipeline de données
S'éloignant des essais groupés, VCPI utilise DRUG-seq, une méthode de séquençage de l'ARN en vrac à haut débit. Chaque composé est testé dans un puits isolé, avec un code-barres, ce qui permet de mesurer la réponse spécifique au traitement avec un rapport signal/bruit beaucoup plus net que ne le permettent les méthodes de regroupement. Selon le communiqué de presse, l'infrastructure automatisée de Ginkgo peut traiter plus d'une centaine de plaques à 384 puits par semaine, générant ainsi des millions de mesures d'ARN de haute fidélité à l'échelle industrielle.
L'introduction de V-Ref293, une nouvelle lignée cellulaire de référence standardisée, est tout aussi importante. En fournissant une base biologique universelle - un "jumeau organique" des cellules virtuelles - VCPI élimine la variabilité causée par différents laboratoires utilisant des versions mutées ou génétiquement dérivées de la même lignée cellulaire. Il s'agit là d'une source majeure d'irreproductibilité en pharmacogénomique, qui offre aux modèles d'IA la vérité de base stable dont ils ont besoin.
L'initiative consiste à créer un ensemble de données piloté par la communauté et présentant plusieurs caractéristiques essentielles :
- Participation ouverte aux chercheurs, aux équipes pharmaceutiques et aux développeurs d'IA
- profilage gratuit de l'ARN à haut débit pour les composés soumis
- Possibilité pour les contributeurs d'imposer un embargo sur les données ou de conserver un accès propriétaire permanent
- Publication mensuelle de données guidée par le vote de la communauté
- Possibilités de partage du modèle, de hiérarchisation des composés et d'accès anticipé au statut de "super-utilisateur".
Un modèle construit par la communauté, pas un déversement de données
L'un des aspects les plus distinctifs de VCPI est son lancement avant l'achèvement de l'ensemble des données. Plutôt que de présenter une ressource finie, Ginkgo invite la communauté scientifique à participer au choix des composés les plus intéressants et à collaborer en temps réel à mesure que l'ensemble de données s'enrichit.
Cette structure réduit également les risques pour les participants. Les entreprises de biotechnologie en phase de démarrage peuvent soumettre des composés et recevoir des données pharmacologiques réelles sans avoir à supporter le coût élevé d'un criblage spécifique. Les équipes d'intelligence artificielle peuvent s'assurer que l'ensemble de données comprend les perturbations biologiques spécifiques nécessaires à l'entraînement du modèle. Les laboratoires universitaires peuvent contribuer tout en conservant potentiellement une fenêtre de données exclusive de 90 jours.
Cette approche transforme la génération de données d'un produit statique en un processus scientifique dynamique et participatif.
Ce que cela signifie pour l'avenir de la bio-informatique
Les implications du VCPI vont au-delà de Ginkgo ou de tout autre projet de cellule virtuelle. Pour que les modèles de cellules virtuelles gagnent en crédibilité scientifique, ils doivent être formés sur des données reproductibles et spécifiques à un traitement, ancrées dans une référence biologique stable. Sans cette base, l'IA continuera à halluciner, à faire des prévisions erronées ou à s'adapter de manière excessive aux artefacts expérimentaux.
Des initiatives telles que le VCPI marquent un changement dans la manière dont le domaine considère les données. La conception expérimentale est désormais reconnue comme étant aussi importante que l'architecture du modèle. La reproductibilité redevient une exigence fondamentale et non plus un idéal facultatif. Les projets d'infrastructure ouverte menés par la communauté commencent à surpasser les ensembles de données propriétaires fermés en ce qui concerne leur potentiel d'accélération de l'innovation.
Si les cellules virtuelles deviennent un jour des outils prédictifs fiables, capables de classer les composés, de signaler les toxicités ou d'éclairer les voies biologiques avant le début des expériences en laboratoire, c'est parce que des projets comme le VCPI ont créé l'environnement de données structuré et fiable nécessaire à leur développement.
En donnant la priorité à l'amélioration des données plutôt qu'à l'augmentation du nombre de données, Ginkgo recadre les fondements de la biologie pilotée par l'IA. Le VCPI ne se contente pas de résoudre la crise des données dans le domaine de la découverte de médicaments ; il ouvre la voie à une nouvelle ère où les expériences biologiques et les pipelines d'apprentissage de l'IA évoluent conjointement, de manière ouverte et dans un but précis.
Google va renforcer son investissement dans Anthropic, pour un montant total pouvant atteindre 40 milliards de dollars
Dans la course effrénée à l'IA, les géants de la tech multiplient les initiatives audacieuses. Selon les dernières informations, Google prévoit d'investir jusqu'à 10 milliards de dollars dans la start
L'essor du capital-risque dans le domaine de l'IA fait passer le chiffre d'affaires annuel au-delà du billion de yuans, déclenchant une nouvelle vague d'innovation
Les investissements mondiaux en capital-risque dans le domaine de l'intelligence artificielle sont en forte hausse. Au premier trimestre de cette année, près de 600 tours de table liés à l'I











