Heim
Ginkgo Datapoints startet VCPI-Initiative zur Bewältigung von Datenherausforderungen in der KI-Wirkstoffforschung
Jahrelang wurde die künstliche Intelligenz in der Arzneimittelforschung durch ein trügerisch einfaches Problem gebremst: schlechte Datenqualität. Riesige Mengen an Sequenzierungsdaten, gepoolte Störungsstudien und Experimente mit gemischten Zellen schufen die Illusion des Fortschritts, doch der von den Entwicklern erwartete Vorhersagesprung blieb aus. Das Feld erzeugte Rauschen anstelle von Klarheit, experimentelle Drift anstelle von Reproduzierbarkeit. Die Datensätze wurden eher im Hinblick auf die Skalierung als auf die wissenschaftliche Integrität optimiert, und es fehlten die präzisen, pharmakologiespezifischen Messungen, die für das Training zuverlässiger virtueller Zellmodelle erforderlich sind.
Vor diesem Hintergrund hat Ginkgo Datapoints die Virtual Cell Pharmacology Initiative (VCPI) ins Leben gerufen. Dieses Projekt zielt darauf ab, bessere Daten zu liefern, nicht nur mehr Daten - eine Ressource, die speziell für KI-Modelle entwickelt wurde, die vorhersagen, wie arzneimittelähnliche Moleküle reale biologische Systeme beeinflussen. Wie es in der offiziellen Ankündigung heißt, wird VCPI mehr als 12 Milliarden Datenpunkte aus dem Profil von 100.000 Verbindungen generieren und damit den ersten standardisierten Pharmakologie-Datensatz für die virtuelle Zellmodellierung schaffen.
Warum "mehr Daten" gescheitert sind
Bei der Vorstellung des VCPI verwendet Ginkgo eine treffende Analogie: Stellen Sie sich vor, Sie werfen eine Handvoll Pillen in einen Mäusekäfig und versuchen dann festzustellen, welche Maus welche Pille geschluckt hat. Nun stelle man sich eine Million Mäuse in einem riesigen Käfig vor. Dies veranschaulicht den grundlegenden Fehler bei gepoolten Einzelzell-Pharmakologie-Experimenten. Sie produzieren riesige Datensätze, aber die Versuchsanordnung verschleiert die klare Verbindung zwischen einer bestimmten Verbindung und der daraus resultierenden biologischen Wirkung.
Das Problem ist nicht ein Mangel an Technologie, sondern ein fehlerhafter Versuchsaufbau. Die Annahme, dass größere Datensätze automatisch bessere KI-Modelle hervorbringen, hat sich als falsch erwiesen. Der Blogbeitrag von Ginkgo bezeichnet diese Denkweise als "Datensucht" und argumentiert, dass selbst die fortschrittlichste KI ohne gut strukturierte, qualitativ hochwertige Eingaben falsche Muster lernt.
VCPI stellt eine entscheidende Abkehr von diesem Ansatz dar. Es gibt der biologischen Rückverfolgbarkeit, der experimentellen Strenge und der kontrollierten Struktur - den Elementen, die KI wirklich braucht, um Pharmakologie zu lernen - Vorrang vor der schieren Datenmenge.
Wie VCPI die Datenpipeline neu aufbaut
VCPI wendet sich von gepoolten Assays ab und setzt DRUG-seq ein, eine Hochdurchsatz-Methode zur RNA-Sequenzierung. Jeder Wirkstoff wird in einer isolierten, mit einem Barcode versehenen Vertiefung getestet, was behandlungsspezifische Reaktionsmessungen mit einem weitaus besseren Signal-Rausch-Verhältnis ermöglicht, als dies bei gepoolten Methoden der Fall ist. Der Pressemitteilung zufolge kann die automatisierte Infrastruktur von Ginkgo wöchentlich über hundert 384-Well-Platten verarbeiten und so Millionen von hochgenauen RNA-Messungen im industriellen Maßstab erzeugen.
Ebenso entscheidend ist die Einführung von V-Ref293, einer neu entwickelten, standardisierten Referenzzelllinie. Durch die Bereitstellung einer universellen biologischen Basislinie - einem "organischen Zwilling" der virtuellen Zellen - eliminiert VCPI die Variabilität, die durch die Verwendung mutierter oder genetisch abweichender Versionen derselben Zelllinie in verschiedenen Labors verursacht wird. Damit wird eine der Hauptursachen für die mangelnde Reproduzierbarkeit in der Pharmakogenomik beseitigt und den KI-Modellen die erforderliche stabile Basiswahrheit geboten.
Die Initiative baut einen gemeinschaftsgesteuerten Datensatz mit mehreren wichtigen Merkmalen auf:
- Offene Teilnahme für Forscher, Pharmateams und KI-Entwickler
- Kostenlose Hochdurchsatz-RNA-Profilierung für eingereichte Verbindungen
- Optionen für Mitwirkende, Daten zu sperren oder einen permanenten proprietären Zugang zu erhalten
- Monatliche Datenfreigabe durch Abstimmung in der Community
- Möglichkeiten zur gemeinsamen Nutzung des Modells, zur Priorisierung von Wirkstoffen und zum frühzeitigen Zugriff auf den Status eines "Supernutzers".
Ein von der Gemeinschaft entwickeltes Modell, keine Datenhalde
Einer der markantesten Aspekte des VCPI ist seine Veröffentlichung vor der Fertigstellung des Datensatzes. Anstatt eine fertige Ressource zu präsentieren, lädt Ginkgo die wissenschaftliche Gemeinschaft dazu ein, mitzuentscheiden, welche Verbindungen am wertvollsten sind, und in Echtzeit mitzuarbeiten, während der Datensatz erweitert wird.
Diese Struktur verringert auch das Risiko für die Teilnehmer. Biotech-Unternehmen, die sich noch in der Anfangsphase befinden, können Wirkstoffe einreichen und erhalten echte pharmakologische Daten, ohne die hohen Kosten eines speziellen Screenings. KI-Teams können dazu beitragen, dass der Datensatz die spezifischen biologischen Störungen enthält, die für das Modelltraining benötigt werden. Akademische Labors können einen Beitrag leisten und dabei möglicherweise ein exklusives 90-Tage-Datenfenster behalten.
Dieser Ansatz verwandelt die Datengenerierung von einem statischen Produkt in einen dynamischen, partizipativen wissenschaftlichen Prozess.
Was dies für die Zukunft der Bio-AI bedeutet
Die Auswirkungen der VCPI gehen über Ginkgo oder ein einzelnes virtuelles Zellprojekt hinaus. Damit virtuelle Zellmodelle wissenschaftliche Glaubwürdigkeit erlangen, müssen sie auf reproduzierbare, behandlungsspezifische Daten trainiert werden, die auf einer stabilen biologischen Referenz beruhen. Ohne diese Grundlage wird die künstliche Intelligenz weiterhin halluzinieren, falsche Vorhersagen machen oder sich zu sehr an experimentelle Artefakte anpassen.
Initiativen wie die VCPI markieren einen Wandel in der Art und Weise, wie das Feld Daten betrachtet. Die Versuchsplanung wird jetzt als ebenso wichtig anerkannt wie die Modellarchitektur. Die Reproduzierbarkeit wird wieder zu einer zentralen Anforderung und nicht zu einem optionalen Ideal. Von der Gemeinschaft betriebene Projekte mit offener Infrastruktur beginnen, geschlossene proprietäre Datensätze in ihrem Potenzial zur Beschleunigung von Innovationen zu übertreffen.
Wenn virtuelle Zellen jemals zu verlässlichen Vorhersageinstrumenten werden - die in der Lage sind, Verbindungen zu klassifizieren, Toxizitäten zu erkennen oder biologische Pfade zu beleuchten, bevor Experimente im Nasslabor beginnen -, dann nur, weil Projekte wie VCPI die strukturierte, vertrauenswürdige Datenumgebung geschaffen haben, die für ihre Entwicklung notwendig ist.
Indem Ginkgo besseren Daten Vorrang vor einfach mehr Daten einräumt, werden die Grundlagen der KI-gesteuerten Biologie neu gestaltet. VCPI geht nicht nur die Datenkrise in der Arzneimittelforschung an, sondern schafft die Voraussetzungen für eine neue Ära, in der sich biologische Experimente und KI-Trainingspipelines gemeinsam entwickeln - offen und mit klarem Ziel.
Verwandter Artikel
ChatGPT-Erwachsenenmodus erneut verschoben; Ultraman: Intelligenz hat Vorrang
OpenAI verschiebt umstrittene Funktion erneut und konzentriert sich auf Personalisierung und proaktive InteraktionOb „unangemessene Inhalte“ Teil eines produktiven KI-Tools sein sollten, sorgt in der
Baidu Health testet intern den KI-Arztassistenten „DoctorClaw“ für die Recherche wissenschaftlicher Informationen und die Unterstützung im Büro auf kurze Sicht
Baidu Health hat Berichten zufolge mit internen Tests eines professionellen KI-Assistenten für Ärzte begonnen. Das intern als „DoctorClaw“ (die „Lobster Doctor“-Version) bezeichnete Produkt stellt ein
Cursor Composer 2 vs. Claude Opus 4.6: Benchmark-Test entfacht neue Debatte über KI-Programmierung
Am 19. März veröffentlichte Cursor offiziell sein hauseigenes Programmiermodell Composer 2. Die Ankündigung löste in der Entwickler-Community sofort Diskussionen aus – laut Cursor erzielte Composer 2
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Jahrelang wurde die künstliche Intelligenz in der Arzneimittelforschung durch ein trügerisch einfaches Problem gebremst: schlechte Datenqualität. Riesige Mengen an Sequenzierungsdaten, gepoolte Störungsstudien und Experimente mit gemischten Zellen schufen die Illusion des Fortschritts, doch der von den Entwicklern erwartete Vorhersagesprung blieb aus. Das Feld erzeugte Rauschen anstelle von Klarheit, experimentelle Drift anstelle von Reproduzierbarkeit. Die Datensätze wurden eher im Hinblick auf die Skalierung als auf die wissenschaftliche Integrität optimiert, und es fehlten die präzisen, pharmakologiespezifischen Messungen, die für das Training zuverlässiger virtueller Zellmodelle erforderlich sind.
Vor diesem Hintergrund hat Ginkgo Datapoints die Virtual Cell Pharmacology Initiative (VCPI) ins Leben gerufen. Dieses Projekt zielt darauf ab, bessere Daten zu liefern, nicht nur mehr Daten - eine Ressource, die speziell für KI-Modelle entwickelt wurde, die vorhersagen, wie arzneimittelähnliche Moleküle reale biologische Systeme beeinflussen. Wie es in der offiziellen Ankündigung heißt, wird VCPI mehr als 12 Milliarden Datenpunkte aus dem Profil von 100.000 Verbindungen generieren und damit den ersten standardisierten Pharmakologie-Datensatz für die virtuelle Zellmodellierung schaffen.
Warum "mehr Daten" gescheitert sind
Bei der Vorstellung des VCPI verwendet Ginkgo eine treffende Analogie: Stellen Sie sich vor, Sie werfen eine Handvoll Pillen in einen Mäusekäfig und versuchen dann festzustellen, welche Maus welche Pille geschluckt hat. Nun stelle man sich eine Million Mäuse in einem riesigen Käfig vor. Dies veranschaulicht den grundlegenden Fehler bei gepoolten Einzelzell-Pharmakologie-Experimenten. Sie produzieren riesige Datensätze, aber die Versuchsanordnung verschleiert die klare Verbindung zwischen einer bestimmten Verbindung und der daraus resultierenden biologischen Wirkung.
Das Problem ist nicht ein Mangel an Technologie, sondern ein fehlerhafter Versuchsaufbau. Die Annahme, dass größere Datensätze automatisch bessere KI-Modelle hervorbringen, hat sich als falsch erwiesen. Der Blogbeitrag von Ginkgo bezeichnet diese Denkweise als "Datensucht" und argumentiert, dass selbst die fortschrittlichste KI ohne gut strukturierte, qualitativ hochwertige Eingaben falsche Muster lernt.
VCPI stellt eine entscheidende Abkehr von diesem Ansatz dar. Es gibt der biologischen Rückverfolgbarkeit, der experimentellen Strenge und der kontrollierten Struktur - den Elementen, die KI wirklich braucht, um Pharmakologie zu lernen - Vorrang vor der schieren Datenmenge.
Wie VCPI die Datenpipeline neu aufbaut
VCPI wendet sich von gepoolten Assays ab und setzt DRUG-seq ein, eine Hochdurchsatz-Methode zur RNA-Sequenzierung. Jeder Wirkstoff wird in einer isolierten, mit einem Barcode versehenen Vertiefung getestet, was behandlungsspezifische Reaktionsmessungen mit einem weitaus besseren Signal-Rausch-Verhältnis ermöglicht, als dies bei gepoolten Methoden der Fall ist. Der Pressemitteilung zufolge kann die automatisierte Infrastruktur von Ginkgo wöchentlich über hundert 384-Well-Platten verarbeiten und so Millionen von hochgenauen RNA-Messungen im industriellen Maßstab erzeugen.
Ebenso entscheidend ist die Einführung von V-Ref293, einer neu entwickelten, standardisierten Referenzzelllinie. Durch die Bereitstellung einer universellen biologischen Basislinie - einem "organischen Zwilling" der virtuellen Zellen - eliminiert VCPI die Variabilität, die durch die Verwendung mutierter oder genetisch abweichender Versionen derselben Zelllinie in verschiedenen Labors verursacht wird. Damit wird eine der Hauptursachen für die mangelnde Reproduzierbarkeit in der Pharmakogenomik beseitigt und den KI-Modellen die erforderliche stabile Basiswahrheit geboten.
Die Initiative baut einen gemeinschaftsgesteuerten Datensatz mit mehreren wichtigen Merkmalen auf:
- Offene Teilnahme für Forscher, Pharmateams und KI-Entwickler
- Kostenlose Hochdurchsatz-RNA-Profilierung für eingereichte Verbindungen
- Optionen für Mitwirkende, Daten zu sperren oder einen permanenten proprietären Zugang zu erhalten
- Monatliche Datenfreigabe durch Abstimmung in der Community
- Möglichkeiten zur gemeinsamen Nutzung des Modells, zur Priorisierung von Wirkstoffen und zum frühzeitigen Zugriff auf den Status eines "Supernutzers".
Ein von der Gemeinschaft entwickeltes Modell, keine Datenhalde
Einer der markantesten Aspekte des VCPI ist seine Veröffentlichung vor der Fertigstellung des Datensatzes. Anstatt eine fertige Ressource zu präsentieren, lädt Ginkgo die wissenschaftliche Gemeinschaft dazu ein, mitzuentscheiden, welche Verbindungen am wertvollsten sind, und in Echtzeit mitzuarbeiten, während der Datensatz erweitert wird.
Diese Struktur verringert auch das Risiko für die Teilnehmer. Biotech-Unternehmen, die sich noch in der Anfangsphase befinden, können Wirkstoffe einreichen und erhalten echte pharmakologische Daten, ohne die hohen Kosten eines speziellen Screenings. KI-Teams können dazu beitragen, dass der Datensatz die spezifischen biologischen Störungen enthält, die für das Modelltraining benötigt werden. Akademische Labors können einen Beitrag leisten und dabei möglicherweise ein exklusives 90-Tage-Datenfenster behalten.
Dieser Ansatz verwandelt die Datengenerierung von einem statischen Produkt in einen dynamischen, partizipativen wissenschaftlichen Prozess.
Was dies für die Zukunft der Bio-AI bedeutet
Die Auswirkungen der VCPI gehen über Ginkgo oder ein einzelnes virtuelles Zellprojekt hinaus. Damit virtuelle Zellmodelle wissenschaftliche Glaubwürdigkeit erlangen, müssen sie auf reproduzierbare, behandlungsspezifische Daten trainiert werden, die auf einer stabilen biologischen Referenz beruhen. Ohne diese Grundlage wird die künstliche Intelligenz weiterhin halluzinieren, falsche Vorhersagen machen oder sich zu sehr an experimentelle Artefakte anpassen.
Initiativen wie die VCPI markieren einen Wandel in der Art und Weise, wie das Feld Daten betrachtet. Die Versuchsplanung wird jetzt als ebenso wichtig anerkannt wie die Modellarchitektur. Die Reproduzierbarkeit wird wieder zu einer zentralen Anforderung und nicht zu einem optionalen Ideal. Von der Gemeinschaft betriebene Projekte mit offener Infrastruktur beginnen, geschlossene proprietäre Datensätze in ihrem Potenzial zur Beschleunigung von Innovationen zu übertreffen.
Wenn virtuelle Zellen jemals zu verlässlichen Vorhersageinstrumenten werden - die in der Lage sind, Verbindungen zu klassifizieren, Toxizitäten zu erkennen oder biologische Pfade zu beleuchten, bevor Experimente im Nasslabor beginnen -, dann nur, weil Projekte wie VCPI die strukturierte, vertrauenswürdige Datenumgebung geschaffen haben, die für ihre Entwicklung notwendig ist.
Indem Ginkgo besseren Daten Vorrang vor einfach mehr Daten einräumt, werden die Grundlagen der KI-gesteuerten Biologie neu gestaltet. VCPI geht nicht nur die Datenkrise in der Arzneimittelforschung an, sondern schafft die Voraussetzungen für eine neue Ära, in der sich biologische Experimente und KI-Trainingspipelines gemeinsam entwickeln - offen und mit klarem Ziel.
ChatGPT-Erwachsenenmodus erneut verschoben; Ultraman: Intelligenz hat Vorrang
OpenAI verschiebt umstrittene Funktion erneut und konzentriert sich auf Personalisierung und proaktive InteraktionOb „unangemessene Inhalte“ Teil eines produktiven KI-Tools sein sollten, sorgt in der
Baidu Health testet intern den KI-Arztassistenten „DoctorClaw“ für die Recherche wissenschaftlicher Informationen und die Unterstützung im Büro auf kurze Sicht
Baidu Health hat Berichten zufolge mit internen Tests eines professionellen KI-Assistenten für Ärzte begonnen. Das intern als „DoctorClaw“ (die „Lobster Doctor“-Version) bezeichnete Produkt stellt ein
Cursor Composer 2 vs. Claude Opus 4.6: Benchmark-Test entfacht neue Debatte über KI-Programmierung
Am 19. März veröffentlichte Cursor offiziell sein hauseigenes Programmiermodell Composer 2. Die Ankündigung löste in der Entwickler-Community sofort Diskussionen aus – laut Cursor erzielte Composer 2











