Hogar
Ginkgo Datapoints lanza la iniciativa VCPI para abordar los retos de la IA en el descubrimiento de fármacos
Durante años, la IA en el descubrimiento de fármacos se ha visto frenada por un problema aparentemente sencillo: la mala calidad de los datos. Grandes cantidades de datos de secuenciación, estudios de perturbación combinados y experimentos con células mixtas crearon una ilusión de progreso, pero el salto predictivo que esperaban los desarrolladores nunca llegó. El campo generó ruido en lugar de claridad, deriva experimental en lugar de reproducibilidad. Los conjuntos de datos se optimizaron en función de la escala en lugar de la integridad científica, y carecían de las mediciones precisas y específicas de la farmacología necesarias para entrenar modelos celulares virtuales fiables.
Este es el contexto en el que Ginkgo Datapoints ha lanzado la Iniciativa de Farmacología Celular Virtual (VCPI). El objetivo de este proyecto es ofrecer datos mejores, no sólo más datos, un recurso creado específicamente para los modelos de IA que predicen cómo afectan las moléculas similares a los fármacos a los sistemas biológicos reales. Según el anuncio oficial, la VCPI generará más de 12.000 millones de puntos de datos a partir del perfil de 100.000 compuestos, estableciendo el primer conjunto de datos farmacológicos estandarizado diseñado para el modelado celular virtual.
Por qué fracasó "más datos
En la presentación de VCPI, Ginkgo utiliza una analogía reveladora: imagínese que lanza un puñado de pastillas a una jaula de ratones e intenta determinar qué ratón ha consumido cada pastilla. Ahora amplíelo a un millón de ratones en una jaula gigante. Esto ilustra el defecto fundamental de los experimentos farmacológicos unicelulares agrupados. Producen conjuntos de datos masivos, pero el diseño experimental oculta el vínculo claro entre un compuesto específico y su efecto biológico resultante.
El problema no es la falta de tecnología, sino una arquitectura experimental defectuosa. La creencia de que conjuntos de datos más grandes crean automáticamente mejores modelos de IA ha demostrado ser incorrecta. La entrada del blog de Ginkgo califica esta mentalidad de "adicción a los datos", argumentando que sin entradas bien estructuradas y de alta calidad, incluso la IA más avanzada aprenderá patrones incorrectos.
El VCPI representa una ruptura decisiva con este planteamiento. Prioriza la trazabilidad biológica, el rigor experimental y la estructura controlada -los elementos que la IA realmente necesita para aprender farmacología- sobre el mero volumen de datos.
Cómo la VCPI reconstruye la canalización de datos
Alejándose de los ensayos agrupados, VCPI emplea DRUG-seq, un método de secuenciación de ARN masivo de alto rendimiento. Cada compuesto se prueba en un pocillo aislado con código de barras, lo que permite medir la respuesta específica al tratamiento con una relación señal-ruido mucho más limpia que la que ofrecen los métodos agrupados. Según el comunicado de prensa, la infraestructura automatizada de Ginkgo puede procesar semanalmente más de cien placas de 384 pocillos, generando millones de mediciones de ARN de alta fidelidad a escala industrial.
Igualmente importante es la introducción de V-Ref293, una nueva línea celular de referencia estandarizada. Al proporcionar una base biológica universal, un "gemelo orgánico" de las células virtuales, VCPI elimina la variabilidad causada por los diferentes laboratorios que utilizan versiones mutadas o genéticamente desviadas de la misma línea celular. De este modo se aborda una importante fuente de irreproducibilidad en farmacogenómica y se ofrece a los modelos de IA la verdad básica estable que necesitan.
La iniciativa está construyendo un conjunto de datos impulsado por la comunidad con varias características clave:
- Participación abierta para investigadores, equipos farmacéuticos y desarrolladores de IA
- Perfiles de ARN de alto rendimiento gratuitos para los compuestos enviados.
- Opciones para que los contribuyentes embarguen los datos o mantengan un acceso de propiedad permanente
- Publicación mensual de datos guiada por votación de la comunidad
- Oportunidades para compartir modelos, priorizar compuestos y obtener el estatus de "superusuario" de acceso temprano.
Un modelo creado por la comunidad, no un vertedero de datos
Uno de los aspectos más distintivos de VCPI es su lanzamiento previo a la finalización del conjunto de datos. En lugar de presentar un recurso acabado, Ginkgo invita a la comunidad científica a ayudar a decidir qué compuestos son más valiosos y a colaborar en tiempo real a medida que se amplía el conjunto de datos.
Esta estructura también reduce el riesgo para los participantes. Las empresas biotecnológicas en fase inicial pueden presentar compuestos y recibir datos farmacológicos reales sin el elevado coste de un cribado específico. Los equipos de IA pueden ayudar a garantizar que el conjunto de datos incluya las perturbaciones biológicas específicas necesarias para el entrenamiento del modelo. Los laboratorios académicos pueden contribuir conservando potencialmente una ventana de datos exclusiva de 90 días.
Este enfoque transforma la generación de datos de un producto estático a un proceso científico dinámico y participativo.
Lo que esto significa para el futuro de la Bio-AI
Las implicaciones de la VCPI van más allá de Ginkgo o de cualquier proyecto de células virtuales. Para que los modelos celulares virtuales adquieran credibilidad científica, deben formarse a partir de datos reproducibles, específicos para cada tratamiento y anclados en una referencia biológica estable. Sin esta base, la IA seguirá alucinando, haciendo predicciones erróneas o ajustándose en exceso a los artefactos experimentales.
Iniciativas como la VCPI marcan un cambio en la forma de ver los datos en este campo. Ahora se reconoce que el diseño experimental es tan importante como la arquitectura de los modelos. La reproducibilidad reclama su lugar como requisito básico, no como ideal opcional. Los proyectos de infraestructura abierta impulsados por la comunidad están empezando a superar a los conjuntos de datos cerrados y patentados en su potencial para acelerar la innovación.
Si las células virtuales llegan a convertirse en herramientas de predicción fiables -capaces de clasificar compuestos, señalar toxicidades o iluminar vías biológicas antes de que comiencen los experimentos en laboratorio húmedo- será porque proyectos como VCPI han creado el entorno de datos estructurado y fiable necesario para su desarrollo.
Al dar prioridad a la obtención de mejores datos en lugar de simplemente más datos, Ginkgo está replanteando los fundamentos de la biología impulsada por la IA. VCPI no solo aborda la crisis de datos en el descubrimiento de fármacos, sino que sienta las bases para una nueva era en la que los experimentos biológicos y los conductos de entrenamiento de IA coevolucionan de forma abierta y con un objetivo claro.
Artículo relacionado
Se lanza Maia 3, un motor de ajedrez de IA de código abierto y gratuito, para mejorar la experiencia de juego de los humanos
El equipo de Maia Chess ha lanzado un nuevo motor de ajedrez de código abierto, Maia 3, entrenado con 250 millones de partidas reales jugadas por humanos. Alcanza una puntuación Elo de unos 1800 punto
El auge del capital riesgo en el sector de la IA impulsa los ingresos en una sola temporada por encima del billón de yuanes, lo que da lugar a una nueva ola de innovación
El capital riesgo mundial en inteligencia artificial está en auge. En el primer trimestre de este año se cerraron cerca de 600 rondas de financiación relacionadas con la IA, por un valor total de más
OpenAI retira los modelos a gran escala o3 y GPT-4.5
Como líder en inteligencia artificial, cada movimiento técnico de OpenAI tiene un gran impacto en el sector. Recientemente, la empresa hizo un importante anuncio: retirará dos modelos clásicos —o3 y G
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Durante años, la IA en el descubrimiento de fármacos se ha visto frenada por un problema aparentemente sencillo: la mala calidad de los datos. Grandes cantidades de datos de secuenciación, estudios de perturbación combinados y experimentos con células mixtas crearon una ilusión de progreso, pero el salto predictivo que esperaban los desarrolladores nunca llegó. El campo generó ruido en lugar de claridad, deriva experimental en lugar de reproducibilidad. Los conjuntos de datos se optimizaron en función de la escala en lugar de la integridad científica, y carecían de las mediciones precisas y específicas de la farmacología necesarias para entrenar modelos celulares virtuales fiables.
Este es el contexto en el que Ginkgo Datapoints ha lanzado la Iniciativa de Farmacología Celular Virtual (VCPI). El objetivo de este proyecto es ofrecer datos mejores, no sólo más datos, un recurso creado específicamente para los modelos de IA que predicen cómo afectan las moléculas similares a los fármacos a los sistemas biológicos reales. Según el anuncio oficial, la VCPI generará más de 12.000 millones de puntos de datos a partir del perfil de 100.000 compuestos, estableciendo el primer conjunto de datos farmacológicos estandarizado diseñado para el modelado celular virtual.
Por qué fracasó "más datos
En la presentación de VCPI, Ginkgo utiliza una analogía reveladora: imagínese que lanza un puñado de pastillas a una jaula de ratones e intenta determinar qué ratón ha consumido cada pastilla. Ahora amplíelo a un millón de ratones en una jaula gigante. Esto ilustra el defecto fundamental de los experimentos farmacológicos unicelulares agrupados. Producen conjuntos de datos masivos, pero el diseño experimental oculta el vínculo claro entre un compuesto específico y su efecto biológico resultante.
El problema no es la falta de tecnología, sino una arquitectura experimental defectuosa. La creencia de que conjuntos de datos más grandes crean automáticamente mejores modelos de IA ha demostrado ser incorrecta. La entrada del blog de Ginkgo califica esta mentalidad de "adicción a los datos", argumentando que sin entradas bien estructuradas y de alta calidad, incluso la IA más avanzada aprenderá patrones incorrectos.
El VCPI representa una ruptura decisiva con este planteamiento. Prioriza la trazabilidad biológica, el rigor experimental y la estructura controlada -los elementos que la IA realmente necesita para aprender farmacología- sobre el mero volumen de datos.
Cómo la VCPI reconstruye la canalización de datos
Alejándose de los ensayos agrupados, VCPI emplea DRUG-seq, un método de secuenciación de ARN masivo de alto rendimiento. Cada compuesto se prueba en un pocillo aislado con código de barras, lo que permite medir la respuesta específica al tratamiento con una relación señal-ruido mucho más limpia que la que ofrecen los métodos agrupados. Según el comunicado de prensa, la infraestructura automatizada de Ginkgo puede procesar semanalmente más de cien placas de 384 pocillos, generando millones de mediciones de ARN de alta fidelidad a escala industrial.
Igualmente importante es la introducción de V-Ref293, una nueva línea celular de referencia estandarizada. Al proporcionar una base biológica universal, un "gemelo orgánico" de las células virtuales, VCPI elimina la variabilidad causada por los diferentes laboratorios que utilizan versiones mutadas o genéticamente desviadas de la misma línea celular. De este modo se aborda una importante fuente de irreproducibilidad en farmacogenómica y se ofrece a los modelos de IA la verdad básica estable que necesitan.
La iniciativa está construyendo un conjunto de datos impulsado por la comunidad con varias características clave:
- Participación abierta para investigadores, equipos farmacéuticos y desarrolladores de IA
- Perfiles de ARN de alto rendimiento gratuitos para los compuestos enviados.
- Opciones para que los contribuyentes embarguen los datos o mantengan un acceso de propiedad permanente
- Publicación mensual de datos guiada por votación de la comunidad
- Oportunidades para compartir modelos, priorizar compuestos y obtener el estatus de "superusuario" de acceso temprano.
Un modelo creado por la comunidad, no un vertedero de datos
Uno de los aspectos más distintivos de VCPI es su lanzamiento previo a la finalización del conjunto de datos. En lugar de presentar un recurso acabado, Ginkgo invita a la comunidad científica a ayudar a decidir qué compuestos son más valiosos y a colaborar en tiempo real a medida que se amplía el conjunto de datos.
Esta estructura también reduce el riesgo para los participantes. Las empresas biotecnológicas en fase inicial pueden presentar compuestos y recibir datos farmacológicos reales sin el elevado coste de un cribado específico. Los equipos de IA pueden ayudar a garantizar que el conjunto de datos incluya las perturbaciones biológicas específicas necesarias para el entrenamiento del modelo. Los laboratorios académicos pueden contribuir conservando potencialmente una ventana de datos exclusiva de 90 días.
Este enfoque transforma la generación de datos de un producto estático a un proceso científico dinámico y participativo.
Lo que esto significa para el futuro de la Bio-AI
Las implicaciones de la VCPI van más allá de Ginkgo o de cualquier proyecto de células virtuales. Para que los modelos celulares virtuales adquieran credibilidad científica, deben formarse a partir de datos reproducibles, específicos para cada tratamiento y anclados en una referencia biológica estable. Sin esta base, la IA seguirá alucinando, haciendo predicciones erróneas o ajustándose en exceso a los artefactos experimentales.
Iniciativas como la VCPI marcan un cambio en la forma de ver los datos en este campo. Ahora se reconoce que el diseño experimental es tan importante como la arquitectura de los modelos. La reproducibilidad reclama su lugar como requisito básico, no como ideal opcional. Los proyectos de infraestructura abierta impulsados por la comunidad están empezando a superar a los conjuntos de datos cerrados y patentados en su potencial para acelerar la innovación.
Si las células virtuales llegan a convertirse en herramientas de predicción fiables -capaces de clasificar compuestos, señalar toxicidades o iluminar vías biológicas antes de que comiencen los experimentos en laboratorio húmedo- será porque proyectos como VCPI han creado el entorno de datos estructurado y fiable necesario para su desarrollo.
Al dar prioridad a la obtención de mejores datos en lugar de simplemente más datos, Ginkgo está replanteando los fundamentos de la biología impulsada por la IA. VCPI no solo aborda la crisis de datos en el descubrimiento de fármacos, sino que sienta las bases para una nueva era en la que los experimentos biológicos y los conductos de entrenamiento de IA coevolucionan de forma abierta y con un objetivo claro.
El auge del capital riesgo en el sector de la IA impulsa los ingresos en una sola temporada por encima del billón de yuanes, lo que da lugar a una nueva ola de innovación
El capital riesgo mundial en inteligencia artificial está en auge. En el primer trimestre de este año se cerraron cerca de 600 rondas de financiación relacionadas con la IA, por un valor total de más
OpenAI retira los modelos a gran escala o3 y GPT-4.5
Como líder en inteligencia artificial, cada movimiento técnico de OpenAI tiene un gran impacto en el sector. Recientemente, la empresa hizo un importante anuncio: retirará dos modelos clásicos —o3 y G











