Дом
Ginkgo Datapoints запускает инициативу VCPI для решения проблем, связанных с данными об открытии лекарств с помощью искусственного интеллекта
В течение многих лет ИИ в области открытия лекарств сдерживала обманчиво простая проблема: низкое качество данных. Огромное количество данных секвенирования, объединенные исследования возмущений и эксперименты со смешанными клетками создавали иллюзию прогресса, но предсказательный скачок, которого ожидали разработчики, так и не произошел. Поле генерировало шум вместо ясности, экспериментальный дрейф вместо воспроизводимости. Наборы данных были оптимизированы для масштаба, а не для научной целостности, в них отсутствовали точные, специфические для фармакологии измерения, необходимые для обучения надежных виртуальных клеточных моделей.
Именно в таких условиях компания Ginkgo Datapoints начала реализацию проекта Virtual Cell Pharmacology Initiative (VCPI). Цель этого проекта - не просто увеличить количество данных, а предоставить более качественные данные - ресурс, специально созданный для моделей искусственного интеллекта, которые предсказывают, как молекулы, похожие на лекарства, влияют на реальные биологические системы. Как говорится в официальном заявлении, VCPI позволит получить более 12 миллиардов точек данных в результате профилирования 100 000 соединений, создав первый стандартизированный набор фармакологических данных, предназначенный для виртуального клеточного моделирования.
Почему "Больше данных" потерпело неудачу
Представляя VCPI, Гинкго использует показательную аналогию: представьте, что вы бросаете горсть таблеток в клетку с мышами, а затем пытаетесь определить, какая мышь съела ту или иную таблетку. А теперь переведите это на миллион мышей в одной огромной клетке. Это иллюстрирует фундаментальный недостаток объединенных одноклеточных фармакологических экспериментов. Они дают огромные массивы данных, но экспериментальная схема не позволяет выявить четкую связь между конкретным соединением и его биологическим эффектом.
Дело не в отсутствии технологий, а в несовершенстве экспериментальной архитектуры. Мнение о том, что большие массивы данных автоматически создают лучшие модели ИИ, оказалось неверным. В своем блоге Ginkgo называет этот образ мышления "зависимостью от данных", утверждая, что без хорошо структурированных и качественных данных даже самый продвинутый ИИ будет учиться неправильным моделям.
VCPI представляет собой решительный отход от этого подхода. В нем приоритет отдается биологической прослеживаемости, строгости экспериментов и контролируемой структуре - элементам, которые действительно необходимы ИИ для изучения фармакологии, - а не огромному объему данных.
Как VCPI перестраивает конвейер данных
Отказавшись от объединенных анализов, VCPI использует DRUG-seq, высокопроизводительный метод секвенирования объемной РНК. Каждое соединение тестируется в отдельной лунке со штрих-кодом, что позволяет измерять специфическую реакцию на лечение с гораздо более высоким соотношением сигнал/шум, чем при объединенных методах. Согласно пресс-релизу, автоматизированная инфраструктура Ginkgo может обрабатывать более сотни 384-луночных планшетов еженедельно, производя миллионы высокоточных измерений РНК в промышленных масштабах.
Не менее важным является внедрение V-Ref293, новой стандартизированной референсной клеточной линии. Предоставляя универсальную биологическую основу - "органического близнеца" виртуальных клеток, - компанияVCPI устраняет вариабельность, вызванную использованием разными лабораториями мутированных или генетически измененных версий одной и той же клеточной линии. Это устраняет основной источник невоспроизводимости в фармакогеномике и обеспечивает модели искусственного интеллекта стабильной базовой истиной, которая им необходима.
В рамках инициативы создается набор данных, управляемый сообществом, с несколькими ключевыми особенностями:
- Открытое участие для исследователей, фармацевтических компаний и разработчиков ИИ
- Бесплатное высокопроизводительное профилирование РНК для представленных соединений
- Возможность для участников наложить эмбарго на данные или сохранить постоянный патентованный доступ
- Ежемесячный выпуск данных на основе голосования сообщества
- Возможности для обмена моделями, определения приоритетов соединений и получения статуса "суперпользователя" с ранним доступом.
Модель, созданная сообществом, а не свалка данных
Одним из наиболее характерных аспектов VCPI является его запуск до завершения работы над набором данных. Вместо того чтобы представлять готовый ресурс, Ginkgo приглашает научное сообщество помочь решить, какие соединения являются наиболее ценными, и сотрудничать в режиме реального времени по мере расширения набора данных.
Такая структура также снижает риск для участников. Биотехнологические компании на ранних стадиях могут представить соединения и получить реальные фармакологические данные без высоких затрат на специальные скрининги. Команды специалистов по искусственному интеллекту могут помочь обеспечить набор данных специфическими биологическими возмущениями, необходимыми для обучения модели. Академические лаборатории могут вносить свой вклад, сохраняя за собой право на 90-дневное эксклюзивное окно данных.
Такой подход превращает генерацию данных из статичного продукта в динамичный научный процесс, в котором участвуют все желающие.
Что это значит для будущего биоинженерии
Последствия VCPI выходят за рамки Ginkgo или любого другого проекта по созданию виртуальных клеток. Чтобы виртуальные клеточные модели завоевали научное доверие, они должны быть обучены на воспроизводимых, специфических для лечения данных, привязанных к стабильному биологическому эталону. Без этой основы ИИ будет продолжать галлюцинировать, неверно предсказывать или чрезмерно подстраиваться под экспериментальные артефакты.
Инициативы, подобные VCPI, знаменуют собой сдвиг в отношении к данным. Экспериментальный дизайн теперь признается столь же важным, как и архитектура модели. Воспроизводимость отвоевывает свое место в качестве основного требования, а не факультативного идеала. Проекты с открытой инфраструктурой, управляемые сообществом, начинают превосходить закрытые проприетарные наборы данных по своему потенциалу для ускорения инноваций.
Если виртуальные клетки когда-нибудь станут надежными инструментами прогнозирования, способными ранжировать соединения, выявлять токсичность или освещать биологические пути еще до начала экспериментов во влажной лаборатории, это произойдет потому, что такие проекты, как VCPI, создали структурированную, надежную среду данных, необходимую для их развития.
Отдавая предпочтение более качественным данным, а не просто большему количеству данных, Ginkgo пересматривает основы биологии, управляемой ИИ. VCPI не просто решает проблему кризиса данных в открытии лекарств, он создает основу для новой эры, когда биологические эксперименты и обучающие конвейеры ИИ будут развиваться совместно - открыто и с четкой целью.
Связанная статья
Google увеличит инвестиции в Anthropic; общая сумма может составить до 40 миллиардов долларов
В условиях стремительной гонки вооружений в сфере искусственного интеллекта крупные технологические гиганты предпринимают все более смелые шаги. Согласно последним сообщениям, Google планирует инвести
Выпущен бесплатный шахматный движок с открытым исходным кодом Maia 3, призванный улучшить игровой процесс
Команда Maia Chess выпустила новый шахматный движок с открытым исходным кодом — Maia 3, обученный на 250 миллионах реальных партий, сыгранных людьми. Его рейтинг по системе Эло составляет около 1800 —
Бум венчурных инвестиций в сферу искусственного интеллекта привел к тому, что выручка за один квартал превысила триллион юаней, что дало старт новой волне инноваций
Объем глобальных венчурных инвестиций в сферу искусственного интеллекта стремительно растет. В первом квартале этого года было завершено почти 600 раундов финансирования, связанных с ИИ, на общую сумм
Рекомендации по связанным специальным темам
Комментарии (0)
В течение многих лет ИИ в области открытия лекарств сдерживала обманчиво простая проблема: низкое качество данных. Огромное количество данных секвенирования, объединенные исследования возмущений и эксперименты со смешанными клетками создавали иллюзию прогресса, но предсказательный скачок, которого ожидали разработчики, так и не произошел. Поле генерировало шум вместо ясности, экспериментальный дрейф вместо воспроизводимости. Наборы данных были оптимизированы для масштаба, а не для научной целостности, в них отсутствовали точные, специфические для фармакологии измерения, необходимые для обучения надежных виртуальных клеточных моделей.
Именно в таких условиях компания Ginkgo Datapoints начала реализацию проекта Virtual Cell Pharmacology Initiative (VCPI). Цель этого проекта - не просто увеличить количество данных, а предоставить более качественные данные - ресурс, специально созданный для моделей искусственного интеллекта, которые предсказывают, как молекулы, похожие на лекарства, влияют на реальные биологические системы. Как говорится в официальном заявлении, VCPI позволит получить более 12 миллиардов точек данных в результате профилирования 100 000 соединений, создав первый стандартизированный набор фармакологических данных, предназначенный для виртуального клеточного моделирования.
Почему "Больше данных" потерпело неудачу
Представляя VCPI, Гинкго использует показательную аналогию: представьте, что вы бросаете горсть таблеток в клетку с мышами, а затем пытаетесь определить, какая мышь съела ту или иную таблетку. А теперь переведите это на миллион мышей в одной огромной клетке. Это иллюстрирует фундаментальный недостаток объединенных одноклеточных фармакологических экспериментов. Они дают огромные массивы данных, но экспериментальная схема не позволяет выявить четкую связь между конкретным соединением и его биологическим эффектом.
Дело не в отсутствии технологий, а в несовершенстве экспериментальной архитектуры. Мнение о том, что большие массивы данных автоматически создают лучшие модели ИИ, оказалось неверным. В своем блоге Ginkgo называет этот образ мышления "зависимостью от данных", утверждая, что без хорошо структурированных и качественных данных даже самый продвинутый ИИ будет учиться неправильным моделям.
VCPI представляет собой решительный отход от этого подхода. В нем приоритет отдается биологической прослеживаемости, строгости экспериментов и контролируемой структуре - элементам, которые действительно необходимы ИИ для изучения фармакологии, - а не огромному объему данных.
Как VCPI перестраивает конвейер данных
Отказавшись от объединенных анализов, VCPI использует DRUG-seq, высокопроизводительный метод секвенирования объемной РНК. Каждое соединение тестируется в отдельной лунке со штрих-кодом, что позволяет измерять специфическую реакцию на лечение с гораздо более высоким соотношением сигнал/шум, чем при объединенных методах. Согласно пресс-релизу, автоматизированная инфраструктура Ginkgo может обрабатывать более сотни 384-луночных планшетов еженедельно, производя миллионы высокоточных измерений РНК в промышленных масштабах.
Не менее важным является внедрение V-Ref293, новой стандартизированной референсной клеточной линии. Предоставляя универсальную биологическую основу - "органического близнеца" виртуальных клеток, - компанияVCPI устраняет вариабельность, вызванную использованием разными лабораториями мутированных или генетически измененных версий одной и той же клеточной линии. Это устраняет основной источник невоспроизводимости в фармакогеномике и обеспечивает модели искусственного интеллекта стабильной базовой истиной, которая им необходима.
В рамках инициативы создается набор данных, управляемый сообществом, с несколькими ключевыми особенностями:
- Открытое участие для исследователей, фармацевтических компаний и разработчиков ИИ
- Бесплатное высокопроизводительное профилирование РНК для представленных соединений
- Возможность для участников наложить эмбарго на данные или сохранить постоянный патентованный доступ
- Ежемесячный выпуск данных на основе голосования сообщества
- Возможности для обмена моделями, определения приоритетов соединений и получения статуса "суперпользователя" с ранним доступом.
Модель, созданная сообществом, а не свалка данных
Одним из наиболее характерных аспектов VCPI является его запуск до завершения работы над набором данных. Вместо того чтобы представлять готовый ресурс, Ginkgo приглашает научное сообщество помочь решить, какие соединения являются наиболее ценными, и сотрудничать в режиме реального времени по мере расширения набора данных.
Такая структура также снижает риск для участников. Биотехнологические компании на ранних стадиях могут представить соединения и получить реальные фармакологические данные без высоких затрат на специальные скрининги. Команды специалистов по искусственному интеллекту могут помочь обеспечить набор данных специфическими биологическими возмущениями, необходимыми для обучения модели. Академические лаборатории могут вносить свой вклад, сохраняя за собой право на 90-дневное эксклюзивное окно данных.
Такой подход превращает генерацию данных из статичного продукта в динамичный научный процесс, в котором участвуют все желающие.
Что это значит для будущего биоинженерии
Последствия VCPI выходят за рамки Ginkgo или любого другого проекта по созданию виртуальных клеток. Чтобы виртуальные клеточные модели завоевали научное доверие, они должны быть обучены на воспроизводимых, специфических для лечения данных, привязанных к стабильному биологическому эталону. Без этой основы ИИ будет продолжать галлюцинировать, неверно предсказывать или чрезмерно подстраиваться под экспериментальные артефакты.
Инициативы, подобные VCPI, знаменуют собой сдвиг в отношении к данным. Экспериментальный дизайн теперь признается столь же важным, как и архитектура модели. Воспроизводимость отвоевывает свое место в качестве основного требования, а не факультативного идеала. Проекты с открытой инфраструктурой, управляемые сообществом, начинают превосходить закрытые проприетарные наборы данных по своему потенциалу для ускорения инноваций.
Если виртуальные клетки когда-нибудь станут надежными инструментами прогнозирования, способными ранжировать соединения, выявлять токсичность или освещать биологические пути еще до начала экспериментов во влажной лаборатории, это произойдет потому, что такие проекты, как VCPI, создали структурированную, надежную среду данных, необходимую для их развития.
Отдавая предпочтение более качественным данным, а не просто большему количеству данных, Ginkgo пересматривает основы биологии, управляемой ИИ. VCPI не просто решает проблему кризиса данных в открытии лекарств, он создает основу для новой эры, когда биологические эксперименты и обучающие конвейеры ИИ будут развиваться совместно - открыто и с четкой целью.
Google увеличит инвестиции в Anthropic; общая сумма может составить до 40 миллиардов долларов
В условиях стремительной гонки вооружений в сфере искусственного интеллекта крупные технологические гиганты предпринимают все более смелые шаги. Согласно последним сообщениям, Google планирует инвести
Бум венчурных инвестиций в сферу искусственного интеллекта привел к тому, что выручка за один квартал превысила триллион юаней, что дало старт новой волне инноваций
Объем глобальных венчурных инвестиций в сферу искусственного интеллекта стремительно растет. В первом квартале этого года было завершено почти 600 раундов финансирования, связанных с ИИ, на общую сумм











