银杏数据点启动 VCPI 计划,应对人工智能药物发现数据挑战
多年来,药物发现领域的人工智能一直受制于一个看似简单的问题:数据质量低下。大量的测序数据、集合扰动研究和混合细胞实验造成了一种进步的假象,但开发人员所期待的预测性飞跃却从未到来。该领域产生的是噪音而不是清晰度,是实验漂移而不是可重复性。数据集的优化是为了规模而非科学完整性,缺乏训练可靠的虚拟细胞模型所需的精确、药理学特异性测量。
这就是银杏数据点公司发起虚拟细胞药理学计划(VCPI)的背景。该项目旨在提供更好的数据,而不仅仅是更多的数据--一种专为人工智能模型构建的资源,用于预测类药物分子如何影响真实的生物系统。正如官方公告所述,VCPI 将通过对 10 万种化合物的分析产生超过 120 亿个数据点,建立首个专为虚拟细胞建模设计的标准化药理学数据集。
更多数据 "为何失败
银杏在介绍 VCPI 时打了一个形象的比喻:想象一下,把一把药片扔进小鼠笼子里,然后试图确定哪只小鼠吃了哪颗药片。现在再把它扩大到一个巨大的笼子里的一百万只小鼠。这说明了集合单细胞药理学实验的根本缺陷。它们能产生大量数据集,但实验设计却掩盖了特定化合物与其产生的生物效应之间的明确联系。
问题并不在于缺乏技术,而是实验结构存在缺陷。事实证明,那种认为数据集越大,人工智能模型越好的想法是错误的。银杏的博文将这种心态称为 "数据成瘾",认为如果没有结构良好的高质量输入,即使是最先进的人工智能也会学习到不正确的模式。
VCPI 代表着与这种方法的决裂。它优先考虑生物可追溯性、实验严谨性和受控结构--人工智能学习药理学真正需要的要素--而不是单纯的数据量。
VCPI 如何重建数据管道
VCPI 采用 DRUG-seq 这种高通量批量 RNA 序列分析方法,摒弃了集合分析。每种化合物都在一个独立的条形码孔中进行测试,这样就能以比集合方法更纯净的信噪比测量特定治疗的反应。据新闻稿称,Ginkgo 的自动化基础设施每周可处理一百多个 384 孔板,以工业规模进行数百万次高保真 RNA 测量。
同样重要的是引入了新设计的标准化参考细胞系 V-Ref293。通过提供通用的生物基线--虚拟细胞的 "有机孪生"--VCPI 消除了不同实验室使用同一细胞系的变异或基因漂移版本所造成的变异性。这解决了药物基因组学中不可再现性的一个主要来源,并为人工智能模型提供了所需的稳定的基本事实。
该计划正在建立一个由社区驱动的数据集,该数据集具有以下几个主要特点:
- 面向研究人员、制药团队和人工智能开发人员的开放式参与
- 对提交的化合物进行免费的高通量 RNA 分析
- 贡献者可选择禁售数据或保留永久专有访问权
- 在社区投票的指导下每月发布数据
- 提供模型共享、化合物优先排序和早期访问 "超级用户 "身份的机会
社区建立的模型,而不是数据垃圾堆
VCPI 最具特色的一点是在数据集完成之前发布。银杏公司并不是提供一个成品资源,而是邀请科学界帮助决定哪些化合物最有价值,并随着数据集的扩大进行实时合作。
这种结构也降低了参与者的风险。处于早期阶段的生物技术公司可以提交化合物并获得真实的药理学数据,而无需支付专门筛选的高昂费用。人工智能团队可以帮助确保数据集包含模型训练所需的特定生物扰动。学术实验室可以在保留 90 天独家数据窗口的同时作出贡献。
这种方法将数据生成从静态产品转变为动态的参与式科学过程。
这对生物人工智能的未来意味着什么?
VCPI 的意义超出了银杏或任何单一的虚拟细胞项目。虚拟细胞模型要想获得科学可信度,就必须以稳定的生物参照物为基础,根据可重复的特定治疗数据进行训练。如果没有这个基础,人工智能将继续产生幻觉、错误预测或过度拟合实验假象。
像 VCPI 这样的倡议标志着该领域对数据的看法发生了转变。现在,人们认识到实验设计与模型架构同等重要。可重复性正在重新成为核心要求,而不是可有可无的理想。社区驱动的开放式基础设施项目在加速创新方面的潜力开始超过封闭的专有数据集。
如果虚拟细胞能够成为可靠的预测工具--能够对化合物进行排序、标示毒性或在湿实验室实验开始前阐明生物通路--那将是因为像 VCPI 这样的项目为其发展创造了必要的结构化、可信的数据环境。
通过优先考虑更好的数据而不仅仅是更多的数据,银杏正在重新构建人工智能驱动的生物学基础。VCPI 不仅解决了药物发现中的数据危机,还为一个新时代的到来创造了条件,在这个时代中,生物实验和人工智能训练管道共同发展--公开且目的明确。
相关文章
解读新的ETSI人工智能安全标准
ETSI EN 304 223 确立了人工智能的基础安全要求,各组织应将其纳入其治理架构中。随着企业将机器学习融入核心工作流程,该欧洲标准为保护人工智能模型和系统提供了具体规定。这是首个适用于全球的人工智能网络安全欧洲标准,已获得各国国家标准化机构的正式批准,从而增强了其在国际市场上的公信力。作为《欧盟人工智能法案》的补充基准,该标准承认人工智能系统存在独特风险——包括数据中毒、模型混淆和间接提示
Gmail 推出个性化 AI 收件箱、搜索中的 AI 概览等功能
谷歌为Gmail推出了一款全新的AI智能收件箱,它能为您提供个性化的任务概览,并让您及时掌握重要更新。此外,Gmail还在搜索功能中推出了AI概览,并新增了一款类似Grammarly的校对工具。此前仅限付费用户使用的多项AI功能,现已向所有用户开放。新的“AI收件箱”标签页包含两个部分:“建议待办事项”和“待跟进主题”。 第一个部分显示需要采取行动的高优先级邮件摘要——例如,关于明天到期的账单提醒
首家百度AI影视剧创作基地在山东淄博正式启动
4月27日,山东省在数字文化创作领域迈出了重要一步,其首个百度AI漫画剧创作基地在淄博师范学院正式揭牌。该基地标志着校企合作开启了新篇章,旨在通过人工智能技术与文化创作教育的深度融合,探索培养数字文化创作人才的创新模式。在揭牌仪式上,校方代表强调,该基地将成为创新人才培养及深化政校企合作的重要平台。 展望未来,该校计划将真实项目案例引入课堂,摒弃传统教学方法,构建一个完整的项目化教学闭环,将“作业
相关专题推荐
评论 (0)
0/500
多年来,药物发现领域的人工智能一直受制于一个看似简单的问题:数据质量低下。大量的测序数据、集合扰动研究和混合细胞实验造成了一种进步的假象,但开发人员所期待的预测性飞跃却从未到来。该领域产生的是噪音而不是清晰度,是实验漂移而不是可重复性。数据集的优化是为了规模而非科学完整性,缺乏训练可靠的虚拟细胞模型所需的精确、药理学特异性测量。
这就是银杏数据点公司发起虚拟细胞药理学计划(VCPI)的背景。该项目旨在提供更好的数据,而不仅仅是更多的数据--一种专为人工智能模型构建的资源,用于预测类药物分子如何影响真实的生物系统。正如官方公告所述,VCPI 将通过对 10 万种化合物的分析产生超过 120 亿个数据点,建立首个专为虚拟细胞建模设计的标准化药理学数据集。
更多数据 "为何失败
银杏在介绍 VCPI 时打了一个形象的比喻:想象一下,把一把药片扔进小鼠笼子里,然后试图确定哪只小鼠吃了哪颗药片。现在再把它扩大到一个巨大的笼子里的一百万只小鼠。这说明了集合单细胞药理学实验的根本缺陷。它们能产生大量数据集,但实验设计却掩盖了特定化合物与其产生的生物效应之间的明确联系。
问题并不在于缺乏技术,而是实验结构存在缺陷。事实证明,那种认为数据集越大,人工智能模型越好的想法是错误的。银杏的博文将这种心态称为 "数据成瘾",认为如果没有结构良好的高质量输入,即使是最先进的人工智能也会学习到不正确的模式。
VCPI 代表着与这种方法的决裂。它优先考虑生物可追溯性、实验严谨性和受控结构--人工智能学习药理学真正需要的要素--而不是单纯的数据量。
VCPI 如何重建数据管道
VCPI 采用 DRUG-seq 这种高通量批量 RNA 序列分析方法,摒弃了集合分析。每种化合物都在一个独立的条形码孔中进行测试,这样就能以比集合方法更纯净的信噪比测量特定治疗的反应。据新闻稿称,Ginkgo 的自动化基础设施每周可处理一百多个 384 孔板,以工业规模进行数百万次高保真 RNA 测量。
同样重要的是引入了新设计的标准化参考细胞系 V-Ref293。通过提供通用的生物基线--虚拟细胞的 "有机孪生"--VCPI 消除了不同实验室使用同一细胞系的变异或基因漂移版本所造成的变异性。这解决了药物基因组学中不可再现性的一个主要来源,并为人工智能模型提供了所需的稳定的基本事实。
该计划正在建立一个由社区驱动的数据集,该数据集具有以下几个主要特点:
- 面向研究人员、制药团队和人工智能开发人员的开放式参与
- 对提交的化合物进行免费的高通量 RNA 分析
- 贡献者可选择禁售数据或保留永久专有访问权
- 在社区投票的指导下每月发布数据
- 提供模型共享、化合物优先排序和早期访问 "超级用户 "身份的机会
社区建立的模型,而不是数据垃圾堆
VCPI 最具特色的一点是在数据集完成之前发布。银杏公司并不是提供一个成品资源,而是邀请科学界帮助决定哪些化合物最有价值,并随着数据集的扩大进行实时合作。
这种结构也降低了参与者的风险。处于早期阶段的生物技术公司可以提交化合物并获得真实的药理学数据,而无需支付专门筛选的高昂费用。人工智能团队可以帮助确保数据集包含模型训练所需的特定生物扰动。学术实验室可以在保留 90 天独家数据窗口的同时作出贡献。
这种方法将数据生成从静态产品转变为动态的参与式科学过程。
这对生物人工智能的未来意味着什么?
VCPI 的意义超出了银杏或任何单一的虚拟细胞项目。虚拟细胞模型要想获得科学可信度,就必须以稳定的生物参照物为基础,根据可重复的特定治疗数据进行训练。如果没有这个基础,人工智能将继续产生幻觉、错误预测或过度拟合实验假象。
像 VCPI 这样的倡议标志着该领域对数据的看法发生了转变。现在,人们认识到实验设计与模型架构同等重要。可重复性正在重新成为核心要求,而不是可有可无的理想。社区驱动的开放式基础设施项目在加速创新方面的潜力开始超过封闭的专有数据集。
如果虚拟细胞能够成为可靠的预测工具--能够对化合物进行排序、标示毒性或在湿实验室实验开始前阐明生物通路--那将是因为像 VCPI 这样的项目为其发展创造了必要的结构化、可信的数据环境。
通过优先考虑更好的数据而不仅仅是更多的数据,银杏正在重新构建人工智能驱动的生物学基础。VCPI 不仅解决了药物发现中的数据危机,还为一个新时代的到来创造了条件,在这个时代中,生物实验和人工智能训练管道共同发展--公开且目的明确。
解读新的ETSI人工智能安全标准
ETSI EN 304 223 确立了人工智能的基础安全要求,各组织应将其纳入其治理架构中。随着企业将机器学习融入核心工作流程,该欧洲标准为保护人工智能模型和系统提供了具体规定。这是首个适用于全球的人工智能网络安全欧洲标准,已获得各国国家标准化机构的正式批准,从而增强了其在国际市场上的公信力。作为《欧盟人工智能法案》的补充基准,该标准承认人工智能系统存在独特风险——包括数据中毒、模型混淆和间接提示
Gmail 推出个性化 AI 收件箱、搜索中的 AI 概览等功能
谷歌为Gmail推出了一款全新的AI智能收件箱,它能为您提供个性化的任务概览,并让您及时掌握重要更新。此外,Gmail还在搜索功能中推出了AI概览,并新增了一款类似Grammarly的校对工具。此前仅限付费用户使用的多项AI功能,现已向所有用户开放。新的“AI收件箱”标签页包含两个部分:“建议待办事项”和“待跟进主题”。 第一个部分显示需要采取行动的高优先级邮件摘要——例如,关于明天到期的账单提醒
首家百度AI影视剧创作基地在山东淄博正式启动
4月27日,山东省在数字文化创作领域迈出了重要一步,其首个百度AI漫画剧创作基地在淄博师范学院正式揭牌。该基地标志着校企合作开启了新篇章,旨在通过人工智能技术与文化创作教育的深度融合,探索培养数字文化创作人才的创新模式。在揭牌仪式上,校方代表强调,该基地将成为创新人才培养及深化政校企合作的重要平台。 展望未来,该校计划将真实项目案例引入课堂,摒弃传统教学方法,构建一个完整的项目化教学闭环,将“作业





首页






