Ginkgo Datapoints 發起 VCPI 計畫,以解決 AI 藥物發現資料的挑戰
多年來,藥物發現領域的人工智慧 (AI) 一直受制於一個看似簡單的問題:資料品質不佳。大量的測序資料、匯集擾動研究和混合細胞實驗造成了一種進步的假象,然而開發人員所預期的預測性飛躍卻從未實現。這個領域產生的是噪音而不是清晰度,是實驗漂移而不是可重複性。數據集被優化為規模而非科學完整性,缺乏訓練可靠的虛擬細胞模型所需的精確、藥理特異性測量。
這就是 Ginkgo Datapoints 發起虛擬細胞藥理計畫 (Virtual Cell Pharmacology Initiative, VCPI) 的背景。這個計畫的目的是提供更好的資料,而不只是更多的資料,這是專為人工智慧模型所建立的資源,可預測類似藥物的分子如何影響真實的生物系統。正如官方公告所言,VCPI 將透過分析 10 萬種化合物產生超過 120 億個資料點,建立第一個專為虛擬細胞建模設計的標準化藥理資料集。
為什麼「更多資料」會失敗
在介紹 VCPI 時,Ginkgo 使用了一個很有說服力的比喻:想像一下將一把藥片扔到一籠小白鼠中,然後嘗試判斷哪隻小白鼠吃了哪顆藥片。現在再把它擴大到一個巨大籠子裡的一百萬隻小白鼠。這說明了集合單細胞藥理實驗的根本缺陷。它們會產生大量的資料集,但實驗設計卻掩蓋了特定化合物與其產生的生物效應之間的明確關聯。
問題不是技術不足,而是實驗架構有缺陷。人們認為更大的資料集會自動創造出更好的 AI 模型,這已經證明是不對的。Ginkgo 的博文將這種心態稱為「資料上癮」,認為如果沒有結構良好、高品質的輸入,即使是最先進的 AI 也會學習到不正確的模式。
VCPI 代表著與這種方法的決裂。它將生物可追溯性、實驗的嚴謹性和受控結構這些人工智能學習藥理學真正需要的元素放在首位,而非純粹的資料量。
VCPI 如何重建資料管道
VCPI 捨棄了集合分析,採用 DRUG-seq 這種高通量的大量 RNA 序列分析方法。每種化合物都在獨立的條碼孔中進行測試,因此可以進行特定治療的反應測量,信噪比遠遠高於匯集方法。根據新聞稿,Ginkgo 的自動化基礎設施每週可處理超過一百個 384 孔板,以工業規模產生數百萬個高保真 RNA 測量結果。
同樣重要的是 V-Ref293 的推出,這是一種新設計的標準化參考細胞系。透過提供通用的生物基線 - 虛擬細胞的「有機孪生」,VCPI 消除了不同實驗室使用同一細胞系的突變或基因漂移版本所造成的差異性。這解決了藥物基因組學中不可重複性的主要來源,並為 AI 模型提供所需的穩定基礎真相。
該計畫正在建立一個社區驅動的資料集,具有幾個主要特徵:
- 研究人員、製藥團隊和 AI 開發人員的開放參與
- 免費為提交的化合物進行高通量 RNA 分析
- 貢獻者可選擇禁售資料或保留永久專屬存取權
- 在社群投票的指導下每月發佈資料
- 提供模型分享、化合物優先順序排序和早期存取「超級使用者」地位的機會
社區建置的模型,而非資料彙集
VCPI 最為獨特的地方之一,就是在資料集完成之前即已推出。Ginkgo 並非提供一個已完成的資源,而是邀請科學社群協助決定哪些化合物最有價值,並隨著資料集的擴充進行即時合作。
這種結構也降低了參與者的風險。早期階段的生技公司可以提交化合物並獲得真實的藥理資料,而無需專門篩選的高成本。AI 團隊可協助確保資料集包含模型訓練所需的特定生物擾動。學術實驗室可以提供資料,同時可能保留 90 天的專屬資料視窗。
這種方法將資料生成從靜態產品轉變為動態、參與式的科學過程。
這對未來生物人工智能的意義
VCPI 的意義不僅限於 Ginkgo 或任何單一的虛擬細胞專案。虛擬細胞模型若要獲得科學可信度,就必須以穩定的生物參考為基礎,在可重複、特定治療的資料上進行訓練。沒有這個基礎,人工智能將繼續產生幻覺、錯誤預測或過度適應實驗假象。
像 VCPI 這樣的計畫標誌著領域內對資料觀點的轉變。實驗設計現在被認為與模型架構同樣重要。可重複性正在重新成為核心要求,而不是可有可无的理想。社區驅動的開放基礎設施專案在加速創新的潛力上,已開始超越封閉的專屬資料集。
如果虛擬細胞能夠成為可靠的預測工具,能夠在實驗室實驗開始之前對化合物進行排序、標示毒性或闡明生物通路,那將是因為像 VCPI 這類的專案創造了開發這些工具所需的結構化、可信的資料環境。
Ginkgo 優先重視更好的資料,而非僅是更多的資料,因此正在重塑 AI 驅動生物學的基礎。VCPI 不僅解決了藥物發現的資料危機,還為生物實驗和 AI 訓練管道共同發展的新時代奠定了基礎 - 開放且目的明確。
相關文章
螞蟻集團推出開源版 Ling-2.6-flash,為 Baoling 模型系列增添新成員
螞蟻集團的「寶靈」大型模型系列今日迎來重大更新,Ling-2.6-flash現已正式向全球開發者開放。為適應不同的硬體環境並降低部署門檻,該模型同時推出了包含 BF16、FP8 和 INT4 在內的多種精度版本,為開發者提供更靈活的推論選項。作為一款擁有 1040 億總參數與 74 億激活參數的 Instruct 模型,Ling-2.6-flash先前曾以「Elephant Alpha」的代號在
Conntour 從 General Catalyst 和 YC 獲得 700 萬美元資金,用於開發人工智慧驅動的監控影像搜尋技術
監控技術產業目前正受到密切關注,但原因卻並非令人樂見。 隨著美國移民及海關執法局據報曾存取 Flock 的攝影機網路進行監控,以及家用攝影機製造商 Ring 因開發允許執法機關向屋主索取鄰里影像的功能而面臨批評,相關爭議隨之爆發。這些發展已引發關於安全、隱私及監控倫理的廣泛辯論。然而,爭議並未削弱市場需求。視覺語言模型的持續進步,正推動著那些協助企業更有效管理場地的公司持續成長。視訊監控新創公司
蘋果首款 AI 硬體曝光:配備相機的 AirPods 進入 DVT 階段
蘋果在人工智慧硬體領域的野心正逐漸明朗。 知名科技記者馬克·古爾曼(Mark Gurman)報導指出,眾所期待的內建相機 AirPods 已進入關鍵的最終開發階段:設計驗證測試(DVT)。這意味著產品的工業設計與核心功能已大致定案,使這款耳機成為蘋果首款真正的 AI 穿戴式裝置。並非用於拍照:相機是 Siri 的「眼睛」儘管許多人可能有所誤解,但嵌入這些 AirPods 中的低解析度相機並非用於日
相關專題推薦
評論 (0)
0/500
多年來,藥物發現領域的人工智慧 (AI) 一直受制於一個看似簡單的問題:資料品質不佳。大量的測序資料、匯集擾動研究和混合細胞實驗造成了一種進步的假象,然而開發人員所預期的預測性飛躍卻從未實現。這個領域產生的是噪音而不是清晰度,是實驗漂移而不是可重複性。數據集被優化為規模而非科學完整性,缺乏訓練可靠的虛擬細胞模型所需的精確、藥理特異性測量。
這就是 Ginkgo Datapoints 發起虛擬細胞藥理計畫 (Virtual Cell Pharmacology Initiative, VCPI) 的背景。這個計畫的目的是提供更好的資料,而不只是更多的資料,這是專為人工智慧模型所建立的資源,可預測類似藥物的分子如何影響真實的生物系統。正如官方公告所言,VCPI 將透過分析 10 萬種化合物產生超過 120 億個資料點,建立第一個專為虛擬細胞建模設計的標準化藥理資料集。
為什麼「更多資料」會失敗
在介紹 VCPI 時,Ginkgo 使用了一個很有說服力的比喻:想像一下將一把藥片扔到一籠小白鼠中,然後嘗試判斷哪隻小白鼠吃了哪顆藥片。現在再把它擴大到一個巨大籠子裡的一百萬隻小白鼠。這說明了集合單細胞藥理實驗的根本缺陷。它們會產生大量的資料集,但實驗設計卻掩蓋了特定化合物與其產生的生物效應之間的明確關聯。
問題不是技術不足,而是實驗架構有缺陷。人們認為更大的資料集會自動創造出更好的 AI 模型,這已經證明是不對的。Ginkgo 的博文將這種心態稱為「資料上癮」,認為如果沒有結構良好、高品質的輸入,即使是最先進的 AI 也會學習到不正確的模式。
VCPI 代表著與這種方法的決裂。它將生物可追溯性、實驗的嚴謹性和受控結構這些人工智能學習藥理學真正需要的元素放在首位,而非純粹的資料量。
VCPI 如何重建資料管道
VCPI 捨棄了集合分析,採用 DRUG-seq 這種高通量的大量 RNA 序列分析方法。每種化合物都在獨立的條碼孔中進行測試,因此可以進行特定治療的反應測量,信噪比遠遠高於匯集方法。根據新聞稿,Ginkgo 的自動化基礎設施每週可處理超過一百個 384 孔板,以工業規模產生數百萬個高保真 RNA 測量結果。
同樣重要的是 V-Ref293 的推出,這是一種新設計的標準化參考細胞系。透過提供通用的生物基線 - 虛擬細胞的「有機孪生」,VCPI 消除了不同實驗室使用同一細胞系的突變或基因漂移版本所造成的差異性。這解決了藥物基因組學中不可重複性的主要來源,並為 AI 模型提供所需的穩定基礎真相。
該計畫正在建立一個社區驅動的資料集,具有幾個主要特徵:
- 研究人員、製藥團隊和 AI 開發人員的開放參與
- 免費為提交的化合物進行高通量 RNA 分析
- 貢獻者可選擇禁售資料或保留永久專屬存取權
- 在社群投票的指導下每月發佈資料
- 提供模型分享、化合物優先順序排序和早期存取「超級使用者」地位的機會
社區建置的模型,而非資料彙集
VCPI 最為獨特的地方之一,就是在資料集完成之前即已推出。Ginkgo 並非提供一個已完成的資源,而是邀請科學社群協助決定哪些化合物最有價值,並隨著資料集的擴充進行即時合作。
這種結構也降低了參與者的風險。早期階段的生技公司可以提交化合物並獲得真實的藥理資料,而無需專門篩選的高成本。AI 團隊可協助確保資料集包含模型訓練所需的特定生物擾動。學術實驗室可以提供資料,同時可能保留 90 天的專屬資料視窗。
這種方法將資料生成從靜態產品轉變為動態、參與式的科學過程。
這對未來生物人工智能的意義
VCPI 的意義不僅限於 Ginkgo 或任何單一的虛擬細胞專案。虛擬細胞模型若要獲得科學可信度,就必須以穩定的生物參考為基礎,在可重複、特定治療的資料上進行訓練。沒有這個基礎,人工智能將繼續產生幻覺、錯誤預測或過度適應實驗假象。
像 VCPI 這樣的計畫標誌著領域內對資料觀點的轉變。實驗設計現在被認為與模型架構同樣重要。可重複性正在重新成為核心要求,而不是可有可无的理想。社區驅動的開放基礎設施專案在加速創新的潛力上,已開始超越封閉的專屬資料集。
如果虛擬細胞能夠成為可靠的預測工具,能夠在實驗室實驗開始之前對化合物進行排序、標示毒性或闡明生物通路,那將是因為像 VCPI 這類的專案創造了開發這些工具所需的結構化、可信的資料環境。
Ginkgo 優先重視更好的資料,而非僅是更多的資料,因此正在重塑 AI 驅動生物學的基礎。VCPI 不僅解決了藥物發現的資料危機,還為生物實驗和 AI 訓練管道共同發展的新時代奠定了基礎 - 開放且目的明確。
螞蟻集團推出開源版 Ling-2.6-flash,為 Baoling 模型系列增添新成員
螞蟻集團的「寶靈」大型模型系列今日迎來重大更新,Ling-2.6-flash現已正式向全球開發者開放。為適應不同的硬體環境並降低部署門檻,該模型同時推出了包含 BF16、FP8 和 INT4 在內的多種精度版本,為開發者提供更靈活的推論選項。作為一款擁有 1040 億總參數與 74 億激活參數的 Instruct 模型,Ling-2.6-flash先前曾以「Elephant Alpha」的代號在
Conntour 從 General Catalyst 和 YC 獲得 700 萬美元資金,用於開發人工智慧驅動的監控影像搜尋技術
監控技術產業目前正受到密切關注,但原因卻並非令人樂見。 隨著美國移民及海關執法局據報曾存取 Flock 的攝影機網路進行監控,以及家用攝影機製造商 Ring 因開發允許執法機關向屋主索取鄰里影像的功能而面臨批評,相關爭議隨之爆發。這些發展已引發關於安全、隱私及監控倫理的廣泛辯論。然而,爭議並未削弱市場需求。視覺語言模型的持續進步,正推動著那些協助企業更有效管理場地的公司持續成長。視訊監控新創公司
蘋果首款 AI 硬體曝光:配備相機的 AirPods 進入 DVT 階段
蘋果在人工智慧硬體領域的野心正逐漸明朗。 知名科技記者馬克·古爾曼(Mark Gurman)報導指出,眾所期待的內建相機 AirPods 已進入關鍵的最終開發階段:設計驗證測試(DVT)。這意味著產品的工業設計與核心功能已大致定案,使這款耳機成為蘋果首款真正的 AI 穿戴式裝置。並非用於拍照:相機是 Siri 的「眼睛」儘管許多人可能有所誤解,但嵌入這些 AirPods 中的低解析度相機並非用於日





首頁






