銀杏データポイント、AI創薬データの課題に取り組むVCPIイニシアチブを立ち上げる
何年もの間、創薬におけるAIは、質の低いデータという、見かけによらず単純な問題によって阻まれてきた。膨大な量のシーケンスデータ、プールされた摂動研究、混合細胞実験が進歩したかのように錯覚させたが、開発者が期待した予測的飛躍は訪れなかった。この分野では、明確さの代わりにノイズが発生し、再現性の代わりに実験ドリフトが発生した。データセットは、科学的完全性よりも規模に最適化され、信頼性の高いバーチャル細胞モデルを訓練するのに必要な、正確で薬理学に特化した測定が欠けていた。
銀杏データポイントがVirtual Cell Pharmacology Initiative(VCPI)を立ち上げた背景には、このような事情がある。このプロジェクトは、単にデータを増やすだけでなく、より良いデータを提供することを目的としており、薬物のような分子が実際の生物学的システムにどのような影響を与えるかを予測するAIモデルのために構築されたリソースである。公式発表にあるように、VCPIは10万化合物のプロファイリングから120億以上のデータポイントを生成し、仮想細胞モデリングのために設計された初の標準化された薬理学データセットを確立する。
なぜ "より多くのデータ "は失敗したのか
VCPIを紹介する際、イチョウは次のような例えを使っている。マウスのケージに一握りの錠剤を投げ入れ、どのマウスがどの錠剤を食べたかを調べるとしよう。そして、どのマウスがどの錠剤を消費したかを調べようとする。これは、プールされた単一細胞薬理学実験の根本的な欠点を示している。膨大なデータセットが得られるが、実験デザインによって、特定の化合物とその結果生じる生物学的効果との間の明確な関連性が見えなくなってしまうのである。
問題は技術の不足ではなく、実験構造の欠陥である。より大きなデータセットが自動的により優れたAIモデルを生み出すという考え方は間違っていることが証明された。イチョウのブログ記事は、この考え方を「データ中毒」と名付け、十分に構造化された高品質の入力がなければ、最先端のAIでさえ誤ったパターンを学習してしまうと主張している。
VCPIは、このアプローチからの決定的な脱却を意味する。VCPIは、生物学的トレーサビリティ、実験の厳密さ、管理された構造、つまりAIが薬理学を学ぶために真に必要な要素を、膨大なデータ量よりも優先している。
VCPIがデータパイプラインを再構築する方法
VCPIはプールアッセイから脱却し、DRUG-seqというハイスループットのバルクRNAシーケンス法を採用している。各化合物は分離され、バーコード化されたウェルで試験されるため、プール法よりもはるかにクリーンなS/N比で治療特異的な反応測定が可能となる。プレスリリースによると、Ginkgoの自動化されたインフラは、毎週100以上の384ウェルプレートを処理することができ、工業的規模で数百万の忠実度の高いRNA測定を行うことができる。
同様に重要なのは、V-Ref293の導入である。V-Ref293は新たに設計された標準化されたリファレンス細胞株である。VCPIは、普遍的な生物学的ベースライン、すなわちバーチャル細胞に対する "有機双生児 "を提供することで、異なる研究室が同じ細胞株の変異バージョンや遺伝的にドリフトしたバージョンを使用することによって生じるばらつきを排除する。これは、薬理ゲノミクスにおける再現不可能性の主な原因に対処し、AIモデルが必要とする安定した基礎的真実を提供する。
このイニシアチブでは、いくつかの重要な特徴を持つコミュニティ主導のデータセットを構築している:
- 研究者、製薬チーム、AI開発者のためのオープンな参加
- 投稿された化合物のハイスループットRNAプロファイリングを無料で提供
- データ提供者は、データの利用を禁止することも、永続的に独自のアクセスを維持することもできる。
- コミュニティの投票によって導かれる毎月のデータリリース
- モデルの共有、化合物の優先順位付け、早期アクセスの「スーパーユーザー」ステータスの機会
データのダンプではなく、コミュニティが構築したモデル
VCPIの最も特徴的な点は、データセットが完成する前に公開されることである。完成したリソースを提供するのではなく、イチョウは科学コミュニティに、どの化合物が最も価値があるかを決定する手助けをしてもらい、データセットが拡大するにつれてリアルタイムで共同研究を行うよう呼びかけている。
この仕組みは、参加者のリスクも軽減する。アーリーステージのバイオベンチャーは、化合物を提出し、専用のスクリーニングに高いコストをかけることなく、実際の薬理データを受け取ることができる。AIチームは、モデルのトレーニングに必要な特定の生物学的摂動がデータセットに含まれていることを確認できる。アカデミック・ラボは、90日間の独占的データウインドウを保持したまま貢献できる可能性がある。
このアプローチは、データ生成を静的な製品から動的で参加型の科学的プロセスへと変える。
バイオAIの将来にとって意味するもの
VCPIが意味することは、イチョウや単一のバーチャル細胞プロジェクトにとどまらない。バーチャル細胞モデルが科学的な信頼性を得るためには、安定した生物学的参照に固定された、再現可能な治療特異的データに基づいて訓練されなければならない。この基盤がなければ、AIは幻覚を見たり、予測を誤ったり、実験的なアーチファクトに過剰適合し続けることになる。
VCPIのようなイニシアチブは、この分野のデータに対する見方に変化をもたらすものである。実験デザインは、今やモデル構築と同じくらい重要であると認識されている。再現性は、オプション的な理想ではなく、中核的な要件としてその地位を取り戻しつつある。コミュニティ主導のオープン・インフラストラクチャー・プロジェクトは、イノベーションを加速する可能性において、クローズドなプロプライエタリー・データセットを凌駕し始めている。
ヴァーチャルセルが、化合物のランク付けや毒性判定、あるいはウェットラボでの実験開始前の生物学的経路の解明といった、信頼性の高い予測ツールになるとすれば、それはVCPIのようなプロジェクトが、その開発に必要な構造化された信頼できるデータ環境を構築したからにほかならない。
単にデータを増やすことよりも、より良いデータを優先することで、イチョウはAI主導の生物学の基礎を再構築している。VCPIは、創薬におけるデータの危機に対処するだけでなく、生物学的実験とAIのトレーニングパイプラインが、明確な目的を持ってオープンに共進化する新しい時代の舞台を用意したのである。
関連記事
人間のプレイ体験を向上させる無料のオープンソースAIチェスエンジン「Maia 3」がリリースされました
Maia Chessチームは、2億5000万局の実戦データを用いて学習させた新しいオープンソースのチェスエンジン「Maia 3」をリリースしました。そのEloレーティングは約1800に達しており、前バージョンよりも300ポイント近く向上しています。 何より素晴らしいのは、完全に無料かつオープンソースであり、ローカルでの展開にも対応している点です。これは、AIチェスエンジンを誰もが利用できるようにす
AIベンチャーキャピタルのブームにより、単一シーズンの売上高が1兆元を突破、新たなイノベーションの波が巻き起こる
人工知能(AI)分野における世界のベンチャーキャピタル投資が急増している。今年の第1四半期には、AI関連の資金調達ラウンドが600件近く成立し、その総額は1,100億元を超え、前年同期比で185.4%増加した。主要資本は3つの重点分野に集中5月には、MoonshotやStep Starといった国内の大手大規模モデル企業がさらなる躍進を遂げ、300億元以上を調達した。一方、具現化知能(エンボディッド
OpenAI、o3およびGPT-4.5の大型モデルを廃止
人工知能分野の先駆者であるOpenAIの技術的な動きは、そのひとつひとつが業界に大きな波紋を広げています。最近、同社は重大な発表を行いました。ChatGPTプラットフォームから、2つの従来型モデル「o3」と「GPT-4.5」を廃止するというものです。 「人文科学の天才」とも称されるGPT-4.5は6月27日に、高度な推論能力で知られるo3は8月26日に、それぞれサービス終了となる。旧モデルの終了に
関連特集おすすめ
コメント (0)
0/500
何年もの間、創薬におけるAIは、質の低いデータという、見かけによらず単純な問題によって阻まれてきた。膨大な量のシーケンスデータ、プールされた摂動研究、混合細胞実験が進歩したかのように錯覚させたが、開発者が期待した予測的飛躍は訪れなかった。この分野では、明確さの代わりにノイズが発生し、再現性の代わりに実験ドリフトが発生した。データセットは、科学的完全性よりも規模に最適化され、信頼性の高いバーチャル細胞モデルを訓練するのに必要な、正確で薬理学に特化した測定が欠けていた。
銀杏データポイントがVirtual Cell Pharmacology Initiative(VCPI)を立ち上げた背景には、このような事情がある。このプロジェクトは、単にデータを増やすだけでなく、より良いデータを提供することを目的としており、薬物のような分子が実際の生物学的システムにどのような影響を与えるかを予測するAIモデルのために構築されたリソースである。公式発表にあるように、VCPIは10万化合物のプロファイリングから120億以上のデータポイントを生成し、仮想細胞モデリングのために設計された初の標準化された薬理学データセットを確立する。
なぜ "より多くのデータ "は失敗したのか
VCPIを紹介する際、イチョウは次のような例えを使っている。マウスのケージに一握りの錠剤を投げ入れ、どのマウスがどの錠剤を食べたかを調べるとしよう。そして、どのマウスがどの錠剤を消費したかを調べようとする。これは、プールされた単一細胞薬理学実験の根本的な欠点を示している。膨大なデータセットが得られるが、実験デザインによって、特定の化合物とその結果生じる生物学的効果との間の明確な関連性が見えなくなってしまうのである。
問題は技術の不足ではなく、実験構造の欠陥である。より大きなデータセットが自動的により優れたAIモデルを生み出すという考え方は間違っていることが証明された。イチョウのブログ記事は、この考え方を「データ中毒」と名付け、十分に構造化された高品質の入力がなければ、最先端のAIでさえ誤ったパターンを学習してしまうと主張している。
VCPIは、このアプローチからの決定的な脱却を意味する。VCPIは、生物学的トレーサビリティ、実験の厳密さ、管理された構造、つまりAIが薬理学を学ぶために真に必要な要素を、膨大なデータ量よりも優先している。
VCPIがデータパイプラインを再構築する方法
VCPIはプールアッセイから脱却し、DRUG-seqというハイスループットのバルクRNAシーケンス法を採用している。各化合物は分離され、バーコード化されたウェルで試験されるため、プール法よりもはるかにクリーンなS/N比で治療特異的な反応測定が可能となる。プレスリリースによると、Ginkgoの自動化されたインフラは、毎週100以上の384ウェルプレートを処理することができ、工業的規模で数百万の忠実度の高いRNA測定を行うことができる。
同様に重要なのは、V-Ref293の導入である。V-Ref293は新たに設計された標準化されたリファレンス細胞株である。VCPIは、普遍的な生物学的ベースライン、すなわちバーチャル細胞に対する "有機双生児 "を提供することで、異なる研究室が同じ細胞株の変異バージョンや遺伝的にドリフトしたバージョンを使用することによって生じるばらつきを排除する。これは、薬理ゲノミクスにおける再現不可能性の主な原因に対処し、AIモデルが必要とする安定した基礎的真実を提供する。
このイニシアチブでは、いくつかの重要な特徴を持つコミュニティ主導のデータセットを構築している:
- 研究者、製薬チーム、AI開発者のためのオープンな参加
- 投稿された化合物のハイスループットRNAプロファイリングを無料で提供
- データ提供者は、データの利用を禁止することも、永続的に独自のアクセスを維持することもできる。
- コミュニティの投票によって導かれる毎月のデータリリース
- モデルの共有、化合物の優先順位付け、早期アクセスの「スーパーユーザー」ステータスの機会
データのダンプではなく、コミュニティが構築したモデル
VCPIの最も特徴的な点は、データセットが完成する前に公開されることである。完成したリソースを提供するのではなく、イチョウは科学コミュニティに、どの化合物が最も価値があるかを決定する手助けをしてもらい、データセットが拡大するにつれてリアルタイムで共同研究を行うよう呼びかけている。
この仕組みは、参加者のリスクも軽減する。アーリーステージのバイオベンチャーは、化合物を提出し、専用のスクリーニングに高いコストをかけることなく、実際の薬理データを受け取ることができる。AIチームは、モデルのトレーニングに必要な特定の生物学的摂動がデータセットに含まれていることを確認できる。アカデミック・ラボは、90日間の独占的データウインドウを保持したまま貢献できる可能性がある。
このアプローチは、データ生成を静的な製品から動的で参加型の科学的プロセスへと変える。
バイオAIの将来にとって意味するもの
VCPIが意味することは、イチョウや単一のバーチャル細胞プロジェクトにとどまらない。バーチャル細胞モデルが科学的な信頼性を得るためには、安定した生物学的参照に固定された、再現可能な治療特異的データに基づいて訓練されなければならない。この基盤がなければ、AIは幻覚を見たり、予測を誤ったり、実験的なアーチファクトに過剰適合し続けることになる。
VCPIのようなイニシアチブは、この分野のデータに対する見方に変化をもたらすものである。実験デザインは、今やモデル構築と同じくらい重要であると認識されている。再現性は、オプション的な理想ではなく、中核的な要件としてその地位を取り戻しつつある。コミュニティ主導のオープン・インフラストラクチャー・プロジェクトは、イノベーションを加速する可能性において、クローズドなプロプライエタリー・データセットを凌駕し始めている。
ヴァーチャルセルが、化合物のランク付けや毒性判定、あるいはウェットラボでの実験開始前の生物学的経路の解明といった、信頼性の高い予測ツールになるとすれば、それはVCPIのようなプロジェクトが、その開発に必要な構造化された信頼できるデータ環境を構築したからにほかならない。
単にデータを増やすことよりも、より良いデータを優先することで、イチョウはAI主導の生物学の基礎を再構築している。VCPIは、創薬におけるデータの危機に対処するだけでなく、生物学的実験とAIのトレーニングパイプラインが、明確な目的を持ってオープンに共進化する新しい時代の舞台を用意したのである。
AIベンチャーキャピタルのブームにより、単一シーズンの売上高が1兆元を突破、新たなイノベーションの波が巻き起こる
人工知能(AI)分野における世界のベンチャーキャピタル投資が急増している。今年の第1四半期には、AI関連の資金調達ラウンドが600件近く成立し、その総額は1,100億元を超え、前年同期比で185.4%増加した。主要資本は3つの重点分野に集中5月には、MoonshotやStep Starといった国内の大手大規模モデル企業がさらなる躍進を遂げ、300億元以上を調達した。一方、具現化知能(エンボディッド
OpenAI、o3およびGPT-4.5の大型モデルを廃止
人工知能分野の先駆者であるOpenAIの技術的な動きは、そのひとつひとつが業界に大きな波紋を広げています。最近、同社は重大な発表を行いました。ChatGPTプラットフォームから、2つの従来型モデル「o3」と「GPT-4.5」を廃止するというものです。 「人文科学の天才」とも称されるGPT-4.5は6月27日に、高度な推論能力で知られるo3は8月26日に、それぞれサービス終了となる。旧モデルの終了に





家






