Meta FAIR、人間と同様のAIを進化させる5つのブレークスルーを発表
Metaの基礎AI研究チーム(FAIR)は、高度な機械知能(AMI)分野における研究を推進する5つの新プロジェクトを発表した。
これらの最新発表は、言語モデル、ロボティクス、協調型AIエージェントの進歩と並行して、AIの知覚能力(機械が感覚入力を処理する方法)の向上に焦点を当てている。
Metaは、その目的を「私たちの世界からの感覚データを取得、処理、解釈し、その情報を使って人間のような知性と速度で意思決定を行うことができる」機械を構築することだと説明した。
この野心的な目標達成に向けた相互連携型の取り組みとして、5つの新規イニシアチブが展開される。
知覚エンコーダー:AIの視覚知能を研ぎ澄ます
新発表の基幹となるのは「知覚エンコーダー」であり、多様な画像・動画タスクで卓越した性能を発揮する大規模視覚エンコーダーである。
ビジョンエンコーダーはAIシステムの「目」として機能し、視覚情報の理解を可能にする。
Metaは、高度なAI向けのエンコーダー開発がますます困難になっている点を指摘している。高度なAI向けエンコーダーには、視覚と言語を結びつけ、画像と動画の両方を効率的に処理し、敵対的攻撃を含む厳しい条件下でも信頼性を維持することが求められる。
Metaによれば、理想的なエンコーダーは広範な概念を認識すると同時に、細部まで捉える能力が求められる。例えば「海底に隠れたアカエイの発見」「画像背景に写った小さなキンカチョウの識別」「暗視野生動物カメラに映った高速移動のアグーチの検知」といった細部まで認識できることが理想だ。
Metaは、Perception Encoderが「ゼロショット画像・動画分類および検索において卓越した性能を発揮し、これらのタスクにおける既存のオープンソースおよびプロプライエタリモデルを全て凌駕する」と述べている。
さらに、その知覚能力は言語タスクの性能向上にも寄与すると報告されている。
大規模言語モデル(LLM)と組み合わせることで、このエンコーダーは視覚的質問応答(VQA)、キャプション生成、文書理解、グラウンディング(テキストと画像の特定部分の関連付け)などの領域で他のビジョンエンコーダーを凌駕するとされる。 また、空間関係(「ある物体が別の物体の後ろにある」など)の理解や、物体に対するカメラの動きなど、LLMが通常苦戦するタスクの性能も向上させると報告されている。
Metaは「Perception Encoderが新たなアプリケーションに統合され始めるにつれ、その高度な視覚能力がさらに洗練されたAIシステムをどのように推進するかを見守りたい」とコメントしている。
知覚言語モデル(PLM):オープンな視覚言語研究の推進
エンコーダーと連携して動作するのは、複雑な視覚認識タスク向けに設計されたオープンで再現可能な視覚言語モデル「Perception Language Model(PLM)」です。
PLM は、オープンな視覚言語データセットに加え、広範な合成データを用いてトレーニングされ、外部プロプライエタリモデルから抽出された知識を意図的に回避しています。
既存の動画理解データの欠点を認識したFAIRチームは、詳細な動画質問応答と時空間キャプション作成に焦点を当てた、新たに人間がラベル付けした250万件のサンプルを収集しました。Metaはこれを「現時点で同種最大規模のデータセット」と主張しています。
PLMは、完全な透明性を必要とする学術研究のニーズに応えるため、10億、30億、80億パラメータのバージョンで提供される。
モデルと共に、Metaは既存ベンチマークで見落とされがちな能力、すなわち「微細な活動理解と時空間的に根ざした推論」をテストするために特別に設計された新たなベンチマーク「PLM-VideoBench」を公開している。
Metaは、オープンモデル、大規模データセット、挑戦的なベンチマークの提供がオープンソースコミュニティを強化することを期待している。
Meta Locate 3D:ロボットに状況認識能力を提供
言語コマンドと物理的動作を橋渡しするのがMeta Locate 3Dです。このエンドツーエンドモデルは、自由形式の自然言語クエリに基づき、ロボットが3D空間内で物体を正確に発見できるように設計されています。
Meta Locate 3Dは、RGB-Dセンサー(一部のロボットや深度感知カメラに搭載)から直接取得した3D点群を処理します。「テレビコンソール近くの花瓶」といったテキストプロンプトを受け取ると、空間的関係と文脈を分析し、例えば「テーブル上の花瓶」と区別して正しい物体インスタンスを特定します。
システムは主に3つの構成要素から成る:2D特徴を3D特徴化点群に変換する前処理ステップ、文脈化された3D世界表現を生成する事前学習済みモデル「3D-JEPAエンコーダー」、そして3D表現と言語クエリを用いて指定対象物のバウンディングボックスとマスクを生成する「Locate 3Dデコーダー」。
Metaは本モデルと併せ、参照表現に基づく物体位置特定のための大規模新規データセットを公開する。ARKitScenes、ScanNet、ScanNet++データセットから1,346シーンにわたる13万件の言語アノテーションを含み、この分野の既存アノテーションデータを実質倍増させる。
Metaはこの技術を、自社のPARTNRロボットプロジェクトを含む、より高性能なロボットシステムの開発に不可欠と位置付けており、人間とロボットのより自然な相互作用とチームワークを促進するものと見ている。
Dynamic Byte Latent Transformer: 効率的で頑健な言語モデリング
2024年末に発表された研究に続き、Metaは80億パラメータのDynamic Byte Latent Transformerのモデル重みを公開しました。
このアーキテクチャは従来のトークン化ベース言語モデルから脱却し、バイトレベルで直接処理します。Metaは、この手法が大規模処理において同等の性能を達成しつつ、推論効率と頑健性において大幅な向上をもたらすと主張しています。
従来のLLMはテキストを「トークン」に分割するため、スペルミスや新語、敵対的入力に弱点がある。バイトレベルモデルは生のバイトを処理するため、より高い耐性を提供し得る。
Metaによれば、Dynamic Byte Latent Transformerは「様々なタスクにおいてトークナイザーベースのモデルを上回り、平均で+7ポイント(HellaSwagの乱れデータで)の頑健性の優位性を示し、CUTEトークン理解ベンチマークのタスクでは最大+55ポイントに達する」という。
Metaは、以前に共有したコードベースと共に重み値を公開することで、研究コミュニティがこの代替的な言語モデリング手法を探求するよう促している。
協働推論システム:社会的知能を備えたAIエージェントの進化
最終リリースとなる「Collaborative Reasoner」は、人間や他のAIと効果的に協働できるAIエージェント構築という複雑な課題に取り組む。
Meta は、人間のコラボレーションはより良い結果を生み出すことが多いと指摘し、宿題の支援や就職面接の準備などのタスクにおいて、AI に同様の能力を装備することを目指しています。
このようなコラボレーションには、問題解決だけでなく、コミュニケーション、共感、フィードバックの提供、他者の視点の理解(心の理論)といった社会的スキルも必要であり、通常は複数の会話のやり取りを通じて展開されます。
現在のLLMの訓練・評価手法では、こうした社会的・協調的側面が軽視されがちです。さらに、関連する会話データの収集はコストがかかり困難です。
Collaborative Reasonerは、こうしたスキルを評価・向上させるためのフレームワークを提供する。2つのエージェント間の対話を通じて達成される多段階推論を必要とする目標指向型タスクを含む。このフレームワークは、建設的な意見の相違、説得、相互に最適な解決策への到達といった能力をテストする。
Metaの評価では、現行モデルが結果改善のために協働を一貫して活用できないことが判明。この課題に対処するため、LLMエージェントが自己と協働する合成対話データを用いた自己改善手法を提案している。
このデータの大規模生成を可能にするのが、Matrixと呼ばれる新たな高性能モデル提供エンジンである。数学・科学・社会推論タスクでこの手法を適用した結果、単一LLMの標準的な「思考の連鎖」手法と比較して最大29.4%の性能向上が報告されている。
データ生成とモデリングのパイプラインをオープンソース化することで、Metaは「人間や他のエージェントと協働できる真に社会的なエージェント」の開発研究を加速させることを目指している。
これら5つの発表は、Metaが基礎的なAI研究、特に人間のような方法で世界を認識・理解・相互作用できる機械の基盤コンポーネント構築に継続的に多大な投資を行っていることを示している。
関連記事:Meta、EUユーザーデータを用いたAIモデル訓練を実施へ
業界リーダーからAIとビッグデータを学びたい方へ。アムステルダム、カリフォルニア、ロンドンで開催される「AI & Big Data Expo」をチェックしてください。この包括的なイベントは、Intelligent Automation Conference、BlockX、Digital Transformation Week、Cyber Security & Cloud Expoなど他の主要イベントと同時開催されます。
TechForge主催のその他のエンタープライズ技術イベントやウェビナーはこちらからご覧ください。
関連記事
Notionは、ワークスペースをAIエージェントのハブへと変革します
生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー
ElevenLabs、ブラックロック、ジェイミー・フォックス、エヴァ・ロンゴリアを新たな投資家として発表
音声AI企業であるElevenLabsは、2月に発表された5億ドルのシリーズDラウンドにおいて、追加の投資家名を明らかにした。 これには、ブラックロック、ウェリントン、D.E.ショー、シュローダーズといった機関投資家、NVIDIA、セールスフォース、サンタンデール、KPN、ドイツテレコムなどの企業、そしてジェイミー・フォックス、エヴァ・ロンゴリア、『Squid Game』のクリエイターであるファン
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
関連特集おすすめ
コメント (1)
0/500
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠
Metaの基礎AI研究チーム(FAIR)は、高度な機械知能(AMI)分野における研究を推進する5つの新プロジェクトを発表した。
これらの最新発表は、言語モデル、ロボティクス、協調型AIエージェントの進歩と並行して、AIの知覚能力(機械が感覚入力を処理する方法)の向上に焦点を当てている。
Metaは、その目的を「私たちの世界からの感覚データを取得、処理、解釈し、その情報を使って人間のような知性と速度で意思決定を行うことができる」機械を構築することだと説明した。
この野心的な目標達成に向けた相互連携型の取り組みとして、5つの新規イニシアチブが展開される。
知覚エンコーダー:AIの視覚知能を研ぎ澄ます
新発表の基幹となるのは「知覚エンコーダー」であり、多様な画像・動画タスクで卓越した性能を発揮する大規模視覚エンコーダーである。
ビジョンエンコーダーはAIシステムの「目」として機能し、視覚情報の理解を可能にする。
Metaは、高度なAI向けのエンコーダー開発がますます困難になっている点を指摘している。高度なAI向けエンコーダーには、視覚と言語を結びつけ、画像と動画の両方を効率的に処理し、敵対的攻撃を含む厳しい条件下でも信頼性を維持することが求められる。
Metaによれば、理想的なエンコーダーは広範な概念を認識すると同時に、細部まで捉える能力が求められる。例えば「海底に隠れたアカエイの発見」「画像背景に写った小さなキンカチョウの識別」「暗視野生動物カメラに映った高速移動のアグーチの検知」といった細部まで認識できることが理想だ。
Metaは、Perception Encoderが「ゼロショット画像・動画分類および検索において卓越した性能を発揮し、これらのタスクにおける既存のオープンソースおよびプロプライエタリモデルを全て凌駕する」と述べている。
さらに、その知覚能力は言語タスクの性能向上にも寄与すると報告されている。
大規模言語モデル(LLM)と組み合わせることで、このエンコーダーは視覚的質問応答(VQA)、キャプション生成、文書理解、グラウンディング(テキストと画像の特定部分の関連付け)などの領域で他のビジョンエンコーダーを凌駕するとされる。 また、空間関係(「ある物体が別の物体の後ろにある」など)の理解や、物体に対するカメラの動きなど、LLMが通常苦戦するタスクの性能も向上させると報告されている。
Metaは「Perception Encoderが新たなアプリケーションに統合され始めるにつれ、その高度な視覚能力がさらに洗練されたAIシステムをどのように推進するかを見守りたい」とコメントしている。
知覚言語モデル(PLM):オープンな視覚言語研究の推進
エンコーダーと連携して動作するのは、複雑な視覚認識タスク向けに設計されたオープンで再現可能な視覚言語モデル「Perception Language Model(PLM)」です。
PLM は、オープンな視覚言語データセットに加え、広範な合成データを用いてトレーニングされ、外部プロプライエタリモデルから抽出された知識を意図的に回避しています。
既存の動画理解データの欠点を認識したFAIRチームは、詳細な動画質問応答と時空間キャプション作成に焦点を当てた、新たに人間がラベル付けした250万件のサンプルを収集しました。Metaはこれを「現時点で同種最大規模のデータセット」と主張しています。
PLMは、完全な透明性を必要とする学術研究のニーズに応えるため、10億、30億、80億パラメータのバージョンで提供される。
モデルと共に、Metaは既存ベンチマークで見落とされがちな能力、すなわち「微細な活動理解と時空間的に根ざした推論」をテストするために特別に設計された新たなベンチマーク「PLM-VideoBench」を公開している。
Metaは、オープンモデル、大規模データセット、挑戦的なベンチマークの提供がオープンソースコミュニティを強化することを期待している。
Meta Locate 3D:ロボットに状況認識能力を提供
言語コマンドと物理的動作を橋渡しするのがMeta Locate 3Dです。このエンドツーエンドモデルは、自由形式の自然言語クエリに基づき、ロボットが3D空間内で物体を正確に発見できるように設計されています。
Meta Locate 3Dは、RGB-Dセンサー(一部のロボットや深度感知カメラに搭載)から直接取得した3D点群を処理します。「テレビコンソール近くの花瓶」といったテキストプロンプトを受け取ると、空間的関係と文脈を分析し、例えば「テーブル上の花瓶」と区別して正しい物体インスタンスを特定します。
システムは主に3つの構成要素から成る:2D特徴を3D特徴化点群に変換する前処理ステップ、文脈化された3D世界表現を生成する事前学習済みモデル「3D-JEPAエンコーダー」、そして3D表現と言語クエリを用いて指定対象物のバウンディングボックスとマスクを生成する「Locate 3Dデコーダー」。
Metaは本モデルと併せ、参照表現に基づく物体位置特定のための大規模新規データセットを公開する。ARKitScenes、ScanNet、ScanNet++データセットから1,346シーンにわたる13万件の言語アノテーションを含み、この分野の既存アノテーションデータを実質倍増させる。
Metaはこの技術を、自社のPARTNRロボットプロジェクトを含む、より高性能なロボットシステムの開発に不可欠と位置付けており、人間とロボットのより自然な相互作用とチームワークを促進するものと見ている。
Dynamic Byte Latent Transformer: 効率的で頑健な言語モデリング
2024年末に発表された研究に続き、Metaは80億パラメータのDynamic Byte Latent Transformerのモデル重みを公開しました。
このアーキテクチャは従来のトークン化ベース言語モデルから脱却し、バイトレベルで直接処理します。Metaは、この手法が大規模処理において同等の性能を達成しつつ、推論効率と頑健性において大幅な向上をもたらすと主張しています。
従来のLLMはテキストを「トークン」に分割するため、スペルミスや新語、敵対的入力に弱点がある。バイトレベルモデルは生のバイトを処理するため、より高い耐性を提供し得る。
Metaによれば、Dynamic Byte Latent Transformerは「様々なタスクにおいてトークナイザーベースのモデルを上回り、平均で+7ポイント(HellaSwagの乱れデータで)の頑健性の優位性を示し、CUTEトークン理解ベンチマークのタスクでは最大+55ポイントに達する」という。
Metaは、以前に共有したコードベースと共に重み値を公開することで、研究コミュニティがこの代替的な言語モデリング手法を探求するよう促している。
協働推論システム:社会的知能を備えたAIエージェントの進化
最終リリースとなる「Collaborative Reasoner」は、人間や他のAIと効果的に協働できるAIエージェント構築という複雑な課題に取り組む。
Meta は、人間のコラボレーションはより良い結果を生み出すことが多いと指摘し、宿題の支援や就職面接の準備などのタスクにおいて、AI に同様の能力を装備することを目指しています。
このようなコラボレーションには、問題解決だけでなく、コミュニケーション、共感、フィードバックの提供、他者の視点の理解(心の理論)といった社会的スキルも必要であり、通常は複数の会話のやり取りを通じて展開されます。
現在のLLMの訓練・評価手法では、こうした社会的・協調的側面が軽視されがちです。さらに、関連する会話データの収集はコストがかかり困難です。
Collaborative Reasonerは、こうしたスキルを評価・向上させるためのフレームワークを提供する。2つのエージェント間の対話を通じて達成される多段階推論を必要とする目標指向型タスクを含む。このフレームワークは、建設的な意見の相違、説得、相互に最適な解決策への到達といった能力をテストする。
Metaの評価では、現行モデルが結果改善のために協働を一貫して活用できないことが判明。この課題に対処するため、LLMエージェントが自己と協働する合成対話データを用いた自己改善手法を提案している。
このデータの大規模生成を可能にするのが、Matrixと呼ばれる新たな高性能モデル提供エンジンである。数学・科学・社会推論タスクでこの手法を適用した結果、単一LLMの標準的な「思考の連鎖」手法と比較して最大29.4%の性能向上が報告されている。
データ生成とモデリングのパイプラインをオープンソース化することで、Metaは「人間や他のエージェントと協働できる真に社会的なエージェント」の開発研究を加速させることを目指している。
これら5つの発表は、Metaが基礎的なAI研究、特に人間のような方法で世界を認識・理解・相互作用できる機械の基盤コンポーネント構築に継続的に多大な投資を行っていることを示している。
関連記事:Meta、EUユーザーデータを用いたAIモデル訓練を実施へ
業界リーダーからAIとビッグデータを学びたい方へ。アムステルダム、カリフォルニア、ロンドンで開催される「AI & Big Data Expo」をチェックしてください。この包括的なイベントは、Intelligent Automation Conference、BlockX、Digital Transformation Week、Cyber Security & Cloud Expoなど他の主要イベントと同時開催されます。
TechForge主催のその他のエンタープライズ技術イベントやウェビナーはこちらからご覧ください。
Notionは、ワークスペースをAIエージェントのハブへと変革します
生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー
ElevenLabs、ブラックロック、ジェイミー・フォックス、エヴァ・ロンゴリアを新たな投資家として発表
音声AI企業であるElevenLabsは、2月に発表された5億ドルのシリーズDラウンドにおいて、追加の投資家名を明らかにした。 これには、ブラックロック、ウェリントン、D.E.ショー、シュローダーズといった機関投資家、NVIDIA、セールスフォース、サンタンデール、KPN、ドイツテレコムなどの企業、そしてジェイミー・フォックス、エヴァ・ロンゴリア、『Squid Game』のクリエイターであるファン
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠





家






