Apple、性能面の懸念がある中、画像説明用AI「RubiCap」を発表
コンピュータビジョン分野において、AIに人間並みの精度で画像のあらゆる細部を観察・描写させることは、長年にわたり中核的な課題とされてきました。最近、Appleはウィスコンシン大学マディソン校と共同で、「RubiCap 」という新しいAIトレーニングフレームワークを正式に公開しました。
このフレームワークは「高密度画像キャプション」に特化して設計されており、単なる一般的な要約にとどまらず、「木製のテーブルの上にある赤いリンゴ」や「遠くにいる歩行者」といった微細な詳細をAIが正確に捉え、表現できるようにすることを目指しています。

大きな影響をもたらす強化学習:Qwen2.5が「審判」の役割を果たす
従来の画像キャプション生成は、コストのかかる人間によるアノテーションや、幻覚を起こしやすい大規模モデルに依存することが多く、データ品質にばらつきが生じがちでした。Appleの研究チームは、革新的な強化学習アプローチを用いてこの課題に取り組みました。このシステムではまず、GPT-4とGemini 1.5 Proを使用して候補となる説明文を生成します。その後、Gemini 1.5 Proが評価基準を精緻化し、Qwen2.5モデルが「審判」としてスコアとフィードバックを提供します。
この構造化された正確なフィードバックにより、学習モデルは誤りを明確に特定・修正できるようになり、パラメータ数が少ない場合でも、より高い説明精度を実現します。
コンパクトモデルの利点:幻覚発生率が低く、1兆パラメータ級のモデルを上回る
このフレームワークで学習されたRubiCapシリーズモデル(パラメータ数20億~70億)は、評価において卓越した効率性を示しました。 実験データによると、70億パラメータの RubiCap モデルはブラインドテストで最高スコアを達成し、その幻覚エラー率は、業界をリードする 7,200億パラメータの大型モデルよりも低かった。驚くべきことに、30億パラメータのミニバージョンは、特定の指標において 70億パラメータのモデルを上回る性能を発揮した。
関連記事
Zhiyuan WITA、初のコンプライアンス報告書の提出により「裸の」ロボットとの対話を終了
具現化知能分野において、重要な節目を迎えました。上海サイバー空間管理局の最新の発表によると、智源(Zhiyuan)が開発したWITA大規模モデルは届出手続きを無事に完了し、国内で初めて法規制に準拠して展開された具現化知能対話用大規模モデルとなりました。この成果は、単にライセンスを取得しただけにとどまらない。WITAの核心的な目的は、ヒューマノイドロボットが真の意味で会話し、感情を認識し、独自の個性
ある人類学的研究によると、洗練されたAIコンテンツは人間の思考力の低下と関連しているという
AIが、構成が整い、論理的に明快なコードや文書を瞬時に生成するのを見ると、何も疑うことなくそれを信用したくなってしまいませんか?AI分野のリーディングカンパニーであるAnthropicは、AIbaseによると、最近「AI流暢性指数(AI Fluency Index)」と題した調査報告書を発表しました。 約1万件の匿名化されたClaudeの会話サンプルを分析した結果、この調査では懸念すべき傾向が明ら
英国政府の各省庁、AIデータセンターのエネルギー需要を巡り対立
英国政府は、クリーンエネルギーの推進と、人工知能(AI)分野における世界的なリーダーとなることを目指すという、大きな課題に直面している。しかし、これらの目標を担当する省庁の間には、深刻な不整合が見られる。 科学・イノベーション・技術省(DSIT)とエネルギー安全保障・ネットゼロ省(DESNZ)は、AIデータセンターの将来の電力需要について、著しく対照的な予測を提示している。DSITは、2030年ま
関連特集おすすめ
コメント (0)
0/500
コンピュータビジョン分野において、AIに人間並みの精度で画像のあらゆる細部を観察・描写させることは、長年にわたり中核的な課題とされてきました。最近、Appleはウィスコンシン大学マディソン校と共同で、「
このフレームワークは「高密度画像キャプション」に特化して設計されており、単なる一般的な要約にとどまらず、「木製のテーブルの上にある赤いリンゴ」や「遠くにいる歩行者」といった微細な詳細をAIが正確に捉え、表現できるようにすることを目指しています。

大きな影響をもたらす強化学習:Qwen2.5が「審判」の役割を果たす
従来の画像キャプション生成は、コストのかかる人間によるアノテーションや、幻覚を起こしやすい大規模モデルに依存することが多く、データ品質にばらつきが生じがちでした。Appleの研究チームは、革新的な強化学習アプローチを用いてこの課題に取り組みました。このシステムではまず、GPT-4とGemini 1.5 Proを使用して候補となる説明文を生成します。その後、Gemini 1.5 Proが評価基準を精緻化し、Qwen2.5モデルが「審判」としてスコアとフィードバックを提供します。
この構造化された正確なフィードバックにより、学習モデルは誤りを明確に特定・修正できるようになり、パラメータ数が少ない場合でも、より高い説明精度を実現します。
コンパクトモデルの利点:幻覚発生率が低く、1兆パラメータ級のモデルを上回る
このフレームワークで学習されたRubiCapシリーズモデル(パラメータ数20億~70億)は、評価において卓越した効率性を示しました。 実験データによると、70億パラメータの RubiCap モデルはブラインドテストで最高スコアを達成し、その幻覚エラー率は、業界をリードする 7,200億パラメータの大型モデルよりも低かった。驚くべきことに、30億パラメータのミニバージョンは、特定の指標において 70億パラメータのモデルを上回る性能を発揮した。
Zhiyuan WITA、初のコンプライアンス報告書の提出により「裸の」ロボットとの対話を終了
具現化知能分野において、重要な節目を迎えました。上海サイバー空間管理局の最新の発表によると、智源(Zhiyuan)が開発したWITA大規模モデルは届出手続きを無事に完了し、国内で初めて法規制に準拠して展開された具現化知能対話用大規模モデルとなりました。この成果は、単にライセンスを取得しただけにとどまらない。WITAの核心的な目的は、ヒューマノイドロボットが真の意味で会話し、感情を認識し、独自の個性
ある人類学的研究によると、洗練されたAIコンテンツは人間の思考力の低下と関連しているという
AIが、構成が整い、論理的に明快なコードや文書を瞬時に生成するのを見ると、何も疑うことなくそれを信用したくなってしまいませんか?AI分野のリーディングカンパニーであるAnthropicは、AIbaseによると、最近「AI流暢性指数(AI Fluency Index)」と題した調査報告書を発表しました。 約1万件の匿名化されたClaudeの会話サンプルを分析した結果、この調査では懸念すべき傾向が明ら
英国政府の各省庁、AIデータセンターのエネルギー需要を巡り対立
英国政府は、クリーンエネルギーの推進と、人工知能(AI)分野における世界的なリーダーとなることを目指すという、大きな課題に直面している。しかし、これらの目標を担当する省庁の間には、深刻な不整合が見られる。 科学・イノベーション・技術省(DSIT)とエネルギー安全保障・ネットゼロ省(DESNZ)は、AIデータセンターの将来の電力需要について、著しく対照的な予測を提示している。DSITは、2030年ま





家






