Ehemaliger Deepseeker und Mitarbeiter veröffentlichen eine neue Methode für die Schulung zuverlässiger KI -Agenten: Ragen

Heim

Nachricht

4. Mai 2025

DavidMartínez

# alibaba # DeepSeek # qwen # GitHub # LLMs # nlp # qwen-2-5 # ragen # starpo

Ehemaliger Deepseeker und Mitarbeiter veröffentlichen eine neue Methode für die Schulung zuverlässiger KI -Agenten: Ragen

Das Jahr der AI -Agenten: Ein genauerer Blick auf die Erwartungen und Realitäten 2025

2025 wurde von vielen Experten als das Jahr angekündigt, in dem AI -Agenten - AI -Systeme, die von fortgeschrittenen großen Sprachen und multimodalen Modellen von Unternehmen wie OpenAI, Anthropic, Google und Deepseek betrieben wurden, endlich im Mittelpunkt stehen. Laut einer kürzlich veröffentlichten VentureBeat -Umfrage im sozialen Netzwerk X sind die meisten KI -Agenten jedoch in experimentellen Phasen immer noch in eine Art Unternehmensschwebe gefangen.

Aber am Horizont liegt ein Hoffnungsschimmer. Eine gemeinsame Anstrengung von Forschern der Northwestern University, Microsoft, Stanford und der University of Washington, darunter Zihan Wang, ein ehemaliger Deepseek -Forscher, der jetzt einen Doktortitel in Informatik in Northwestern anstrebt, hat Ragen vorgestellt. Dieses neue System zielt darauf ab, KI-Agenten auszubilden und zu bewerten, um sie zuverlässiger und anpassungsfähiger für die Verwendung von Unternehmen, Unternehmen zu machen.

Ragen: Ein neuer Ansatz zur Ausbildung von KI -Agenten

Im Gegensatz zu statischen Aufgaben wie Mathematiklösung oder Codegenerierung konzentriert sich Ragen auf dynamische, mehrstufige Interaktionen, bei denen sich Agenten inmitten der Unsicherheit anpassen, erinnern und Vernunft anpassen müssen. Das System basiert auf einem RLL-Framework (Custom Construcement Learning), der als Starpo (staatlich denkende Options-Reward-Politikoptimierung) bezeichnet wird und das das Lernen durch Erfahrung und nicht durch Auswendiglernen betont. Starpo befasst sich mit ganzen Entscheidungssequenzen, nicht nur für einstufige Antworten.

Starpo arbeitet in zwei Phasen: eine Rollout -Stufe, in der das LLM vollständige Interaktionssequenzen erzeugt, die durch Argumentation geleitet werden, und eine Aktualisierungsstufe, in der das Modell mit normalisierten kumulativen Belohnungen optimiert wird. Dieser Ansatz bietet eine stabilere und interpretierbare Lernschleife im Vergleich zu herkömmlichen Methoden zur Politikoptimierung.

Die Forscher testeten diesen Rahmen unter Verwendung von fein abgestimmten Versionen der QWEN-Modelle von Alibaba, insbesondere Qwen 1.5 und Qwen 2.5, die für ihre offenen Gewichte und starken Anweisungsfunktionen ausgewählt wurden. Diese Wahl erleichterte die Reproduzierbarkeit und konsistente Basisvergleiche über symbolische Aufgaben.

Die Echo -Falle: Eine Herausforderung beim Verstärkungslernen

Zihan Wang hob in einem weit verbreiteten X-Thread ein kritisches Problem im RL-Training hervor: * Warum bricht Ihr RL-Training immer zusammen?

Diese Regression wird durch Rückkopplungsschleifen angeheizt, bei denen bestimmte Phrasen oder Strategien frühzeitig hohe Belohnungen verdienen und zu Überbeanspruchungen und Erkundungen ermutigen und ersticken. Die Symptome sind klar: Belohnungsvarianz Klippen, Gradientenspitzen und Verschwinden von Argumentationsspuren.

Ragens Testumgebungen

Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, bewertet Ragen Agenten in drei symbolischen Umgebungen:

Bandit: Eine einzelne, stochastische Aufgabe, die symbolische Risiko-Belohnung testet.
Sokoban: Ein multiturnes, deterministisches Puzzle mit irreversiblen Entscheidungen.
Gefrorener See: Eine stochastische Mehrzündungsaufgabe, die eine adaptive Planung erfordert.

Jede Umgebung soll reale Priors minimieren und sich ausschließlich auf Entscheidungsstrategien konzentrieren, die während des Trainings entwickelt wurden. In der Banditenumgebung müssen Agenten beispielsweise symbolisch über Dragon- und Phoenix -Arme, die unterschiedliche Belohnungsverteilungen darstellen, begründen und sie als "Stärke" und "Hoffnung" interpretieren, um die Ergebnisse vorherzusagen.

Stabilisierung des Verstärkungslernens mit Starpo-s

Um das Zusammenbruch des Trainings zu bekämpfen, stellten die Forscher Starpo-S vor, eine stabilisierte Version des ursprünglichen Frameworks. Starpo-S enthält drei wichtige Interventionen:

Unsicherheitsbasierte Rollout-Filterung: Priorisierung von Rollouts, bei denen der Agent die Ergebnisunsicherheit zeigt.
KL -Strafe Entfernung: Das Modell kann freier von seiner ursprünglichen Richtlinie abweichen und neue Verhaltensweisen erkunden.
Asymmetrisches PPO-Ausschnitt: Verstärkung von Flugbahnen mit hoher Belohnung mehr als niedrig und belohnte, um das Lernen zu steigern.

Diese Änderungen helfen, das Trainingskollaps zu verzögern oder zu beseitigen und die Leistung in allen drei Aufgaben zu verbessern. Wie Wang es ausdrückte:

Was macht ein gutes Agenten -KI -Modell aus?

Der Erfolg des RL -Trainings hängt nicht nur von der Architektur, sondern auch von der Qualität der von den Agenten generierten Daten ab. Das Team identifizierte drei wichtige Dimensionen, die das Training erheblich beeinflussen:

Aufgabenvielfalt: Das Modell einer Vielzahl von Anfangsszenarien verbessert die Verallgemeinerung.
Interaktionsgranularität: Das Ermöglichen mehrerer Aktionen pro Kurve ermöglicht eine aussagekräftigere Planung.
Rollout -Frische: Die Schulungsdaten, die mit der aktuellen Modellrichtlinie ausgerichtet sind, vermeiden veraltete Lernsignale.

Diese Faktoren tragen zu einem stabileren und effektiveren Trainingsprozess bei. Eine interaktive Demo-Site auf GitHub visualisiert die Rollouts von Agenten, wenn sich der vollständige Dialog wendet, einschließlich nicht nur Aktionen, sondern dem Schritt-für-Schritt-Denkprozess, der ihnen vorausgeht. Bei der Lösung eines Mathematikproblems könnte ein Agent beispielsweise zunächst über das Isolieren einer Variablen denken, bevor er eine Antwort wie 'x = 5' einreicht. Diese Zwischengedanken sind sichtbar und nachvollziehbar und verleihen der Art und Weise, wie Agenten Entscheidungen treffen.

Beim Argumentieren läuft

Während explizite Argumentation die Leistung bei einfachen Einsatzaufgaben wie Bandit verbessert, neigt es dazu, während des mehrstufigen Trainings zu verfallen. Trotz der Verwendung strukturierter Eingabeaufforderungen und Token schrumpfen die Argumentationsspuren häufig ab oder verschwinden, sofern sie nicht direkt belohnt werden. Dies unterstreicht eine Einschränkung bei der Art und Weise, wie die Belohnungen in der Regel entworfen wurden: Die Fokussierung auf den Abschluss der Aufgaben kann die Qualität des dahinter stehenden Prozesses vernachlässigen. Das Team experimentierte mit formatbasierten Strafen, um eine bessere Argumentation zu fördern, erkennt jedoch an, dass wahrscheinlich eine raffiniertere Belohnungsformung erforderlich ist.

Offene Werkzeuge und zukünftige Anweisungen

Ragen ist zusammen mit seinem Starpo- und Starpo-S-Frameworks jetzt als Open-Source-Projekt unter https://github.com/ragen-ai/ragen erhältlich. Zum Zeitpunkt des Schreibens ist jedoch keine explizite Lizenz im Github -Repository aufgeführt, was die Verwendung oder Umverteilung durch andere einschränken kann.

Das System bietet eine wertvolle Grundlage für diejenigen, die sich für die Entwicklung von KI -Agenten interessieren, die nicht nur Aufgaben erledigen, sondern auch denken, planen und weiterentwickeln. Wenn KI zu einer größeren Autonomie wechselt, helfen Projekte wie Ragen dazu, zu beleuchten, was es braucht, um Modelle zu trainieren, die aus den Folgen ihrer eigenen Handlungen lernen.

Hervorragende Fragen zur adoptionischen Unternehmensannahme in der realen Unternehmen

Während das Ragenpapier eine detaillierte technische Roadmap bietet, bleiben für diejenigen, die diese Methoden in Unternehmensumgebungen anwenden möchten, mehrere praktische Fragen. Wie übertragbar ist Ragens Ansatz beispielsweise über stilisierte, symbolische Aufgaben hinaus? Müssten Unternehmen völlig neue Umgebungen entwerfen und Funktionen belohnen, um dieses System in Workflows wie Rechnungsverarbeitung oder Kundensupport zu verwenden?

Wang schlug in einer Direktnachricht an VentureBeat auf X vor, dass die Verbesserung der Aufgabenvielfalt helfen könnte, da die aktuellen Spielaufgaben nur ähnliche Grid -Darstellungen aufweisen, aber keine semantischen Informationen haben. Er drückte auch Optimismus für Unternehmen aus, die ihre eigenen Trainingsübungen für KI -Agenten mit Ragen entwerfen, und stellte fest, dass der Github -Link eine einfache Einführung in das Hinzufügen neuer Umgebungen bietet.

Ein weiterer kritischer Bereich ist die Skalierbarkeit. Selbst mit den Verbesserungen von Starpo-S erkennt das Papier an, dass das Training letztendlich über längere Horizonte zusammenbricht. Dies wirft die Frage auf: Gibt es einen theoretischen oder praktischen Weg zur Aufrechterhaltung von Denken über offene oder kontinuierlich entwickelnde Aufgabensequenzen?

Zum Zeitpunkt des Schreibens ist keine explizite Lizenz im Ragen -Github -Repository oder der Dokumentation aufgelistet, wodurch offene Fragen zu den Nutzungsrechten hinterlassen werden. Trotzdem sticht Ragen nicht nur als technischer Beitrag, sondern als konzeptioneller Schritt in Richtung autonomerer, argumentierender KI-Agenten heraus. Ob es Teil des Enterprise AI -Stacks wird, bleibt abzuwarten, aber seine Einblicke in die Dynamik des Agentenlernens tragen bereits dazu bei, die Grenze des LLM -Trainings neu zu definieren.

Verwandter Artikel

Google stellt produktionsreife Gemini 2.5 KI-Modelle vor, um mit OpenAI im Unternehmensmarkt zu konkurrieren Google hat am Montag seine KI-Strategie intensiviert und seine fortschrittlichen Gemini 2.5 Modelle für den Unternehmenseinsatz gestartet sowie eine kosteneffiziente Variante eingeführt, um bei Preis

Alibaba enthüllt Wan2.1-VACE: Open-Source-KI-Videolösung Alibaba hat Wan2.1-VACE vorgestellt, ein Open-Source-KI-Modell, das die Prozesse der Videoproduktion und -bearbeitung revolutionieren soll.VACE ist eine zentrale Komponente der Wan2.1-Video-KI-Modellf

KI-gestütztes Einzelhandelsexperiment scheitert spektakulär bei Anthropic Stellen Sie sich vor, Sie übergeben einen kleinen Laden einer künstlichen Intelligenz und vertrauen ihr alles an, von der Preisgestaltung bis zur Kundeninteraktion. Was könnte schiefgehen?Eine kürzlic

Kommentare (6)

0/200

Einreichen

JimmyRamirez

23. Juli 2025 06:59:29 MESZ

This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔

RalphWalker

6. Mai 2025 09:48:04 MESZ

RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀

NicholasAdams

6. Mai 2025 00:45:54 MESZ

RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね！🚀

EricLewis

5. Mai 2025 05:45:04 MESZ

RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀

GeorgeTaylor

4. Mai 2025 22:00:48 MESZ

RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀

MateoAdams

4. Mai 2025 17:14:20 MESZ

RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen OpenAI verbessert den AI -Sprachassistenten für bessere Chats NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung Erleben Sie das KI-angetriebene E/A-Kreuzworträtsel: Eine moderne Wendung auf dem klassischen Wortspiel Der CEO von Nvidia verdeutlicht falsche Vorstellungen über Deepseeks Marktauswirkungen

Mehr

Vorgestellt