Heim Nachricht Ehemaliger Deepseeker und Mitarbeiter veröffentlichen eine neue Methode für die Schulung zuverlässiger KI -Agenten: Ragen

Ehemaliger Deepseeker und Mitarbeiter veröffentlichen eine neue Methode für die Schulung zuverlässiger KI -Agenten: Ragen

4. Mai 2025
DavidMartínez
0

Ehemaliger Deepseeker und Mitarbeiter veröffentlichen eine neue Methode für die Schulung zuverlässiger KI -Agenten: Ragen

Das Jahr der AI -Agenten: Ein genauerer Blick auf die Erwartungen und Realitäten 2025

2025 wurde von vielen Experten als das Jahr angekündigt, in dem AI -Agenten - AI -Systeme, die von fortgeschrittenen großen Sprachen und multimodalen Modellen von Unternehmen wie OpenAI, Anthropic, Google und Deepseek betrieben wurden, endlich im Mittelpunkt stehen. Laut einer kürzlich veröffentlichten VentureBeat -Umfrage im sozialen Netzwerk X sind die meisten KI -Agenten jedoch in experimentellen Phasen immer noch in eine Art Unternehmensschwebe gefangen.

Aber am Horizont liegt ein Hoffnungsschimmer. Eine gemeinsame Anstrengung von Forschern der Northwestern University, Microsoft, Stanford und der University of Washington, darunter Zihan Wang, ein ehemaliger Deepseek -Forscher, der jetzt einen Doktortitel in Informatik in Northwestern anstrebt, hat Ragen vorgestellt. Dieses neue System zielt darauf ab, KI-Agenten auszubilden und zu bewerten, um sie zuverlässiger und anpassungsfähiger für die Verwendung von Unternehmen, Unternehmen zu machen.

Ragen: Ein neuer Ansatz zur Ausbildung von KI -Agenten

Im Gegensatz zu statischen Aufgaben wie Mathematiklösung oder Codegenerierung konzentriert sich Ragen auf dynamische, mehrstufige Interaktionen, bei denen sich Agenten inmitten der Unsicherheit anpassen, erinnern und Vernunft anpassen müssen. Das System basiert auf einem RLL-Framework (Custom Construcement Learning), der als Starpo (staatlich denkende Options-Reward-Politikoptimierung) bezeichnet wird und das das Lernen durch Erfahrung und nicht durch Auswendiglernen betont. Starpo befasst sich mit ganzen Entscheidungssequenzen, nicht nur für einstufige Antworten.

Starpo arbeitet in zwei Phasen: eine Rollout -Stufe, in der das LLM vollständige Interaktionssequenzen erzeugt, die durch Argumentation geleitet werden, und eine Aktualisierungsstufe, in der das Modell mit normalisierten kumulativen Belohnungen optimiert wird. Dieser Ansatz bietet eine stabilere und interpretierbare Lernschleife im Vergleich zu herkömmlichen Methoden zur Politikoptimierung.

Die Forscher testeten diesen Rahmen unter Verwendung von fein abgestimmten Versionen der QWEN-Modelle von Alibaba, insbesondere Qwen 1.5 und Qwen 2.5, die für ihre offenen Gewichte und starken Anweisungsfunktionen ausgewählt wurden. Diese Wahl erleichterte die Reproduzierbarkeit und konsistente Basisvergleiche über symbolische Aufgaben.

Die Echo -Falle: Eine Herausforderung beim Verstärkungslernen

Zihan Wang hob in einem weit verbreiteten X-Thread ein kritisches Problem im RL-Training hervor: * Warum bricht Ihr RL-Training immer zusammen?

Diese Regression wird durch Rückkopplungsschleifen angeheizt, bei denen bestimmte Phrasen oder Strategien frühzeitig hohe Belohnungen verdienen und zu Überbeanspruchungen und Erkundungen ermutigen und ersticken. Die Symptome sind klar: Belohnungsvarianz Klippen, Gradientenspitzen und Verschwinden von Argumentationsspuren.

Ragens Testumgebungen

Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, bewertet Ragen Agenten in drei symbolischen Umgebungen:

  • Bandit: Eine einzelne, stochastische Aufgabe, die symbolische Risiko-Belohnung testet.
  • Sokoban: Ein multiturnes, deterministisches Puzzle mit irreversiblen Entscheidungen.
  • Gefrorener See: Eine stochastische Mehrzündungsaufgabe, die eine adaptive Planung erfordert.

Jede Umgebung soll reale Priors minimieren und sich ausschließlich auf Entscheidungsstrategien konzentrieren, die während des Trainings entwickelt wurden. In der Banditenumgebung müssen Agenten beispielsweise symbolisch über Dragon- und Phoenix -Arme, die unterschiedliche Belohnungsverteilungen darstellen, begründen und sie als "Stärke" und "Hoffnung" interpretieren, um die Ergebnisse vorherzusagen.

Stabilisierung des Verstärkungslernens mit Starpo-s

Um das Zusammenbruch des Trainings zu bekämpfen, stellten die Forscher Starpo-S vor, eine stabilisierte Version des ursprünglichen Frameworks. Starpo-S enthält drei wichtige Interventionen:

  1. Unsicherheitsbasierte Rollout-Filterung: Priorisierung von Rollouts, bei denen der Agent die Ergebnisunsicherheit zeigt.
  2. KL -Strafe Entfernung: Das Modell kann freier von seiner ursprünglichen Richtlinie abweichen und neue Verhaltensweisen erkunden.
  3. Asymmetrisches PPO-Ausschnitt: Verstärkung von Flugbahnen mit hoher Belohnung mehr als niedrig und belohnte, um das Lernen zu steigern.

Diese Änderungen helfen, das Trainingskollaps zu verzögern oder zu beseitigen und die Leistung in allen drei Aufgaben zu verbessern. Wie Wang es ausdrückte:

Was macht ein gutes Agenten -KI -Modell aus?

Der Erfolg des RL -Trainings hängt nicht nur von der Architektur, sondern auch von der Qualität der von den Agenten generierten Daten ab. Das Team identifizierte drei wichtige Dimensionen, die das Training erheblich beeinflussen:

  • Aufgabenvielfalt: Das Modell einer Vielzahl von Anfangsszenarien verbessert die Verallgemeinerung.
  • Interaktionsgranularität: Das Ermöglichen mehrerer Aktionen pro Kurve ermöglicht eine aussagekräftigere Planung.
  • Rollout -Frische: Die Schulungsdaten, die mit der aktuellen Modellrichtlinie ausgerichtet sind, vermeiden veraltete Lernsignale.

Diese Faktoren tragen zu einem stabileren und effektiveren Trainingsprozess bei. Eine interaktive Demo-Site auf GitHub visualisiert die Rollouts von Agenten, wenn sich der vollständige Dialog wendet, einschließlich nicht nur Aktionen, sondern dem Schritt-für-Schritt-Denkprozess, der ihnen vorausgeht. Bei der Lösung eines Mathematikproblems könnte ein Agent beispielsweise zunächst über das Isolieren einer Variablen denken, bevor er eine Antwort wie 'x = 5' einreicht. Diese Zwischengedanken sind sichtbar und nachvollziehbar und verleihen der Art und Weise, wie Agenten Entscheidungen treffen.

Beim Argumentieren läuft

Während explizite Argumentation die Leistung bei einfachen Einsatzaufgaben wie Bandit verbessert, neigt es dazu, während des mehrstufigen Trainings zu verfallen. Trotz der Verwendung strukturierter Eingabeaufforderungen und Token schrumpfen die Argumentationsspuren häufig ab oder verschwinden, sofern sie nicht direkt belohnt werden. Dies unterstreicht eine Einschränkung bei der Art und Weise, wie die Belohnungen in der Regel entworfen wurden: Die Fokussierung auf den Abschluss der Aufgaben kann die Qualität des dahinter stehenden Prozesses vernachlässigen. Das Team experimentierte mit formatbasierten Strafen, um eine bessere Argumentation zu fördern, erkennt jedoch an, dass wahrscheinlich eine raffiniertere Belohnungsformung erforderlich ist.

Offene Werkzeuge und zukünftige Anweisungen

Ragen ist zusammen mit seinem Starpo- und Starpo-S-Frameworks jetzt als Open-Source-Projekt unter https://github.com/ragen-ai/ragen erhältlich. Zum Zeitpunkt des Schreibens ist jedoch keine explizite Lizenz im Github -Repository aufgeführt, was die Verwendung oder Umverteilung durch andere einschränken kann.

Das System bietet eine wertvolle Grundlage für diejenigen, die sich für die Entwicklung von KI -Agenten interessieren, die nicht nur Aufgaben erledigen, sondern auch denken, planen und weiterentwickeln. Wenn KI zu einer größeren Autonomie wechselt, helfen Projekte wie Ragen dazu, zu beleuchten, was es braucht, um Modelle zu trainieren, die aus den Folgen ihrer eigenen Handlungen lernen.

Hervorragende Fragen zur adoptionischen Unternehmensannahme in der realen Unternehmen

Während das Ragenpapier eine detaillierte technische Roadmap bietet, bleiben für diejenigen, die diese Methoden in Unternehmensumgebungen anwenden möchten, mehrere praktische Fragen. Wie übertragbar ist Ragens Ansatz beispielsweise über stilisierte, symbolische Aufgaben hinaus? Müssten Unternehmen völlig neue Umgebungen entwerfen und Funktionen belohnen, um dieses System in Workflows wie Rechnungsverarbeitung oder Kundensupport zu verwenden?

Wang schlug in einer Direktnachricht an VentureBeat auf X vor, dass die Verbesserung der Aufgabenvielfalt helfen könnte, da die aktuellen Spielaufgaben nur ähnliche Grid -Darstellungen aufweisen, aber keine semantischen Informationen haben. Er drückte auch Optimismus für Unternehmen aus, die ihre eigenen Trainingsübungen für KI -Agenten mit Ragen entwerfen, und stellte fest, dass der Github -Link eine einfache Einführung in das Hinzufügen neuer Umgebungen bietet.

Ein weiterer kritischer Bereich ist die Skalierbarkeit. Selbst mit den Verbesserungen von Starpo-S erkennt das Papier an, dass das Training letztendlich über längere Horizonte zusammenbricht. Dies wirft die Frage auf: Gibt es einen theoretischen oder praktischen Weg zur Aufrechterhaltung von Denken über offene oder kontinuierlich entwickelnde Aufgabensequenzen?

Zum Zeitpunkt des Schreibens ist keine explizite Lizenz im Ragen -Github -Repository oder der Dokumentation aufgelistet, wodurch offene Fragen zu den Nutzungsrechten hinterlassen werden. Trotzdem sticht Ragen nicht nur als technischer Beitrag, sondern als konzeptioneller Schritt in Richtung autonomerer, argumentierender KI-Agenten heraus. Ob es Teil des Enterprise AI -Stacks wird, bleibt abzuwarten, aber seine Einblicke in die Dynamik des Agentenlernens tragen bereits dazu bei, die Grenze des LLM -Trainings neu zu definieren.

Verwandter Artikel
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Kommentare (0)
0/200
Back to Top
OR