Ehemaliger Deepseeker und Mitarbeiter veröffentlichen eine neue Methode für die Schulung zuverlässiger KI -Agenten: Ragen

Das Jahr der KI-Agenten: Ein genauerer Blick auf die Erwartungen und Realitäten von 2025
2025 wurde von vielen Experten als das Jahr gefeiert, in dem KI-Agenten – spezialisierte KI-Systeme, die von fortschrittlichen großen Sprach- und multimodalen Modellen von Unternehmen wie OpenAI, Anthropic, Google und DeepSeek angetrieben werden – endlich im Mittelpunkt stehen würden. Doch laut einer aktuellen Umfrage von VentureBeat auf dem sozialen Netzwerk X befinden sich die meisten KI-Agenten immer noch in experimentellen Phasen, gefangen in einer Art unternehmerischem Niemandsland.
Doch es gibt einen Hoffnungsschimmer am Horizont. Eine gemeinsame Anstrengung von Forschern der Northwestern University, Microsoft, Stanford und der University of Washington, einschließlich Zihan Wang, einem ehemaligen DeepSeek-Forscher, der nun an der Northwestern University in Informatik promoviert, hat RAGEN vorgestellt. Dieses neue System zielt darauf ab, KI-Agenten zu trainieren und zu bewerten, um sie zuverlässiger und anpassungsfähiger für den realen, unternehmerischen Einsatz zu machen.
RAGEN: Ein neuer Ansatz zum Training von KI-Agenten
Im Gegensatz zu statischen Aufgaben wie dem Lösen von Mathematikaufgaben oder der Codegenerierung konzentriert sich RAGEN auf dynamische, mehrstufige Interaktionen, bei denen Agenten sich anpassen, erinnern und unter Unsicherheit schlussfolgern müssen. Das System basiert auf einem speziell entwickelten Reinforcement-Learning-(RL)-Framework namens StarPO (State-Thinking-Actions-Reward Policy Optimization), das das Lernen durch Erfahrung statt durch bloßes Auswendiglernen betont. StarPO betrachtet gesamte Entscheidungssequenzen, nicht nur einzelne Antwortschritte.
StarPO arbeitet in zwei Phasen: einer Rollout-Phase, in der das LLM vollständige Interaktionssequenzen unter Anleitung von Schlussfolgerungen generiert, und einer Update-Phase, in der das Modell mit normalisierten kumulativen Belohnungen optimiert wird. Dieser Ansatz bietet einen stabileren und interpretierbareren Lernzyklus im Vergleich zu traditionellen Methoden der Richtlinienoptimierung.
Die Forscher testeten dieses Framework mit optimierten Versionen von Alibabas Qwen-Modellen, insbesondere Qwen 1.5 und Qwen 2.5, die aufgrund ihrer offenen Gewichte und starken Befehlsfolgefähigkeiten ausgewählt wurden. Diese Wahl erleichterte die Reproduzierbarkeit und konsistente Basisvergleiche bei symbolischen Aufgaben.
Die Echo-Falle: Eine Herausforderung im Reinforcement Learning
Zihan Wang wies in einem viel geteilten X-Thread auf ein kritisches Problem beim RL-Training hin: *Warum bricht dein RL-Training immer zusammen?* Das Team stellte fest, dass RL-Systeme zwar anfangs gut begründete Antworten liefern, jedoch oft Abkürzungen belohnen, was zu repetitiven Verhaltensweisen führt, die die Leistung verschlechtern – ein Phänomen, das sie als „Echo-Falle“ bezeichneten.
Diese Rückentwicklung wird durch Rückkopplungsschleifen angetrieben, bei denen bestimmte Phrasen oder Strategien frühzeitig hohe Belohnungen erzielen, was zu übermäßigem Gebrauch führt und die Erkundung erstickt. Die Symptome sind klar: Belohnungsvarianz fällt ab, Gradientenspitzen treten auf und Schlussfolgerungsspuren verschwinden.
RAGENs Testumgebungen
Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, bewertet RAGEN Agenten in drei symbolischen Umgebungen:
- Bandit: Eine einstufige, stochastische Aufgabe, die symbolisches Risiko-Belohnungs-Denken testet.
- Sokoban: Ein mehrstufiges, deterministisches Puzzle mit irreversiblen Entscheidungen.
- Frozen Lake: Eine stochastische, mehrstufige Aufgabe, die adaptives Planen erfordert.
Jede Umgebung ist darauf ausgelegt, reale Vorannahmen zu minimieren und sich ausschließlich auf Entscheidungsstrategien zu konzentrieren, die während des Trainings entwickelt werden. Zum Beispiel müssen Agenten in der Bandit-Umgebung symbolisch über Drachen- und Phönixarme nachdenken, die unterschiedliche Belohnungsverteilungen darstellen, und diese als „Stärke“ und „Hoffnung“ interpretieren, um Ergebnisse vorherzusagen.
Stabilisierung des Reinforcement Learnings mit StarPO-S
Um den Trainingskollaps zu bekämpfen, führten die Forscher StarPO-S ein, eine stabilisierte Version des ursprünglichen Frameworks. StarPO-S umfasst drei wesentliche Maßnahmen:
- Ungewissheitsbasierte Rollout-Filterung: Priorisierung von Rollouts, bei denen der Agent Unsicherheit über das Ergebnis zeigt.
- Entfernung der KL-Strafe: Ermöglicht dem Modell, freier von seiner ursprünglichen Richtlinie abzuweichen und neue Verhaltensweisen zu erkunden.
- Asymmetrisches PPO-Clipping: Verstärkung von Trajektorien mit hohen Belohnungen stärker als solche mit niedrigen, um das Lernen zu fördern.
Diese Änderungen helfen, den Trainingskollaps zu verzögern oder zu verhindern und die Leistung bei allen drei Aufgaben zu verbessern. Wie Wang es ausdrückte: „StarPO-S… funktioniert bei allen 3 Aufgaben. Verhindert Kollaps. Bessere Belohnung.“
Was macht ein gutes agentisches KI-Modell aus?
Der Erfolg des RL-Trainings hängt nicht nur von der Architektur, sondern auch von der Qualität der von den Agenten generierten Daten ab. Das Team identifizierte drei entscheidende Dimensionen, die das Training erheblich beeinflussen:
- Aufgabenvielfalt: Die Exposition des Modells gegenüber einer breiten Palette von Anfangsszenarien verbessert die Generalisierung.
- Interaktionsgranularität: Mehrere Aktionen pro Zug ermöglichen eine sinnvollere Planung.
- Frische der Rollouts: Die Ausrichtung der Trainingsdaten auf die aktuelle Modellrichtlinie verhindert veraltete Lernsignale.
Diese Faktoren tragen zu einem stabileren und effektiveren Trainingsprozess bei. Eine interaktive Demo-Seite auf Github visualisiert Agenten-Rollouts als vollständige Dialogrunden, einschließlich nicht nur der Aktionen, sondern auch des schrittweisen Denkprozesses, der ihnen vorausgeht. Zum Beispiel könnte ein Agent bei der Lösung eines mathematischen Problems zunächst darüber „nachdenken“, eine Variable zu isolieren, bevor er eine Antwort wie „x = 5“ gibt. Diese Zwischengedanken sind sichtbar und nachvollziehbar, was die Transparenz der Entscheidungsfindung der Agenten erhöht.
Wenn das Denken schwindet
Während explizites Denken die Leistung bei einfachen, einstufigen Aufgaben wie Bandit verbessert, neigt es dazu, während des mehrstufigen Trainings abzunehmen. Trotz der Verwendung strukturierter Prompts und Tokens schrumpfen oder verschwinden Schlussfolgerungsspuren oft, es sei denn, sie werden direkt belohnt. Dies zeigt eine Einschränkung in der üblichen Gestaltung von Belohnungen: Der Fokus auf Aufgabenabschluss vernachlässigt möglicherweise die Qualität des dahinterliegenden Prozesses. Das Team experimentierte mit formatbasierten Strafen, um besser strukturiertes Denken zu fördern, räumt jedoch ein, dass eine verfeinerte Belohnungsgestaltung wahrscheinlich erforderlich ist.
Offene Tools und zukünftige Richtungen
RAGEN, zusammen mit seinen StarPO- und StarPO-S-Frameworks, ist jetzt als Open-Source-Projekt unter https://github.com/RAGEN-AI/RAGEN verfügbar. Zum Zeitpunkt der Erstellung ist jedoch keine explizite Lizenz im GitHub-Repository aufgeführt, was die Nutzung oder Weitergabe durch andere einschränken könnte.
Das System bietet eine wertvolle Grundlage für diejenigen, die KI-Agenten entwickeln möchten, die nicht nur Aufgaben erledigen, sondern auch denken, planen und sich weiterentwickeln. Während KI auf größere Autonomie zusteuert, helfen Projekte wie RAGEN zu beleuchten, was nötig ist, um Modelle zu trainieren, die aus den Konsequenzen ihrer eigenen Handlungen lernen.
Offene Fragen für die Einführung in Unternehmen
Während das RAGEN-Papier eine detaillierte technische Roadmap bietet, bleiben einige praktische Fragen für diejenigen offen, die diese Methoden in Unternehmenskontexten anwenden möchten. Zum Beispiel: Wie übertragbar ist der Ansatz von RAGEN über stilisierte, symbolische Aufgaben hinaus? Müssen Unternehmen völlig neue Umgebungen und Belohnungsfunktionen entwerfen, um dieses System in Arbeitsabläufen wie Rechnungsverarbeitung oder Kundensupport zu nutzen?
Wang schlug in einer direkten Nachricht an VentureBeat auf X vor, dass die Verbesserung der Aufgabenvielfalt helfen könnte, da die aktuellen Spielaufgaben nur ähnliche Gitterdarstellungen haben, aber semantische Informationen fehlen. Er äußerte auch Optimismus darüber, dass Unternehmen ihre eigenen Trainingsübungen für KI-Agenten mit RAGEN entwerfen könnten, und wies darauf hin, dass der GitHub-Link eine einfache Einführung zum Hinzufügen neuer Umgebungen bietet.
Ein weiterer kritischer Bereich ist die Skalierbarkeit. Selbst mit den Verbesserungen durch StarPO-S räumt das Papier ein, dass das Training über längere Zeiträume hinweg letztendlich zusammenbricht. Dies wirft die Frage auf: Gibt es einen theoretischen oder praktischen Weg, das Denken über offene oder kontinuierlich sich entwickelnde Aufgabenfolgen hinweg aufrechtzuerhalten?
Zum Zeitpunkt der Erstellung ist keine explizite Lizenz im RAGEN-GitHub-Repository oder in der Dokumentation aufgeführt, was Fragen zu den Nutzungsrechten offenlässt. Dennoch sticht RAGEN nicht nur als technischer Beitrag heraus, sondern auch als konzeptioneller Schritt hin zu autonomeren, schlussfolgerungsfähigen KI-Agenten. Ob es Teil des Unternehmens-KI-Stacks wird, bleibt abzuwarten, aber seine Erkenntnisse über die Lern dynamiken von Agenten tragen bereits dazu bei, die Grenzen des LLM-Trainings neu zu definieren.
Verwandter Artikel
Führende KI-Labors warnen, dass die Menschheit das Verständnis für KI-Systeme verliert
In einem beispiellosen Akt der Einigkeit haben Forscher von OpenAI, Google DeepMind, Anthropic und Meta ihre konkurrierenden Differenzen beiseite geschoben, um eine gemeinsame Warnung zur verantwortun
Anthropic's AI Upgrade: Claude durchsucht jetzt sofort den gesamten Google-Arbeitsbereich
Das heutige wichtige Upgrade von Anthropic verwandelt Claude von einem KI-Assistenten in einen, wie das Unternehmen es nennt, "echten virtuellen Mitarbeiter", der bahnbrechende autonome Forschungsfunk
Alibabas "ZeroSearch" KI senkt Trainingskosten um 88% durch autonomes Lernen
Alibabas ZeroSearch: Ein Wendepunkt für die Effizienz des KI-TrainingsForscher der Alibaba Group haben eine bahnbrechende Methode entwickelt, die möglicherweise die Art und Weise revolutioniert, wie K
Kommentare (7)
0/200
ScottEvans
13. August 2025 13:00:59 MESZ
RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!
0
JimmyRamirez
23. Juli 2025 06:59:29 MESZ
This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔
0
RalphWalker
6. Mai 2025 09:48:04 MESZ
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6. Mai 2025 00:45:54 MESZ
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
EricLewis
5. Mai 2025 05:45:04 MESZ
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
GeorgeTaylor
4. Mai 2025 22:00:48 MESZ
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
Das Jahr der KI-Agenten: Ein genauerer Blick auf die Erwartungen und Realitäten von 2025
2025 wurde von vielen Experten als das Jahr gefeiert, in dem KI-Agenten – spezialisierte KI-Systeme, die von fortschrittlichen großen Sprach- und multimodalen Modellen von Unternehmen wie OpenAI, Anthropic, Google und DeepSeek angetrieben werden – endlich im Mittelpunkt stehen würden. Doch laut einer aktuellen Umfrage von VentureBeat auf dem sozialen Netzwerk X befinden sich die meisten KI-Agenten immer noch in experimentellen Phasen, gefangen in einer Art unternehmerischem Niemandsland.
Doch es gibt einen Hoffnungsschimmer am Horizont. Eine gemeinsame Anstrengung von Forschern der Northwestern University, Microsoft, Stanford und der University of Washington, einschließlich Zihan Wang, einem ehemaligen DeepSeek-Forscher, der nun an der Northwestern University in Informatik promoviert, hat RAGEN vorgestellt. Dieses neue System zielt darauf ab, KI-Agenten zu trainieren und zu bewerten, um sie zuverlässiger und anpassungsfähiger für den realen, unternehmerischen Einsatz zu machen.
RAGEN: Ein neuer Ansatz zum Training von KI-Agenten
Im Gegensatz zu statischen Aufgaben wie dem Lösen von Mathematikaufgaben oder der Codegenerierung konzentriert sich RAGEN auf dynamische, mehrstufige Interaktionen, bei denen Agenten sich anpassen, erinnern und unter Unsicherheit schlussfolgern müssen. Das System basiert auf einem speziell entwickelten Reinforcement-Learning-(RL)-Framework namens StarPO (State-Thinking-Actions-Reward Policy Optimization), das das Lernen durch Erfahrung statt durch bloßes Auswendiglernen betont. StarPO betrachtet gesamte Entscheidungssequenzen, nicht nur einzelne Antwortschritte.
StarPO arbeitet in zwei Phasen: einer Rollout-Phase, in der das LLM vollständige Interaktionssequenzen unter Anleitung von Schlussfolgerungen generiert, und einer Update-Phase, in der das Modell mit normalisierten kumulativen Belohnungen optimiert wird. Dieser Ansatz bietet einen stabileren und interpretierbareren Lernzyklus im Vergleich zu traditionellen Methoden der Richtlinienoptimierung.
Die Forscher testeten dieses Framework mit optimierten Versionen von Alibabas Qwen-Modellen, insbesondere Qwen 1.5 und Qwen 2.5, die aufgrund ihrer offenen Gewichte und starken Befehlsfolgefähigkeiten ausgewählt wurden. Diese Wahl erleichterte die Reproduzierbarkeit und konsistente Basisvergleiche bei symbolischen Aufgaben.
Die Echo-Falle: Eine Herausforderung im Reinforcement Learning
Zihan Wang wies in einem viel geteilten X-Thread auf ein kritisches Problem beim RL-Training hin: *Warum bricht dein RL-Training immer zusammen?* Das Team stellte fest, dass RL-Systeme zwar anfangs gut begründete Antworten liefern, jedoch oft Abkürzungen belohnen, was zu repetitiven Verhaltensweisen führt, die die Leistung verschlechtern – ein Phänomen, das sie als „Echo-Falle“ bezeichneten.
Diese Rückentwicklung wird durch Rückkopplungsschleifen angetrieben, bei denen bestimmte Phrasen oder Strategien frühzeitig hohe Belohnungen erzielen, was zu übermäßigem Gebrauch führt und die Erkundung erstickt. Die Symptome sind klar: Belohnungsvarianz fällt ab, Gradientenspitzen treten auf und Schlussfolgerungsspuren verschwinden.
RAGENs Testumgebungen
Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, bewertet RAGEN Agenten in drei symbolischen Umgebungen:
- Bandit: Eine einstufige, stochastische Aufgabe, die symbolisches Risiko-Belohnungs-Denken testet.
- Sokoban: Ein mehrstufiges, deterministisches Puzzle mit irreversiblen Entscheidungen.
- Frozen Lake: Eine stochastische, mehrstufige Aufgabe, die adaptives Planen erfordert.
Jede Umgebung ist darauf ausgelegt, reale Vorannahmen zu minimieren und sich ausschließlich auf Entscheidungsstrategien zu konzentrieren, die während des Trainings entwickelt werden. Zum Beispiel müssen Agenten in der Bandit-Umgebung symbolisch über Drachen- und Phönixarme nachdenken, die unterschiedliche Belohnungsverteilungen darstellen, und diese als „Stärke“ und „Hoffnung“ interpretieren, um Ergebnisse vorherzusagen.
Stabilisierung des Reinforcement Learnings mit StarPO-S
Um den Trainingskollaps zu bekämpfen, führten die Forscher StarPO-S ein, eine stabilisierte Version des ursprünglichen Frameworks. StarPO-S umfasst drei wesentliche Maßnahmen:
- Ungewissheitsbasierte Rollout-Filterung: Priorisierung von Rollouts, bei denen der Agent Unsicherheit über das Ergebnis zeigt.
- Entfernung der KL-Strafe: Ermöglicht dem Modell, freier von seiner ursprünglichen Richtlinie abzuweichen und neue Verhaltensweisen zu erkunden.
- Asymmetrisches PPO-Clipping: Verstärkung von Trajektorien mit hohen Belohnungen stärker als solche mit niedrigen, um das Lernen zu fördern.
Diese Änderungen helfen, den Trainingskollaps zu verzögern oder zu verhindern und die Leistung bei allen drei Aufgaben zu verbessern. Wie Wang es ausdrückte: „StarPO-S… funktioniert bei allen 3 Aufgaben. Verhindert Kollaps. Bessere Belohnung.“
Was macht ein gutes agentisches KI-Modell aus?
Der Erfolg des RL-Trainings hängt nicht nur von der Architektur, sondern auch von der Qualität der von den Agenten generierten Daten ab. Das Team identifizierte drei entscheidende Dimensionen, die das Training erheblich beeinflussen:
- Aufgabenvielfalt: Die Exposition des Modells gegenüber einer breiten Palette von Anfangsszenarien verbessert die Generalisierung.
- Interaktionsgranularität: Mehrere Aktionen pro Zug ermöglichen eine sinnvollere Planung.
- Frische der Rollouts: Die Ausrichtung der Trainingsdaten auf die aktuelle Modellrichtlinie verhindert veraltete Lernsignale.
Diese Faktoren tragen zu einem stabileren und effektiveren Trainingsprozess bei. Eine interaktive Demo-Seite auf Github visualisiert Agenten-Rollouts als vollständige Dialogrunden, einschließlich nicht nur der Aktionen, sondern auch des schrittweisen Denkprozesses, der ihnen vorausgeht. Zum Beispiel könnte ein Agent bei der Lösung eines mathematischen Problems zunächst darüber „nachdenken“, eine Variable zu isolieren, bevor er eine Antwort wie „x = 5“ gibt. Diese Zwischengedanken sind sichtbar und nachvollziehbar, was die Transparenz der Entscheidungsfindung der Agenten erhöht.
Wenn das Denken schwindet
Während explizites Denken die Leistung bei einfachen, einstufigen Aufgaben wie Bandit verbessert, neigt es dazu, während des mehrstufigen Trainings abzunehmen. Trotz der Verwendung strukturierter Prompts und Tokens schrumpfen oder verschwinden Schlussfolgerungsspuren oft, es sei denn, sie werden direkt belohnt. Dies zeigt eine Einschränkung in der üblichen Gestaltung von Belohnungen: Der Fokus auf Aufgabenabschluss vernachlässigt möglicherweise die Qualität des dahinterliegenden Prozesses. Das Team experimentierte mit formatbasierten Strafen, um besser strukturiertes Denken zu fördern, räumt jedoch ein, dass eine verfeinerte Belohnungsgestaltung wahrscheinlich erforderlich ist.
Offene Tools und zukünftige Richtungen
RAGEN, zusammen mit seinen StarPO- und StarPO-S-Frameworks, ist jetzt als Open-Source-Projekt unter https://github.com/RAGEN-AI/RAGEN verfügbar. Zum Zeitpunkt der Erstellung ist jedoch keine explizite Lizenz im GitHub-Repository aufgeführt, was die Nutzung oder Weitergabe durch andere einschränken könnte.
Das System bietet eine wertvolle Grundlage für diejenigen, die KI-Agenten entwickeln möchten, die nicht nur Aufgaben erledigen, sondern auch denken, planen und sich weiterentwickeln. Während KI auf größere Autonomie zusteuert, helfen Projekte wie RAGEN zu beleuchten, was nötig ist, um Modelle zu trainieren, die aus den Konsequenzen ihrer eigenen Handlungen lernen.
Offene Fragen für die Einführung in Unternehmen
Während das RAGEN-Papier eine detaillierte technische Roadmap bietet, bleiben einige praktische Fragen für diejenigen offen, die diese Methoden in Unternehmenskontexten anwenden möchten. Zum Beispiel: Wie übertragbar ist der Ansatz von RAGEN über stilisierte, symbolische Aufgaben hinaus? Müssen Unternehmen völlig neue Umgebungen und Belohnungsfunktionen entwerfen, um dieses System in Arbeitsabläufen wie Rechnungsverarbeitung oder Kundensupport zu nutzen?
Wang schlug in einer direkten Nachricht an VentureBeat auf X vor, dass die Verbesserung der Aufgabenvielfalt helfen könnte, da die aktuellen Spielaufgaben nur ähnliche Gitterdarstellungen haben, aber semantische Informationen fehlen. Er äußerte auch Optimismus darüber, dass Unternehmen ihre eigenen Trainingsübungen für KI-Agenten mit RAGEN entwerfen könnten, und wies darauf hin, dass der GitHub-Link eine einfache Einführung zum Hinzufügen neuer Umgebungen bietet.
Ein weiterer kritischer Bereich ist die Skalierbarkeit. Selbst mit den Verbesserungen durch StarPO-S räumt das Papier ein, dass das Training über längere Zeiträume hinweg letztendlich zusammenbricht. Dies wirft die Frage auf: Gibt es einen theoretischen oder praktischen Weg, das Denken über offene oder kontinuierlich sich entwickelnde Aufgabenfolgen hinweg aufrechtzuerhalten?
Zum Zeitpunkt der Erstellung ist keine explizite Lizenz im RAGEN-GitHub-Repository oder in der Dokumentation aufgeführt, was Fragen zu den Nutzungsrechten offenlässt. Dennoch sticht RAGEN nicht nur als technischer Beitrag heraus, sondern auch als konzeptioneller Schritt hin zu autonomeren, schlussfolgerungsfähigen KI-Agenten. Ob es Teil des Unternehmens-KI-Stacks wird, bleibt abzuwarten, aber seine Erkenntnisse über die Lern dynamiken von Agenten tragen bereits dazu bei, die Grenzen des LLM-Trainings neu zu definieren.




RAGEN sounds cool, but will it actually make AI less chaotic or just add more hype to the mix? 🤔 Curious to see if it lives up to the promises!




This RAGEN method sounds like a game-changer for AI reliability! Curious how it stacks up against what OpenAI’s cooking. Anyone tried it yet? 🤔




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀












