Ehemaliger Deepseeker und Mitarbeiter veröffentlichen eine neue Methode für die Schulung zuverlässiger KI -Agenten: Ragen

Das Jahr der AI -Agenten: Ein genauerer Blick auf die Erwartungen und Realitäten 2025
2025 wurde von vielen Experten als das Jahr angekündigt, in dem AI -Agenten - AI -Systeme, die von fortgeschrittenen großen Sprachen und multimodalen Modellen von Unternehmen wie OpenAI, Anthropic, Google und Deepseek betrieben wurden, endlich im Mittelpunkt stehen. Laut einer kürzlich veröffentlichten VentureBeat -Umfrage im sozialen Netzwerk X sind die meisten KI -Agenten jedoch in experimentellen Phasen immer noch in eine Art Unternehmensschwebe gefangen.
Aber am Horizont liegt ein Hoffnungsschimmer. Eine gemeinsame Anstrengung von Forschern der Northwestern University, Microsoft, Stanford und der University of Washington, darunter Zihan Wang, ein ehemaliger Deepseek -Forscher, der jetzt einen Doktortitel in Informatik in Northwestern anstrebt, hat Ragen vorgestellt. Dieses neue System zielt darauf ab, KI-Agenten auszubilden und zu bewerten, um sie zuverlässiger und anpassungsfähiger für die Verwendung von Unternehmen, Unternehmen zu machen.
Ragen: Ein neuer Ansatz zur Ausbildung von KI -Agenten
Im Gegensatz zu statischen Aufgaben wie Mathematiklösung oder Codegenerierung konzentriert sich Ragen auf dynamische, mehrstufige Interaktionen, bei denen sich Agenten inmitten der Unsicherheit anpassen, erinnern und Vernunft anpassen müssen. Das System basiert auf einem RLL-Framework (Custom Construcement Learning), der als Starpo (staatlich denkende Options-Reward-Politikoptimierung) bezeichnet wird und das das Lernen durch Erfahrung und nicht durch Auswendiglernen betont. Starpo befasst sich mit ganzen Entscheidungssequenzen, nicht nur für einstufige Antworten.
Starpo arbeitet in zwei Phasen: eine Rollout -Stufe, in der das LLM vollständige Interaktionssequenzen erzeugt, die durch Argumentation geleitet werden, und eine Aktualisierungsstufe, in der das Modell mit normalisierten kumulativen Belohnungen optimiert wird. Dieser Ansatz bietet eine stabilere und interpretierbare Lernschleife im Vergleich zu herkömmlichen Methoden zur Politikoptimierung.
Die Forscher testeten diesen Rahmen unter Verwendung von fein abgestimmten Versionen der QWEN-Modelle von Alibaba, insbesondere Qwen 1.5 und Qwen 2.5, die für ihre offenen Gewichte und starken Anweisungsfunktionen ausgewählt wurden. Diese Wahl erleichterte die Reproduzierbarkeit und konsistente Basisvergleiche über symbolische Aufgaben.
Die Echo -Falle: Eine Herausforderung beim Verstärkungslernen
Zihan Wang hob in einem weit verbreiteten X-Thread ein kritisches Problem im RL-Training hervor: * Warum bricht Ihr RL-Training immer zusammen?
Diese Regression wird durch Rückkopplungsschleifen angeheizt, bei denen bestimmte Phrasen oder Strategien frühzeitig hohe Belohnungen verdienen und zu Überbeanspruchungen und Erkundungen ermutigen und ersticken. Die Symptome sind klar: Belohnungsvarianz Klippen, Gradientenspitzen und Verschwinden von Argumentationsspuren.
Ragens Testumgebungen
Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, bewertet Ragen Agenten in drei symbolischen Umgebungen:
- Bandit: Eine einzelne, stochastische Aufgabe, die symbolische Risiko-Belohnung testet.
- Sokoban: Ein multiturnes, deterministisches Puzzle mit irreversiblen Entscheidungen.
- Gefrorener See: Eine stochastische Mehrzündungsaufgabe, die eine adaptive Planung erfordert.
Jede Umgebung soll reale Priors minimieren und sich ausschließlich auf Entscheidungsstrategien konzentrieren, die während des Trainings entwickelt wurden. In der Banditenumgebung müssen Agenten beispielsweise symbolisch über Dragon- und Phoenix -Arme, die unterschiedliche Belohnungsverteilungen darstellen, begründen und sie als "Stärke" und "Hoffnung" interpretieren, um die Ergebnisse vorherzusagen.
Stabilisierung des Verstärkungslernens mit Starpo-s
Um das Zusammenbruch des Trainings zu bekämpfen, stellten die Forscher Starpo-S vor, eine stabilisierte Version des ursprünglichen Frameworks. Starpo-S enthält drei wichtige Interventionen:
- Unsicherheitsbasierte Rollout-Filterung: Priorisierung von Rollouts, bei denen der Agent die Ergebnisunsicherheit zeigt.
- KL -Strafe Entfernung: Das Modell kann freier von seiner ursprünglichen Richtlinie abweichen und neue Verhaltensweisen erkunden.
- Asymmetrisches PPO-Ausschnitt: Verstärkung von Flugbahnen mit hoher Belohnung mehr als niedrig und belohnte, um das Lernen zu steigern.
Diese Änderungen helfen, das Trainingskollaps zu verzögern oder zu beseitigen und die Leistung in allen drei Aufgaben zu verbessern. Wie Wang es ausdrückte:
Was macht ein gutes Agenten -KI -Modell aus?
Der Erfolg des RL -Trainings hängt nicht nur von der Architektur, sondern auch von der Qualität der von den Agenten generierten Daten ab. Das Team identifizierte drei wichtige Dimensionen, die das Training erheblich beeinflussen:
- Aufgabenvielfalt: Das Modell einer Vielzahl von Anfangsszenarien verbessert die Verallgemeinerung.
- Interaktionsgranularität: Das Ermöglichen mehrerer Aktionen pro Kurve ermöglicht eine aussagekräftigere Planung.
- Rollout -Frische: Die Schulungsdaten, die mit der aktuellen Modellrichtlinie ausgerichtet sind, vermeiden veraltete Lernsignale.
Diese Faktoren tragen zu einem stabileren und effektiveren Trainingsprozess bei. Eine interaktive Demo-Site auf GitHub visualisiert die Rollouts von Agenten, wenn sich der vollständige Dialog wendet, einschließlich nicht nur Aktionen, sondern dem Schritt-für-Schritt-Denkprozess, der ihnen vorausgeht. Bei der Lösung eines Mathematikproblems könnte ein Agent beispielsweise zunächst über das Isolieren einer Variablen denken, bevor er eine Antwort wie 'x = 5' einreicht. Diese Zwischengedanken sind sichtbar und nachvollziehbar und verleihen der Art und Weise, wie Agenten Entscheidungen treffen.
Beim Argumentieren läuft
Während explizite Argumentation die Leistung bei einfachen Einsatzaufgaben wie Bandit verbessert, neigt es dazu, während des mehrstufigen Trainings zu verfallen. Trotz der Verwendung strukturierter Eingabeaufforderungen und Token schrumpfen die Argumentationsspuren häufig ab oder verschwinden, sofern sie nicht direkt belohnt werden. Dies unterstreicht eine Einschränkung bei der Art und Weise, wie die Belohnungen in der Regel entworfen wurden: Die Fokussierung auf den Abschluss der Aufgaben kann die Qualität des dahinter stehenden Prozesses vernachlässigen. Das Team experimentierte mit formatbasierten Strafen, um eine bessere Argumentation zu fördern, erkennt jedoch an, dass wahrscheinlich eine raffiniertere Belohnungsformung erforderlich ist.
Offene Werkzeuge und zukünftige Anweisungen
Ragen ist zusammen mit seinem Starpo- und Starpo-S-Frameworks jetzt als Open-Source-Projekt unter https://github.com/ragen-ai/ragen erhältlich. Zum Zeitpunkt des Schreibens ist jedoch keine explizite Lizenz im Github -Repository aufgeführt, was die Verwendung oder Umverteilung durch andere einschränken kann.
Das System bietet eine wertvolle Grundlage für diejenigen, die sich für die Entwicklung von KI -Agenten interessieren, die nicht nur Aufgaben erledigen, sondern auch denken, planen und weiterentwickeln. Wenn KI zu einer größeren Autonomie wechselt, helfen Projekte wie Ragen dazu, zu beleuchten, was es braucht, um Modelle zu trainieren, die aus den Folgen ihrer eigenen Handlungen lernen.
Hervorragende Fragen zur adoptionischen Unternehmensannahme in der realen Unternehmen
Während das Ragenpapier eine detaillierte technische Roadmap bietet, bleiben für diejenigen, die diese Methoden in Unternehmensumgebungen anwenden möchten, mehrere praktische Fragen. Wie übertragbar ist Ragens Ansatz beispielsweise über stilisierte, symbolische Aufgaben hinaus? Müssten Unternehmen völlig neue Umgebungen entwerfen und Funktionen belohnen, um dieses System in Workflows wie Rechnungsverarbeitung oder Kundensupport zu verwenden?
Wang schlug in einer Direktnachricht an VentureBeat auf X vor, dass die Verbesserung der Aufgabenvielfalt helfen könnte, da die aktuellen Spielaufgaben nur ähnliche Grid -Darstellungen aufweisen, aber keine semantischen Informationen haben. Er drückte auch Optimismus für Unternehmen aus, die ihre eigenen Trainingsübungen für KI -Agenten mit Ragen entwerfen, und stellte fest, dass der Github -Link eine einfache Einführung in das Hinzufügen neuer Umgebungen bietet.
Ein weiterer kritischer Bereich ist die Skalierbarkeit. Selbst mit den Verbesserungen von Starpo-S erkennt das Papier an, dass das Training letztendlich über längere Horizonte zusammenbricht. Dies wirft die Frage auf: Gibt es einen theoretischen oder praktischen Weg zur Aufrechterhaltung von Denken über offene oder kontinuierlich entwickelnde Aufgabensequenzen?
Zum Zeitpunkt des Schreibens ist keine explizite Lizenz im Ragen -Github -Repository oder der Dokumentation aufgelistet, wodurch offene Fragen zu den Nutzungsrechten hinterlassen werden. Trotzdem sticht Ragen nicht nur als technischer Beitrag, sondern als konzeptioneller Schritt in Richtung autonomerer, argumentierender KI-Agenten heraus. Ob es Teil des Enterprise AI -Stacks wird, bleibt abzuwarten, aber seine Einblicke in die Dynamik des Agentenlernens tragen bereits dazu bei, die Grenze des LLM -Trainings neu zu definieren.
Verwandter Artikel
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Kommentare (5)
0/200
RalphWalker
6. Mai 2025 00:00:00 GMT
RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀
0
NicholasAdams
6. Mai 2025 00:00:00 GMT
RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀
0
MateoAdams
4. Mai 2025 00:00:00 GMT
RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀
0
GeorgeTaylor
5. Mai 2025 00:00:00 GMT
RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀
0
EricLewis
5. Mai 2025 00:00:00 GMT
RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀
0
Das Jahr der AI -Agenten: Ein genauerer Blick auf die Erwartungen und Realitäten 2025
2025 wurde von vielen Experten als das Jahr angekündigt, in dem AI -Agenten - AI -Systeme, die von fortgeschrittenen großen Sprachen und multimodalen Modellen von Unternehmen wie OpenAI, Anthropic, Google und Deepseek betrieben wurden, endlich im Mittelpunkt stehen. Laut einer kürzlich veröffentlichten VentureBeat -Umfrage im sozialen Netzwerk X sind die meisten KI -Agenten jedoch in experimentellen Phasen immer noch in eine Art Unternehmensschwebe gefangen.
Aber am Horizont liegt ein Hoffnungsschimmer. Eine gemeinsame Anstrengung von Forschern der Northwestern University, Microsoft, Stanford und der University of Washington, darunter Zihan Wang, ein ehemaliger Deepseek -Forscher, der jetzt einen Doktortitel in Informatik in Northwestern anstrebt, hat Ragen vorgestellt. Dieses neue System zielt darauf ab, KI-Agenten auszubilden und zu bewerten, um sie zuverlässiger und anpassungsfähiger für die Verwendung von Unternehmen, Unternehmen zu machen.
Ragen: Ein neuer Ansatz zur Ausbildung von KI -Agenten
Im Gegensatz zu statischen Aufgaben wie Mathematiklösung oder Codegenerierung konzentriert sich Ragen auf dynamische, mehrstufige Interaktionen, bei denen sich Agenten inmitten der Unsicherheit anpassen, erinnern und Vernunft anpassen müssen. Das System basiert auf einem RLL-Framework (Custom Construcement Learning), der als Starpo (staatlich denkende Options-Reward-Politikoptimierung) bezeichnet wird und das das Lernen durch Erfahrung und nicht durch Auswendiglernen betont. Starpo befasst sich mit ganzen Entscheidungssequenzen, nicht nur für einstufige Antworten.
Starpo arbeitet in zwei Phasen: eine Rollout -Stufe, in der das LLM vollständige Interaktionssequenzen erzeugt, die durch Argumentation geleitet werden, und eine Aktualisierungsstufe, in der das Modell mit normalisierten kumulativen Belohnungen optimiert wird. Dieser Ansatz bietet eine stabilere und interpretierbare Lernschleife im Vergleich zu herkömmlichen Methoden zur Politikoptimierung.
Die Forscher testeten diesen Rahmen unter Verwendung von fein abgestimmten Versionen der QWEN-Modelle von Alibaba, insbesondere Qwen 1.5 und Qwen 2.5, die für ihre offenen Gewichte und starken Anweisungsfunktionen ausgewählt wurden. Diese Wahl erleichterte die Reproduzierbarkeit und konsistente Basisvergleiche über symbolische Aufgaben.
Die Echo -Falle: Eine Herausforderung beim Verstärkungslernen
Zihan Wang hob in einem weit verbreiteten X-Thread ein kritisches Problem im RL-Training hervor: * Warum bricht Ihr RL-Training immer zusammen?
Diese Regression wird durch Rückkopplungsschleifen angeheizt, bei denen bestimmte Phrasen oder Strategien frühzeitig hohe Belohnungen verdienen und zu Überbeanspruchungen und Erkundungen ermutigen und ersticken. Die Symptome sind klar: Belohnungsvarianz Klippen, Gradientenspitzen und Verschwinden von Argumentationsspuren.
Ragens Testumgebungen
Um diese Verhaltensweisen in einer kontrollierten Umgebung zu untersuchen, bewertet Ragen Agenten in drei symbolischen Umgebungen:
- Bandit: Eine einzelne, stochastische Aufgabe, die symbolische Risiko-Belohnung testet.
- Sokoban: Ein multiturnes, deterministisches Puzzle mit irreversiblen Entscheidungen.
- Gefrorener See: Eine stochastische Mehrzündungsaufgabe, die eine adaptive Planung erfordert.
Jede Umgebung soll reale Priors minimieren und sich ausschließlich auf Entscheidungsstrategien konzentrieren, die während des Trainings entwickelt wurden. In der Banditenumgebung müssen Agenten beispielsweise symbolisch über Dragon- und Phoenix -Arme, die unterschiedliche Belohnungsverteilungen darstellen, begründen und sie als "Stärke" und "Hoffnung" interpretieren, um die Ergebnisse vorherzusagen.
Stabilisierung des Verstärkungslernens mit Starpo-s
Um das Zusammenbruch des Trainings zu bekämpfen, stellten die Forscher Starpo-S vor, eine stabilisierte Version des ursprünglichen Frameworks. Starpo-S enthält drei wichtige Interventionen:
- Unsicherheitsbasierte Rollout-Filterung: Priorisierung von Rollouts, bei denen der Agent die Ergebnisunsicherheit zeigt.
- KL -Strafe Entfernung: Das Modell kann freier von seiner ursprünglichen Richtlinie abweichen und neue Verhaltensweisen erkunden.
- Asymmetrisches PPO-Ausschnitt: Verstärkung von Flugbahnen mit hoher Belohnung mehr als niedrig und belohnte, um das Lernen zu steigern.
Diese Änderungen helfen, das Trainingskollaps zu verzögern oder zu beseitigen und die Leistung in allen drei Aufgaben zu verbessern. Wie Wang es ausdrückte:
Was macht ein gutes Agenten -KI -Modell aus?
Der Erfolg des RL -Trainings hängt nicht nur von der Architektur, sondern auch von der Qualität der von den Agenten generierten Daten ab. Das Team identifizierte drei wichtige Dimensionen, die das Training erheblich beeinflussen:
- Aufgabenvielfalt: Das Modell einer Vielzahl von Anfangsszenarien verbessert die Verallgemeinerung.
- Interaktionsgranularität: Das Ermöglichen mehrerer Aktionen pro Kurve ermöglicht eine aussagekräftigere Planung.
- Rollout -Frische: Die Schulungsdaten, die mit der aktuellen Modellrichtlinie ausgerichtet sind, vermeiden veraltete Lernsignale.
Diese Faktoren tragen zu einem stabileren und effektiveren Trainingsprozess bei. Eine interaktive Demo-Site auf GitHub visualisiert die Rollouts von Agenten, wenn sich der vollständige Dialog wendet, einschließlich nicht nur Aktionen, sondern dem Schritt-für-Schritt-Denkprozess, der ihnen vorausgeht. Bei der Lösung eines Mathematikproblems könnte ein Agent beispielsweise zunächst über das Isolieren einer Variablen denken, bevor er eine Antwort wie 'x = 5' einreicht. Diese Zwischengedanken sind sichtbar und nachvollziehbar und verleihen der Art und Weise, wie Agenten Entscheidungen treffen.
Beim Argumentieren läuft
Während explizite Argumentation die Leistung bei einfachen Einsatzaufgaben wie Bandit verbessert, neigt es dazu, während des mehrstufigen Trainings zu verfallen. Trotz der Verwendung strukturierter Eingabeaufforderungen und Token schrumpfen die Argumentationsspuren häufig ab oder verschwinden, sofern sie nicht direkt belohnt werden. Dies unterstreicht eine Einschränkung bei der Art und Weise, wie die Belohnungen in der Regel entworfen wurden: Die Fokussierung auf den Abschluss der Aufgaben kann die Qualität des dahinter stehenden Prozesses vernachlässigen. Das Team experimentierte mit formatbasierten Strafen, um eine bessere Argumentation zu fördern, erkennt jedoch an, dass wahrscheinlich eine raffiniertere Belohnungsformung erforderlich ist.
Offene Werkzeuge und zukünftige Anweisungen
Ragen ist zusammen mit seinem Starpo- und Starpo-S-Frameworks jetzt als Open-Source-Projekt unter https://github.com/ragen-ai/ragen erhältlich. Zum Zeitpunkt des Schreibens ist jedoch keine explizite Lizenz im Github -Repository aufgeführt, was die Verwendung oder Umverteilung durch andere einschränken kann.
Das System bietet eine wertvolle Grundlage für diejenigen, die sich für die Entwicklung von KI -Agenten interessieren, die nicht nur Aufgaben erledigen, sondern auch denken, planen und weiterentwickeln. Wenn KI zu einer größeren Autonomie wechselt, helfen Projekte wie Ragen dazu, zu beleuchten, was es braucht, um Modelle zu trainieren, die aus den Folgen ihrer eigenen Handlungen lernen.
Hervorragende Fragen zur adoptionischen Unternehmensannahme in der realen Unternehmen
Während das Ragenpapier eine detaillierte technische Roadmap bietet, bleiben für diejenigen, die diese Methoden in Unternehmensumgebungen anwenden möchten, mehrere praktische Fragen. Wie übertragbar ist Ragens Ansatz beispielsweise über stilisierte, symbolische Aufgaben hinaus? Müssten Unternehmen völlig neue Umgebungen entwerfen und Funktionen belohnen, um dieses System in Workflows wie Rechnungsverarbeitung oder Kundensupport zu verwenden?
Wang schlug in einer Direktnachricht an VentureBeat auf X vor, dass die Verbesserung der Aufgabenvielfalt helfen könnte, da die aktuellen Spielaufgaben nur ähnliche Grid -Darstellungen aufweisen, aber keine semantischen Informationen haben. Er drückte auch Optimismus für Unternehmen aus, die ihre eigenen Trainingsübungen für KI -Agenten mit Ragen entwerfen, und stellte fest, dass der Github -Link eine einfache Einführung in das Hinzufügen neuer Umgebungen bietet.
Ein weiterer kritischer Bereich ist die Skalierbarkeit. Selbst mit den Verbesserungen von Starpo-S erkennt das Papier an, dass das Training letztendlich über längere Horizonte zusammenbricht. Dies wirft die Frage auf: Gibt es einen theoretischen oder praktischen Weg zur Aufrechterhaltung von Denken über offene oder kontinuierlich entwickelnde Aufgabensequenzen?
Zum Zeitpunkt des Schreibens ist keine explizite Lizenz im Ragen -Github -Repository oder der Dokumentation aufgelistet, wodurch offene Fragen zu den Nutzungsrechten hinterlassen werden. Trotzdem sticht Ragen nicht nur als technischer Beitrag, sondern als konzeptioneller Schritt in Richtung autonomerer, argumentierender KI-Agenten heraus. Ob es Teil des Enterprise AI -Stacks wird, bleibt abzuwarten, aber seine Einblicke in die Dynamik des Agentenlernens tragen bereits dazu bei, die Grenze des LLM -Trainings neu zu definieren.




RAGEN is pretty cool, but it's not the game-changer I was hoping for. It's great for training AI agents, but sometimes the results are a bit off. Still, it's a step in the right direction. Keep pushing the boundaries, guys! 🚀




RAGENはかなりクールですが、期待していたほどのゲームチェンジャーではありません。AIエージェントのトレーニングには良いですが、結果が少しずれることがあります。それでも、前進の一歩です。皆さん、限界を押し広げてくださいね!🚀




RAGEN은 꽤 멋지지만 기대했던 만큼의 게임 체인저는 아니었어요. AI 에이전트 훈련에는 좋지만 결과가 조금 어긋날 때가 있어요. 그래도 앞으로 나아가는 한 걸음이죠. 계속해서 한계를 넓혀가세요! 🚀




RAGEN é bem legal, mas não foi o divisor de águas que eu esperava. É ótimo para treinar agentes de IA, mas às vezes os resultados estão um pouco fora. Ainda assim, é um passo na direção certa. Continuem expandindo os limites, pessoal! 🚀




RAGEN es bastante genial, pero no fue el cambio de juego que esperaba. Es bueno para entrenar agentes de IA, pero a veces los resultados están un poco desajustados. Sin embargo, es un paso en la dirección correcta. ¡Sigan empujando los límites, chicos! 🚀












