AI Skaling Breakthrough von Experten in Frage gestellt

Auf Social Media gibt es Aufregung über Forscher, die ein neues KI-"Skalierungsgesetz" entdeckt haben, aber Experten bleiben skeptisch. KI-Skalierungsgesetze, eher informelle Richtlinien, zeigen, wie KI-Modelle besser werden, wenn man mehr Daten und Rechenleistung einsetzt. Bis vor etwa einem Jahr war der große Trend das "Pre-Training" – also größere Modelle mit größeren Datensätzen trainieren. Das ist immer noch relevant, aber jetzt gibt es zwei weitere Skalierungsgesetze: Post-Training-Skalierung, bei der das Verhalten eines Modells optimiert wird, und Testzeit-Skalierung, bei der während der Inferenz mehr Rechenleistung genutzt wird, um die "Denkfähigkeiten" eines Modells zu verbessern (siehe Modelle wie R1).
Kürzlich veröffentlichten Forscher von Google und UC Berkeley ein Paper, das online als viertes Gesetz bezeichnet wird: "Inferenzzeit-Suche". Diese Methode lässt das Modell mehrere mögliche Antworten auf eine Anfrage gleichzeitig ausgeben und die beste auswählen. Die Forscher behaupten, sie könne die Leistung eines älteren Modells wie Googles Gemini 1.5 Pro steigern, um OpenAIs o1-preview-"Denkmodell" bei Wissenschafts- und Mathematik-Benchmarks zu übertreffen.
Eric Zhao, Google-Doktorand und Mitautor des Papers, teilte auf X mit, dass Gemini 1.5 – von ihm scherzhaft als "uraltes Früh-2024-Modell" bezeichnet – durch zufälliges Testen von 200 Antworten und Selbstverifikation o1-preview schlagen und sich o1 annähern könne. Er betonte, dass Selbstverifikation mit zunehmender Skalierung einfacher wird, was kontraintuitiv, aber spannend ist.
Doch nicht alle sind überzeugt. Matthew Guzdial, KI-Forscher und Assistenzprofessor an der University of Alberta, sagte TechCrunch, dass dieser Ansatz am besten funktioniert, wenn man eine solide Methode zur Bewertung der Antworten hat. Die meisten Fragen seien jedoch nicht so einfach. Er meinte: „Wenn wir keinen Code schreiben können, um zu definieren, was wir wollen, können wir die [Inferenzzeit]-Suche nicht nutzen. Für allgemeine Sprachinteraktion funktioniert das nicht... Es ist generell kein guter Ansatz, um die meisten Probleme zu lösen.“
Zhao entgegnete, ihr Paper untersuche Fälle, in denen keine klare Bewertungsmethode vorliegt und das Modell selbst entscheiden müsse. Er argumentierte, dass der Unterschied zwischen klarer und unklarer Bewertung mit zunehmender Skalierung schrumpfen könne.
Mike Cook, Forschungsstipendiat am King's College London, unterstützte Guzdials Ansicht und sagte, dass Inferenzzeit-Suche die Denkfähigkeiten eines Modells nicht wirklich verbessert. Es sei eher ein Workaround für die Neigung des Modells, selbstbewusst Fehler zu machen. Er betonte, dass bei einem Modell mit 5 % Fehlerquote das Überprüfen von 200 Versuchen diese Fehler leichter erkennbar machen sollte.
Diese Neuigkeit könnte für die KI-Branche enttäuschend sein, die stets nach Wegen sucht, die "Denkfähigkeiten" von Modellen kostengünstig zu verbessern. Wie die Autoren des Papers feststellten, können Denkmodelle Tausende von Dollar an Rechenkosten verursachen, nur um ein Mathematikproblem zu lösen.
Die Suche nach neuen Skalierungstechniken ist noch lange nicht vorbei.
Aktualisiert am 3/20 um 5:12 Uhr Pazifik: Hinzugefügt Kommentare von Studien-Mitautor Eric Zhao, der eine Bewertung eines unabhängigen Forschers kritisiert.
Verwandter Artikel
Google Cloud sorgt für Durchbrüche in der wissenschaftlichen Forschung und Entdeckung
Die digitale Revolution verändert die wissenschaftlichen Methoden durch nie dagewesene Berechnungsmöglichkeiten. Spitzentechnologien ergänzen heute sowohl theoretische Rahmenwerke als auch Laborexperi
KI beschleunigt die wissenschaftliche Forschung für eine größere Wirkung in der realen Welt
Google hat die KI konsequent als Katalysator für den wissenschaftlichen Fortschritt genutzt, wobei das heutige Entdeckungstempo ein außerordentliches Niveau erreicht hat. Diese Beschleunigung hat den
Ethik in der KI: Umgang mit Vorurteilen und Compliance-Herausforderungen bei der Automatisierung
In dem Maße, in dem die Automatisierung in allen Wirtschaftszweigen Einzug hält, werden ethische Überlegungen zu einer entscheidenden Priorität. Algorithmen, die Entscheidungen treffen, beeinflussen h
Kommentare (35)
0/200
DanielThomas
24. April 2025 01:49:41 MESZ
AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴
0
BenRoberts
23. April 2025 20:12:49 MESZ
This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔
0
PatrickMartinez
21. April 2025 21:31:56 MESZ
Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔
0
JohnYoung
20. April 2025 02:36:43 MESZ
AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔
0
HaroldMoore
17. April 2025 13:24:24 MESZ
AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴
0
AlbertLee
16. April 2025 17:25:29 MESZ
El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔
0
Auf Social Media gibt es Aufregung über Forscher, die ein neues KI-"Skalierungsgesetz" entdeckt haben, aber Experten bleiben skeptisch. KI-Skalierungsgesetze, eher informelle Richtlinien, zeigen, wie KI-Modelle besser werden, wenn man mehr Daten und Rechenleistung einsetzt. Bis vor etwa einem Jahr war der große Trend das "Pre-Training" – also größere Modelle mit größeren Datensätzen trainieren. Das ist immer noch relevant, aber jetzt gibt es zwei weitere Skalierungsgesetze: Post-Training-Skalierung, bei der das Verhalten eines Modells optimiert wird, und Testzeit-Skalierung, bei der während der Inferenz mehr Rechenleistung genutzt wird, um die "Denkfähigkeiten" eines Modells zu verbessern (siehe Modelle wie R1).
Kürzlich veröffentlichten Forscher von Google und UC Berkeley ein Paper, das online als viertes Gesetz bezeichnet wird: "Inferenzzeit-Suche". Diese Methode lässt das Modell mehrere mögliche Antworten auf eine Anfrage gleichzeitig ausgeben und die beste auswählen. Die Forscher behaupten, sie könne die Leistung eines älteren Modells wie Googles Gemini 1.5 Pro steigern, um OpenAIs o1-preview-"Denkmodell" bei Wissenschafts- und Mathematik-Benchmarks zu übertreffen.
Eric Zhao, Google-Doktorand und Mitautor des Papers, teilte auf X mit, dass Gemini 1.5 – von ihm scherzhaft als "uraltes Früh-2024-Modell" bezeichnet – durch zufälliges Testen von 200 Antworten und Selbstverifikation o1-preview schlagen und sich o1 annähern könne. Er betonte, dass Selbstverifikation mit zunehmender Skalierung einfacher wird, was kontraintuitiv, aber spannend ist.
Doch nicht alle sind überzeugt. Matthew Guzdial, KI-Forscher und Assistenzprofessor an der University of Alberta, sagte TechCrunch, dass dieser Ansatz am besten funktioniert, wenn man eine solide Methode zur Bewertung der Antworten hat. Die meisten Fragen seien jedoch nicht so einfach. Er meinte: „Wenn wir keinen Code schreiben können, um zu definieren, was wir wollen, können wir die [Inferenzzeit]-Suche nicht nutzen. Für allgemeine Sprachinteraktion funktioniert das nicht... Es ist generell kein guter Ansatz, um die meisten Probleme zu lösen.“
Zhao entgegnete, ihr Paper untersuche Fälle, in denen keine klare Bewertungsmethode vorliegt und das Modell selbst entscheiden müsse. Er argumentierte, dass der Unterschied zwischen klarer und unklarer Bewertung mit zunehmender Skalierung schrumpfen könne.
Mike Cook, Forschungsstipendiat am King's College London, unterstützte Guzdials Ansicht und sagte, dass Inferenzzeit-Suche die Denkfähigkeiten eines Modells nicht wirklich verbessert. Es sei eher ein Workaround für die Neigung des Modells, selbstbewusst Fehler zu machen. Er betonte, dass bei einem Modell mit 5 % Fehlerquote das Überprüfen von 200 Versuchen diese Fehler leichter erkennbar machen sollte.
Diese Neuigkeit könnte für die KI-Branche enttäuschend sein, die stets nach Wegen sucht, die "Denkfähigkeiten" von Modellen kostengünstig zu verbessern. Wie die Autoren des Papers feststellten, können Denkmodelle Tausende von Dollar an Rechenkosten verursachen, nur um ein Mathematikproblem zu lösen.
Die Suche nach neuen Skalierungstechniken ist noch lange nicht vorbei.
Aktualisiert am 3/20 um 5:12 Uhr Pazifik: Hinzugefügt Kommentare von Studien-Mitautor Eric Zhao, der eine Bewertung eines unabhängigen Forschers kritisiert.



AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴




This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔




Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔




AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔




AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴




El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔












