AI Skaling Breakthrough von Experten in Frage gestellt

Auf Social Media gibt es Aufregung über Forscher, die ein neues KI-"Skalierungsgesetz" entdeckt haben, aber Experten bleiben skeptisch. KI-Skalierungsgesetze, eher informelle Richtlinien, zeigen, wie KI-Modelle besser werden, wenn man mehr Daten und Rechenleistung einsetzt. Bis vor etwa einem Jahr war der große Trend das "Pre-Training" – also größere Modelle mit größeren Datensätzen trainieren. Das ist immer noch relevant, aber jetzt gibt es zwei weitere Skalierungsgesetze: Post-Training-Skalierung, bei der das Verhalten eines Modells optimiert wird, und Testzeit-Skalierung, bei der während der Inferenz mehr Rechenleistung genutzt wird, um die "Denkfähigkeiten" eines Modells zu verbessern (siehe Modelle wie R1).
Kürzlich veröffentlichten Forscher von Google und UC Berkeley ein Paper, das online als viertes Gesetz bezeichnet wird: "Inferenzzeit-Suche". Diese Methode lässt das Modell mehrere mögliche Antworten auf eine Anfrage gleichzeitig ausgeben und die beste auswählen. Die Forscher behaupten, sie könne die Leistung eines älteren Modells wie Googles Gemini 1.5 Pro steigern, um OpenAIs o1-preview-"Denkmodell" bei Wissenschafts- und Mathematik-Benchmarks zu übertreffen.
Eric Zhao, Google-Doktorand und Mitautor des Papers, teilte auf X mit, dass Gemini 1.5 – von ihm scherzhaft als "uraltes Früh-2024-Modell" bezeichnet – durch zufälliges Testen von 200 Antworten und Selbstverifikation o1-preview schlagen und sich o1 annähern könne. Er betonte, dass Selbstverifikation mit zunehmender Skalierung einfacher wird, was kontraintuitiv, aber spannend ist.
Doch nicht alle sind überzeugt. Matthew Guzdial, KI-Forscher und Assistenzprofessor an der University of Alberta, sagte TechCrunch, dass dieser Ansatz am besten funktioniert, wenn man eine solide Methode zur Bewertung der Antworten hat. Die meisten Fragen seien jedoch nicht so einfach. Er meinte: „Wenn wir keinen Code schreiben können, um zu definieren, was wir wollen, können wir die [Inferenzzeit]-Suche nicht nutzen. Für allgemeine Sprachinteraktion funktioniert das nicht... Es ist generell kein guter Ansatz, um die meisten Probleme zu lösen.“
Zhao entgegnete, ihr Paper untersuche Fälle, in denen keine klare Bewertungsmethode vorliegt und das Modell selbst entscheiden müsse. Er argumentierte, dass der Unterschied zwischen klarer und unklarer Bewertung mit zunehmender Skalierung schrumpfen könne.
Mike Cook, Forschungsstipendiat am King's College London, unterstützte Guzdials Ansicht und sagte, dass Inferenzzeit-Suche die Denkfähigkeiten eines Modells nicht wirklich verbessert. Es sei eher ein Workaround für die Neigung des Modells, selbstbewusst Fehler zu machen. Er betonte, dass bei einem Modell mit 5 % Fehlerquote das Überprüfen von 200 Versuchen diese Fehler leichter erkennbar machen sollte.
Diese Neuigkeit könnte für die KI-Branche enttäuschend sein, die stets nach Wegen sucht, die "Denkfähigkeiten" von Modellen kostengünstig zu verbessern. Wie die Autoren des Papers feststellten, können Denkmodelle Tausende von Dollar an Rechenkosten verursachen, nur um ein Mathematikproblem zu lösen.
Die Suche nach neuen Skalierungstechniken ist noch lange nicht vorbei.
Aktualisiert am 3/20 um 5:12 Uhr Pazifik: Hinzugefügt Kommentare von Studien-Mitautor Eric Zhao, der eine Bewertung eines unabhängigen Forschers kritisiert.
Verwandter Artikel
Microsoft-Studie zeigt die Grenzen von KI-Modellen beim Software-Debugging
KI-Modelle von OpenAI, Anthropic und anderen führenden KI-Laboren werden zunehmend für Programmieraufgaben eingesetzt. Google-CEO Sundar Pichai bemerkte im Oktober, dass KI 25 % des neuen Codes im Unt
KI-gestützte Lösungen könnten globale Kohlenstoffemissionen erheblich reduzieren
Eine kürzlich veröffentlichte Studie der London School of Economics und Systemiq zeigt, dass künstliche Intelligenz die globalen Kohlenstoffemissionen erheblich senken könnte, ohne moderne Annehmlichk
Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern
Wie viel speichern AI-Modelle tatsächlich? Neue Forschung enthüllt überraschende ErkenntnisseWir alle wissen, dass große Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini auf riesigen Datensätzen tr
Kommentare (35)
0/200
DanielThomas
24. April 2025 01:49:41 MESZ
AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴
0
BenRoberts
23. April 2025 20:12:49 MESZ
This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔
0
PatrickMartinez
21. April 2025 21:31:56 MESZ
Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔
0
JohnYoung
20. April 2025 02:36:43 MESZ
AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔
0
HaroldMoore
17. April 2025 13:24:24 MESZ
AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴
0
AlbertLee
16. April 2025 17:25:29 MESZ
El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔
0
Auf Social Media gibt es Aufregung über Forscher, die ein neues KI-"Skalierungsgesetz" entdeckt haben, aber Experten bleiben skeptisch. KI-Skalierungsgesetze, eher informelle Richtlinien, zeigen, wie KI-Modelle besser werden, wenn man mehr Daten und Rechenleistung einsetzt. Bis vor etwa einem Jahr war der große Trend das "Pre-Training" – also größere Modelle mit größeren Datensätzen trainieren. Das ist immer noch relevant, aber jetzt gibt es zwei weitere Skalierungsgesetze: Post-Training-Skalierung, bei der das Verhalten eines Modells optimiert wird, und Testzeit-Skalierung, bei der während der Inferenz mehr Rechenleistung genutzt wird, um die "Denkfähigkeiten" eines Modells zu verbessern (siehe Modelle wie R1).
Kürzlich veröffentlichten Forscher von Google und UC Berkeley ein Paper, das online als viertes Gesetz bezeichnet wird: "Inferenzzeit-Suche". Diese Methode lässt das Modell mehrere mögliche Antworten auf eine Anfrage gleichzeitig ausgeben und die beste auswählen. Die Forscher behaupten, sie könne die Leistung eines älteren Modells wie Googles Gemini 1.5 Pro steigern, um OpenAIs o1-preview-"Denkmodell" bei Wissenschafts- und Mathematik-Benchmarks zu übertreffen.
Eric Zhao, Google-Doktorand und Mitautor des Papers, teilte auf X mit, dass Gemini 1.5 – von ihm scherzhaft als "uraltes Früh-2024-Modell" bezeichnet – durch zufälliges Testen von 200 Antworten und Selbstverifikation o1-preview schlagen und sich o1 annähern könne. Er betonte, dass Selbstverifikation mit zunehmender Skalierung einfacher wird, was kontraintuitiv, aber spannend ist.
Doch nicht alle sind überzeugt. Matthew Guzdial, KI-Forscher und Assistenzprofessor an der University of Alberta, sagte TechCrunch, dass dieser Ansatz am besten funktioniert, wenn man eine solide Methode zur Bewertung der Antworten hat. Die meisten Fragen seien jedoch nicht so einfach. Er meinte: „Wenn wir keinen Code schreiben können, um zu definieren, was wir wollen, können wir die [Inferenzzeit]-Suche nicht nutzen. Für allgemeine Sprachinteraktion funktioniert das nicht... Es ist generell kein guter Ansatz, um die meisten Probleme zu lösen.“
Zhao entgegnete, ihr Paper untersuche Fälle, in denen keine klare Bewertungsmethode vorliegt und das Modell selbst entscheiden müsse. Er argumentierte, dass der Unterschied zwischen klarer und unklarer Bewertung mit zunehmender Skalierung schrumpfen könne.
Mike Cook, Forschungsstipendiat am King's College London, unterstützte Guzdials Ansicht und sagte, dass Inferenzzeit-Suche die Denkfähigkeiten eines Modells nicht wirklich verbessert. Es sei eher ein Workaround für die Neigung des Modells, selbstbewusst Fehler zu machen. Er betonte, dass bei einem Modell mit 5 % Fehlerquote das Überprüfen von 200 Versuchen diese Fehler leichter erkennbar machen sollte.
Diese Neuigkeit könnte für die KI-Branche enttäuschend sein, die stets nach Wegen sucht, die "Denkfähigkeiten" von Modellen kostengünstig zu verbessern. Wie die Autoren des Papers feststellten, können Denkmodelle Tausende von Dollar an Rechenkosten verursachen, nur um ein Mathematikproblem zu lösen.
Die Suche nach neuen Skalierungstechniken ist noch lange nicht vorbei.
Aktualisiert am 3/20 um 5:12 Uhr Pazifik: Hinzugefügt Kommentare von Studien-Mitautor Eric Zhao, der eine Bewertung eines unabhängigen Forschers kritisiert.



AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴




This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔




Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔




AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔




AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴




El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔












