Option
Heim
Nachricht
OpenAI startet GPT-4,5 'Orion': sein bisher größtes KI-Modell

OpenAI startet GPT-4,5 'Orion': sein bisher größtes KI-Modell

10. April 2025
98

Aktualisiert 14.40 Uhr PT: Nur wenige Stunden nach dem Start von GPT-4,5 machte Openai eine ruhige Bearbeitung des Whitepapiers des KI-Modells. Sie entfernten eine Linie, in der festgestellt wurde, dass "GPT-4,5 kein Grenz-AI-Modell ist". Sie können hier weiterhin auf das ursprüngliche weiße Papier zugreifen. Unten ist der ursprüngliche Artikel.

Am Donnerstag zog Openai den Vorhang auf GPT-4,5 zurück, das mit Spannung erwartete KI-Modell, das den Codenamen Orion enthält. Dieser jüngste Unscheitern von OpenAI wurde mit einer beispiellosen Menge an Rechenleistung und Daten geschult, wodurch sie von seinen Vorgängern abgehalten werden.

Trotz seiner beeindruckenden Skala erklärte Openais White Paper zunächst, dass sie GPT-4,5 nicht als ein Grenzmodell betrachteten. Diese Aussage wurde jedoch inzwischen entfernt, sodass wir uns über das wahre Potenzial des Modells wundern lassen.

Ab Donnerstag erhalten Abonnenten von Chatgpt Pro, OpenAIs Premium-Service von 200 US-Dollar pro Monat, im Rahmen einer Forschungsvorschau einen ersten Vorgeschmack auf GPT-4,5. Entwickler von OpenAIs kostenpflichtigen API-Ebenen können heute mit GPT-4,5 beginnen, während diejenigen mit Chatgpt Plus- und ChatGPT-Teamabonnements laut einem OpenAI-Sprecher irgendwann den Zugriff erwarten sollten.

Die Tech -Welt hat in Orion summt und sie als Test betrachtet, ob traditionelle KI -Trainingsmethoden immer noch Wasser enthalten. GPT-4,5 folgt dem gleichen Spielbuch wie seine Vorgänger und stützt sich auf eine massive Zunahme der Rechenleistung und Daten während einer unbeaufsichtigten Lernphase, die als Pre-Training bezeichnet wird.

In der Vergangenheit hat die Skalierung zu erheblichen Leistungssprung in verschiedenen Bereichen wie Mathematik, Schreiben und Codierung geführt. OpenAI behauptet, dass die Größe von GPT-4.5 es mit "einem tieferen Weltwissen" und "höherer emotionaler Intelligenz" ausgestattet hat. Es gibt jedoch Hinweise darauf, dass die Renditen durch die Skalierung möglicherweise abnehmen. Bei mehreren KI-Benchmarks bleibt GPT-4,5 hinter neueren Argumentationsmodellen von Unternehmen wie Deepseek, Anthropic und sogar Openai selbst zurück.

Darüber hinaus ist das Laufen von GPT-4,5 mit einem hohen Preis ausgestattet. Openai gibt zu, dass es so teuer ist, dass sie überlegen, ob sie auf lange Sicht über ihre API verfügbar bleiben sollen. Entwickler zahlen 75 US-Dollar für jede Million Input-Token und 150 US-Dollar für jede Million Output-Token, ein starker Kontrast zu den günstigeren GPT-4O, die nur 2,50 USD pro Million Eingangs-Token und 10 USD pro Million Output-Token kostet.

"Wir teilen GPT -4,5 als Forschungsvorschau, um die Stärken und Einschränkungen besser zu verstehen", teilte Openai in einem Blog -Beitrag mit. "Wir untersuchen immer noch sein volles Potenzial und freuen uns zu sehen, wie Menschen es auf unerwartete Weise nutzen werden."

Gemischte Leistung

OpenAI ist klar, dass GPT-4,5 GPT-4O nicht ersetzen soll, ihr Arbeitspferdmodell, das den größten Teil ihrer API und Chatgpt vorantreibt. Während GPT-4.5 Datei- und Image-Uploads verarbeiten und das Canvas-Tool von ChatGPT verwenden kann, unterstützt es derzeit keine Funktionen wie den realistischen Zwei-Wege-Sprachmodus von ChatGPT.

Auf der hellen Seite übertrifft GPT-4,5 GPT-4O und viele andere Modelle auf OpenAIs SimpleQA-Benchmark, die KI-Modelle auf einfachen, sachlichen Fragen testet. OpenAI behauptet auch, dass GPT-4,5 weniger häufig als die meisten Modelle halluziniert, was theoretisch weniger wahrscheinlich die Informationen erfunden sollte.

Interessanterweise enthielt OpenAI nicht eines seiner erstklassigen Argumentationsmodelle, Deep Research, in die SimpleQA-Ergebnisse. Ein OpenAI -Sprecher teilte TechCrunch mit, dass sie die Leistung von Deep Research in diesem Benchmark nicht öffentlich gemeldet haben und es nicht als relevanten Vergleich betrachten. Das Deep-Forschungsmodell von Verwirrlichkeit, das ähnlich wie die tiefen Forschung von Openai zu anderen Benchmarks entspricht, übertrifft jedoch GPT-4,5 bei diesem Test der sachlichen Genauigkeit.

SimpleQa Benchmarks.IMAGE Credits: OpenAI
Bei einer Untergruppe von Codierungsproblemen aus dem verifizierten Benchmark von SWE-Bench spielt GPT-4,5 ähnlich wie GPT-4O und O3-Mini, liegt jedoch nicht vor OpenAs tiefem Forschung und dem Claude 3.7-Sonett von Anthropic. Bei einem anderen Codierungstest, dem Swe-Lancer-Benchmark von OpenAI, der die Fähigkeit eines KI-Modells, vollständige Softwarefunktionen zu entwickeln, misst, übertrifft GPT-4,5 sowohl GPT-4O als auch O3-Mini, übertrifft jedoch nicht die tiefe Forschung.

Openais SWE-Bench verifizierte Benchmark.image Credits: Openai
OpenAs Swe-Lancer Diamond Benchmark.image Credits: OpenAI
Während GPT-4,5 nicht ganz der Leistung führender KI-Argumentationsmodelle wie O3-Mini, Deepseeks R1 und Claude 3.7 Sonett über die herausfordernden akademischen Benchmarks wie Aime und GPQA übereinstimmen, hält es sich selbst gegen führende Nicht-technische Modelle für die gleichen Tests. Dies deutet darauf hin, dass GPT-4,5 in Mathematik- und Wissenschaftsaufgaben auszeichnet.

OpenAI rühmt sich auch, dass GPT-4,5 anderen Modellen qualitativ überlegen ist, in Bereichen, die Benchmarks nicht gut erfassen, z. B. das Verständnis der menschlichen Absicht. Sie behaupten, dass GPT-4,5 in einem wärmeren, natürlicheren Ton reagiert und bei kreativen Aufgaben wie Schreiben und Design gut abschneidet.

In einem informellen Test bat Openai GPT-4,5 und zwei weitere Modelle, GPT-4O und O3-Mini, ein Einhorn im SVG-Format zu erstellen. Nur GPT-4,5 gelang es, etwas zu produzieren, das einem Einhorn ähnelt.

Links: GPT-4.5, Mitte: GPT-4O, rechts: O3-Mini.Image Credits: OpenAI
In einem anderen Test veranlasste OpenAI GPT-4,5 und die anderen Modelle, auf die Eingabeaufforderung zu antworten: "Ich mache eine schwere Zeit nach dem Versagen eines Tests." Während GPT-4O und O3-Mini hilfreiche Informationen lieferten, war die Reaktion von GPT-4.5 die sozial angemesseneste.

"Wir freuen uns darauf, durch diese Veröffentlichung ein vollständigeres Bild der Fähigkeiten von GPT-44 zu erhalten", schrieb Openai in ihrem Blog-Beitrag, "weil wir erkennen, dass akademische Benchmarks nicht immer die nützliche Nützlichkeit der realen Welt widerspiegeln."

Emotionale Intelligenz von GPT-4.5 in Aktion.image Credits: OpenAI
Skalierungsgesetze in Frage gestellt

OpenAI behauptet, dass GPT -4,5 "an der Grenze dessen, was im unbeaufsichtigten Lernen möglich ist", stammt. Seine Einschränkungen scheinen jedoch den wachsenden Verdacht der Experten zu unterstützen, dass die sogenannten Skalierungsgesetze der Voraussetzung ihre Grenzen erreichen könnten.

Ilya Sutskever, Mitbegründerin und ehemaliger Chefwissenschaftlerin, erklärte im Dezember, dass "wir Spitzendaten erreicht haben" und dass "die Voraussetzung, wie wir sie wissen, zweifellos enden werden". Seine Kommentare wiederholten die Bedenken, die KI -Investoren, Gründer und Forscher mit TechCrunch im November geteilt hatten.

Als Reaktion auf diese Herausforderungen hat sich die Branche - einschließlich Openai - den Argumentationsmodellen zugewandt, die länger dauern, um Aufgaben auszuführen, aber konsistentere Ergebnisse liefern. AI LABS ist der Ansicht, dass sie die Modellfunktionen erheblich verbessern können.

OpenAI plant, seine GPT-Serie schließlich mit ihrer "O" -Reminaturerie zu verschmelzen, beginnend mit GPT-5 später in diesem Jahr. Trotz seiner hohen Schulungskosten, Verzögerungen und nicht erfüllten internen Erwartungen kann GPT-4,5 die KI-Benchmark-Krone selbst nicht beanspruchen. Aber Openai sieht es wahrscheinlich als einen entscheidenden Schritt in Richtung etwas, das weitaus stärkerer ist.

Verwandter Artikel
OpenAI Enhances AI Model Behind Its Operator Agent OpenAI Enhances AI Model Behind Its Operator Agent OpenAI Takes Operator to the Next LevelOpenAI is giving its autonomous AI agent, Operator, a major upgrade. The upcoming changes mean Operator will soon rely on a model based on o3
OpenAI’s o3 AI model scores lower on a benchmark than the company initially implied OpenAI’s o3 AI model scores lower on a benchmark than the company initially implied Why Benchmark Discrepancies Matter in AIWhen it comes to AI, numbers often tell the story—and sometimes, those numbers don’t quite add up. Take OpenAI’s o3 model, for instance. The
DeepSeek AI Challenges ChatGPT and Shapes the Future of AI DeepSeek AI Challenges ChatGPT and Shapes the Future of AI The Rise of DeepSeek AI: A New Chapter in the AI LandscapeArtificial intelligence is in a constant state of flux, with new entrants challenging the status quo every day. Among these, DeepSeek AI has emerged as a notable contender, particularly after surpassing ChatGPT in app store downloads. This mi
Kommentare (50)
0/200
GregoryBaker
GregoryBaker 10. April 2025 00:00:00 GMT

GPT-4.5 'Orion' is impressive, but the quiet edit to the white paper was shady. It's like they're trying to hide something. Still, the model's performance is top-notch, just wish they were more transparent.

NicholasSanchez
NicholasSanchez 10. April 2025 00:00:00 GMT

GPT-4.5 'Orion'は印象的ですが、ホワイトペーパーの静かな編集は怪しいです。何かを隠そうとしているようです。それでも、モデルのパフォーマンスは最高です。もう少し透明性が欲しいですね。

JasonJohnson
JasonJohnson 10. April 2025 00:00:00 GMT

GPT-4.5 'Orion'은 인상적이지만, 백서의 조용한 수정은 수상쩍어요. 뭔가를 숨기려는 것 같아요. 그래도 모델의 성능은 최고예요. 좀 더 투명했으면 좋겠어요.

JasonAnderson
JasonAnderson 10. April 2025 00:00:00 GMT

GPT-4.5 'Orion' é impressionante, mas a edição silenciosa do white paper foi suspeita. Parece que estão tentando esconder algo. Ainda assim, o desempenho do modelo é de primeira linha, só desejo que fossem mais transparentes.

AvaHill
AvaHill 10. April 2025 00:00:00 GMT

GPT-4.5 'Orion' es impresionante, pero la edición silenciosa del white paper fue sospechosa. Parece que están tratando de ocultar algo. Aún así, el rendimiento del modelo es de primera, solo desearía que fueran más transparentes.

KennethMartin
KennethMartin 10. April 2025 00:00:00 GMT

GPT-4.5 'Orion' is massive, but the quiet edit to the white paper was shady. Why remove the 'not a frontier AI model' line? It's still a beast of a model, but the sneakiness is a bit off-putting. Transparency, please!

Zurück nach oben
OR