KI optimiert den Weg zum menschlichen Kundendienstmitarbeiter

Heim

Nachricht

15. Januar 2026

BrianRoberts

Neue Forschungsergebnisse zeigen, dass Open-Source-KI-Systeme im Stil von ChatGPT potenziell natürliche Sprache verwenden können, um Anrufer mit der richtigen Person in einem Callcenter zu verbinden, ohne dass sie sich durch frustrierende und sich häufig ändernde Menüsysteme navigieren müssen, die oft bewusst hinderlich wirken.

Das Erreichen eines Live-Agenten kann eine frustrierende Tortur sein, da Anrufer sich langsam durch Multiple-Choice-Optionen arbeiten müssen und oft unsicher sind, welche Auswahl zu ihrem spezifischen Problem passt. Wenn keine davon passt, entwickeln versierte Nutzer oft Tricks und Workarounds, um einen menschlichen Vertreter zu erreichen und der „Optionshölle” zu entkommen. Für viele fühlt sich diese Erfahrung feindselig und benutzerunfreundlich an.

Es ist keine Überraschung, dass Callcenter ein Hauptziel für die Erweiterung oder den Ersatz durch KI sind. Trotz der Warnungen einiger Experten bleibt die Automatisierung von Callcentern ein leicht zu erreichendes Ziel für Tech-Schlagzeilen und ein vielversprechender Bereich für KI-gesteuerte Innovationen, die eine ungewöhnlich schnelle Kapitalrendite erzielen können.

Geschlossener Laden

Allerdings werden Open-Source-Prinzipien und öffentlich zugängliche Daten in diesem Bereich selten angewendet, und das aus gutem Grund. Unternehmen, die ihre Kundenreaktionssysteme automatisieren, haben wenig Anreiz, die Daten, Methoden oder das geistige Eigentum des Unternehmens, die ihren Wettbewerbsvorteil ausmachen, weiterzugeben.

Die Weitergabe solcher Ressourcen würde ihren Marktvorteil untergraben. Noch entscheidender ist, dass KI-Systeme anfällig für die Weitergabe sensibler Informationen sein können, was auch erhebliche rechtliche Risiken mit sich bringt.

Dies hat dazu geführt, dass mehrere finanzstarke Unternehmen unabhängig voneinander KI-gestützte Callcenter-Systeme entwickelt haben, was zwangsläufig zu Doppelarbeit geführt hat. Es hat auch zu einem Anstieg von B2B-Startups und etablierten Akteuren geführt, die darauf abzielen, die wachsende Nachfrage nach KI-gesteuerten Kundendienstfunktionen zu befriedigen.

Ein PolyAI-Sprachassistent eröffnet einen Kundendienstanruf für ein fiktives Unternehmen.

Ein Sprachassistent von PolyAI initiiert einen Kundendienstanruf für das fiktive Unternehmen „Augusta Lawn Care“ und nutzt dabei umfangreiche Trainingsgespräche, um die Antworten innerhalb der bestehenden Callcenter-Infrastruktur zu automatisieren. Quelle

Darüber hinaus hat das Bestreben, die Frustration über komplexe Callcenter-Menüs zu beseitigen, die Forschungsbemühungen vorangetrieben. Die meisten Ergebnisse werden jedoch nicht auf Arxiv oder anderen offenen Plattformen veröffentlicht, was den typischerweise proprietären Charakter der Entwicklung von Interactive Voice Response (IVR) widerspiegelt.

Folglich werden Forschung, Daten und Business Intelligence im Zusammenhang mit der KI-Automatisierung im Kundenservice streng geschützt. Es gibt nur sehr wenige Open-Source-Alternativen, selbst wenn die Verwendung solcher Systeme mit rechtlich sicheren Daten eine praktikable Option wäre, was zweifelhaft ist.

Lokaler Anruf

Vor diesem Hintergrund ist eine neue Studie aus Kolumbien ein willkommener Versuch, die IVR-Entwicklung ein wenig aus ihrem unternehmerischen Tresor zu holen. Die prägnante Studie mit dem Titel „Beyond IVR Touch-Tones: Customer Intent Routing using LLMs” stammt von einem Forscher der Universidad Distrital Francisco José de Caldas in Bogotá. Sie behauptet, das erste nicht-proprietäre Projekt zu sein, das Large Language Models (LLMs) verwendet, um ein funktionales Schema für ein Customer Intent Routing (CIR)-System zu erstellen.

Anstatt echte Anrufdaten oder proprietäre Menüstrukturen zu verwenden, generiert das Projekt alle Komponenten von Grund auf neu unter Verwendung von drei KI-Modellen: eines zum Entwerfen eines realistischen Callcenter-Menüs, ein weiteres zum Simulieren von Hunderten von Beschwerden von Anrufern und ein drittes, das als Chatbot fungiert und diese Anfragen an den richtigen Empfänger weiterleitet.

Das Ergebnis ist eine vollständig synthetische, aber dennoch überzeugende Testumgebung mit einem fiktiven Telekommunikationsunternehmen und 920 unterschiedlichen Benutzeranfragen. Mit diesem Aufbau kann das Experiment untersuchen, wie gut die aktuelle KI vage, unstrukturierte Sprache interpretiert und Anrufer angemessen weiterleitet, wobei gleichzeitig rechtliche Risiken vermieden werden.

Tests zeigen, dass das System freie Beschwerden von Anrufern mit einer Genauigkeit von bis zu 89,13 % korrekt dem richtigen Ziel zuordnen kann, insbesondere wenn es mit „abgeflachten” Menüoptionen anstelle von detaillierten Beschreibungen versorgt wird.

Die Studie ergab auch, dass die KI mehr Fehler machte, wenn Anrufer eine umgangssprachliche oder abwechslungsreiche Sprache verwendeten. Einige Fehler traten jedoch nicht deshalb auf, weil die KI etwas falsch verstanden hatte, sondern weil das Telefonmenü selbst verwirrend war.

Beispiele für Kundeninteraktionen, die im Rahmen des neuen Projekts geteilt wurden. Quelle

Die Daten des Projekts wurden öffentlich zugänglich gemacht.

Methode

Der dreiteilige Ansatz begann mit einem Modell, das ein detailliertes Telefonmenü für ein fiktives Telekommunikationsunternehmen erstellte. Ein zweites Modell generierte einzigartige Anrufermeldungen – einige davon waren direkt, andere umformuliert oder umgangssprachlicher –, um realistische Sprachmuster zu simulieren. Insgesamt wurden 920 Beispiele generiert.

Das dritte Modell hatte die Aufgabe, jeden Anrufer allein auf der Grundlage der Nachricht und einer Version des Menüs mit der richtigen Abteilung zu verbinden. Durch diesen Rahmen war das Experiment vollständig reproduzierbar, ohne dass echte Anrufdaten benötigt wurden oder Kundeninformationen offengelegt werden mussten.

Die drei für den dreigliedrigen Ansatz ausgewählten Systeme. [Quelle] https://arxiv.org/pdf/2510.21715

Die drei für den dreiteiligen Ansatz ausgewählten Systeme. Quelle

Die verwendeten Modelle waren gpt-3.5-turbo, gpt-4o-mini und gpt-4.1-mini.

Um eine authentische Kundendienstumgebung zu simulieren, musste ein komplexes Telefonmenü von Grund auf neu erstellt werden. Aufgrund fehlender relevanter Datensätze wurde das Modell gpt-3.5-turbo aufgefordert, eine vollständige, mehrstufige Struktur für einen fiktiven Telekommunikationsanbieter zu generieren.

Jeder Zweig repräsentierte Servicebereiche wie Rechnungsstellung, technischer Support, Kontoverwaltung und neue Dienste, komplett mit realistischen Unteroptionen und unterschiedlichen Ebenen. Zum Testen wurden zwei Menüversionen erstellt: eine Klartext-Hierarchie, die ein für Menschen lesbares Format nachahmt, und eine Liste von Endpunkten mit entsprechenden Tastenfolgen.

Dies ermöglichte das Testen sowohl einer detaillierten als auch einer vereinfachten Version des Routing-Problems:

Der KI wurden zwei Versionen des Telefonmenüs zur Verfügung gestellt: eine detaillierte Texthierarchie und eine vereinfachte Liste mit direkten Menüoptionen, um zu vergleichen, wie gut jedes Format die Weiterleitung der Anrufer an die richtige Stelle unterstützte.

Um die Testanrufer-Nachrichten zu generieren, erstellte ein zweites Sprachmodell eine Reihe von Originalbeschwerden oder -anfragen mit zehn einzigartigen Beispielen pro Menüendpunkt.

Jede davon wurde dann in mehrere Varianten umformuliert, um die vielfältigen Arten widerzuspiegeln, wie echte Menschen ihre Probleme ausdrücken, wobei Änderungen in Länge, Tonfall und sogar kleinere Fehler oder Füllwörter einbezogen wurden.

Die 920 ursprünglichen Nachrichten wurden erstellt, um die Genauigkeit des Systems zu testen und die Unvorhersehbarkeit natürlicher Gespräche zu simulieren.

In der dritten Phase wurde die Fähigkeit des endgültigen Modells, jede Nachricht dem richtigen Menüziel zuzuordnen, unter Verwendung der beiden verschiedenen IVR-Präsentationsformate getestet.

Bei der ersten Version erhielt die KI eine vollständige beschreibende Übersicht über die Telefonbaumstruktur. Bei der zweiten Version sah sie nur eine Liste der endgültigen Ziele mit ihren Tastenfolgen.

Ziel war es, festzustellen, ob ein vereinfachtes Menü dem Modell helfen würde, Anrufe effektiver weiterzuleiten. In beiden Fällen verarbeitete das System jeweils eine Nachricht und wurde angewiesen, nur den Pfad ohne zusätzlichen Text zurückzugeben, um eine automatische Bewertung zu ermöglichen.

Isolation

Um eine Verfälschung der Testergebnisse zu verhindern, wurde jedes Modell isoliert gehalten. Das erste Modell entwarf das Telefonmenü, das jedoch manuell fertiggestellt wurde, damit es den anderen Systemen unbekannt blieb.

Die Anrufernachrichten wurden separat von gpt-4o-mini generiert, wobei nur Endpunktnamen ohne Zugriff auf die Menüstruktur verwendet wurden. Schließlich hatte gpt-4.1-mini, das die Weiterleitung durchführte, nur Zugriff auf den Menütext und die eingehenden Nachrichten, ohne an deren Erstellung beteiligt zu sein.

Metrik

Zwei Standardmetriken bewerteten die Leistung des Routing-Systems: Genauigkeit, definiert als der Prozentsatz der Fälle, in denen das Modell den exakt richtigen Pfad (z. B. 1-2-3) lieferte. Außerdem wurden Verwechslungsmatrizen* generiert, um Fehlerstellen zu lokalisieren. Die Auswertungen wurden in Python unter Verwendung der Bibliotheken pandas und scikit-learn durchgeführt.

Ergebnisse

Die Tests ergaben, dass die Genauigkeit des Modells in hohem Maße von der Darstellung des Menüs abhing. Mit einer abgeflachten Liste von Menüpfaden erreichte das System eine Genauigkeit von 89,13 % bei dem einfacheren Datensatz, verglichen mit 81,30 % bei dem vollständig beschreibenden Menü.

Die Routing-Genauigkeit für das dritte Modell (LLM3) über verschiedene Prompt-Formate und Datensatztypen hinweg zeigt, dass abgeflachte Menüpfade durchweg besser abschnitten als hierarchische Beschreibungen und dass die Genauigkeit leicht abnahm, wenn die Eingaben durch umschriebene oder informelle Sprache ergänzt wurden.

Die Routing-Genauigkeit für das dritte Modell (LLM3) über verschiedene Prompt-Formate und Datensatztypen hinweg zeigte, dass abgeflachte Menüpfade durchweg besser abschnitten als hierarchische Beschreibungen, während die Genauigkeit bei paraphrasierten oder informellen Spracheingaben leicht abnahm.

Dieser Trend setzte sich bei dem größeren, sprachlich vielfältigeren Datensatz fort, bei dem die abgeflachte Version erneut besser abschnitt und 86,52 % gegenüber 77,07 % für das beschreibende Format erzielte.

Die Studie stellt fest, dass diese Ergebnisse darauf hindeuten, dass einfachere, listenbasierte Eingabeaufforderungen dem Modell halfen, Abfragen zuverlässiger abzugleichen als lange hierarchische Beschreibungen.

Die Genauigkeit sank auch leicht, wenn paraphrasierte und informelle Anrufermeldungen eingeführt wurden, was darauf hindeutet, dass eine größere Vielfalt zwar den Realismus erhöhte, aber auch die Klassifizierung erschwerte.

Die Studie kommt zu folgendem Schluss:

„Unsere Ergebnisse zeigen, dass LLMs Kundenanfragen genauer weiterleiten, wenn sie mit abgeflachten IVR-Pfaden (bis zu 89,13 %) statt mit ausführlichen Menübeschreibungen (nur 77,07 %) versorgt werden. Dies deutet darauf hin, dass prägnante, strukturierte Eingabeaufforderungen Störsignale reduzieren und besser für Weiterleitungsaufgaben geeignet sind.

Dies stützt die Annahme, dass Klarheit und Prägnanz die Leistung von LLMs in Klassifizierungsszenarien verbessern.

Darüber hinaus ist die Umwandlung von Menüs in flache Pfade ein unkomplizierter, automatisierbarer Prozess für den Einsatz in der Praxis.“

Fazit

Es ist ermutigend zu sehen, dass in einem Bereich, der normalerweise durch Geheimhaltung und Exklusivität gekennzeichnet ist, offene Forschung entsteht. Eine wichtige Frage bleibt jedoch offen: Werden zukünftige Systeme „Framing“-Architekturen benötigen, um LLMs zu kontextualisieren, oder werden Modelle lediglich Zugriff auf lokal verfügbare Business Intelligence benötigen, sodass Unternehmen keine Daten mehr an Dritte weitergeben müssen?

Letztendlich scheinen die hier untersuchten Kernprinzipien des Designs wahrscheinlich von zukünftigen KI-Systemen selbstverständlich übernommen zu werden, sogar über den Kundenservice hinaus, ohne dass eine spezielle Anpassung für diesen Anwendungsfall erforderlich ist.

* Weitere Informationen finden Sie im Originalartikel.

Erstveröffentlichung: Mittwoch, 29. Oktober 2025

Verwandter Artikel

Zhiyuan WITA beendet „nackte“ Roboterinteraktion mit erster Einreichung eines Konformitätsantrags Der Sektor der verkörperten Intelligenz hat einen bedeutenden Meilenstein erreicht. Laut der jüngsten Mitteilung der Cyberspace-Verwaltungsbehörde von Shanghai hat das von Zhiyuan entwickelte WITA-Gro

Eine anthropologische Studie bringt ausgefeilte KI-Inhalte mit einem Rückgang des menschlichen Denkvermögens in Verbindung Wenn Sie sehen, wie eine KI im Handumdrehen einen gut strukturierten, logisch klaren Code oder ein Dokument erstellt, sind Sie dann versucht, ihr ohne zu zögern zu vertrauen? Laut AIbase hat das führe

Britische Ministerien streiten über den Energiebedarf von KI-Rechenzentren Die britische Regierung steht vor einer großen Herausforderung: Sie will die Nutzung sauberer Energien vorantreiben und gleichzeitig eine weltweit führende Rolle im Bereich der künstlichen Intelligenz

Empfehlungen zu verwandten Spezialthemen

Comic-Erstellung

Die besten KI-Tools zur automatischen Kolorierung von Manga: Flache Farben ohne Konsistenzfehler anwenden

Entdecken Sie bei XIX.AI die besten KI-Tools zur automatischen Kolorierung von Manga für das Jahr 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Lösungen, die flächige Farben ohne Konsistenzfehler auftragen und so Ihre Produktivität steigern. Entdecken Sie Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten, Praxistests und wöchentlich aktualisierte Rankings, um das für Sie perfekte Tool zu finden. Nutzen Sie noch heute Ihren KI-Vorteil.

10 Tools

xix.ai

Schreiben

Die besten KI-Profilersteller: Erstellen Sie konsistente Charaktermotivationen und fatale Schwächen

Entdecken Sie die besten KI-Tools zur Charakterentwicklung für 2026, mit denen Sie facettenreiche Figuren erschaffen können. Die von XIX.AI zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die konsistente Motivationen und fatale Schwächen generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie jetzt Ihr Potenzial als Geschichtenerzähler.

10 Tools

xix.ai

Geschäft

Die beste Software zur Preisoptimierung mittels KI: Beobachten Sie die Konkurrenz und passen Sie Ihre Shop-Preise automatisch an

Entdecken Sie auf XIX.AI die beste Software zur Preisoptimierung mittels KI für 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die Ihre Mitbewerber beobachten und Ihre Shop-Preise automatisch anpassen, um den maximalen Gewinn zu erzielen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Sichern Sie sich jetzt Ihren Preisvorteil.

10 Tools

xix.ai

Code

Die besten KI-Code-Prüfer: Automatisierung der Einhaltung von Clean-Code-Standards und Refactoring von Dateien in älteren Repositorys

Entdecken Sie die besten KI-Code-Reviewer des Jahres 2026 auf XIX.AI. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools zur Automatisierung der Einhaltung von Clean-Code-Standards und zur Refaktorisierung von Dateien in älteren Repositorys. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Sichern Sie sich noch heute Ihren KI-Vorsprung.

10 Tools

xix.ai

Text-zu-Sprache

Die besten KI-Sprachausgabe-Apps für Legasthenie: Unterstützung für das Lernen und effizienteres Lesen bei Schülern

Entdecken Sie die besten KI-TTS-Apps des Jahres 2026, die speziell zur Unterstützung bei Legasthenie ausgewählt wurden. In unseren Experten-Rankings vergleichen wir kostenlose und kostenpflichtige Tools und stellen leistungsstarke Funktionen für mehr Leseeffizienz und besseren Lernerfolg vor. Entdecken Sie bahnbrechende Lösungen, die Sie unbedingt ausprobieren sollten, um das Potenzial Ihrer Schüler voll auszuschöpfen. Beginnen Sie Ihre Reise bei XIX.AI.

10 Tools

xix.ai

Comic-Erstellung

Die besten KI-Generatoren für Shonen-Manga: Erstelle actiongeladene Sequenzen und dynamische Effekte

Entdecken Sie bei XIX.AI die besten KI-Generatoren für Shonen-Manga des Jahres 2026. Unsere sorgfältig zusammengestellte Liste der Top-Anbieter umfasst leistungsstarke Tools zur Erstellung actiongeladener Sequenzen und dynamischer Energieeffekte. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie Ihr kreatives Potenzial und beginnen Sie noch heute mit der Gestaltung epischer Manga!

15 Tools

xix.ai