KI-Sprach-Agent Barge-in: Wie die Echtzeit-Unterbrechungsverarbeitung funktioniert

Erfahre, was die Unterbrechungsfunktion eines KI-Sprach-Agenten ist, wie sie funktioniert, warum sie das Kundenerlebnis verbessert und wie wir dieses Problem bei telli lösen.

Overview

  • Barge-in ermöglicht es Nutzern, einen KI-Sprach-Agenten mitten in einer Antwort zu unterbrechen
  • Es basiert auf Transkription, Stille-Timing und Wahrscheinlichkeitsschwellenwerten
  • Schlechte Barge-in-Verarbeitung führt zu frustrierenden und unnatürlichen Gesprächen
  • Falsche und versehentliche Unterbrechungen sind eine große Herausforderung in der Praxis
  • Bei telli kombinieren wir Schwellenwerte, VAD und Experimente, um die Qualität zu verbessern
Share
Starte heute mit telli

Personalisierte Demo hören: Erlebe telli in Aktion und vereinfache deine Call-Operations

Demo buchen

KI-Sprach-Agent Barge-in ist eine dieser Funktionen, die einfach klingt, aber schnell komplex wird, wenn man sie tatsächlich entwickelt. Bei telli betrachten wir Barge-in als einen wesentlichen Bestandteil, um Gespräche natürlich und nicht wie nach einem Skript klingen zu lassen. Menschen warten in echten Gesprächen nicht höflich – sie unterbrechen, korrigieren und reagieren in Echtzeit. Die Herausforderung besteht also nicht nur darin, Unterbrechungen zuzulassen, sondern die dahinterliegende Absicht zu verstehen. In diesem Artikel erläutern wir, was Barge-in ist, wie es im Hintergrund funktioniert und wie wir es in der Praxis angehen.

Möchtest du Barge-in selbst testen?

Probiere unten unsere Demo aus und sieh, wie unser Agent reagiert, wenn du mitten im Satz einhakst.
English
Sales
Wähle deinen Agenten
Emma
Terminbuchung
Daniela
Qualifizierung
Thomas
Reach & Transfer
Matilda
Data Collection
Samuel
Scheduling
Maria
Payment Collection
Danilo
Proactive Care
Simone
Service Visit
Lara
Reception
Emma ist bereit
Emma wird dich gleich anrufen
Ein Demo-Agent wird dich anrufen und den von dir ausgewählten Anwendungsfall durchspielen.

Enter Phone Number with correct county code

Mit Klick auf „Ruf mich jetzt an” stimmst du der Kontaktaufnahme zu Marketingzwecken zu. Lies unsere Datenschutzerklärung
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Emma will call you
We've sent a verification code to your phone. Please enter it above to complete your request.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Emma is calling you now!

Was ist Barge-in?

Barge-in ist die Fähigkeit eines Nutzers, einen Sprach-Agenten während des Sprechens zu unterbrechen und sofort die Kontrolle über das Gespräch zu übernehmen. Anstatt darauf zu warten, dass das System seine Antwort beendet, kann der Nutzer auf natürliche Weise einspringen.Ältere IVR-Systeme zwangen Nutzer, Ansagen vollständig anzuhören, bevor sie antworten konnten. Dieses Modell wirkt heute veraltet. Menschen erwarten, dass Gespräche in ihrem eigenen Tempo verlaufen.Aus unserer Perspektive bei telli ist Barge-in nicht nur eine technische Funktion – es ist grundlegend für die Schaffung guter Kundenerlebnisse mit Sprach-KI. Es ist jedoch ein schwieriger Balanceakt: Ein wesentlicher Teil des Problems besteht darin, herauszufinden, wann jemand tatsächlich die Kontrolle übernehmen möchte und wann er lediglich reagiert.

Wie funktioniert Barge-in?

Barge-in hängt von einer Kombination aus Echtzeit-Audioverarbeitung und Entscheidungssystemen ab. Es gibt kein einzelnes Signal, das dir sagt, was zu tun ist, daher musst du mehrere kombinieren.

Gesprächswechsel-Einleitung

Bevor man überhaupt über Unterbrechungen nachdenkt, muss das System wissen, wann es überhaupt sprechen soll. Bei telli verlassen wir uns auf Transkriptionssysteme wie Deepgram und andere, um abzuschätzen, wann ein Nutzer aufgehört hat zu sprechen. Dies geschieht mithilfe von Wahrscheinlichkeiten statt fester Regeln. Zwei Hauptfaktoren spielen dabei eine Rolle:

  • Linguistik: Klingt der Satz vollständig?
  • Zeit: Wie lange hat der Nutzer geschwiegen?

Wir definieren einen Schwellenwert – oft bei etwa 90 Prozent Wahrscheinlichkeit – der bestimmt, wann der Agent zu sprechen beginnt. Das genaue Verhalten hängt stark vom Transkriptionsanbieter und davon ab, wie schnell und präzise er Ergebnisse liefert.
In der Praxis ist dies ein ständiger Balanceakt. Antwortet man zu früh, unterbricht man den Nutzer. Wartet man zu lange, fühlt sich das Gespräch langsam an.

Agent-Unterbrechung und Stoppverhalten

Sobald der Agent spricht, besteht die nächste Herausforderung darin, zu entscheiden, wann er stoppen soll. Derzeit basiert unser Ansatz bei telli größtenteils auf Schwellenwerten für die Wortanzahl.

Zum Beispiel: Wenn der Schwellenwert auf drei Wörter festgelegt ist, hört der Agent auf zu sprechen, sobald der Nutzer drei Wörter gesagt hat.

Das gibt uns ein einfaches und zuverlässiges Signal dafür, dass der Nutzer wahrscheinlich unterbrechen möchte.

Schwierig wird es dort, wo nicht jede Unterbrechung absichtlich ist.

Menschen sagen oft Dinge wie:

„Ah ja“
„Das ergibt Sinn“
„Okay“

Das sind bestätigende Reaktionen im Gespräch, keine Versuche, das Gespräch zu übernehmen. Technisch gesehen sehen sie jedoch trotzdem wie Spracheingaben aus.

Was passiert also?

Der Agent hört auf zu sprechen.
Er wartet darauf, dass der Nutzer fortfährt.
Auch wenn der Nutzer gar nicht die Absicht hatte, ihn zu unterbrechen.

Das ist eine der größten Qualitätsherausforderungen, an der wir aktiv arbeiten. Das System muss besser unterscheiden können zwischen einer Bestätigung und der tatsächlichen Absicht zu unterbrechen.

Falsche Unterbrechungen

Ein weiteres Problem, das wir in der Produktion sehen, sind falsche Unterbrechungen.

Diese werden in der Regel durch Voice Activity Detection, kurz VAD, ausgelöst. VAD erkennt, dass ein Geräusch vorhanden ist, aber das bedeutet nicht immer, dass es sich um sinnvolle Sprache handelt.

Typischerweise passiert Folgendes:

  • Das System erkennt Audio.
  • Es folgt keine verwertbare Transkription.
  • Der Agent pausiert kurz.
  • Wenn nichts weiter passiert, spricht der Agent weiter.
  • Das Ereignis wird als falsche Unterbrechung protokolliert.

Dies kann durch Hintergrundgeräusche, Atmen oder andere nicht-sprachliche Geräusche verursacht werden.

Wir behandeln diese Fälle sorgfältig, denn ein Überreagieren führt zu abgehackten Gesprächen, während ein Ignorieren das Risiko birgt, echte Nutzerabsicht zu verpassen.

Warum ist Barge-in wichtig für die Customer Experience?

Nach dem, was wir gesehen haben, hat Barge-in einen direkten Einfluss darauf, wie natürlich und effizient sich ein Gespräch anfühlt.

Es reduziert Wartezeiten.

Nutzer möchten sich keine Antworten anhören müssen, die sie bereits verstanden haben. Barge-in ermöglicht es ihnen, schneller voranzukommen und die Interaktion effizient zu halten.

Es fühlt sich menschlicher an.

Echte Gespräche sind nicht streng rundenbasiert. Menschen unterbrechen einander ständig. Dieses Verhalten zu unterstützen, lässt KI weniger roboterhaft wirken.

Es verbessert die Aufgabenerledigung.

Wenn Nutzer den Agenten sofort korrigieren können, bleiben Gespräche auf Kurs. Das reduziert Frustration und verkürzt oft die Gesprächsdauer.

Es gibt Nutzern Kontrolle.

Das ist wahrscheinlich der wichtigste Punkt. Wenn Barge-in gut funktioniert, haben Nutzer das Gefühl, das Gespräch selbst zu steuern, statt nur darauf zu reagieren.

Bei telli verstehen wir Barge-in als einen kontinuierlichen Balanceakt zwischen Reaktionsfähigkeit und Gesprächsstabilität. Das Ziel ist nicht nur, Nutzern Unterbrechungen zu ermöglichen, sondern zu verstehen, wann sie diese tatsächlich beabsichtigen. Genau dort liegt noch der größte Teil der Arbeit.

Frequently Asked Questions

Was ist Barge-in-Genauigkeit und wie wird sie gemessen?

Barge-in-Genauigkeit misst, wie gut ein Sprachassistent Unterbrechungen durch Nutzer erkennt und verarbeitet, während er selbst spricht. Sie wird typischerweise gemessen, indem korrekt erkannte Unterbrechungen mit der Gesamtzahl der Unterbrechungsversuche verglichen werden. Dafür werden Metriken wie Precision, Recall, Latenz und die Rate falscher Unterbrechungen während realer oder simulierter Gesprächsinteraktionen mit Nutzern verwendet.

Maybe you’re also interested in

Welcher ist der beste KI-Sprachagent für den Kundenservice?

Wir vergleichen die besten KI-Sprachagenten für den Kundenservice, darunter telli, Parloa, Retell und Synthflow, um die richtige Plattform für Automatisierung, Skalierbarkeit und Customer Experience zu finden.

KI-Sprach-Agent Barge-in: Wie die Echtzeit-Unterbrechungsverarbeitung funktioniert

Erfahre, was die Unterbrechungsfunktion eines KI-Sprach-Agenten ist, wie sie funktioniert, warum sie das Kundenerlebnis verbessert und wie wir dieses Problem bei telli lösen.

Wir nehmen die besten KI-Sprachagenten für Terminbuchung unter die Lupe

KI-Sprachagenten sind im Kommen, aber welche liefern wirklich Buchungen? Wir untersuchen die Top-Optionen und was sie auszeichnet.

KI-Lead-Qualifizierung: Wie Sprachagenten Leads schneller qualifizieren

Erfahre, wie KI-Sprachagenten Leads sofort qualifizieren, wichtige Daten erfassen und Conversion durch schnelle und konsistente Follow-ups steigern.