Friederike Geissler innobis AG

„Sprachgestützte Unterhaltungen mit Bots weisen einen vielversprechenden Weg, Strukturen im Unternehmen effizienter und effektiver zu machen. Zudem bieten sie die Möglichkeit, bisher nicht erreichte Benutzergruppen zu erschließen.“

Vom Sprachbrowser zum Bot: Heute können Computer nicht mehr nur Telefongespräche auswerten, sondern so einiges mehr in Sachen Kommunikation. Was können Bots heute leisten und wie entwickelt man einen eigenen Bot mit dem Microsoft Bot Framework?

„Willkommen in der Telefonwarteschleife der Pizza GmbH. Interessieren Sie sich für eine Pizzabestellung, sagen Sie ‚Pizzabestellung‘. Falls Sie Ihre Bestellung ändern möchten, sagen Sie ‚Bestellung‘.“ Eine solche Dialogführung durch einen sogenannten Sprachbrowser ist der evolutionäre Vorgänger eines Bots. Bots (von engl. robot) sind Computerprogramme, die automatisiert sich wiederholende Aufgaben abarbeiten, ohne auf eine Interaktion mit einem menschlichen Benutzer angewiesen zu sein. Wo Sprachbrowser ausschließlich auf Telefongesprächauswertungen angewiesen sind, können Bots allerdings mehr – viel mehr.

Bots verarbeiten und erkennen Sprache, Bilder, Dateien und Daten. Sie telefonieren, schreiben E-Mails sowie SMS und tauschen Nachrichten in sozialen Netzwerken aus. Außerdem planen sie Termine, nehmen Zahlungen und Feedback an. Sie erinnern an bevorstehende Ereignisse oder informieren über Neuigkeiten aus abonnierten Interessensgebieten. Sie reagieren stets flexibel auf die Stimmung des Benutzers und schätzen seine Intention ein. Der Bot ist die Weiterentwicklung der klassischen Warteschleife. So kann ein Bot via Skype, Facebook Messenger, Telefon oder andere Kanäle Bestellungen oder Ähnliches aufnehmen. Ein typischer Anwendungsfall: Ein Kunde möchte eine Pizza bestellen und schreibt dem Pizza-Bot die Nachricht: „Habe Hunger. Jetzt!“. Der Bot reagiert daraufhin mit einer Reihe von Fragen (z. B. „Welchen Durchmesser soll die Pizza haben?“) oder Vorschlägen (etwa: „Wie wäre es mit unserer Tagespizza?“) und leitet zum Schluss einen Bezahlvorgang ein. Ein Pizza-Bot kann potenziell den Kalender und den Aufenthaltsort des Benutzers prüfen, um die Bestellung zu verifizieren und den Bestellvorgang zu vereinfachen. Hierfür ist maßgeblich, dass der Benutzer vorab der Nutzung seiner persönlichen Informationen zugestimmt hat, sodass der Bot sie suchen und verarbeiten darf.

Genauigkeit der Spracherkennung und Authentifizierung

Ein messbares Kriterium von erfolgreicher Spracherkennung bei Bots ist die Präzision, also das Verhältnis von korrekt erkannten Äußerungen zu falsch erkannten. Aktuell liegt die Präzision weltweit führender Anbieter bei 91-95 Prozent. Beim chinesischen Suchanbieter Baidu sind 99 Prozent in Umgebungen mit geringen Hintergrundstörgeräuschen angestrebt. Andrew Ng, Chefentwickler von Baidu, sagt dazu: „Sobald die Präzision von Spracherkennung […] 99 % erreicht, werden wir Spracherkennung nicht mehr kaum, sondern täglich verwenden.“. Diese Präzision hat Nuance, einer der ersten Anbieter von Diktiersoftware, laut eigener Aussage mit seiner Dragon-Spracherkennung bereits erreicht.

Spracherkennungsdienste filtern die Stimme des Benutzers aus anderen Stimmen und Störgeräuschen, die das Mikrofon mit aufnimmt. Sobald die Stimmdaten extrahiert sind, werden sie analysiert. Die Einmaligkeit von menschlichen Stimmmustern wird softwaretechnisch teils in Authentifizierungsprozessen genutzt. Wie verschiedene Studien und Praxisbeispiele belegen, ist Stimmerkennung allein jedoch nicht als Authentifizierungsmethode geeignet, da sie gegenüber Replay-Attacken und manipulierten Audioaufnahmen anfällig ist.

Den vollständigen Artikel lesen Sie in der Ausgabe:

Entwickler Magazin 1.19 - "Knative: Kubernetes goes Serverless"

Alle Infos zum Heft
579869944Sprachgestützte Unterhaltungen mit Bots
X
- Gib Deinen Standort ein -
- or -