Sprechen statt Tippen: Wie KI Sprache in strukturierte Daten verwandelt

Spracheingabe revolutioniert die Interaktion mit digitalen Anwendungen. Während das Tippen langsam und fehleranfällig ist, bietet Sprache eine schnellere, natürlichere und barrierefreiere Alternative. Mit der Whisper API von OpenAI lässt sich Gesprochenes – selbst Schweizerdeutsch – zuverlässig in strukturierten Text umwandeln.

Unsere Demo-App zeigt, wie Sprachbefehle klassische Formulare ersetzen können. Das Potenzial dieser Technologie geht weit darüber hinaus und eröffnet neue Möglichkeiten für intuitive Benutzeroberflächen in verschiedensten Anwendungsbereichen.

Text to speech

Wie KI Sprache in strukturierte Daten verwandelt.

Sprache zu Text

In vielen digitalen Anwendungen erfolgt die Interaktion mit den Benutzer:innen noch immer über klassische Textformulare. Dabei wird Sprache als Eingabeform immer beliebter – vor allem mobil.

Tippen ist langsam, fehleranfällig und insbesondere mühsam. Sprache ist schneller, natürlicher und barrierefreier.

Mit modernen Tools wie der Whisper API von Open AI ist es erstmals praktikabel Spracheingabe zu verwenden, da sie auch mit Umgebungsgeräuschen, Dialekten und Umgangssprache zuverlässig transkribieren.

Daher haben wir die Technologie genauer analysiert, um herauszufinden, in welchen weiteren Anwendungsfällen sie zur Optimierung der User Experience beitragen kann.

Whisper API in Aktion

Die Whisper API von Open AI lässt sich ohne grossen Aufwand in eigene Anwendungen integrieren. Die Anbindung erfolgt über einen gültigen API-Key sowie ein geeignetes Client-Paket für die jeweilige Programmiersprache.

Generierung des Keys: https://platform.openai.com/api-keys

Übersicht der Pakte: https://platform.openai.com/docs/libraries

Nach diesen einfachen Schritten kann die API verwendet werden, um Gesprochenes in Text umzuwandeln. Dies haben wir natürlich gleich getestet und waren positiv überrascht, da die API auch gesprochenes Schweizerdeutsch verschiedenster Dialekte problemlos in geschriebenes Hochdeutsch transkribieren konnte.

Nach diesem erfolgreichen Test haben wir uns damit beschäftigt, welches Potenzial diese Technologie entfalten kann – insbesondere dann, wenn sie gezielt in einen Userflow integriert und mit weiteren Tools kombiniert wird. Genau diesen Ansatz verfolgen wir mit unserer Demo App.

Unsere Demo App: Sprachgesteuerte Kleidersuche

Die Demo-App unterstützt Kund:innen dabei, passende Kleidungsstücke zu finden – und das ganz ohne Tippen. Über Spracheingabe können sie beschreiben, was sie suchen.

Auf dieser Basis wird ein strukturiertes JSON-Object erzeugt, das die relevanten Suchfelder sowie die gewünschten Merkmale des Kleidungsstück enthält.

Zusätzlich zeigt die App, welche Angaben noch fehlen oder ergänzt werden könnten, um die Suche weiter zu verfeinern. So entsteht ein interaktives, sprachbasiertes Interface, das klassische Filterformulare ersetzt und gleichzeitig deutlich näher an der natürlichen Kommunikation liegt.


Vielfältige Einsatzmöglichkeiten für sprachbasierte Interfaces

Die in unsere Demo angewandte Methode lässt sich weit über Kleidersuche hinaus anwenden. Überall dort, wo Nutzer:innen Informationen eingeben, suchen oder verstehen möchten, kann eine Kombination aus Sprachverarbeitung, strukturiertem Output und gezieltem Prompt Engineering, Mehrwert schaffen.

Mögliche Anwendungsbereiche:

  • Interaktive Anleitungen: Anstatt sich durch Hilfeseiten zu klicken, beschreiben Benutzer:innen das Problem mündlich. Das System stellt dabei Rückfragen und führt zur Lösung.
  • Informationsabfrage: Benutzer:innen können zu komplexen Inhalten, wie beispielsweise Verträgen Fragen stellen, welche das Sysmte kontextbasiert beantwortet.
  • Formulareingabe: Anstelle vom manuellen Eintippen von Angaben, können Benutzer:innen den Sachverhalt kurz beschreiben. Das System füllt die Felder automatisch aus und weist auf fehlende Angaben hin.

Bei Bitforge sind wir ständig auf der Suche nach Technologien, die echte Mehrwerte für Nutzer:innen schaffen. Die Kombination von OpenAI Whisper und GPT-4 hat sich dabei als besonders vielversprechend erwiesen: Sie ermöglicht es, komplexe Spracheingaben zu erfassen, intelligent zu strukturieren und gezielt weiterzuverarbeiten.