Automatisierter KI-gestützter Audio Transkriptions-Service mit OpenSource

Ziel des Projektes war es, ein KI-System zu entwickeln, welches mit Hilfe von Speech-to-Text Modellen Sprachdateien zu Text transkribiert. Wichtig für den Kunden war es dabei, dass der Service den unternehmenseigenen Workflow berücksichtigt. Und ebenfalls relevant war es, dass durch die Automatisierung eine wesentliche Belastung der Mitarbeitenden erfolgen sollte.

Bei dem Kunden handelt es sich um eine internationale Unternehmensgruppe aus dem Bereich der Lebensmittel-Herstellung mit über 3.000 Mitarbeitenden und Standorten in 24 Ländern weltweit. Intercorp. blickt dabei bereits auf eine langjährige Partnerschaft mit dem Kunden zurück.


Herausforderung

Bislang war der interne Workflow des Kunden komplett auf die manuelle Arbeit der Mitarbeitenden ausgelegt. Im Normalfall legte der Außendienst Sprach-Memos auf einem Server zur weiteren Bearbeitung durch den Innendienst ab. Der Innendienst musste diese dann abhören und händisch weiterverarbeiten, was einen enormen Zeitaufwand bedeutete. Durch dieses Abtippen gingen viele Kapazitäten der Innendienst Mitarbeitenden verloren, die für wesentlich produktivere und kritischere Aufgaben genutzt werden könnten.  

Ein weiterer Punkt, der für den Kunden die Notwendigkeit einer internen Lösung notwendig machte, waren die hohen Preise von Software-Lizenzen von Anbietern, wie beispielsweise Olymp. Der Kunde wollte nicht von externen Lösungen abhängig sein, sondern ebenfalls die Möglichkeit haben, Transkriptionsprozesse auf seinen spezifischen Workflow anzupassen.

Lösung

Wir haben einen Service entwickelt, der die Sprach/Audio-Dateien vom Fileserver nacheinander abholt und zur Transkription ins System hochlädt. Der Text wird dann automatisch in einem Word Dokument gespeichert und in thematisch passenden Ordnern wieder abgelegt. Zudem wurde auch eine Weboberfläche entwickelt, mit der Mitarbeitende manuell Sprachdateien passend zur Transkription hochladen können. Außerdem ermöglicht die Weboberfläche es dem User, die Größe des KI-Modells zu wählen. Also: Je größer das Modell, desto besser die Transkriptions-Qualität.

Das KI-System und das Sprachmodell laufen auf einem dezidierten, angemieteten Server bei einem deutschen Hosting-Anbieter. Um das System zukünftig flexibel anpassen, erweitern und skalieren zu können, setzen wir ausschließlich bewährte OpenSource-Komponenten und -Frameworks ein. Auch das Modell ist OpenSource und wird „lokal“ auf einem eigenen Server betrieben.


Ergebnis

Durch die Umsetzung einer internen Lösung spart der Kunde wiederkehrende Lizenzkosten für externe Services. Und durch die automatische Transkription sowie Ordnung haben die Mitarbeitenden im Innendienst viel Zeit gewonnen, welche jetzt wertschöpfender eingesetzt werden kann.

Zudem kann die Lösung auch im späteren Verlauf individuell auf die Bedürfnisse des Kunden angepasst werden. Der Open-Source-Ansatz sowie die Möglichkeit, Modelle auf Wunsch zu wechseln, bieten hierbei eine größere Flexibilität als vorgefertigte Lizenz-Optionen.   

Interesse an KI-gestützten Services?

Zögern Sie nicht und nehmen Sie Kontakt zu uns auf.

Thomas Keller