Audio Geflüster mit Whisper
- stephanwaltl
- 17. März
- 2 Min. Lesezeit
Am 27.2.2025 habe ich hier in meinem BLOG einen Beitrag zum Thema Protokolle schreiben von Sitzungen, Besprechungen und ähnlichem veröffentlicht. Dabei muss man (Stand heute) neben ChatGPT noch andere kostenpflichtige Tools wie otter.ai oder podcastle.ai verwenden, da ChatGPT selbst keine Transkriptionen länger als 10 Minuten zulässt.
Heute möchte ich gerne einen alternativen Weg zeigen, wie man das, wenn auch technisch etwas aufwendiger, umgehen kann! Das kostenlose System nennt sich WHISPER und stammt wie ChatGPT aus dem Hause OpenAI.

Gerne erkläre ich, wie man Whisper eine Audiodatei in Text umwandeln kann. Ich nehme dafür als Beispiel die Datei "Sitzungsprotokoll Vorstandssitzung 25-2-2025.m4a" - diese habe ich mit der App "Sprachmemos" über mein iPhone aufgezeichnet. Dann habe ich das ganze in ChatGPT hochgeladen und mit dem Prompt/Befehl "wandle diese Datei um in das WAV-Format" umgewandelt und die Datei dann in den /Download-Ordner auf meinem MAC gespeichert.
Damit Whisper funktioniert, müssen wir 2 Voraussetzungen erfüllen:
Homebrew installieren
Homebrew ist ein sogenannter Paketmanager für macOS. Falls du ihn noch nicht hast, installiere ihn mit folgendem Terminal-Befehl: /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" Danach das Terminal neu starten und testen: brew help
wenn erfolgreich, dann FFmpeg installieren Whisper benötigt FFmpeg, um Audiodateien zu verarbeiten. Installiere es mit: brew install ffmpeg Testen, ob FFmpeg erkannt wird ffmpeg -version
Jetzt können wir das eigentliche System Whisper über "pip" installieren. pip steht für "Pip Installs Packages" und ist der Paketmanager für die Programmiersprache Python. Pip ermöglicht die Installation, Aktualisierung und Verwaltung der darin verwendeten Python-Module und Bibliotheken. PIP funktioniert ähnlich wie Homebrew. Dazu müssen wir wieder das Terminal öffnen und folgenden Befehl absetzen.
pip3 install openai-whisper OpenAI bietet mehrere Whisper-Modelle (tiny, base, small, medium, large). Falls dein MAC nicht so leistungsstark ist, kannst du z.B. das Small-Model nutzen, um Ressourcen zu sparen. dann lade einfach: whisper --download-model small
Die Audiodatei transkribieren
Nachdem alles eingerichtet ist, sollte man das Terminal-Fenster neu öffnen und dann können wir die Datei "Sitzungsprotokoll Vorstandssitzung 25-2-2025.wav" transkribieren.
Wechsle im Terminal zum Speicherort der Datei - in unserem Fall der Ordner "Downloads":
cd ~/Downloads Das Tilde-Zeichen (~) bekommt man bei MAC übrigens über die Tastenkombination ⌥ (Option) + N
Starte die Transkription: whisper "Sitzungsprotokoll Vorstandssitzung 25-2-2025.wav" --language German --output_format txt
Whisper erstellt jetzt eine Textdatei im Ordner "Downloads" mit der Transkription, die man dann wieder mit ChatGPT, QWEN, MANUS oder was auch immer weiterverarbeiten kann. Ich habe es mit einer Aufzeichnung von 72 Minuten probiert und war in ungefähr 10 Minuten mit der "Verschriftlichung" durch. Das ist nicht schlecht für eine lokale Software - wie ich finde! Gerne an dieser Stelle nochmals der Hinweis auf einen älteren Beitrag in diesem Blog (LINK), wo ich die professionelle Weiterverarbeitung bis hin zum eigentlichen Protokoll beschreibe. Viel Erfolg!

コメント