Audio-Text-Transkription mit Whisper: So geht's!

YouTube-Videos, Sprachmemos über WhatsApp oder Podcasts gehören zu alltäglichen Geräuschkulisse dazu. Vieles von dem rauscht an einem vorbei – manches aber möchte man gerne schriftlich haben. Selbst abtippen? Zu umständlich und zeitintensiv!

Wie gut, dass es hierfür ein kostenloses KI-Tool gibt, das den Prozess abkürzt: Whisper vom ChatGPT-Konzern OpenAI.

Inhalt:

Auftritt Whisper
Hardwarevoraussetzungen für Audio-Text-Transkription
So installierst du Whisper unter Windows
Letzte Vorbereitungen für Whisper
Die erste Test-Transkription

Auftritt Whisper

Whisper ist ein Open-Source-Projekt von OpenAI, den Machern hinter ChatGPT. Mit Whisper kannst du ganz einfach Audiodateien in Text umwandeln. Whisper beherrscht aktuell satte 96 Sprachen, darunter natürlich auch Deutsch. Demnächst möchte Microsoft Whisper in seiner KI-Umgebung Copilot für Windows 11 integrieren. Aber auch ohne das aktuelle Windows-Betriebssystem und die Datenfreigabe an den Redmonder Konzern kannst du Whisper nutzen.

Windows 11: KI-Copilot installieren und nutzen

Hardwarevoraussetzungen für Audio-Text-Transkription

Der KI-Einsatz stresst Computersysteme enorm, denn die Modelle benötigen viel Rechenkraft. Dementsprechend kann nur leistungsfähige Hardware für eine nahezu reibungslose Nutzung sorgen.

Wie bei Stable Diffusion und anderer Offline-KI-Anwendungen hängt die Performance vor allem von der verbauten Grafikkarte in deinem System ab – die Prozessor-Leistung ist zunächst nur sekundär.

Am besten fährst du mit einer Nvidia-Grafikkarte mit 10 GB Video-RAM oder mehr. Mit dieser Komponente kannst du das größte und leistungsfähigste Sprachmodell nutzen. Vorausgesetzt, du hast CUDA installiert, das du hinter diesem Link findest.

Ist eine ATI-Grafikkarte verbaut? Dann solltest du schauen, ob sie zu AMDs Radeon Open Compute Program (ROCm) kompatibel ist. Die allermeisten neueren Radeon-Karten sollten den Standard nutzen können. Wir recherchierten die AMD Radeon RX 400/500 (2016 erschienen) als Startpunkt der ROCm-Kompatibilität.

AMD ROCm eröffnet dir die Möglichkeit, auf Radeon-Grafikkarten Whisper laufen zu lassen. (Eigener Screenshot mit Material von AMD)

Für die mobilen und stationären Intel-Grafikkarten der Reihen Iris Xe und Arc fehlen uns Informationen, ob sie die KI-Nutzung beschleunigen können.

Fehlt dir aber eine entsprechende Grafikkarte oder erfüllt sie die Standards nicht, kannst du Whisper auch über den Prozessor laufen lassen. Das dauert dann aber um einiges länger.

Stable Diffusion auf dem Rechner installieren: Schlaue Bild-KI kostenlos

So installierst du Whisper unter Windows

Um Whisper zu installieren, brauchst du zunächst eine Paketverwaltung, welche git, ffmpeg und python installiert. Ohne diesen Software-Unterbau startet Whisper gar nicht erst.

Für die Einrichtung empfiehlt sich die Paketverwaltung Chocolatey. Die richtest du wie folgt ein: ⏎

Drücke die Windows-Taste und gib PowerShell ein – klicke mit der rechten Maustaste auf den obersten Eintrag und wähle Als Administrator ausführen aus, woraufhin sich die Eingabemaske öffnen sollte.
Gib dann folgende drei Befehle ein, wobei das ⏎ jeweils die Eingabetaste markiert und ja, der letzte Befehl geht hier über mehrere Zeilen:
Get-ExecutionPolicy ⏎
Set-ExecutionPolicy AllSigned ⏎ (Bestätige hier mit J, dass du die Richtlinie ändern willst.)
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString(‚https://community.chocolatey.org/install.ps1‘)) ⏎
Warte nun einige Zeit, bis du erneut eine Befehlszeile eingeben kannst. Versuche es mit der Eingabeaufforderung choco -? ⏎ – zeigt die PowerShell daraufhin Bedienungshinweise an, hat alles geklappt!
Mit dem Befehl choco install ffmpeg git python39 ⏎ installierst du alle für Whisper benötigten Pakete. Die Installation dauert eine Weile – also hole dir ruhig einen Kaffee und warte. Bestätige gegebenenfalls zwischendrin die Installation mit zwei beherzten Tastendrucken auf a und Enter.

Sieht wild aus, ist aber einfach: Mit drei Befehlen treiben wir Windows dazu an, Chocolatey und die für Whisper benötigten Pakete zu installieren. (Eigener Screenshot)

Letzte Vorbereitungen für Whisper

Der Weg zu Whisper führt auch nach der Chocolatey-Installation immer wieder über die PowerShell, die du als Administrator öffnen musst.

Hier legen wir zunächst einen neuen Ordner an, in dem später die Transkripte liegen. Obacht: Whisper wird alsbald einige Gigabyte an Festplattenspeicher beschlagnahmen, also such dir ein Laufwerk aus, das möglichst groß ist!

Zur Ordnererstellung gibst du ein:

New-Item -Name “[Ordnername]” -ItemType Directory -Path “[Laufwerksbuchstabe]:\[Projektordner]\” ⏎

Alles, was in eckigen Klammern steht, musst du durch eigene Namen und Laufwerksbuchstaben ersetzen. Bei uns sieht das Resultat so aus:

Wir erstellen einen eigenen Projektordner für Whisper, um unsere Transkripte sauber abzuspeichern. (Eigener Screenshot)

In unserem Fall können wir nun mit cd H:\Whisper-Transkripte\Transkripte\ auf unseren Projektordner zugreifen. Schließe die PowerShell nicht!

Denn jetzt reservieren wir Whisper noch einen weiteren Unterordner für die zu downloadenden Sprachmodelle. Gib in die PowerShell python3.9 -m venv whisperenv ⏎ ein. Der Befehl lädt die nächsten Dateien herunter und richtet sie im Projektordner ein.

Noch ein Schwung Daten - dann ist Whisper einsatzbereit! (Eigener Screenshot) — Noch ein Schwung Daten – dann ist Whisper einsatzbereit! (Eigener Screenshot)

Warte also einige Zeit, bis du erneut einen Befehl eingeben kannst.

Mit Start-Process .\whisperenv\Scripts\activate.bat ⏎ startest du die virtuelle Umgebung. Mit pip3 install git+https://github.com/openai/whisper.git ⏎ lädst du letzten Pakete und installierst sie gleichzeitig.

Kannst du erneut einen Befehl eingeben, nutze whisper –help ⏎. Zeigt die PowerShell nach einigen Sekunden die Befehlsliste an, hat alles geklappt!

Da ist das Ding! Whisper hat eine umfangreiche Help-Liste, in der du alle Möglichkeiten findest, die App zu steuern. Wir benötigen nur einen Bruchteil der Parameter... (Eigener Screenshot) — Da ist das Ding! Whisper hat eine umfangreiche Help-Liste, in der du alle Möglichkeiten findest, die App zu steuern. Wir benötigen nur einen Bruchteil der Parameter… (Eigener Screenshot)

Adobe Firefly im Test: Bilder auf Knopfdruck, kann das gutgehen?

Die erste Test-Transkription

Nun ist Whisper endlich eingerichtet und bereit, Audio in Text umzuwandeln! Für den ersten Testdurchlauf verwenden wir eine erste Textpassage aus Robert Louis Stevensons „Die Schatzinsel“, die wir auch für unsere Mikrofon-Tests nutzen:

Die Audiodatei legen wir im eben erstellten Ordner whisperenv ab, um uns Verrenkungen bei den Befehlen zu ersparen.

Unsere Audiodatei wartet im Projektordner darauf, dass Whisper sie transkribiert. (Eigener Screenshot)

Zeit, über PowerShell Whipser zur Transkription zu bewegen. Gib den Befehl whisper –model_dir whisperenv/models [Dateipfad]/[Dateiname].[wav] ⏎ ein. [Dateipfad], [Dateiname] und [Endung] ersetzt du durch den entsprechenden Eintrag – in unserem Fall H:\Whisper-Transkripte\Transkripte\whisperenv\Die_Schatzinsel.wav.

Schon siehst du, dass Whisper sich an die Arbeit macht:

So gut ist die Standard-Transkription

Whisper erzeugt fünf verschiedene Textdateien, von denen txt die gängigste ist. Diese Datei findet wir nun im Transkripte-Ordner wieder – öffnen wir sie, können wir die Qualität der Transkription besser einschätzen. Links das Original – rechts die Standard-Transkription:

Original	Transkript (Model small)
Gutsherr Trelawney, Dr.	»Gut, Herr Trelawny, Dr.
Livesey und die anderen Gentlemen, die an unserem Abenteuer teilnahmen, haben mich gebeten,	Leifzi und die anderen Gentlemen, die an unserem Abenteuer teilnahmen, haben mich gebeten,
die Ereignisse um die Schatzinsel niederzuschreiben, und zwar ganz, von Anfang bis Ende, in allen	die Ereignisse um die Schatzinsel niederzuschreiben, und zwar ganz, von Anfang bis Ende in allen
Einzelheiten.	Einzelheiten.
Lediglich die genaue Lage der Insel soll ich verschweigen, und auch dies nur, weil dort	Lediglich die genaue Lage der Insel soll ich verschweigen und auch dies nur, weil dort
noch ungehobene Schätze liegen.	noch ungehobene Schätze liegen.
So ergreife ich denn im Jahre des Heils 1700 die Feder und lenke meine Gedanken zurück	So ergreife ich denn im Jahre des Heihez 1700, die Feder und Lenke meine Gedanken zurück
zu jener Zeit, da mein Vater die Schenke Zum Admiral Benbow führte,	zu jener Zeit, da mein Vater die Schenke zum Admiral Benbow führte.
und zu jenem Tag, da der braunhäutige Seemann mit der Säbelnarbe unter unserem Dach Quartier	Und zu jenem Tag, da der braun heutige Seemann mit der Säbelnabe unter unserem Dach Quartier
bezog.	bezog.
Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaustür	Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaus-Tür
hereinschleppte, hinter sich eine Seemannskiste auf einer Schubkarre.	hereinschleppte, hinter sich eine Seemannskiste auf einer Schubkarre.
Ein hochgewachsener Kerl, stark und schwer, das Gesicht nussbraun, quer über die Wange	Ein hochgewachsener Kerl, stark und schwer das Gesicht Nussbrauen quer über eine Wange
die schmutzigweiß verschorfte Spur eines Säbelhiebs;	die schmutzig weiß verschorfte Spur eines Hebelhiebs.
die Hände rissig und voller Narben, die Fingernägel schwarz und abgebrochen;	Die Hände rissig und voller Narben, die Fingernege schwarz und abgebrochen.
ein teeriger Matrosenzopf baumelte ihm auf die Schultern seines fleckigen blauen Rocks.	Ein teriger Matrosenzopf baumelte ihm auf die Schultern seines fläckigen blauen Rocks.
Ich erinnere mich noch genau,	Ich erinnere mich noch genau.
wie er forschend über die Bucht blickte; dabei pfiff er erst leise vor sich hin, dann brach	Wie erforschend über die Bucht blickte, dabei fiff er erst leise vor sich hin, dann brach
er in ein altes Seemannslied aus – wir sollten es später noch oft von ihm hören:	er in ein altes Seemannslied aus, wir sollten es später noch oft von ihm hören.
„Fünfzehn Mann auf dem Totenschrein – Jo-ho-ho, und ’ne Buddel voll Rum.“	Fünfzehn Mann auf dem Totenschrein, johoho, und ne Buddel voll rum.

Transkription optimieren

Ich persönlich würde Whisper nicht ankreiden, bei den Satz- und Anführungszeichen Fehler gemacht zu haben. Dafür ist dieser Text auch reichlich komplex. Bei den englischen Namen wie Dr. Livesey und einigen deutschsprachigen Begriffen hat Whisper Nachholbedarf. Dass die Software außerdem gut 3 Minuten für eine Audiodatei von 1:18 Minuten Länge braucht, ist suboptimal.

Aber all das können wir mit einigen Handgriffen ändern. Dazu hängen wir dem oben gesetzten Befehl zur Transkription verschiedene Parameter an:

–model medium ⏎ – hier wählen wir eines der sechs Modelle aus. Zur Auswahl stehen tiny, base, small [standardmäßig eingestellt], medium, large und large-v2
–output_format txt ⏎ Wir reduzieren den Output auf Txt, wobei mit txt, vtt, tsv, srt und json fünf Formate bereitstehen. Mit dem Parameter all kannst du außerdem wieder alle fünf Dateien gleichzeitig schreiben lassen.
–device cuda – mit diesem Parameter weisen wir Whisper die Nvidia-Grafikkarte zu. Zur Auswahl stehen außerdem cpu [Prozessor übernimmt die Arbeit] und mps [für Mac-Rechner].

Das größere Sprachmodell benötigt selbstredend mehr Platz und Whisper muss es bei der ersten Nutzung noch herunterladen.

Mit der Reduktion der Output-Dateien vermeiden wir Datenmüll und können über die Cuda-Zuweisung auf unserer Nvidia-Grafikkarte effizienter arbeiten.

Mit einem der größeren Modelle ist die Transkription genauer. (Eigener Screenshot)

Führt das zu einem besseren Ergebnis? Schauen wir es uns an…

Das zweite Transkript

Auch diese Transkription ist nicht perfekt – aber brauchbar, um mit wenigen zusätzlichen Eingriffen eine ordentliche Kopie anzufertigen. Die Aufwertung vom kleinen zum mittleren Modell hat sich gelohnt!

Vom Deutschen ins Englische übersetzen

Praktisch: Mit einem weiteren Befehl kannst du Whisper animieren, deine Aufnahme ins Englische zu übersetzen. Dabei ist es zunächst egal, in welcher Sprache die Datei vorliegt. Da Whisper mit 96 verschiedenen Sprachmodellen aufwartet, sind alle großen Weltsprachen darunter.

Für die Transkription und Übersetzung analysiert Whisper die ersten 30 Sekunden Audiomaterial und legt die Sprache selbst fest. Willst du mehr Kontrolle haben, kannst du mit –language [Sprachkürzel] selbst bestimmen, in welcher Sprache das Ausgangsmaterial vorliegt. Welche Sprachen und -kürzel Whisper kennt, erfährst du mit whisper –help.

Das sind 96 Sprachen im Überblick – besser, du schaust noch einmal im Help-Dialog nach. (Eigener Screenshot)

Um nun eine Audiodatei von einer Sprache zur anderen zu übersetzen, hängst du dem Befehl zur Transkription einfach den Parameter –task translate an – der Befehl –task transcribe versetzt Whisper wieder in den reinen Übertragungsmodus.

Das Ergebnis ist – unabhängig vom Sprachmodell – mindestens passabel.

Nicht perfekt, aber brauchbar: Die Englischübersetzung unseres Audioschnipsels zur "Schatzinsel". (Eigener Screenshot) — Nicht perfekt, aber brauchbar: Die Englischübersetzung unseres Audioschnipsels zur „Schatzinsel“. (Eigener Screenshot)

Fazit: Brauchbar, aber nicht perfekt

Wie so viele KI-Projekte, steht auch Whisper noch am Anfang seiner Entwicklung. Die Einrichtung ist derzeit noch fummelig und es gibt keine optische Benutzeroberfläche. All das will Microsoft für Windows 11 und Copilot alsbald nachreichen.

Mit dem hier beschriebenen Verfahren kannst du aber bereits jetzt Whisper nutzen, ohne zum Windows-11-Zwang verdonnert zu sein oder Online-Ressourcen zu nutzen.

Brauchbar sind die Ergebnisse in jedem Fall, bedürfen aber noch einer weiteren Korrektur – sich nur darauf zu verlassen, ist weder bei Offline- noch bei Online-KI-Tools ratsam. Eine Abkürzung ist Whisper dennoch, denn es erleichtert die Umwandlung von Audio in Text spürbar.

Jetzt kommentieren!

Audio-Text-Transkription mit Whisper: So geht’s!