YouTube-Videos, Sprachmemos über WhatsApp oder Podcasts gehören zu alltäglichen Geräuschkulisse dazu. Vieles von dem rauscht an einem vorbei – manches aber möchte man gerne schriftlich haben. Selbst abtippen? Zu umständlich und zeitintensiv!
Wie gut, dass es hierfür ein kostenloses KI-Tool gibt, das den Prozess abkürzt: Whisper vom ChatGPT-Konzern OpenAI.
Inhalt:
- Auftritt Whisper
- Hardwarevoraussetzungen für Audio-Text-Transkription
- So installierst du Whisper unter Windows
- Letzte Vorbereitungen für Whisper
- Die erste Test-Transkription
Auftritt Whisper
Whisper ist ein Open-Source-Projekt von OpenAI, den Machern hinter ChatGPT. Mit Whisper kannst du ganz einfach Audiodateien in Text umwandeln. Whisper beherrscht aktuell satte 96 Sprachen, darunter natürlich auch Deutsch. Demnächst möchte Microsoft Whisper in seiner KI-Umgebung Copilot für Windows 11 integrieren. Aber auch ohne das aktuelle Windows-Betriebssystem und die Datenfreigabe an den Redmonder Konzern kannst du Whisper nutzen.
Hardwarevoraussetzungen für Audio-Text-Transkription
Der KI-Einsatz stresst Computersysteme enorm, denn die Modelle benötigen viel Rechenkraft. Dementsprechend kann nur leistungsfähige Hardware für eine nahezu reibungslose Nutzung sorgen.
Wie bei Stable Diffusion und anderer Offline-KI-Anwendungen hängt die Performance vor allem von der verbauten Grafikkarte in deinem System ab – die Prozessor-Leistung ist zunächst nur sekundär.
Am besten fährst du mit einer Nvidia-Grafikkarte mit 10 GB Video-RAM oder mehr. Mit dieser Komponente kannst du das größte und leistungsfähigste Sprachmodell nutzen. Vorausgesetzt, du hast CUDA installiert, das du hinter diesem Link findest.
Ist eine ATI-Grafikkarte verbaut? Dann solltest du schauen, ob sie zu AMDs Radeon Open Compute Program (ROCm) kompatibel ist. Die allermeisten neueren Radeon-Karten sollten den Standard nutzen können. Wir recherchierten die AMD Radeon RX 400/500 (2016 erschienen) als Startpunkt der ROCm-Kompatibilität.
Für die mobilen und stationären Intel-Grafikkarten der Reihen Iris Xe und Arc fehlen uns Informationen, ob sie die KI-Nutzung beschleunigen können.
Fehlt dir aber eine entsprechende Grafikkarte oder erfüllt sie die Standards nicht, kannst du Whisper auch über den Prozessor laufen lassen. Das dauert dann aber um einiges länger.
So installierst du Whisper unter Windows
Um Whisper zu installieren, brauchst du zunächst eine Paketverwaltung, welche git, ffmpeg und python installiert. Ohne diesen Software-Unterbau startet Whisper gar nicht erst.
Für die Einrichtung empfiehlt sich die Paketverwaltung Chocolatey. Die richtest du wie folgt ein: ⏎
- Drücke die Windows-Taste und gib PowerShell ein – klicke mit der rechten Maustaste auf den obersten Eintrag und wähle Als Administrator ausführen aus, woraufhin sich die Eingabemaske öffnen sollte.
- Gib dann folgende drei Befehle ein, wobei das ⏎ jeweils die Eingabetaste markiert und ja, der letzte Befehl geht hier über mehrere Zeilen:
Get-ExecutionPolicy ⏎
Set-ExecutionPolicy AllSigned ⏎ (Bestätige hier mit J, dass du die Richtlinie ändern willst.)
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString(‚https://community.chocolatey.org/install.ps1‘)) ⏎ - Warte nun einige Zeit, bis du erneut eine Befehlszeile eingeben kannst. Versuche es mit der Eingabeaufforderung choco -? ⏎ – zeigt die PowerShell daraufhin Bedienungshinweise an, hat alles geklappt!
- Mit dem Befehl choco install ffmpeg git python39 ⏎ installierst du alle für Whisper benötigten Pakete. Die Installation dauert eine Weile – also hole dir ruhig einen Kaffee und warte. Bestätige gegebenenfalls zwischendrin die Installation mit zwei beherzten Tastendrucken auf a und Enter.
Letzte Vorbereitungen für Whisper
Der Weg zu Whisper führt auch nach der Chocolatey-Installation immer wieder über die PowerShell, die du als Administrator öffnen musst.
Hier legen wir zunächst einen neuen Ordner an, in dem später die Transkripte liegen. Obacht: Whisper wird alsbald einige Gigabyte an Festplattenspeicher beschlagnahmen, also such dir ein Laufwerk aus, das möglichst groß ist!
Zur Ordnererstellung gibst du ein:
New-Item -Name “[Ordnername]” -ItemType Directory -Path “[Laufwerksbuchstabe]:\[Projektordner]\” ⏎
Alles, was in eckigen Klammern steht, musst du durch eigene Namen und Laufwerksbuchstaben ersetzen. Bei uns sieht das Resultat so aus:
In unserem Fall können wir nun mit cd H:\Whisper-Transkripte\Transkripte\ auf unseren Projektordner zugreifen. Schließe die PowerShell nicht!
Denn jetzt reservieren wir Whisper noch einen weiteren Unterordner für die zu downloadenden Sprachmodelle. Gib in die PowerShell python3.9 -m venv whisperenv ⏎ ein. Der Befehl lädt die nächsten Dateien herunter und richtet sie im Projektordner ein.
Warte also einige Zeit, bis du erneut einen Befehl eingeben kannst.
Mit Start-Process .\whisperenv\Scripts\activate.bat ⏎ startest du die virtuelle Umgebung. Mit pip3 install git+https://github.com/openai/whisper.git ⏎ lädst du letzten Pakete und installierst sie gleichzeitig.
Kannst du erneut einen Befehl eingeben, nutze whisper –help ⏎. Zeigt die PowerShell nach einigen Sekunden die Befehlsliste an, hat alles geklappt!
Die erste Test-Transkription
Nun ist Whisper endlich eingerichtet und bereit, Audio in Text umzuwandeln! Für den ersten Testdurchlauf verwenden wir eine erste Textpassage aus Robert Louis Stevensons „Die Schatzinsel“, die wir auch für unsere Mikrofon-Tests nutzen:
Die Audiodatei legen wir im eben erstellten Ordner whisperenv ab, um uns Verrenkungen bei den Befehlen zu ersparen.
Zeit, über PowerShell Whipser zur Transkription zu bewegen. Gib den Befehl whisper –model_dir whisperenv/models [Dateipfad]/[Dateiname].[wav] ⏎ ein. [Dateipfad], [Dateiname] und [Endung] ersetzt du durch den entsprechenden Eintrag – in unserem Fall H:\Whisper-Transkripte\Transkripte\whisperenv\Die_Schatzinsel.wav.
Schon siehst du, dass Whisper sich an die Arbeit macht:
So gut ist die Standard-Transkription
Whisper erzeugt fünf verschiedene Textdateien, von denen txt die gängigste ist. Diese Datei findet wir nun im Transkripte-Ordner wieder – öffnen wir sie, können wir die Qualität der Transkription besser einschätzen. Links das Original – rechts die Standard-Transkription:
Original | Transkript (Model small) |
---|---|
Gutsherr Trelawney, Dr. | »Gut, Herr Trelawny, Dr. |
Livesey und die anderen Gentlemen, die an unserem Abenteuer teilnahmen, haben mich gebeten, | Leifzi und die anderen Gentlemen, die an unserem Abenteuer teilnahmen, haben mich gebeten, |
die Ereignisse um die Schatzinsel niederzuschreiben, und zwar ganz, von Anfang bis Ende, in allen | die Ereignisse um die Schatzinsel niederzuschreiben, und zwar ganz, von Anfang bis Ende in allen |
Einzelheiten. | Einzelheiten. |
Lediglich die genaue Lage der Insel soll ich verschweigen, und auch dies nur, weil dort | Lediglich die genaue Lage der Insel soll ich verschweigen und auch dies nur, weil dort |
noch ungehobene Schätze liegen. | noch ungehobene Schätze liegen. |
So ergreife ich denn im Jahre des Heils 1700 die Feder und lenke meine Gedanken zurück | So ergreife ich denn im Jahre des Heihez 1700, die Feder und Lenke meine Gedanken zurück |
zu jener Zeit, da mein Vater die Schenke Zum Admiral Benbow führte, | zu jener Zeit, da mein Vater die Schenke zum Admiral Benbow führte. |
und zu jenem Tag, da der braunhäutige Seemann mit der Säbelnarbe unter unserem Dach Quartier | Und zu jenem Tag, da der braun heutige Seemann mit der Säbelnabe unter unserem Dach Quartier |
bezog. | bezog. |
Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaustür | Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaus-Tür |
hereinschleppte, hinter sich eine Seemannskiste auf einer Schubkarre. | hereinschleppte, hinter sich eine Seemannskiste auf einer Schubkarre. |
Ein hochgewachsener Kerl, stark und schwer, das Gesicht nussbraun, quer über die Wange | Ein hochgewachsener Kerl, stark und schwer das Gesicht Nussbrauen quer über eine Wange |
die schmutzigweiß verschorfte Spur eines Säbelhiebs; | die schmutzig weiß verschorfte Spur eines Hebelhiebs. |
die Hände rissig und voller Narben, die Fingernägel schwarz und abgebrochen; | Die Hände rissig und voller Narben, die Fingernege schwarz und abgebrochen. |
ein teeriger Matrosenzopf baumelte ihm auf die Schultern seines fleckigen blauen Rocks. | Ein teriger Matrosenzopf baumelte ihm auf die Schultern seines fläckigen blauen Rocks. |
Ich erinnere mich noch genau, | Ich erinnere mich noch genau. |
wie er forschend über die Bucht blickte; dabei pfiff er erst leise vor sich hin, dann brach | Wie erforschend über die Bucht blickte, dabei fiff er erst leise vor sich hin, dann brach |
er in ein altes Seemannslied aus – wir sollten es später noch oft von ihm hören: | er in ein altes Seemannslied aus, wir sollten es später noch oft von ihm hören. |
„Fünfzehn Mann auf dem Totenschrein – Jo-ho-ho, und ’ne Buddel voll Rum.“ | Fünfzehn Mann auf dem Totenschrein, johoho, und ne Buddel voll rum. |
Transkription optimieren
Ich persönlich würde Whisper nicht ankreiden, bei den Satz- und Anführungszeichen Fehler gemacht zu haben. Dafür ist dieser Text auch reichlich komplex. Bei den englischen Namen wie Dr. Livesey und einigen deutschsprachigen Begriffen hat Whisper Nachholbedarf. Dass die Software außerdem gut 3 Minuten für eine Audiodatei von 1:18 Minuten Länge braucht, ist suboptimal.
Aber all das können wir mit einigen Handgriffen ändern. Dazu hängen wir dem oben gesetzten Befehl zur Transkription verschiedene Parameter an:
- –model medium ⏎ – hier wählen wir eines der sechs Modelle aus. Zur Auswahl stehen tiny, base, small [standardmäßig eingestellt], medium, large und large-v2
- –output_format txt ⏎ Wir reduzieren den Output auf Txt, wobei mit txt, vtt, tsv, srt und json fünf Formate bereitstehen. Mit dem Parameter all kannst du außerdem wieder alle fünf Dateien gleichzeitig schreiben lassen.
- –device cuda – mit diesem Parameter weisen wir Whisper die Nvidia-Grafikkarte zu. Zur Auswahl stehen außerdem cpu [Prozessor übernimmt die Arbeit] und mps [für Mac-Rechner].
Das größere Sprachmodell benötigt selbstredend mehr Platz und Whisper muss es bei der ersten Nutzung noch herunterladen.
Mit der Reduktion der Output-Dateien vermeiden wir Datenmüll und können über die Cuda-Zuweisung auf unserer Nvidia-Grafikkarte effizienter arbeiten.
Führt das zu einem besseren Ergebnis? Schauen wir es uns an…
Das zweite Transkript
Original | Transkript (Model medium) |
---|---|
Gutsherr Trelawney, Dr. Livesey und die anderen Gentlemen, die an unserem Abenteuer | Gut, Herr Trelawney, Dr. Life-See und die anderen Gentlemen, die an unserem Abenteuer |
teilnahmen, haben mich gebeten, die Ereignisse um die Schatzinsel niederzuschreiben, und | erteilnahmen, haben mich gebeten, die Ereignisse um die Schatzinsel niederzuschreiben, und |
zwar ganz, von Anfang bis Ende, in allen Einzelheiten. | zwar ganz, von Anfang bis Ende in allen Einzelheiten. |
Lediglich die genaue Lage der Insel soll ich verschweigen, und auch dies nur, weil dort | Lediglich die genaue Lage der Insel soll ich verschweigen und auch dies nur, weil dort |
noch ungehobene Schätze liegen. | noch ungehobene Schätze liegen. |
So ergreife ich denn im Jahre des Heils 1700 die Feder und lenke meine Gedanken zurück | So ergreife ich denn im Jahre des Hyats 1700 die Feder und lenke meine Gedanken zurück |
zu jener Zeit, da mein Vater die Schenke Zum Admiral Benbow führte, | zu jener Zeit, da mein Vater die Schenke zum Admiral Benbow führte, und zu jenem Tag, |
und zu jenem Tag, da der braunhäutige Seemann mit der Säbelnarbe unter unserem Dach Quartier bezog. | da der braunhäutige Seemann mit der Säbelnarbe unter unserem Dachquartier bezog. |
Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaustür hereinschleppte, | Ich erinnere mich, als wäre es gestern gewesen, wie er sich mühsam zur Gasthaustür hereinschleppte, |
hinter sich eine Seemannskiste auf einer Schubkarre. | hinter sich eine Seemannskiste auf einer Schubkarre. |
Ein hochgewachsener Kerl, stark und schwer, das Gesicht nussbraun, quer über die Wange | Ein hochgewachsener Kerl, stark und schwer, das Gesicht nussbraun, quer über eine Wange |
die schmutzigweiß verschorfte Spur eines Säbelhiebs; | die schmutzig-weiß verschorfte Spur eines Säbelhiebs. |
die Hände rissig und voller Narben, die Fingernägel schwarz und abgebrochen; | Die Hände rissig und voller Narben, die Fingernägel schwarz und abgebrochen. |
ein teeriger Matrosenzopf baumelte ihm auf die Schultern seines fleckigen blauen Rocks. | Ein tieriger Matrosenzopf baumelte ihm auf die Schultern seines fleckigen blauen Rocks. |
Ich erinnere mich noch genau, wie er forschend über die Bucht blickte; dabei pfiff er erst | Ich erinnere mich noch genau, wie er forschend über die Bucht blickte, da bei Pfiff er erst |
leise vor sich hin, dann brach er in ein altes Seemannslied aus – wir sollten es später | leise vor sich hin, dann brach er in ein altes Seemannslied aus, wir sollten es später |
noch oft von ihm hören: | noch oft von ihm hören. |
„Fünfzehn Mann auf dem Totenschrein – Jo-ho-ho, und ’ne Buddel voll Rum.“ | Fünfzehn Mann auf dem Totenschrein, yo ho ho, und ne Buddel voll rum. |
Auch diese Transkription ist nicht perfekt – aber brauchbar, um mit wenigen zusätzlichen Eingriffen eine ordentliche Kopie anzufertigen. Die Aufwertung vom kleinen zum mittleren Modell hat sich gelohnt!
Vom Deutschen ins Englische übersetzen
Praktisch: Mit einem weiteren Befehl kannst du Whisper animieren, deine Aufnahme ins Englische zu übersetzen. Dabei ist es zunächst egal, in welcher Sprache die Datei vorliegt. Da Whisper mit 96 verschiedenen Sprachmodellen aufwartet, sind alle großen Weltsprachen darunter.
Für die Transkription und Übersetzung analysiert Whisper die ersten 30 Sekunden Audiomaterial und legt die Sprache selbst fest. Willst du mehr Kontrolle haben, kannst du mit –language [Sprachkürzel] selbst bestimmen, in welcher Sprache das Ausgangsmaterial vorliegt. Welche Sprachen und -kürzel Whisper kennt, erfährst du mit whisper –help.
Um nun eine Audiodatei von einer Sprache zur anderen zu übersetzen, hängst du dem Befehl zur Transkription einfach den Parameter –task translate an – der Befehl –task transcribe versetzt Whisper wieder in den reinen Übertragungsmodus.
Das Ergebnis ist – unabhängig vom Sprachmodell – mindestens passabel.
Fazit: Brauchbar, aber nicht perfekt
Wie so viele KI-Projekte, steht auch Whisper noch am Anfang seiner Entwicklung. Die Einrichtung ist derzeit noch fummelig und es gibt keine optische Benutzeroberfläche. All das will Microsoft für Windows 11 und Copilot alsbald nachreichen.
Mit dem hier beschriebenen Verfahren kannst du aber bereits jetzt Whisper nutzen, ohne zum Windows-11-Zwang verdonnert zu sein oder Online-Ressourcen zu nutzen.
Brauchbar sind die Ergebnisse in jedem Fall, bedürfen aber noch einer weiteren Korrektur – sich nur darauf zu verlassen, ist weder bei Offline- noch bei Online-KI-Tools ratsam. Eine Abkürzung ist Whisper dennoch, denn es erleichtert die Umwandlung von Audio in Text spürbar.
Jetzt kommentieren!