wer kennt eine Speech to Text Software?

Holgi · Beitrag von **Holgi** » 20.11.2023, 17:30

Hallo Mitstreiter,
ich suche für ein Windows System (WIN10/WIN11) eine Software, die mir Sprache in Text umwandelt.
Hintergrund:
ich bin zu faul, manuell etwas in einen Editor bzw. in eine Textverarbeitung zu hämmern.
Vorliegend ist ein MP3 Datei mit einem Gesprächsmitschnitt.
Diesen möchte ich jetzt schwarz auf weiß zum Ausdrucken haben.
Bei meiner Recherche bin ich auf die Software "VOVSOFT Speech to Text Converter" gestoßen.
Da muss man sich aber entweder bei IBM, Google, Microsoft, OpenAI, etc mit Kreditkarte und API Key anmelden.
Das möchte ich, wenn´s geht vermeiden.
Schön wäre es, wenn die Datei nicht übers Netz ginge, sondern auf meinem PC verarbeitet werden könnte.
Die Software soll möglichst kostenlos sein; eine Testversion beinhalten; oder für kleines Geld erhältlich sein.
Oder führt da kein Weg an der Windows Spracherkennung vorbei; bzw. so ein Programm wie Dragon Dictate? Dann müßte ich den Lautsprecher des PCs vor das Mikrofon halten? Und das in 2023?
Könnt ihr mal ein paar Software-/Lösungsvorschläge machen?

Beitrag von **Tante Google** » 20.11.2023, 17:30

Holgi · Beitrag von **Holgi** » 09.12.2023, 12:26

Die Reaktion auf meinen Post zur Frage: "wer kennt eine Speech to Text Software?" tendierte ja leider gen 0. Offenbar interessiert dieses Thema noch nicht die breite Masse. Seisdrum.
Ich glaube fest daran, dass dies ein Zukunftsmarkt sein wird.
Meine Recherchen haben ergeben:
1. es gibt viele Apps für IOS und Android, die dieses erledigen; nicht geeignet für meinen Fall
2. die Art Software wird jetzt schon von vielen Studios eingesetzt, um automatisch Untertitel für Filme zu erzeugen
3. das beste am Markt ist wohl "Whisper" von OpenAI. Wäre zwar grundsätzlich für meine Zwecke nützlich (kostenlos, Offline etc.)
leider setzt Whisper etwas mehr Kenntnisse voraus (z.B. Python), die ich leider nicht habe.

Da ich mit Offline Tools nicht weitergekommen bin, habe ich in den sauren Apfel gebissen und Online Tools ausprobiert.
Die Ergebnisse waren durchwachsen.
Hintergrund: in einem Telefonatmitschnitt (ja: mit Einwilligung!) wird nicht immer so deutlich gesprochen. Man fällt sich vlt. auch mal ins Wort. Das ist halt anders, als z.B. bei einem Diktat wie mit Dragon Dictate. Deutsche Vornamen z.B. werden nicht immer als solche erkannt. Im Nachhinein ist dann bei dem Transkript noch eine Menge Handarbeit/Nacharbeit notwendig.

Zufällig erhielt ich die Tage von der Firma Cyberlink (bekannt vlt. durch den MediaPlayer PowerDVD) einen Newsletter per e-mail.
Da wurde auf deren neue KI-Tools hingewiesen. Es ist dort u.a auch ein Speech2Text Konverter darunter.
https://myedit.online/de/audio-editor/speech-to-text
Den habe ich ausprobiert und ich muss sagen: von allen von mir getesteten Online Konvertern war dieser der akurateste und am einfachsten zu bedienen.
Für kurze Audioschnipsel ist der Umsonst. Für längere müßte man ein Abo abschließen, was aber auch monatlich geht. Das fängt an bei 8€ pro Monat und beinhaltet dann 600 Minuten KI-Spracherkennung. Für meine Zwecke reichte aber die kostenlose Version. Es bedarf lediglich einer Registrierung/Anmeldung bei Cyberlink. Da ich da sowieso schon mit meiner Software registriert bin, war das kein Problem für mich.
Jährlich wären es 36€ (also umgerechnet 3€ pro Monat).

Whisper von OpenAI würde ich gerne noch mal ausprobieren. Da bräuchte ich allerdings Hilfe für die Einrichtung hier aus dem Forum.

Anbei noch meine gesammelten Links zu dem Thema. Vlt. ja mal nützlich.
---------------------------------------------------------------------------------------------
Whisper Offline:
https://github.com/openai/whisper/discussions/1463
https://github.com/openai/whisper/discussions/718
https://www.reddit.com/r/tasker/comment ... ?rdt=48795
https://eightify.app/summary/computer-s ... openai-asr

Flixier: Dies ist ein kostenloser Online-Konverter von Audio zu Text, der mit allen gängigen Audio- und Videoformaten kompatibel ist. Du kannst deine MP3-Datei einfach hochladen, auf die Schaltfläche “Untertitel generieren” klicken und eine genaue Abschrift deiner Audio-Datei erhalten. Du kannst auch deine Audio- und Videodateien online bearbeiten, schneiden, zuschneiden oder Grafiken hinzufügen. Flixier unterstützt 25 verschiedene Sprachen für die Spracherkennung1.
https://flixier.com/de/tools/audio-in-text-umwandeln
https://editor.flixier.com/home/projects
https://editor.flixier.com/transcribe
https://editor.flixier.com/transcribe/4 ... 1e5881574d
Anmelden mit Google Account
https://cloud.google.com/speech-to-text ... d_source=1

VEED.IO: Dies ist ein weiteres Online-Tool, das deine Audiodateien automatisch für dich transkribiert. Du musst nur deine Audio- oder Videodatei hochladen, auf das Werkzeug Untertitel/Transkription klicken, und VEED wird die Sprache für dich in Text umwandeln. VEED unterstützt MP3, WAV und andere gängige Audioformate2.
https://www.veed.io/de-DE/werkzeuge/audio-zu-text

Converter App: Dies ist eine kostenlose App, die dir ermöglicht, MP3 in Text zu konvertieren, indem du die Bilder auf der rechten Seite hochlädst. Du musst nur einen Moment warten, während deine Textausgabe erstellt wird, und dann auf den Download-Button klicken, um dein konvertiertes Audio kostenlos zu erhalten. Converter App unterstützt verschiedene Sprachen für die Spracherkennung3.
https://converter.app/de/mp3-zu-text/

https://myedit.online/de/audio-editor/speech-to-text
https://myedit.online/de/audio-editor/vocal-remover
https://praxistipps.chip.de/sprache-in- ... ware_51275
https://filmora.wondershare.de/more-tip ... fline.html
https://www.movavi.de/learning-portal/b ... tware.html

Text in Sprache:
https://ttsmaker.com/de

https://praxistipps.chip.de/text-in-spr ... -es_164786
Software: Es gibt eine Vielzahl von Softwareanwendungen, die Text-zu-Sprache-Funktionen bieten. Diese reichen von Textverarbeitungsprogrammen wie Microsoft Word und Google Docs bis zu speziellen TTS-Programmen. Diese Anwendungen können Text in natürliche Sprache umwandeln und verfügen über eine Auswahl an unterschiedlichen Stimmen und Sprachen.
Online-Dienste: Es gibt Online-Dienste, die Text-zu-Sprache-Konvertierung anbieten. Diese Dienste sind oft kostenlos oder bieten kostenpflichtige Optionen für erweiterte Funktionen. Eine Auswahl finden Sie im nächsten Kapitel.
Mobile Anwendungen: Mobile Anwendungen sind eine praktische Möglichkeit, Text in Sprache umzuwandeln. Diese Apps können auf Smartphones und Tablets installiert werden. Sie bieten verschiedene Funktionen, wie Text aus Bildern zu extrahieren und in Sprache umzuwandeln. Die Top 100 Vorlesen-Apps finden Sie hier.
Betriebssystemfunktionen: Viele Betriebssysteme, wie Windows, bieten eine eingebaute Text-zu-Sprache-Funktion. Diese können in den Systemeinstellungen aktiviert und angepasst werden. Diese Funktion ermöglicht den Benutzern, jeden auf dem Bildschirm angezeigten Text in Sprache umzuwandeln.
Künstliche Intelligenz (KI): Die neueste Entwicklung in der Text-zu-Sprache-Technologie ist die Verwendung von Künstlicher Intelligenz. KI-basierte TTS-Systeme, wie Murf oder Listnr, können natürlichere und flüssigere Sprache erzeugen als traditionelle TTS-Technologien. Sie können auch den Kontext des Textes verstehen und die Aussprache und Betonung entsprechend anpassen.
TTS-Dienste: Eine Liste bekannter Online-Anbieter
Diese Online-Anbieter bieten sowohl kostenlose als auch kostenpflichtige Modelle an. Detaillierte Informationen erhalten Sie direkt auf der jeweiligen Homepage:

Amazon Polly ist der Cloud-Dienst von Amazon, der lebensechte Sprachausgabe bietet und in verschiedene Anwendungen integriert werden kann.
Google Text-to-Speech ist ein weitverbreiteter Dienst, der in viele Google-Produkte integriert ist, einschließlich Google Translate.
IBM Text to Speech bietet verschiedene Stimmen und Sprachen und nutzt Deep Learning, um natürliche Sprachausgabe zu erzeugen.
Natural Reader ist ein Online-TTS-Dienst, der auch eine Desktop-Version bietet. Der Dienst ist ideal für Bildungszwecke.
ResponsiveVoice ist ein leicht zu integrierender Webdienst, der auf vielen Websites verwendet wird, um Text für den Benutzer vorzulesen.

Jens1976 · Beitrag von **Jens1976** » 09.12.2023, 13:20

Du meinst sowas wie Dragon Professional, nur umsonst?

Holgi · Beitrag von **Holgi** » 09.12.2023, 13:43

Nein! Keine Diktiersoftware mit Mikrofon.
Siehe Problemstellung.

Jens1976 · Beitrag von **Jens1976** » 09.12.2023, 14:57

Das geht doch damit auch?
Siehe hier: https://www.nuance.com/products/help/dr ... tation.htm

Holgi · Beitrag von **Holgi** » 09.12.2023, 17:30

Jens1976 hat geschrieben: ↑09.12.2023, 14:57 Das geht doch damit auch?
Siehe hier: https://www.nuance.com/products/help/dr ... tation.htm

stimmt! Soll wo auch so damit gehen.
Aber Dragon steht mit 999,00 € diesem entgegen:

Die Software soll möglichst kostenlos sein; eine Testversion beinhalten; oder für kleines Geld erhältlich sein.

Blondi_2021 · Beitrag von **Blondi_2021** » 09.12.2023, 17:43

grade gelesen zu Dragon

Google und Apple haben bestimmt ganz dolle Tips für Microsoft. Von Nuance (Dragon -> Lernout & Hauspie -> ScanSoft -> Nuance) sollten sie besser keine Tips annehmen, trotz K.I.-Werbetext hat sich bei der Erkennung seit 2005 nicht mehr viel getan. Außer eine neue Versionsnummer aufzustempeln, Ressourcenverbrauch zu verzehnfachen und die Erkennungsrate gleich zu halten (analog zu OmniPage OCR).
Antworten
Quelle https://www.borncity.com/blog/2023/12/0 ... /#comments

Holgi · Beitrag von **Holgi** » 09.12.2023, 18:27

yep. Die Spracherkennung /-steuerung wird m.E. viel zu stiefmütterlich behandelt.
Die Hoffnung ist, dass Voice Access in Windows 11 (12) weiter ausgebaut wird und irgendwann dann auch mal "deutsch" ordentlich funktioniert.
Habs gerade mal installiert. Demnach sollen noch weitere Sprachen folgen. Vlt. erlebe ich das ja noch.
Das mit dem Hinweis auf Dragon (veraltet) ist ebenfalls interessant.

Johann · Beitrag von **Johann** » 07.03.2024, 12:08

Vor längerer Zeit habe ich mich mal intensiv mit Spracherkennungs-/Diktiersoftware befasst. Unter den ganzen Systemen waren für den professionellen Einsatz nur zwei brauchbar und lieferten sich miteinander ein Kopf-an-Kopf-Rennen: Dragon NaturallySpeaking von Nuance und ViaVoice bzw. VoicePro von Linguatec. Beide gibt es heute noch.

Wenn alles gut eingerichtet ist, ein gutes Headset verwendet wird, man paar wichtige Dinge beachtet und vor allem das Programm trainiert ist, funktionierte das Diktieren von Texten flüssig und fehlerarm bis fast fehlerfrei. Und das schon damals, auf den im Vergleich zu heute lahmen Rechnern unter Windows 2000, XP etc.

Das was ich als flüssiges und fehlerarm bis fast fehlerfrei Diktieren bezeichne ist nicht mit dem Gestopsel zu vergleichen, das ich heute mitbekomme wenn Leute irgendwas in Siri, Bixby, Alexa, Hey Google etc. sprechen. Dabei bemüht man sich ja, besonders laut und deutlich, langsam und nach der Schrift zu sprechen, Wörter bis auf den letzten Buchstaben auszuformulieren. Das kann man bei ein, zwei Sätzen machen aber nicht bei einem mehrseitigen Text.

Die Gründe, warum die prof. Spracherkennungssysteme nicht viel häufiger verwendet werden, liegen m. E. am Preis, an der Unzufriedenheit wenn z. B. falsches Equipment verwendet und / oder man zu faul war, alles gescheit einzurichten sowie das System zu trainieren. Dabei liest man mehrere Mustertexte und spricht sie ins System, welches sich dann den Sprachstil und Aussprache des Nutzers merkt. Aufgrund der erst mal nötigen finanziellen und zeitlichen Investitionen war das Ganze vor allem für Leute interessant, bei denen die Zeitersparnis durch ein Spracherkennungssystem entsprechend relevant ist, z. B. Ärzte, Ingenieure, Juristen, Sachverständige etc. Und gerade die schreiben besonders komplizierte Texte mit Fachbegriffen, Fremdwörtern etc. was wiederum noch mehr sowie spezifischeres Training nötig macht. Die Hersteller versuchten dann auch, mit optionalen zu erwerbenden Sprachpaketen für Juristen, Mediziner etc. es diesen leichter zu machen und an ihnen nochmals zu verdienen.

Beschäftigt habe ich mich damals mit dem Zeug weniger im eigenen Interesse sondern für Bekannte, die es verwenden wollten. Für die habe ich das Zeug dann auch beschafft. Einer hat es aufgrund krankheitsbedingter Reduzierung seiner Tätigkeit nicht mehr bzw. nur noch für sich verwendet. Muss mal nachfragen und nachschauen, was mit den Sachen ist, welchen Wert die Lizenzen noch haben usw.