Die Reaktion auf meinen Post zur Frage: "wer kennt eine Speech to Text Software?" tendierte ja leider gen 0. Offenbar interessiert dieses Thema noch nicht die breite Masse. Seisdrum.
Ich glaube fest daran, dass dies ein Zukunftsmarkt sein wird.
Meine Recherchen haben ergeben:
1. es gibt viele Apps für IOS und Android, die dieses erledigen; nicht geeignet für meinen Fall
2. die Art Software wird jetzt schon von vielen Studios eingesetzt, um automatisch Untertitel für Filme zu erzeugen
3. das beste am Markt ist wohl "Whisper" von OpenAI. Wäre zwar grundsätzlich für meine Zwecke nützlich (kostenlos, Offline etc.)
leider setzt Whisper etwas mehr Kenntnisse voraus (z.B. Python), die ich leider nicht habe.
Da ich mit Offline Tools nicht weitergekommen bin, habe ich in den sauren Apfel gebissen und Online Tools ausprobiert.
Die Ergebnisse waren durchwachsen.
Hintergrund: in einem Telefonatmitschnitt (ja: mit Einwilligung!) wird nicht immer so deutlich gesprochen. Man fällt sich vlt. auch mal ins Wort. Das ist halt anders, als z.B. bei einem Diktat wie mit Dragon Dictate. Deutsche Vornamen z.B. werden nicht immer als solche erkannt. Im Nachhinein ist dann bei dem Transkript noch eine Menge Handarbeit/Nacharbeit notwendig.
Zufällig erhielt ich die Tage von der Firma Cyberlink (bekannt vlt. durch den MediaPlayer PowerDVD) einen Newsletter per e-mail.
Da wurde auf deren neue KI-Tools hingewiesen. Es ist dort u.a auch ein Speech2Text Konverter darunter.
https://myedit.online/de/audio-editor/speech-to-text
Den habe ich ausprobiert und ich muss sagen: von allen von mir getesteten Online Konvertern war dieser der akurateste und am einfachsten zu bedienen.
Für kurze Audioschnipsel ist der Umsonst. Für längere müßte man ein Abo abschließen, was aber auch monatlich geht. Das fängt an bei 8€ pro Monat und beinhaltet dann 600 Minuten KI-Spracherkennung. Für meine Zwecke reichte aber die kostenlose Version. Es bedarf lediglich einer Registrierung/Anmeldung bei Cyberlink. Da ich da sowieso schon mit meiner Software registriert bin, war das kein Problem für mich.
Jährlich wären es 36€ (also umgerechnet 3€ pro Monat).
Whisper von OpenAI würde ich gerne noch mal ausprobieren. Da bräuchte ich allerdings Hilfe für die Einrichtung hier aus dem Forum.
Anbei noch meine gesammelten Links zu dem Thema. Vlt. ja mal nützlich.
---------------------------------------------------------------------------------------------
Whisper Offline:
https://github.com/openai/whisper/discussions/1463
https://github.com/openai/whisper/discussions/718
https://www.reddit.com/r/tasker/comment ... ?rdt=48795
https://eightify.app/summary/computer-s ... openai-asr
Flixier: Dies ist ein kostenloser Online-Konverter von Audio zu Text, der mit allen gängigen Audio- und Videoformaten kompatibel ist. Du kannst deine MP3-Datei einfach hochladen, auf die Schaltfläche “Untertitel generieren” klicken und eine genaue Abschrift deiner Audio-Datei erhalten. Du kannst auch deine Audio- und Videodateien online bearbeiten, schneiden, zuschneiden oder Grafiken hinzufügen. Flixier unterstützt 25 verschiedene Sprachen für die Spracherkennung1.
https://flixier.com/de/tools/audio-in-text-umwandeln
https://editor.flixier.com/home/projects
https://editor.flixier.com/transcribe
https://editor.flixier.com/transcribe/4 ... 1e5881574d
Anmelden mit Google Account
https://cloud.google.com/speech-to-text ... d_source=1
VEED.IO: Dies ist ein weiteres Online-Tool, das deine Audiodateien automatisch für dich transkribiert. Du musst nur deine Audio- oder Videodatei hochladen, auf das Werkzeug Untertitel/Transkription klicken, und VEED wird die Sprache für dich in Text umwandeln. VEED unterstützt MP3, WAV und andere gängige Audioformate2.
https://www.veed.io/de-DE/werkzeuge/audio-zu-text
Converter App: Dies ist eine kostenlose App, die dir ermöglicht, MP3 in Text zu konvertieren, indem du die Bilder auf der rechten Seite hochlädst. Du musst nur einen Moment warten, während deine Textausgabe erstellt wird, und dann auf den Download-Button klicken, um dein konvertiertes Audio kostenlos zu erhalten. Converter App unterstützt verschiedene Sprachen für die Spracherkennung3.
https://converter.app/de/mp3-zu-text/
https://myedit.online/de/audio-editor/speech-to-text
https://myedit.online/de/audio-editor/vocal-remover
https://praxistipps.chip.de/sprache-in- ... ware_51275
https://filmora.wondershare.de/more-tip ... fline.html
https://www.movavi.de/learning-portal/b ... tware.html
Text in Sprache:
https://ttsmaker.com/de
https://praxistipps.chip.de/text-in-spr ... -es_164786
Software: Es gibt eine Vielzahl von Softwareanwendungen, die Text-zu-Sprache-Funktionen bieten. Diese reichen von Textverarbeitungsprogrammen wie Microsoft Word und Google Docs bis zu speziellen TTS-Programmen. Diese Anwendungen können Text in natürliche Sprache umwandeln und verfügen über eine Auswahl an unterschiedlichen Stimmen und Sprachen.
Online-Dienste: Es gibt Online-Dienste, die Text-zu-Sprache-Konvertierung anbieten. Diese Dienste sind oft kostenlos oder bieten kostenpflichtige Optionen für erweiterte Funktionen. Eine Auswahl finden Sie im nächsten Kapitel.
Mobile Anwendungen: Mobile Anwendungen sind eine praktische Möglichkeit, Text in Sprache umzuwandeln. Diese Apps können auf Smartphones und Tablets installiert werden. Sie bieten verschiedene Funktionen, wie Text aus Bildern zu extrahieren und in Sprache umzuwandeln. Die Top 100 Vorlesen-Apps finden Sie hier.
Betriebssystemfunktionen: Viele Betriebssysteme, wie Windows, bieten eine eingebaute Text-zu-Sprache-Funktion. Diese können in den Systemeinstellungen aktiviert und angepasst werden. Diese Funktion ermöglicht den Benutzern, jeden auf dem Bildschirm angezeigten Text in Sprache umzuwandeln.
Künstliche Intelligenz (KI): Die neueste Entwicklung in der Text-zu-Sprache-Technologie ist die Verwendung von Künstlicher Intelligenz. KI-basierte TTS-Systeme, wie Murf oder Listnr, können natürlichere und flüssigere Sprache erzeugen als traditionelle TTS-Technologien. Sie können auch den Kontext des Textes verstehen und die Aussprache und Betonung entsprechend anpassen.
TTS-Dienste: Eine Liste bekannter Online-Anbieter
Diese Online-Anbieter bieten sowohl kostenlose als auch kostenpflichtige Modelle an. Detaillierte Informationen erhalten Sie direkt auf der jeweiligen Homepage:
Amazon Polly ist der Cloud-Dienst von Amazon, der lebensechte Sprachausgabe bietet und in verschiedene Anwendungen integriert werden kann.
Google Text-to-Speech ist ein weitverbreiteter Dienst, der in viele Google-Produkte integriert ist, einschließlich Google Translate.
IBM Text to Speech bietet verschiedene Stimmen und Sprachen und nutzt Deep Learning, um natürliche Sprachausgabe zu erzeugen.
Natural Reader ist ein Online-TTS-Dienst, der auch eine Desktop-Version bietet. Der Dienst ist ideal für Bildungszwecke.
ResponsiveVoice ist ein leicht zu integrierender Webdienst, der auf vielen Websites verwendet wird, um Text für den Benutzer vorzulesen.
Die Reaktion auf meinen Post zur Frage: "wer kennt eine Speech to Text Software?" tendierte ja leider gen 0. Offenbar interessiert dieses Thema noch nicht die breite Masse. Seisdrum.
Ich glaube fest daran, dass dies ein Zukunftsmarkt sein wird.
Meine Recherchen haben ergeben:
1. es gibt viele Apps für IOS und Android, die dieses erledigen; nicht geeignet für meinen Fall
2. die Art Software wird jetzt schon von vielen Studios eingesetzt, um automatisch Untertitel für Filme zu erzeugen
3. das beste am Markt ist wohl "Whisper" von OpenAI. Wäre zwar grundsätzlich für meine Zwecke nützlich (kostenlos, Offline etc.)
leider setzt Whisper etwas mehr Kenntnisse voraus (z.B. Python), die ich leider nicht habe. :betruebt:
Da ich mit Offline Tools nicht weitergekommen bin, habe ich in den sauren Apfel gebissen und Online Tools ausprobiert.
Die Ergebnisse waren durchwachsen.
Hintergrund: in einem Telefonatmitschnitt (ja: mit Einwilligung!) wird nicht immer so deutlich gesprochen. Man fällt sich vlt. auch mal ins Wort. Das ist halt anders, als z.B. bei einem Diktat wie mit Dragon Dictate. Deutsche Vornamen z.B. werden nicht immer als solche erkannt. Im Nachhinein ist dann bei dem Transkript noch eine Menge Handarbeit/Nacharbeit notwendig.
Zufällig erhielt ich die Tage von der Firma Cyberlink (bekannt vlt. durch den MediaPlayer PowerDVD) einen Newsletter per e-mail.
Da wurde auf deren neue KI-Tools hingewiesen. Es ist dort u.a auch ein Speech2Text Konverter darunter.
[url]https://myedit.online/de/audio-editor/speech-to-text[/url]
Den habe ich ausprobiert und ich muss sagen: von allen von mir getesteten Online Konvertern war dieser der akurateste und am einfachsten zu bedienen.
Für kurze Audioschnipsel ist der Umsonst. Für längere müßte man ein Abo abschließen, was aber auch monatlich geht. Das fängt an bei 8€ pro Monat und beinhaltet dann 600 Minuten KI-Spracherkennung. Für meine Zwecke reichte aber die kostenlose Version. Es bedarf lediglich einer Registrierung/Anmeldung bei Cyberlink. Da ich da sowieso schon mit meiner Software registriert bin, war das kein Problem für mich.
Jährlich wären es 36€ (also umgerechnet 3€ pro Monat).
Whisper von OpenAI würde ich gerne noch mal ausprobieren. Da bräuchte ich allerdings Hilfe für die Einrichtung hier aus dem Forum.
Anbei noch meine gesammelten Links zu dem Thema. Vlt. ja mal nützlich.
---------------------------------------------------------------------------------------------
Whisper Offline:
https://github.com/openai/whisper/discussions/1463
https://github.com/openai/whisper/discussions/718
https://www.reddit.com/r/tasker/comments/12r2nde/how_to_transcribe_text_with_openais_whisper/?rdt=48795
https://eightify.app/summary/computer-science-and-technology/whisper-offline-audio-to-text-guide-openai-asr
Flixier: Dies ist ein kostenloser Online-Konverter von Audio zu Text, der mit allen gängigen Audio- und Videoformaten kompatibel ist. Du kannst deine MP3-Datei einfach hochladen, auf die Schaltfläche “Untertitel generieren” klicken und eine genaue Abschrift deiner Audio-Datei erhalten. Du kannst auch deine Audio- und Videodateien online bearbeiten, schneiden, zuschneiden oder Grafiken hinzufügen. Flixier unterstützt 25 verschiedene Sprachen für die Spracherkennung1.
https://flixier.com/de/tools/audio-in-text-umwandeln
https://editor.flixier.com/home/projects
https://editor.flixier.com/transcribe
https://editor.flixier.com/transcribe/4f4d26c6-f41b-293e-a57c-cb1e5881574d
Anmelden mit Google Account
https://cloud.google.com/speech-to-text?hl=de&utm_source=google&utm_medium=cpc&utm_campaign=emea-de-all-de-dr-skws-all-all-trial-b-gcp-1011340&utm_content=text-ad-none-any-DEV_c-CRE_654887395088-ADGP_Hybrid+%7C+SKWS+-+BRO+%7C+Txt+~+AI+%26+ML+~+Speech-to-Text%23v3-KWID_43700076014498265-kwd-846204314869-userloc_9043677&utm_term=KW_audiodatei%20in%20text%20umwandeln%20kostenlos-NET_g-PLAC_&gad_source=1
VEED.IO: Dies ist ein weiteres Online-Tool, das deine Audiodateien automatisch für dich transkribiert. Du musst nur deine Audio- oder Videodatei hochladen, auf das Werkzeug Untertitel/Transkription klicken, und VEED wird die Sprache für dich in Text umwandeln. VEED unterstützt MP3, WAV und andere gängige Audioformate2.
https://www.veed.io/de-DE/werkzeuge/audio-zu-text
Converter App: Dies ist eine kostenlose App, die dir ermöglicht, MP3 in Text zu konvertieren, indem du die Bilder auf der rechten Seite hochlädst. Du musst nur einen Moment warten, während deine Textausgabe erstellt wird, und dann auf den Download-Button klicken, um dein konvertiertes Audio kostenlos zu erhalten. Converter App unterstützt verschiedene Sprachen für die Spracherkennung3.
https://converter.app/de/mp3-zu-text/
https://myedit.online/de/audio-editor/speech-to-text
https://myedit.online/de/audio-editor/vocal-remover
https://praxistipps.chip.de/sprache-in-text-umwandeln-kostenlose-software_51275
https://filmora.wondershare.de/more-tips/transcribe-speech-to-text-offline.html
https://www.movavi.de/learning-portal/best-speech-to-text-software.html
Text in Sprache:
https://ttsmaker.com/de
https://praxistipps.chip.de/text-in-sprache-umwandeln-diese-moeglichkeiten-gibt-es_164786
Software: Es gibt eine Vielzahl von Softwareanwendungen, die Text-zu-Sprache-Funktionen bieten. Diese reichen von Textverarbeitungsprogrammen wie Microsoft Word und Google Docs bis zu speziellen TTS-Programmen. Diese Anwendungen können Text in natürliche Sprache umwandeln und verfügen über eine Auswahl an unterschiedlichen Stimmen und Sprachen.
Online-Dienste: Es gibt Online-Dienste, die Text-zu-Sprache-Konvertierung anbieten. Diese Dienste sind oft kostenlos oder bieten kostenpflichtige Optionen für erweiterte Funktionen. Eine Auswahl finden Sie im nächsten Kapitel.
Mobile Anwendungen: Mobile Anwendungen sind eine praktische Möglichkeit, Text in Sprache umzuwandeln. Diese Apps können auf Smartphones und Tablets installiert werden. Sie bieten verschiedene Funktionen, wie Text aus Bildern zu extrahieren und in Sprache umzuwandeln. Die Top 100 Vorlesen-Apps finden Sie hier.
Betriebssystemfunktionen: Viele Betriebssysteme, wie Windows, bieten eine eingebaute Text-zu-Sprache-Funktion. Diese können in den Systemeinstellungen aktiviert und angepasst werden. Diese Funktion ermöglicht den Benutzern, jeden auf dem Bildschirm angezeigten Text in Sprache umzuwandeln.
Künstliche Intelligenz (KI): Die neueste Entwicklung in der Text-zu-Sprache-Technologie ist die Verwendung von Künstlicher Intelligenz. KI-basierte TTS-Systeme, wie Murf oder Listnr, können natürlichere und flüssigere Sprache erzeugen als traditionelle TTS-Technologien. Sie können auch den Kontext des Textes verstehen und die Aussprache und Betonung entsprechend anpassen.
TTS-Dienste: Eine Liste bekannter Online-Anbieter
Diese Online-Anbieter bieten sowohl kostenlose als auch kostenpflichtige Modelle an. Detaillierte Informationen erhalten Sie direkt auf der jeweiligen Homepage:
Amazon Polly ist der Cloud-Dienst von Amazon, der lebensechte Sprachausgabe bietet und in verschiedene Anwendungen integriert werden kann.
Google Text-to-Speech ist ein weitverbreiteter Dienst, der in viele Google-Produkte integriert ist, einschließlich Google Translate.
IBM Text to Speech bietet verschiedene Stimmen und Sprachen und nutzt Deep Learning, um natürliche Sprachausgabe zu erzeugen.
Natural Reader ist ein Online-TTS-Dienst, der auch eine Desktop-Version bietet. Der Dienst ist ideal für Bildungszwecke.
ResponsiveVoice ist ein leicht zu integrierender Webdienst, der auf vielen Websites verwendet wird, um Text für den Benutzer vorzulesen.