Text to Speech (TTS)

Beispiele

Heutzutage (2025) ist der Unterschied zwischen einer menschlichen Stimme und einer computergenerierten Stimme (fast) nicht hörbar.

Eine frühe Computerstimme klang in etwa wie folgt, abgehakt und metallig:
Eine schon bessere Computerstimme klang so, noch leicht abgehakt und immer noch konstante Tonlage:
Die Juniper-Stimme von OpenAI ChatGPT mit Betonung und Pausen klingt menschlich:

Die grossen Sprünge

Wie kam es zu diesen Verbesserungen?

Rechenpower
Vom Regelwerk zur Wahrscheinlichkeitsrechnung (mit unglaublichen Datenmengen, die verarbeitet werden können, aka LLMs). Linguistisch gesehen: Von der deskriptiven zur preskriptiven Grammatik. 😉

Lizenz

Sprache trifft Technologie Copyright © 2025 Sarah Frederickx. Alle Rechte vorbehalten.

Dieses Buch teilen