Die neue künstliche Intelligenz von Meta verwandelt Texte in den von Ihnen gewünschten Ton

Meta führte Voicebox ein, ein Voice-to-Speech-Modell, das das tut, was ChatGPT und Dall-E für die Text- und Landschaftsproduktion tun.

Im Wesentlichen gibt ein Text-zu-Text-Generator wie GPT oder Dall-E Audioclips aus, anstatt nur Text oder schöne Fotos zu erstellen. Meta beschreibt das System als „ein nicht-autoregressives Flow-Matching-Modell, das darauf trainiert ist, Sprache bei gegebenem Audiokontext und Text auszufüllen.“ Das System wurde mit über 50.000 Stunden ungefiltertem Audio trainiert. Besonders; Es wurden aufgezeichnete Reden und Transkripte aus einer Reihe öffentlich zugänglicher Hörbücher in Englisch, Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch verwendet.

Laut den Forschern ermöglicht dieser vielfältige Datensatz dem System, mehr Gespräche zu generieren, unabhängig davon, welche Sprachen beide Parteien sprechen. Die Ergebnisse zeigen, dass die von Voicebox erstellten Spracherkennungsmodelle fast genauso gut funktionieren wie die auf echter Sprache trainierten Modelle.

Das erste, was der KI beigebracht wird, ist, dass sie Sprachsegmente basierend auf den Segmenten um sie herum und dem Transkript bestätigt. „Das Modell lernt, Sprache aus dem Kontext zu füllen, und kann es dann bei Spracherstellungsaufgaben anwenden, einschließlich der Erstellung von Segmenten mitten in einer Audioaufnahme, ohne dass die gesamte Eingabe neu erstellt werden muss“, sagten die Metaforscher.

Ähnliche Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert