OpenAI kondigt 'Voice Engine' aan om menselijke stemmen te creëren

OpenAI kan nu menselijke stemmen recreëren met zijn ‘Voice Engine’-platform. Het door Microsoft gefinancierde bedrijf houdt de nieuwe AI-engine dicht bij de borst vanwege duidelijke ethische en juridische implicaties.

Na het enorme succes van ChatGPT, DALL-E en Sora heeft OpenAI zich nu op het gebied van geluid begeven, in het bijzonder menselijke spraak en stem. De Voice Engine AI bevindt zich momenteel in de bètatestfase, maar internetgebruikers kunnen zich mogelijk niet aanmelden voor een abonnement.

Voice Engine kan meertalige menselijke stemmen reproduceren met opnamen van slechts 15 seconden

ChatGPT veroverde de wereld stormenderhand, DALL-E ontgrendelde de creativiteit van miljoenen mensen, en Sora zou binnenkort gewone internetgebruikers de kans kunnen geven om filmmakers te worden. Na tekst, afbeeldingen en video's heeft OpenAI nu Voice Engine aangekondigd, een AI-platform dat menselijke stemmen kan nabootsen.

De New York Times ontving een demo van het Voice Engine-platform. De AI-engine kan naar verluidt de stem van een mens nabootsen op basis van een opname van 15 seconden. Als dat nog niet eng genoeg is, kan Voice Engine, na het absorberen van de benodigde informatie, elke tekstprompt uitspreken in de nagebouwde menselijke stem.

We delen onze lessen uit een kleinschalige preview van Voice Engine, een model dat tekstinvoer en een enkel audiofragment van 15 seconden gebruikt om natuurlijk klinkende spraak te genereren die sterk lijkt op de originele spreker. https://t.co/yLsfGaVtrZ

— OpenAI (@OpenAI) 29 maart 2024

Verrassend genoeg hoeft de tekstprompt niet eens in de moedertaal van de spreker te zijn, wiens stem werd gebruikt om de AI-engine te trainen. Met andere woorden: een moedertaalspreker van het Engels kan via Voice Engine Spaans, Frans, Chinees of vele andere talen spreken.

Gezien de voor de hand liggende valkuilen van een dergelijke technologie heeft OpenAI verzekerd dat het meerdere veiligheidscontroles zoals watermerken onderzoekt. Er zouden controles zijn die Voice Engine ervan weerhouden de menselijke stemmen van bepaalde individuen te creëren.

#OpenAI Nieuwe stemmotor helpt patiënt die door een hersentumor spraak is kwijtgeraakt, weer vloeiend te spreken. @OpenskiesX pic.twitter.com/YB0mjKJYew

— RameshR (@rezmeram) 29 maart 2024

Interessant is dat OpenAI-productmanager Jeff Harris naar verluidt heeft beweerd dat het bedrijf geen directe plannen heeft om geld te verdienen met de technologie. Het primaire doel van de app is om nuttig te zijn voor mensen die door ziekte of een ongeval hun stem zijn kwijtgeraakt, voegde hij eraan toe.

Zal OpenAI zijn nieuwste creatie als abonnement aan internetgebruikers aanbieden?

OpenAI's Sora, waarmee gebruikers een film van 60 seconden kunnen maken met alleen tekstprompts, is niet beschikbaar voor het grote publiek. Evenzo heeft het bedrijf geen enkele versie van Voice Engine uitgebracht.

Voice Engine is momenteel beschikbaar voor ‘een kleine groep bedrijven’. Simpel gezegd hebben een paar bedrijven, vermoedelijk op uitnodiging, beperkte toegang tot het platform.

Het is onnodig om te vermelden dat er enorme ethische en juridische implicaties zijn verbonden aan een AI-platform dat menselijke stemmen kan reproduceren, in meerdere talen, op basis van vijftien opnames.

OpenAI kondigt publiekelijk hun Voice Engine aan, waarmee stemklonen vanaf 15 seconden audio mogelijk is.https://t.co/zMRViqN5f5

Oorspronkelijk ontwikkeld eind 2022, hebben ze het getest met een verscheidenheid aan vertrouwde partners. In de blogpost worden enkele demovoorbeelden gedeeld. Zij hebben geen… pic.twitter.com/aGK0ghwlsv

– Tanishq Mathew Abraham, Ph.D. (@iScienceLuvr) 29 maart 2024

OpenAI heeft mogelijk beperkte toegang tot Voice Engine. Het is echter zorgwekkend om op te merken dat AI is veranderd in een kolos.

Naast het overtuigen van deepfake-afbeeldingen en -video's, gebruiken oplichters en fraudeurs al geruime tijd AI om menselijke stemmen na te bootsen. Verschillende slachtoffers zijn ten prooi gevallen aan diepe nep-spraakberichten die klonken alsof hun familieleden in de problemen zaten en om geld vroegen.

OpenAI heeft zojuist Voice Engine gelanceerd,
Het maakt gebruik van tekstinvoer en een enkel audiofragment van 15 seconden om natuurlijk klinkende spraak te genereren die sterk lijkt op de originele spreker.
Referentie- en gegenereerde audio liggen zeer dicht bij elkaar en zijn moeilijk van elkaar te onderscheiden.
Meer details in 🧵 pic.twitter.com/tJRrCO2WZP

— AshutoshShrivastava (@ai_for_success) 29 maart 2024

In de verkeerde handen zou Voice Engine de stemmen van politici, beroemdheden, journalisten en andere prominente persoonlijkheden kunnen accepteren en opnieuw creëren. Het platform zou kunnen worden gebruikt om overtuigende audiofragmenten te maken die verkeerde informatie of propaganda verspreiden. In een even beangstigend scenario kunnen hackers en criminelen beveiligingssystemen die afhankelijk zijn van stemauthenticatie in gevaar brengen.

Daarom zou OpenAI het Voice Engine-platform hoogstwaarschijnlijk zwaar censureren en reguleren. Het zou een aantal stevige en slimme digitale sloten moeten formuleren, evenals strenge veiligheidscontroles om misbruik ervan te voorkomen.

Afgezien van veiligheids- en ethische zorgen, zou de Voice Engine van OpenAI enorm nuttig kunnen zijn voor producenten van films en webseries die hun creaties in andere talen moeten nasynchroniseren. Op dezelfde manier zouden ook de onderwijs- en amusementssectoren er enorm van kunnen profiteren.