AI-gegenereerde stemmen zijn niet nieuw, ze bestaan al tientallen jaren. Hoe het ook zij, de digitale stemmen die we door de jaren heen hebben ervaren, zouden niemand echt voor de gek houden. Tegenwoordig denk ik echter dat digitale stemmen het punt hebben bereikt waarop ze eng kunnen zijn. Dit is om verschillende redenen. Zijn AI-gegenereerde stemmen tegenwoordig te realistisch?
We zijn een heel eind gekomen sinds die klinische en onsamenhangende stemmen die we door de jaren heen hebben gehoord. Denk aan oude digitale stemmen uit de jaren 2000 en 2010. Google Assistant en Alexa waren ongeveer het beste wat het kon worden. Met de generatieve AI-hausse kwam er echter een enorme push om AI realistischer te maken, en je kunt er zeker van zijn dat dit een diepgaand effect had op hoeveel werk mensen in hun digitale stemmen stopten.
Denk nu eens aan de stemmen die OpenAI liet zien toen het GPT-4o lanceerde. Op dit moment zijn er vier stemmen op het platform. We mogen ook de Gemini-stem van Google niet vergeten. Hoewel ze allemaal realistisch klinken, denk ik niet dat we zagen hoe krankzinnig deze stemmen konden worden. Pas toen ik de nieuwe tool van Google probeerde, realiseerde ik me dat digitale stemmen misschien de drempel naar realisme hadden overschreden.
NotebookLM liet mij zien dat digitale stemmen te realistisch zijn
Mocht u er nog niet van gehoord hebben, Google heeft vorig jaar een product uitgebracht genaamd NotebookLM. Zie het als een door AI ondersteund notitieboek. U kunt informatie uploaden, zoals bronnen en documenten over een bepaald onderwerp, en het materiaal bijhouden. Google gebruikt zijn AI om informatie te lezen en te extraheren uit het materiaal dat u hebt geüpload.
Met deze tool kunt u vragen stellen over het materiaal dat u hebt geüpload. Zie het als het gebruiken van een chatbot die alleen is getraind op het materiaal dat u hebt geüpload. Stel u voor dat u een heel leerboek over natuurkunde uploadt en vragen kunt stellen over het materiaal erin.
Hoewel dit platform niet nieuw is, is er een nieuwe functionaliteit die Google heeft bedacht en nu test. Je kunt Google een podcast-achtige discussie laten genereren op basis van de informatie die je hebt geüpload. Als ik podcast-achtig zeg, bedoel ik dat het de bedoeling is dat het lijkt alsof twee mensen daadwerkelijk een microfoon hebben opgezet en een echte podcast hebben opgenomen.
De stemmen klinken om meerdere redenen verontrustend realistisch. De zinnen vloeien natuurlijk en de cadans en intonatie van de sprekers zijn extreem natuurlijk. En niet alleen dat, Google heeft zelfs een aantal van de kleine dingen vastgelegd die de mens van de machine onderscheiden. Ik kan ademhalingsgeluiden horen, het voegt de “ums” en “likes” toe die je hoort als mensen in het echte leven praten, en er was zelfs een geval waarbij een van de sprekers een valse start had met een woord en zichzelf corrigeerde. Google ging zelfs zo ver dat een van de sprekers lachte.
Het is één ding om een stem te creëren die goed klinkt als je een direct antwoord geeft of een script voorleest. Het is echter een heel ander verhaal om een stem te ontwerpen die klinkt alsof hij een menselijk gesprek voert. En Google heeft het helemaal goed gedaan.
Tijdens de podcastaflevering viel mij het volgende op:
Spreker #1: “Dus, het artikel noemt specifiek twee apps. USB Audio Pro en Musicalot. Heb je van een van die twee gehoord?”
Spreker #2: “USB Audio Pro. Dat doet een belletje rinkelen. Ik denk dat een vriend van mij het gebruikt.”
Het wees letterlijk op een vriendschappelijke relatie tussen een van de sprekers en een persoon. Deze voorbeelden zijn een van de vele andere voorbeelden.
De stem van Google deed het engste…
Oké, het is goed, maar er zijn andere goede digitale stemmen. Wat maakt dit anders? Nou, het ding is dat het waarschijnlijk het engste deed wat een AI-stem kan doen… het deed me vergeten.
Ik uploadde een van mijn artikelen en liet het een discussie creëren. NotebookLM spuugde een mini-podcastaflevering van 12 1/2 minuten uit. Ik begon ernaar te luisteren en de schok dat het een door AI gegenereerde discussie was, verdween. Na een paar minuten vergat ik eigenlijk dat ik kort naar door AI gegenereerde stemmen luisterde. Misschien was het een minuut, misschien was het 15 seconden. Maar Google heeft de kunst onder de knie om stemmen zo geaard en realistisch te laten klinken.
Zoals je wel kunt raden, schrok ik me rot. Ik wist dat het door AI gegenereerd was, maar het was zo realistisch dat ik het eigenlijk vergat.
Laatste puzzelstukje
Bedrijven doen hun uiterste best om hun AI-producten door onze strot te duwen, en dat om meerdere redenen. Natuurlijk zijn er bedrijven die alleen maar proberen om de investeerders tevreden te houden, maar er zijn ook misleide bedrijven die graag willen dat je het nut van door mensen gemaakte content vergeet. We zien platforms die letterlijk hele video’s voor je genereren met een door AI gegenereerde avatar, een door AI gegenereerd script en een door AI gegenereerde stem.
Niet alleen dat, maar we zien bedrijven als Wix adverteren dat gebruikers binnen enkele minuten hele websites kunnen maken met AI. En we mogen de AI-datingapps niet vergeten. Er is zelfs een social media-app waarbij de AI zelf content genereert en berichten plaatst. We leven in een wereld waarin we de schoonheid van menselijke creatie beginnen te vergeten, en wat dit erger maakt, is dat er mensen zijn die dit gedrag goedkeuren.
Nu AI-stemmen zo goed worden, zal deze trend alleen maar erger worden. Het punt is dat mensen zich associëren met spraak; een warme en menselijk klinkende stem kan ervoor zorgen dat iemand zich met iets verbindt. Het wordt alleen maar erger als bedrijven de stemmen persoonlijker en op het individu afgestemd laten klinken.
Realistische stemmen zijn een van de laatste puzzelstukjes om een persoon volledig te laten associëren met een AI. Als je naar een AI luistert met een koude en janky-klinkende stem, is dat een constante herinnering dat het een robot is. Zodra de stem realistisch wordt, is de kans groter dat je het als mens beschouwt.
Wat zou er in de toekomst kunnen gebeuren?
We bevinden ons op wat voelt als een omslagpunt als het gaat om relaties tussen mens en AI. Er zijn mensen die al met AI omgaan. OpenAI heeft zelfs een verklaring afgegeven waarin mensen worden aangespoord om niet verliefd te worden op ChatGPT. Weet je wat daar zo raar aan is? Iedereen die oud genoeg is om met AI om te gaan, is opgegroeid in een meer traditionele wereld waar de enige interacties menselijk waren.
Maar, met bedrijven die de grenzen van hoe menselijke AI kan zijn verleggen en hun AI door onze strot duwen, hoe zit het dan met de volgende generatie of de generatie daarna? Stel je een kind voor dat morgen geboren wordt en opgroeit in een steeds meer door AI aangestuurde wereld. Hoe zou dat kind in 2040 zijn als ze een tiener zijn? Hoeveel LLM’s zouden effect hebben gehad op het leven van dat kind? Zal dit kind weten hoe verkeerd door AI gegenereerde relaties zijn als ze les hebben gehad van een chatbot in plaats van een leraar?
Nu stemmen zo echt zijn, wat is dan het nut van het opnemen van podcasts als je er gewoon een kunt genereren? Natuurlijk zullen mensen tegenwoordig op een door AI gegenereerde podcast stampen, maar denk eens aan hoe het er over een paar jaar aan toe zal gaan als AI meer genormaliseerd is. Jongere luisteraars, die zijn opgegroeid met AI, zullen er waarschijnlijk niet om geven. In plaats van een groep podcasters te prijzen, zullen de luisteraars het model prijzen dat de data wordt gevoed.
Met AI-stemmen die zo realistisch klinken, is de mensheid een stap dichter bij het daadwerkelijk vergeten van de mensheid zelf. Google heeft de kunst van de stem onder de knie en we hebben geen idee wat voor gevolgen dit zal hebben.