Gmail Voice Compose gebruikt AI en uw stem om e-mails op te stellen

Google introduceerde in juni 2023 ‘Help Me Write’ in Gmail, en nu probeert Gmail Voice Compose dat door AI aangedreven gemak te vergroten. AI-tools hebben hun weg gevonden naar allerlei soorten diensten en industrieën, en met goede reden. De tijd van wankele stemherkenning en zich misdragende mobiele assistenten zijn al lang voorbij. Door AI aangedreven stemherkenning doet natuurlijk wonderen; aangezien dit een van de eerste voorgestelde toepassingen van grote taalmodellen was. Met de nieuwste aankomende functie van Gmail kun je hiervan gebruik maken om professionele e-mails te maken door gewoon in je telefoon te praten.

Gmail Voice Compose werkt net als ‘Help mij schrijven’

Met de functie ‘Help mij schrijven’ in de Gmail-apps op Android en iOS kunnen gebruikers e-mails opstellen op basis van tekstfragmenten. Gebruikers schrijven de belangrijkste punten van waar hun e-mail over gaat, en AI doet de rest. “Help Me Write” bespaart niet alleen tijd, het stelt ook een complete en professionele e-mail op uit slechts een paar regels informele tekst. Voice Compose lijkt op dezelfde manier te werken, maar dan door naar een gebruiker te luisteren in plaats van hem te laten schrijven.

Zoals ontdekt door TheSpAndroid, bevat de release van de Gmail Android-app versie 2023.12.31.599526178 een nieuwe functie die toegankelijk is via het wisselen van een vlagwaarde. Met deze functie kunt u uzelf opnemen terwijl u een e-mail schrijft door op een microfoonknop te tikken. Wanneer u klaar bent met opnemen, wordt AI gevraagd om uw e-mail te maken op basis van uw opname door op ‘Maken’ te klikken. Hoewel het erg lijkt op de functie “Help mij schrijven”, is Voice Compose beslist sneller en handiger.

Hoe werkt AI spraak-naar-tekst?

AI-spraak-naar-tekst is veel nauwkeuriger in het ontcijferen van wat iemand zegt dan oudere spraakherkenningsmodellen. De sprong in het vermogen was bijna schokkend, maar ook heel begrijpelijk als je eenmaal begrijpt hoe LLM’s werken. Grote taalmodellen worden op een zeer vereenvoudigde manier gezien als ‘woordvoorspellers’. Wat ze doen is voorspellen welk woord na het laatste woord moet komen.

Deze definitie bewijst een slechte dienst aan het complexe neurale netwerk dat LLM’s bezitten, maar helpt wel om te begrijpen hoe hun spraakherkenning werkt. Oudere spraakherkenningsmodellen analyseerden elk geluid en probeerden erachter te komen welk woord het was. Dit zou heel vaak leiden tot volkomen onzinnige zinnen. AI-spraakherkenning luistert niet alleen naar elk afzonderlijk woord en analyseert het. Het vergelijkt het met alles wat eerder is gezegd en raadt wat waarschijnlijk zojuist is gezegd. Dit is de reden waarom AI-spraakherkenning mijlenver voorloopt op oudere modellen; er zit enige intelligentie achter.

Gmail Voice Compose zou vrij snel moeten worden uitgerold, aangezien er naar verluidt al sinds oktober vorig jaar aan wordt gewerkt. Als het net zo goed werkt als andere AI-spraak-naar-tekst-modellen, zal het een enorme stap voorwaarts betekenen in gebruiksgemak voor degenen die de Gmail-app gebruiken.

Thijs Van der Does