Apple-onderzoekers schetsen een nieuwe methode voor natuurlijker klinkende gesprekken met Siri

Apple werkt dag en nacht om zijn digitale assistent, Siri, te verbeteren. Uit een nieuw rapport blijkt dat het bedrijf werkt aan snellere en natuurlijker klinkende gesprekken. Een onderzoek laat zien hoe veranderingen in de spraakgeneratie responsvertragingen kunnen verminderen en de duidelijkheid kunnen verbeteren. Het interne onderzoekswerk benadrukt de intentie van de technologiegigant om zijn kunstmatige intelligentie-stack te versterken en tegelijkertijd de afhankelijkheid van externe modellen voor kernervaringen met stemassistenten geleidelijk te verminderen.

Apple werkt eraan om natuurlijk klinkende gesprekken met Siri tot stand te brengen

Typische stemmodellen genereren spraak in kleine fonetische tokens, waarbij elk geluid stap voor stap wordt geselecteerd via autoregressie. Hoewel deze methode behoorlijk werkt, kan het soms kleine pauzes en incidentele uitspraakproblemen met zich meebrengen, vooral als de trainingsgegevens beperkt zijn. Dit ene nadeel kan de gesprekken soms verpesten. Onderzoekers bij Apple leggen uit dat deze vertragingen merkbaar worden in gesprekssituaties, waar gebruikers verwachten dat Siri vloeiend en zonder lastige pauzes reageert.

Om dit probleem op te lossen, stelt Apple’s onderzoek akoestische gelijkenisgroepen voor, die spraakklanken groeperen die perceptueel hetzelfde zijn. De methode beperkt de keuzes tot gelijk klinkende groepen. Hierdoor kan het systeem de juiste spraaktokens sneller identificeren. Door probabilistisch zoeken binnen deze groepen kan het model de natuurlijke buiging behouden terwijl de latentie wordt verminderd. Als gevolg hiervan kan het model resultaten opleveren die sneller zijn en natuurlijker klinken. Het zorgt ervoor dat de digitale assistent menselijker en gemoedelijker klinkt.

Het bedrijf zet een nieuwe stap richting grotere AI-onafhankelijkheid

Een ander groot voordeel van de nieuwe methode is dat het de rekenkundige overhead vermindert, waardoor realtime reacties op het apparaat mogelijk zijn. Het is zeer privacyvriendelijk en kan efficiëntie en consistentie op alle Apple-hardware mogelijk maken zonder grote afhankelijkheid van cloudverwerking. Het onderzoek is echter incrementeel. Hoewel het wel de toewijding van het bedrijf laat zien om zijn eigen machine learning-fundamenten te verfijnen.

Apple streeft ook naar grotere AI-onafhankelijkheid in de toekomst. Hoewel het een feit is dat het onlangs samenwerkte met Google om zijn Gemini te gebruiken, onthullen dergelijke inspanningen een langetermijnvisie op het merk. Hoe dan ook, er is geen woord over de integratie van de nieuwe snelheidsmethode in Siri. Het bedrijf kan het wel of niet naar het stabiele publiek brengen.