Apple ontkent gebruik van YouTube-ondertiteling om ‘Apple Intelligence’ te trainen

Apple heeft de beschuldigingen over het scrapen van YouTube-ondertitels om ‘Apple Intelligence’ te trainen, ontkend. De iPhone-maker heeft echter niet expliciet beweerd dat YouTube-transcripties geen deel uitmaken van zijn Generative Artificial Intelligence (Gen AI).

Apple vertrouwde op OpenELM Data, niet op EleutherAI, om zijn AI te trainen

Volgens een onderzoek van Bewijs Nieuwsgebruikten verschillende grote bedrijven transcripties van YouTube-video’s om hun AI-engines te trainen. De observaties en claims werden samen met Wired gepubliceerd.

Het onderzoek beweerde dat Apple, Anthropic, Nvidia en Salesforce tot de verschillende techbedrijven behoorden die YouTube-ondertitels of videotranscripties in meerdere talen gebruikten. Technisch gesproken beweerde het rapport dat deze bedrijven vertrouwden op een grote dataset van de non-profitorganisatie EleutherAI genaamd The Pile, die op zijn beurt YouTube-ondertitels heeft.

Volgens het rapport maakten 173.536 YouTube-video’s van meer dan 48.000 YouTube-kanalen deel uit van de dataset. Apple heeft nu verduidelijkt hoe het content van OpenELM gebruikte om zijn AI te trainen.

Biedt Apple Intelligence geen YouTube-ondertiteling als trainingsmateriaal?

Het is interessant om op te merken dat Apple niet specifiek heeft ontkend dat Apple Intelligence YouTube-ondertitelingsgegevens bevat. In plaats daarvan heeft het bedrijf naar verluidt beweerd dat het de rechten van makers en uitgevers respecteert. Bovendien heeft het bedrijf vermeld dat het websites de mogelijkheid biedt om zich af te melden voor het gebruik van hun gegevens om Apple Intelligence te trainen.

Het lijkt erop dat Apple suggereert dat het op OpenELM vertrouwde, niet op de dataset van EleutherAI, om Apple Intelligence te bouwen. In een onderzoekspaper over OpenELM (PDF) gaven onderzoekers echter toe dat ze het op Pile-data hadden getraind.

Apple zegt dat zijn OpenELM-model Apple Intelligence niet ondersteunt vanwege YouTube-controverse #ReceptieveTaal #Vocabulaire #Rijmen #Zingen #Spreken (Video)https://t.co/NixVnMzOSy

— Marta Fernandez (@MartaFGNN) 18 juli 2024

Apple benadrukte dat het zijn AI-modellen traint met behulp van “hoogwaardige gegevens, waaronder gelicentieerde gegevens van uitgevers, stockfoto’s en een aantal openbaar beschikbare gegevens van het web.” Datasets van OpenELM zijn echter alleen bedoeld voor onderzoeksdoeleinden, beweerde het bedrijf.

Apple heeft verder verklaard dat OpenELM niet wordt gebruikt om AI-functies in Apple-apparaten aan te sturen. Bovendien impliceerde het bedrijf dat het niet van plan is om toekomstige versies van het model te bouwen.

Apple heeft gegevens voor hun AI van verschillende bedrijven verkregen

Een van hen schraapte tonnen aan data/transcripten van YouTube-video’s, waaronder de mijne

Technisch gezien vermijdt Apple hier het woord ‘fout’, omdat zij niet degenen zijn die de lat hoog leggen.

Maar dit zal nog lang een evoluerend probleem blijven https://t.co/U93riaeSlY

— Markies Brownlee (@MKBHD) 16 juli 2024

YouTube-video-ondertitels zijn niet bedoeld als publieke bron, zelfs als ze beschikbaar zijn in het publieke domein. YouTube heeft verklaard dat het gebruik van de videocontent van het platform om AI te trainen — inclusief transcripties — een schending van de voorwaarden van het platform zou zijn.

Sommige rapporten suggereren dat Apple zichzelf probeert te beschermen tegen juridische problemen door te vertrouwen op datasets van derden om zijn AI-engine te trainen. Tenzij YouTube of zijn moederbedrijf de datasets grondig analyseert, zal het echter moeilijk zijn om een doorslaggevende conclusie te trekken.