Openai ontdekte dat AI -modellen verschillende persona’s kunnen hebben

Er is een reden waarom je vrienden, leraren en de mensen met wie je jezelf omringt in het leven ertoe doen. Het is omdat met wie je tijd doorbrengt, kan beïnvloeden wie je bent. Maar het blijkt dat dezelfde logica ook van toepassing is op AI. Volgens een recente studie van OpenAI kunnen AI -modellen zelf persona’s ontwikkelen.

AI -modellen met hun eigen persona’s

De studie onderzocht de interne representaties van een AI -model, die bepalen hoe het op verzoeken reageert. Tijdens de enquête ontdekten de onderzoekers van Openai echter patronen die opsloegen, zoals de neurale paden in onze hersenen, toen een model zich misdachte. Op hun beurt ontdekten de Openai -onderzoekers dat AI -modellen zijn eigen persona’s kunnen ontwikkelen, zoals bijvoorbeeld sarcastisch zijn.

Het blijkt dat dit voortkomt uit getraind worden op “slechte” gegevens. Het onderzoek van Openai is gebaseerd op een eerdere studie uit februari. Onderzoekers ontdekten dat het trainen van een AI -model met behulp van code die beveiligingskwetsbaarheden bevat, ertoe kan leiden dat het model reageert met schadelijke of hatelijke inhoud. Dit gebeurt zelfs wanneer de gebruiker het met iets goedaardigs aanspreekt.

Het goede nieuws is echter dat de onderzoekers van Openai ontdekten dat ze het model daadwerkelijk terug konden sturen naar zijn reguliere staat. Dit wordt bereikt door de interne representaties van de AI te verfijnen op basis van “goede” of “echte” informatie. Toegegeven, de bevindingen zijn alarmerend. Wetende dat er AI -modellen zijn die mogelijk kunnen worden getraind op slechte gegevens om een ​​vals verhaal te genereren, is eng. Het goede nieuws is echter dat dit te repareren is.

Volgens Tejal Patwardhan, een Openai -wetenschapper die deel uitmaakte van de studie, “Voor mij is dit het meest opwindende deel. Het laat zien dat deze opkomende verkeerde uitlijning kan optreden, maar we hebben ook deze nieuwe technieken om te detecteren wanneer het gebeurt door Evals en ook door interpreteerbaarheid, en dan kunnen we het model weer in een uitlijning sturen.”

Het belang van regelgeving

Deze bevindingen zijn een goed voorbeeld van waarom AI beter moet worden gereguleerd. Bedrijven zoals Openai vinden een toekomst voor dat Chatgpt onze persoonlijke dagelijkse assistent zou kunnen zijn. Dit is de reden waarom regels en voorschriften ervoor moeten zorgen dat we geen interactie hebben met slechte actoren die ons verkeerde informatie geven.

Op dit moment heeft de Trump-regering een 10-jarig moratorium voor regulering op staatsniveau voorgesteld. Dit betekent dat elke verordening met betrekking tot AI alleen op federaal niveau kan worden gedaan. Het is duidelijk dat wetten die staten maken federaal kunnen worden. Maar het vasthouden van regelgeving op staatsniveau in naam van de vooruitgang heeft zeker zijn risico’s.

Thijs Van der Does