Microsoft introduceert PyRIT om red teaming AI-modellen te helpen stroomlijnen

Een van de grootste problemen met AI is het behalen van resultaten die schadelijk of aanstootgevend zijn voor bepaalde mensen. AI is meer dan in staat om de veren van veel groepen mensen in de war te brengen, maar dit is waar red teaming om de hoek komt kijken. Microsoft heeft zojuist een nieuwe tool uitgebracht, genaamd PyRIT, die mensen en bedrijven zal helpen met hun red teaming.

In het geval van AI is red teaming het dwingen van een AI-model om aanstootgevende inhoud te produceren. Mensen zullen er verschillende aanwijzingen naar gooien en hun uiterste best doen om de chatbot iets te laten zeggen waardoor een YouTuber gemakkelijk kan worden geannuleerd. Dit doen ze om erachter te komen wat de zwakke punten van de chatbot zijn en waar het bedrijf wijzigingen moet doorvoeren. AI-chatbots halen hun informatie van internet, en vaak is internet geen vriendelijke plek.

Microsoft introduceerde PyRIT, een tool om mensen met red teaming te helpen

Zoals je kunt raden, is red teaming een strikt menselijk proces. Er is een mens voor nodig om te weten of een chatbot iets schadelijks over bepaalde mensen zegt. Naarmate chatbots echter geavanceerder worden en meer informatie opzuigen, kan red teaming moeilijker worden.

Welnu, op een enigszins verrassende manier lijkt het erop dat Microsoft vuur met vuur wil bestrijden met behulp van zijn nieuwe tool genaamd PyRIT (Python Risk Identification Toolkit). PyRIT is een geautomatiseerde tool die mensen met red teaming kan helpen. Ironisch genoeg maakt deze tool gebruik van machinaal leren om de resultaten van AI-modellen vast te stellen.

Veel mensen hebben daar dus misschien problemen mee, omdat het erop lijkt dat Microsoft AI gebruikt om AI te beoordelen. Het is echter onwaarschijnlijk dat Microsoft hier een volledig geautomatiseerde tool van zal maken. In een blogpost stelt Microsoft dat “PyRIT geen vervanging is voor het handmatig red teaming van generatieve AI-systemen. In plaats daarvan vergroot het de bestaande domeinexpertise van een AI-red-teamer en automatiseert het de vervelende taken voor hen.”

Het is dus vooral een hulpmiddel dat bedoeld is om te helpen bij de red teaming-inspanningen en niet om het menselijke element er volledig uit te halen.

Welke functies heeft PyRIT?

PyRIT is compatibel met verschillende bestaande gebiedsmodellen, en het is mogelijk om deze tool ook te gebruiken met beeld- en video-ingangen. Het is in staat herhaalde aanvallen en gevaarlijke aanwijzingen te simuleren om een ​​beter idee te krijgen van wat ervoor kan zorgen dat een chatbot schadelijke inhoud produceert.

De toolkit wordt ook geleverd met een scoresysteem. Het maakt gebruik van machine learning om een ​​score te geven aan de output van de chatbot, zodat je beter begrijpt hoe slecht de output is.

PyRIT helpt niet alleen te identificeren waar chatbots kunnen verbeteren op het gebied van inclusieve reacties, maar helpt ook cyberveiligheidsrisico’s te identificeren. Dit is geweldig omdat cyberbeveiliging een ander groot probleem is bij generatieve AI.

Als je enthousiast bent over het gebruik van PyRIT, kun je er toegang toe krijgen via de officiële GitHub van het project.

Thijs Van der Does