De menselijke fout achter gebroken resultaten

Je voelt die vertrouwde kras achter in je keel. Je neemt een slokje water. Het doet pijn. Je probeert het te wissen. Nog steeds daar. Dus, net als miljoenen anderen, haal je je telefoon tevoorschijn en begin je symptomen te googlen.

Wat begint als een eenvoudige zoektocht naar “keelpijn” snel spiralen. Nu leest u over kanker, immuunaandoeningen en zeldzame infecties. Paniek gaat in. Klinkt bekend?

Dat is waar AI zou kunnen helpen. Tools zoals Chatgpt kunnen doordachte, snelle antwoorden geven en voor het grootste deel is het gratis. Uit een recent onderzoek in Oxford bleek zelfs dat grote taalmodellen 94,9% van de tijd correct medische gevallen hebben gediagnosticeerd. Dat is hoger dan veel artsen.

Toen mensen in dezelfde gevallen dezelfde hulpmiddelen gebruikten, daalde hun nauwkeurigheid tot slechts 34,5%. Het blijkt dat AI hier niet de beperkende factor is met betrekking tot de prestaties; Wij zijn het, mensen, die misschien AI misschien tegen zijn volledige potentieel houden.

De studie

De Oxford -studie, geleid door Dr. Adam Mahdi, bracht bijna 1.300 deelnemers binnen en gaf hen een eenvoudige taak: gedraag als patiënten. Elke persoon ontving een gedetailleerd scenario, compleet met symptomen, medische geschiedenis en persoonlijke context. Deze omvatten dingen als net afgewerkt examens of pijn ervaren als ze naar beneden kijken. Het idee was om te zien hoe goed gewone mensen AI konden gebruiken om erachter te komen wat er mis was en te beslissen wat voor soort zorg hij moest zoeken.

Ze kregen te horen dat ze de AI moesten behandelen als een echte arts. Stel vragen, beschrijf symptomen en krijg hulp. Elke deelnemer moest minstens één keer met het model communiceren, maar ze waren vrij om vervolgvragen te stellen of opnieuw te proberen als ze meer informatie nodig hadden. De onderzoekers gebruikten drie verschillende LLM’s voor het experiment: Chatgpt-4O, LLAMA 3 en Command R+.

Ondertussen was een panel van artsen overeengekomen over de juiste diagnose voor elk geval, samen met het juiste niveau van zorg. De onderzoekers wisten al of de juiste zet thuis bleef of een ambulance belde. De test was of mensen en AI daar samen konden komen.

Smart AI, slechte resultaten: menselijke fout?

Zie AI als de perfecte werknemer. Het kan enorme hoeveelheden gegevens verwerken, nauwkeurig instructies volgen en in seconden antwoorden leveren. Maar combineer het met een slechte manager en alles valt uit elkaar. Vage instructies, onduidelijke doelen en onderbenutte mogelijkheden kunnen leiden tot teleurstellende resultaten. Dat is precies wat er gebeurt als veel mensen AI proberen te gebruiken.

Stel je voor dat je baas je vraagt ​​om ze een koffie te pakken, maar niet te zeggen wat voor soort. Je komt terug met een hete zwarte koffie, alleen voor hen om te klagen dat ze een ijsmelk latte wilden met twee pompen vanille. Technisch gezien heb je het werk gedaan. Maar zonder de juiste instructies kon je onmogelijk leveren wat ze echt wilden.

Er is een veel voorkomende veronderstelling dat deze tools het gewoon ‘snappen’, als een vriend die je zo goed kent dat ze je zinnen kunnen afmaken. Maar AI is niet je beste vriend. Het kan je toon niet lezen of raden wat je bedoelde. Als u het niet precies geeft wat het nodig heeft, krijgt u niet de juiste uitvoer.

Deze ontkoppeling verscheen duidelijk in de Oxford -studie. Onderzoekers ontdekten dat deelnemers die LLMS gebruiken ten minste één relevante toestand in slechts 34,5 procent van de gevallen identificeerden. De controlegroep, die helemaal geen AI gebruikte, deed het beter met 47 procent. En als het ging om het kiezen van de juiste manier van handelen, hebben LLM -gebruikers het slechts 44,2 procent van de tijd goed. De AI -modellen, toen ze achtergelaten zijn om zelf te beslissen, kregen het 56,3 procent van de tijd goed.

Dus wat ging er mis? Deelnemers gaven onvolledige of onduidelijke aanwijzingen. Sommigen vergaten belangrijke symptomen te vermelden. Anderen hebben de ernst of timing weggelaten. Als gevolg hiervan hebben de modellen de invoer verkeerd geïnterpreteerd of belangrijke aanwijzingen gemist. En zelfs toen de AI de juiste diagnose gaf, volgden gebruikers niet altijd door. Dat deel is niet uniek voor machines. Mensen negeren ook artsen. Symptomen gemak, antibiotica blijven onafgewerkt en instructies worden overgeslagen.

Interessant is dat sommige AI -tools al grip krijgen in werkelijke medische workflows. Openevidence wordt bijvoorbeeld door artsen gebruikt om klinische literatuur te zoeken en te valideren. Het probeert de dokter niet te vervangen, het wordt hen uitgebreid. Het verschil ligt in ontwerp: hulpmiddelen zoals deze ondersteunen professionals die al weten hoe ze de resultaten moeten filteren, interpreteren en handelen. Dat is heel anders dan het overhandigen van hetzelfde systeem aan een ongetrainde patiënt en hetzelfde resultaat verwachten.

Het knelpunt voor de diagnose van de mens-ai

Volgens Nathalie Volkheimer, een gebruikerservaringspecialist bij het Renaissance Computing Institute, is een probleem met patiënten die interactie met artsen hebben dat sommige voorwaarden of de gebeurtenissen die naar hen voorafgaan, beschamend kunnen zijn. Daarom laten mensen soms belangrijke details weg.

Maar wanneer de andere partij een machine is zonder oordeel of emotie, zou je denken dat mensen zich comfortabeler zouden voelen om alles te delen. Dat was niet het geval.

Dit benadrukt een cruciale fout die de studie heeft blootgelegd. Het probleem is niet dat AI -modellen niet slim genoeg zijn. Het is dat mensen nog steeds leren hoe ze met hen kunnen communiceren. Zoals Volkheimer het zegt, is het probleem niet de machines zelf. Het is de interactie tussen mensen en technologie.

Het legt ook een diepere fout bloot in hoe we AI evalueren. LLMS kan gemakkelijk medische examens of juridische tests halen. Dat is niet verwonderlijk. Ze zijn getraind op enorme datasets en hebben toegang tot de juiste informatie. Maar die tests weerspiegelen niet hoe echte mensen praten, denken of vragen stellen.

Zelfs de trainingsgegevens hebben zijn grenzen. Zoals een medische beoordeling opmerkt, zijn veel modellen getraind op datasets die geen diversiteit van de echte wereld weerspiegelen of zeldzame randgevallen. In de geneeskunde kan het missen van die uitbijters een levensbedreigende toestand missen. Dat is de reden waarom prestaties op een leerboekexamen zich niet altijd vertalen naar succes in rommelige klinische omgevingen.

Als een bedrijf een AI -chatbot wil bouwen om een ​​vertegenwoordiger van de klantenservice te vervangen, kan het niet alleen testen of de bot de juiste antwoorden kent. Het moet trainen op de rommelige, inconsistente manieren waarop mensen daadwerkelijk spreken. Mensen kunnen iets eenvoudigs formuleren als het vragen om een ​​productprijs op een dozijn verschillende manieren. Als het model ze niet allemaal herkent, levert het niet het antwoord op dat de klant nodig heeft.

Slimmer AI heeft slimmere mensen nodig

Als er één ding is dat deze studie duidelijk maakt, is het dat ruwe intelligentie niet het probleem is. De AI kan het juiste antwoord krijgen. Het doet het vaak. De uitsplitsing gebeurt wanneer we ingrijpen en wanneer we slechte prompts geven, belangrijke details weglaten of de antwoorden negeren die we niet willen horen.

Dit is niet uniek voor de gezondheidszorg. Of het nu gaat om een ​​chatbot voor klantenservice, een juridische assistent of een AI-aangedreven tutor, hetzelfde patroon is van toepassing. Het model faalt niet de taak. We slagen niet in de interface.

Het is gemakkelijk om te worden opgeveegd door indrukwekkende benchmark -scores en hoge graden van nauwkeurigheid. Maar een AI die een examen doet, weet niet automatisch hoe hij een verward, overweldigd of vaag mens kan helpen. En totdat we deze systemen beginnen te ontwerpen en testen met rommelig menselijk gedrag in gedachten, blijven we hun real-world bruikbaarheid overschatten.

Dit contrast wordt nog duidelijker bij het bekijken van AI -systemen die erin slagen. Bij Johns Hopkins hebben onderzoekers een AI -tool ingezet die sepsis bijna zes uur eerder detecteerde dan traditionele methoden en de sterfgevallen door patiënten met 20 procent verminderde. Het verschil? Dat systeem was direct ingebed in ziekenhuisworkflows en vertrouwde op realtime klinische gegevens, niet alleen voor de prompts van de patiënt. Het laat zien dat met het juiste ontwerp en de context AI kunnen werken, maar alleen wanneer het de mensen verklaart die het gebruiken.

Dus de volgende keer dat je keel pijn doet en je bent in de verleiding om een ​​chatbot te vragen wat het betekent, onthoud dat het krijgen van een goed antwoord afhangt van het stellen van een goede vraag. De modellen zijn niet het knelpunt. Wij zijn. En dat is het onderdeel dat we moeten oplossen.

Thijs Van der Does