GPT-4 daagt oogartsen uit en zorgt voor een opmerkelijk nauwkeurige beoordeling

OpenAI's GPT-4 is erin geslaagd opmerkelijk goed te presteren tegen oogartsen, aldus een nieuw rapport. De beoordelingen gegenereerd door de LLM (Large Language Model) Generative AI (Artificial Intelligence) slaagden erin om niet-gespecialiseerde artsen in opleiding en stagiaires te verslaan. De door Microsoft gefinancierde Gen AI kwam zelfs dicht bij het matchen van deskundige oogartsen.

GPT-4 beantwoordt MCQ's voor oogheelkundige beoordeling

Een studie, gepubliceerd in PLOS Digitale Gezondheid logboek, heeft bewezen hoe Gen AI LLM's kunnen helpen op medisch gebied. Sprekend over de resultaten zei Arun Thirunavukarasu, de hoofdauteur van het artikel:

“Wat dit werk laat zien is dat de kennis en het redeneervermogen van deze grote taalmodellen in de ooggezondheidscontext nu bijna niet meer te onderscheiden zijn van die van experts. We zien het vermogen om behoorlijk ingewikkelde vragen te beantwoorden.”

Hij verwees naar het vermogen van GPT-4 om MCQ's (Multiple Choice Questions) over oogheelkunde te beantwoorden. In totaal werd in de studie naar verluidt om GPT-4 87 MCQ's gevraagd. Vijf deskundige oogartsen, drie oogartsen in opleiding en twee niet-gespecialiseerde artsen in opleiding beantwoordden dezelfde vragen.

De studie ontwierp een vragenlijst uit een leerboek voor het testen van stagiairs op alles, van lichtgevoeligheid tot laesies. Het is interessant om op te merken dat de inhoud van het leerboek niet beschikbaar is in het publieke domein. Daarom denken de onderzoekers dat OpenAI zijn LLM's mogelijk heeft getraind tijdens een interne trainingsoefening.

Tijdens het onderzoek gaven onderzoekers ChatGPT, uitgerust met GPT-4 of GPT-3.5, drie pogingen om definitief antwoord te geven. Als het niet lukte, markeerden de onderzoekers het antwoord als ‘nul’.

GPT-4 verslaat sommige oogartsen, maar kan de experts nog niet evenaren

Van de 87 verschillende patiëntscenario's presteerde GPT-4 naar verluidt beter dan de junioren en behaalde vergelijkbare resultaten als de meeste specialisten. Concreet had GPT-4 60 van de 87 vragen goed. Junior-artsen wisten gemiddeld 37 juiste antwoorden te krijgen.

Stagiairs op het gebied van oogheelkunde kwamen aardig in de buurt met gemiddeld 59,7 juiste antwoorden. Met uitzondering van één expert, die 56 MCQ’s correct beantwoordde, hadden de overige specialisten gemiddeld 66,4 goede antwoorden.

Ter vergelijking: PaLM 2 slaagde erin 49 antwoorden juist te krijgen, GPT-3.5 kreeg er slechts 42, en LLaMa volgde met slechts 28 correct beantwoorde MCQ's.

Het is belangrijk op te merken dat het onderzoek medio 2023 is uitgevoerd. Met andere woorden: de LLM's zijn waarschijnlijk veel beter geworden in het begrijpen en beantwoorden van complexe vragen.

De gezondheidszorgsector zou ongetwijfeld profiteren van ChatGPT, Gemini en andere Gen AI-platforms. Sommige medische experts hebben er echter voor gewaarschuwd om niet op Gen AI te vertrouwen om een ​​patiënt te diagnosticeren. Dergelijke platforms ‘ontberen nuance’, zeiden ze. Daarom zou er een zorgwekkend grote kans op onnauwkeurigheid kunnen zijn, waarschuwden sommige onderzoekers.

Thijs Van der Does