Texas gaat een AI-scoresysteem gebruiken om door de staat verplichte examens te beoordelen

De Texas Education Agency (TEA) test generatieve kunstmatige intelligentie (Gen AI) in zijn scoresysteem. De nieuwe beoordelingstechniek maakt gebruik van chatbots zoals ChatGPT van OpenAI om gebruikers te begrijpen en ermee te communiceren.

Texas zal dit jaar veel minder menselijke beoordelaars inhuren, omdat het deze vervangt door een nieuw, door AI aangedreven scoresysteem. De State of Texas Assessments of Academic Readiness (STAAR)-examens zouden een testbank kunnen zijn voor het vervangen van een meerderheid van de menselijke beoordelaars door Gen AI.

Texas traint Gen AI-scoresysteem om menselijke beoordelaars te vervangen

De Texas Education Agency heeft naar verluidt bevestigd dat dit “een geautomatiseerde score-engine uitrolt voor open vragen over de State of Texas Assessment of Academic Readiness voor lezen, schrijven, wetenschap en sociale studies”.

De door de staat verplichte examens van dit jaar in Texas zullen historisch zijn. Studenten die deze week voor hun STAAR-examens verschijnen, zullen veel minder menselijke beoordelaars hebben dan vorig jaar. Een natuurlijke taalverwerkingsengine, gewoonlijk generatieve AI genoemd, zal de meeste van hun antwoorden evalueren.

De STAAR-test meet het begrip van studenten van het door de staat verplichte kerncurriculum. De staat Texas heeft het vorig jaar opnieuw ontworpen. Interessant is dat de test nu veel minder meerkeuzevragen bevat. Texas heeft ze vervangen door ‘open vragen’ of ‘geconstrueerde antwoorditems’.

Texas introduceert een “geautomatiseerde score-engine” om de STAAR-test te scoren. De technologie, die gebruik maakt van natuurlijke taalverwerking, een bouwsteen van AI-chatbots, zal de staat $15-20 miljoen besparen. Maar sommige docenten maken zich zorgen.

Nieuw in @TexasTribune https://t.co/Tu36tmF5B7

— Keaton Peters (@KeatonPeters) 10 april 2024

Volgens de Texas Tribunezouden de nieuw geïntroduceerde open vragen ‘zes tot zeven keer meer geconstrueerde antwoorditems hebben’.

Simpel gezegd hebben dergelijke open vragen meerdere aanvaardbare antwoorden, vergeleken met slechts één antwoord bij een meerkeuzevraag. Als gevolg hiervan hebben dergelijke vragen veel meer tijd en beoordelaars nodig om te scoren, aldus Jose Rios, directeur studentenbeoordeling bij de Texas Education Agency.

Met andere woorden: deze vragen vergroten de complexiteit van de beoordeling aanzienlijk. En dit is waar Gen AI echt uitblinkt. Platforms zoals ChatGPT hebben een bewezen staat van dienst in het beantwoorden van complexe vragen op meerdere niveaus van eenvoud en diepgang.

Texas schat dat Gen AI jaarlijks 15 tot 20 miljoen dollar zal besparen

De TEA heeft het Gen AI-scoresysteem getraind met behulp van 3.000 reacties. Als veiligheidsmaatregel wordt de Gen AI blootgesteld aan antwoorden die twee rondes van menselijke scores hebben ondergaan. De AI-score-engine heeft naar verluidt de kenmerken van reacties geleerd en is geprogrammeerd om dezelfde scores toe te kennen die een mens zou hebben gegeven.

Texaanse kinderen die de STAAR-test afleggen, zullen blijkbaar door AI worden beoordeeld. Als u het niet eens bent met de score van uw kind, beoordelen ze deze graag opnieuw met een menselijke beoordelaar – voor $ 50.#STAAAR #Texashttps://t.co/6Qr36uCYaU

— nee, dit is gewoon soep voor mijn gezin🐀 (@SeanxTyler) 10 april 2024

Menselijke beoordelaars zullen een kwart van alle door de computer beoordeelde resultaten opnieuw beoordelen. Bovendien zouden sommige antwoorden die het AI-scoresysteem in verwarring kunnen brengen, zoals jargon of niet-Engelse antwoorden, worden doorgegeven aan menselijke beoordelaars.

De TEA heeft geschat dat het $ 15 tot 20 miljoen per jaar zal besparen door de behoefte aan tijdelijke menselijke scorers te verminderen. Statistisch gezien is Texas van plan dit jaar minder dan 2.000 menselijke beoordelaars in dienst te nemen. In 2023 had de Lone Star State ongeveer 6.000 beoordelaars ingehuurd voor hetzelfde examen. Het is onnodig te zeggen dat verschillende docenten hun bezorgdheid hebben geuit over de nieuwe evaluatietechniek.

Het digitale tijdperk is in Texas aangebroken #STAAAR test. In december 2023 kwamen de resultaten van de eerste computergestuurde schriftelijke reacties aan het licht. Met het nieuwe beoordelingssysteem scoorde 79% van de testers een nul. Slechts 8% van de testers scoorde een nul in een eerdere test met menselijke beoordelaars.#TxEd pic.twitter.com/Kwj7FYUh16

— RaiseYourHandTexas (@RYHTexas) 10 april 2024