De lessen van het blunderende examen-algoritme in het Verenigd Koninkrijk

Door: Daan Kolkman

Geschreven door:
Daan Kolkman

26 augustus 2020 26-08-2020 6 minuten

Honderden scholieren verzamelden zich vorige week voor het Department for Education in Londen. Daar protesteerden zij met leuzen als “Fuck the algorithm” tegen de uitslagen van de A-levels examens, die berekend waren middels een computergestuurd algoritme. Het protest sorteerde het gewenste effect: binnen een paar dagen draaide de overheid de resultaten terug.

In Nederland is het verhaal nagenoeg zonder aandacht voorbij gegaan, maar in Engeland stond de wereld op zijn kop. Duizenden studenten ontvingen iets meer dan een week geleden hun A-levels, het Engelse equivalent van de eindexamens. De cijfers die gebaseerd waren op een algoritme, bleken dikwijls negatief uit te pakken. Bijna 40% van de scholieren ontving een lager cijfer dan ingeschat door hun docenten. Dit leidde tot uitgebreide protestacties en juridische stappen tegen de overheid.

De machine

Het incident met de A-levels biedt verschillende belangrijke lessen voor het verantwoorde gebruik van algoritmes, maar er is één punt wat er voor mij bovenuit springt. Een punt wat alleen maar belangrijker zal worden naarmate we meer beslissingen overdagen aan “de machine”: Verantwoord gebruik van algoritmes is onmogelijk zonder een kritisch publiek.

Sinds 2013 onderzoek ik de rol van computermodellen en algoritmes in de publieke sector in Nederland en het Verenigd Koninkrijk. Door interviews, archiefonderzoek en het meelopen met overheidsinstanties heb ik gezien hoeveel tijd er gaat zitten in het ontwikkelen, testen en implementeren van algoritmes. Data wetenschappers en statistici doen enorm hun best om ervoor te zorgen dat hun rekenmodellen valide en robuust zijn.

Hun werk is meer en meer onder een vergrootglas komen te liggen, zeker waar het algoritmes voor automatische beslissingen betreft. De afgelopen jaren hebben we verschillende breed uitgemeten incidenten rondom het gebruik van dergelijke algoritmes gezien. Zo bleek dat het Amerikaanse COMPAS model bij het voorspellen van recidive racistisch was, maar dichter bij huis ontstond er controverse rondom een algoritme. SyRi, het risico-indicatiesysteem waarmee fraude werd opgespoord, bracht de privacy van Nederlanders in het gedrang.

Verantwoording

Dergelijke incidenten hebben verantwoord gebruik van algoritmes hoger op de agenda gezet. Binnen de academische gemeenschap wordt er al jaren gepleit voor meer Fairness, Accountability, Confidentiality en Transparentie van algoritmes. Onder de noemer van eXplainable AI (XAI) wordt er hard gewerkt aan nieuwe manieren om gecompliceerde algoritmes uitlegbaar te maken. Dit is belangrijk werk, maar op zichzelf niet voldoende.

Het fiasco met de A-levels in Engeland laat namelijk zien dat er meer nodig is om algoritmes (en hun eigenaren) verantwoordelijk te houden. De media, docenten, scholieren en hun ouders zetten de Engelse overheid onder enorme druk. Het was pas na uitgebreide protesten en aanzienlijke media-aandacht dat de overheid besloot de cijfers terug te draaien.

Begrijp me niet verkeerd, het is enorm belangrijk dat we nieuwe hulpmiddelen ontwikkelen om algoritmes uitlegbaar te maken en processen ontwikkelen om de kwaliteit van algoritmes te waarborgen. Echter, dergelijke hulpmiddelen en processen zijn slechts symbolisch wanneer er geen kritische discussie uit voortvloeit. In het geval van het A-levels algoritme kwam dit tot stand, maar alleen omdat de impact van dit algoritme breed gevoeld werd. Voor het leeuwendeel van algoritmes is dit echter niet het geval.

Covid-19

Wat gebeurde er precies rondom de Engelse A-levels? Door de Covid-19 crisis was het onmogelijk om deze centrale examens doorgang te laten vinden. De examens spelen echter een centrale rol bij de selectieprocedure van universiteiten in Engeland. Scholieren solliciteren voor de A-levels op plekken op de universiteit. De universiteiten accepteren vervolgens scholieren op voorwaarde dat ze bepaalde cijfers halen. Een verschil van 1 punt kan betekenen dat je niet wordt toegelaten op de universiteit van keuze.

Aangezien er geen centrale examens gehouden waren, besloot het UK Office of Qualifications and Examinations Regulation (Ofqual) een algoritme te gebruiken om de cijfers vast te stellen. De vrees was namelijk dat wanneer docenten zouden worden gevraagd om de examencijfers van hun scholieren in te schatten, dit zou leiden tot cijferinflatie. De organisatie bouwde een algoritme met drie inputs: 1. De historische cijferdistributie van scholen over de afgelopen drie jaar; 2. De positie van elke student op de ranglijst voor een vak, op haar eigen school. Deze positie werd bepaald op basis van de inschatting van de docent; 3. De eerdere resultaten van de scholier voor bepaald vak.

Meetinstrument

Kort samengevat kijkt het algoritme naar de distributie van de cijfers die de scholieren van een bepaalde school in voorgaande jaren voor een bepaald vak hebben gehaald. Vervolgens krijgt elke student op basis van zijn positie op de ranglijst voor dat vak een cijfer. Wanneer jij dus halverwege de ranglijst staat voor wiskunde, ontvang je ongeveer hetzelfde cijfer als de studenten met dezelfde positie in voorgaande jaren.

Hoewel dit in eerste instantie misschien niet eens zo gek klinkt, klonken er al snel kritische geluiden op basis van de technische documentatie over het algoritme. Zo bekritiseerden experts de lage nauwkeurigheid van het algoritme (gemeten op voorgaande jaren) en het gebrek aan onzekerheidsintervallen. De woede van de scholieren richtte zich echter vooral op de oneerlijke resultaten. Zo was het nagenoeg onmogelijk om het maximale cijfer te halen wanneer niemand van jouw school de afgelopen jaren zo goed had gedaan.

Daarnaast gaf het algoritme meer gewicht aan de inschattingen van docenten wanneer er 15 of minder scholieren op een school een bepaald vak hadden gedaan. Kleinere scholen konden op deze manier meer profiteren van de eerdergenoemde cijferinflatie. In het Engelse systeem zijn het vooral de particuliere scholen waar flink betaald voor moet worden die kleine klassen hebben. Het aantal scholieren met een A* (het hoogste cijfer), nam dan ook met ongeveer 5% toe.

Deze fouten hadden voorkomen moeten worden. Tegelijkertijd zal iedereen die ooit een vak statistiek gevolgd heeft zal George Box befaamde citaat “Alle modellen zijn fout” kennen. Geen algoritme is perfect en zelfs al had Ofqual een gedegen rekenmodel gemaakt, dan nog was er een behoorlijke kans geweest dat bepaalde groepen scholieren benadeeld zouden worden. Het is de organisatie dan ook aan te rekenen dat er geen eenduidige procedure was om de cijfers aan te vechten. Bovendien koste deze procedure geld, waardoor wederom de scholieren uit lagere sociaaleconomische klassen benadeeld werden.

Controverse

Het is dan ook niet verwonderlijk dat er zoveel controverse ontstond rondom dit algoritme. Daarmee wil ik overigens niet zeggen dat alle algoritmes per definitie oneerlijk zijn. Het is echter maar zelden zo dat een algoritme kan rekenen op zoveel aandacht en in dit geval kritiek. De impact van veel algoritmes wordt slechts gevoeld door een deel van de bevolking, die vaak niet eens weten dat er een rekenmodel in het spel is en zeker niet de slagkracht hebben om de druk op de overheid op te voeren. Dit is een belangrijke macht-asymmetrie die we moeten aanpakken wanneer we verantwoord gebruik willen maken van algoritmes.

Het is absoluut belangrijk om algoritmes te onderwerpen aan statistische testen. Ja, we moeten kijken naar nieuwe methoden om de steeds gecompliceerdere algoritmes te kunnen begrijpen. Ook verdienen zaken als Fairness, Accountability, Confidentiality en Transparency onze aandacht, heet begint immers met de vraag “is dit een probleem waarvoor we een algoritme willen inzetten?”. Hier moet het echter niet bij blijven. We moeten nadenken over hoe we kunnen zorgen dat ook de minder zichtbare algoritmes voldoende tegengas krijgen van een kritisch publiek.

Veel van de incidenten met algoritmes waarvan we nu weten, hadden voorkomen kunnen worden door dergelijke kritische reflectie eerder in het ontwikkelingsproces. Kwaliteitsrichtlijnen en zelfreflectie zijn hierin niet voldoende. Ook een data scientist met de beste bedoelingen zal zijn eigen wereldbeeld, normen en vooroordelen meenemen in de ontwikkeling van een algoritme.

Publiek debat

Zonder een kritisch publiek dat vragentekens zet bij specifieke algoritmes, zullen we geen grip krijgen op het leeuwendeel van de algoritmes. Zo af en toe zullen we horen over een nieuw incident en onze verontwaardiging uitspreken over hoe het zo mis heeft kunnen gaan, maar alleen als het een algoritme betreft dat voldoende mensen raakt. Dit is geen structurele oplossing. Een kritisch publiek is een voorwaarde voor het verantwoord gebruik van elk algoritme.

Natuurlijk is dit makkelijker gezegd dan gedaan, want hoe zorgen we voor een kritisch publiek voor elk algoritme? Biedt de oprichting van een Autoriteit Financiële Markten voor algoritmes uitkomst? Hoe zou zo een instantie omgaan met intellectueel eigendom op algoritmes en de hoge kosten van audits? Willen we alle algoritmes onderwerpen aan dezelfde standaarden? Hoe komen we er überhaupt achter welke algoritmes gebruikt worden? Dat zijn de moeilijke vragen waar we het over moeten hebben als we beslissingen willen overlaten aan algoritmes.

Daan Kolkman is onderzoeker bij de Jheronimus Academy of Data Science en de Technische Universiteit Eindhoven. Volg Daan op Twitter of Google Scholar.

kunstmatige intelligentie

Winkelmand