Van nrc.nl van 6 april 2018:

Ze tellen nog steeds de tandenborstels op de wastafel, op zoek naar fraudeurs. Maar sociaal rechercheurs zetten ook algoritmes in tegen uitkeringsfraude.

Stiekem samenwonen, bijverdiensten verzwijgen… Al sjoemelt maar een klein deel van de uitkeringsgerechtigden, bijstandsfraude kan een stad miljoenen euro’s kosten.

Drie Nederlandse gemeenten testen momenteel of ze met behulp van machine learning – software die getraind wordt met data – de pakkans kunnen vergroten. Ze werken samen met Totta data lab (Totta is Fins voor ‘waarheid’), een bedrijf dat met data menselijk gedrag voorspelt. Bijvoorbeeld om bij telecombedrijven of energiebedrijven in te schatten welke klanten hun abonnement gaan opzeggen.

Enkele Nederlandse gemeenten (Lekstroom in Utrecht, Middelburg, Veere en Vlissingen in Zeeland en Nissewaard in Zuid-Holland) gebruiken data-analyse om te bepalen welke verdachten ze gaan onderzoeken. Een algoritme wijst de tien meest waarschijnlijke fraudegevallen aan, daarna gaan controleurs aan de slag om te bepalen of er ook echt gefraudeerd is.

Zeer gevoelig

Zulke geautomatiseerde voorspellingen liggen zeer gevoelig. De computer kan niet zomaar besluiten of een uitkering gestopt moeten worden – daar hoort een menselijke beoordeling tussen te zitten. De nieuwe Europese privacywet stelt daarom strenge eisen aan de data die gebruikt mogen worden voor zulke profilering.

Data-specialist Jesse Luk legt uit hoe het ‘hybride voorspelmodel’ werkt: „We trainen software op data van geregistreerde fraudegevallen – personen die betrapt zijn. Het algoritme brengt bijbehorende datapatronen in kaart. Daarnaast gebruiken we anomaliedetectie: we zoeken in de rest van de data naar mensen die een grote afwijking hebben ten opzichte van het gemiddelde. De aanname is dat iemand die erg afwijkt, ook een fraudeur is.” Het levert twee risicoscores op, waaruit een lijst van mogelijke fraudegevallen rolt.

Hoe accuraat is de computer? Van de honderd mogelijke fraudeurs die het model aanwijst, wordt bij de helft inderdaad fraude vastgesteld. Daarbij zitten ook gevallen die de gemeenten al ontdekt hadden. De toegevoegde waarde schat Luk op 25 tot 30 procent. Dat kan in werkelijkheid hoger zijn; in de helft bij wie geen fraude kon worden aangetoond, kunnen immers toch fraudeurs zitten.

Niet alle data tellen mee

Data waarop het algoritme zich baseert, zijn afkomstig van de sociale diensten. Namen zijn vervangen door anonieme cliëntnummers, het adres telt niet mee. Wel geboortedata, gezinssamenstelling, afgedragen premies en uitkeringsverleden. In de database zitten ook gegevens van Belastingdienst, kadaster en RDW.

De Europese privacywetgeving staat geen geautomatiseerde besluiten toe op basis van profileren als de uitkomst ‘rechtsgevolg’ heeft voor personen. Er moet altijd een menselijke hand tussen zitten – in dit geval (voor-)onderzoek van sociale rechercheurs. Persoonlijke gegevens mogen niet verwerkt worden op een manier die onverenigbaar is met de doeleinden waarvoor ze zijn verkregen, volgens de Wet Bescherming Persoonsgegevens.

Veel data zijn verboden terrein. ‘Bijzondere persoonsgegevens’ als medisch verleden of etniciteit (afkomst/ cultuur) tellen niet mee. De top-10 van verdachten zou wel veel mensen met één bepaalde afkomst op kunnen leveren. „Dat komt dan omdat ze aan andere kenmerken voldoen”, aldus Luk.

Of je in het verleden in de gevangenis of een psychiatrische inrichting zat, en dus elders kost en inwoning kreeg, is ook een voorspeller voor (onbewuste) fraude. Maar deze gegevens worden niet meegenomen. Het fraude-algoritme kijkt ook niet naar waterverbruik, energierekening, bankafschriften of trein- en busritten. Zulke data kunnen wel bij handmatig onderzoek door de sociale dienst gebruikt worden. Rechercheurs mogen sociale media controleren en kijken of je op Marktplaats alwéér een scooter verkoopt. En ze gaan op huisbezoek.

Tandenborstels tellen

Het clichébeeld van de sociale recherche is dit die aanbelt om tandenborstels te komen tellen. „Posten en huisbezoeken horen er nog steeds bij”, zegt Gerrit van Romunde. Hij is de arbeidsmarktexpert van Stimulansz en adviseur bij dit project. „Wij proberen ervoor te zorgen dat je niet meer bij tien adressen tandenborstels hoeft te tellen.” Luk voegt toe: „En dat mensen die geen fraude plegen niet hoeft te storen.”

Sociaal rechercheurs beginnen vaak een onderzoek als ze vermoeden dat mensen samenwonen die als alleenstaande een uitkering krijgen. Sommige fraudeurs zijn niet zo handig: de ene partner geeft zich op als samenwonend, de andere niet. Dan is het logisch dat er iets niet klopt.De meeste fraudegevallen zijn complexer. De database bevat daarom twee- tot driehonderd variabelen waarin een mens geen verdachte patronen ziet, maar de computer wel.

Er is niet één recept voor fraude, blijkt op basis van de test met drie gemeenten. Tussen stad en platteland bestaan grote verschillen. Gerrit van Romunde: „De gemeenten waarmee wij werken zijn klein – 2.700 tot 3.500 uitkeringsgerechtigden. In kleine, christelijke gemeenten is vaak meer sociale controle.”

Luk zegt dat bij de ene gemeente meer fraude gevonden wordt bij mensen mét partner (die geven bijvoorbeeld inkomsten niet op), terwijl het in andere gaat het om mensen zónder partner (die geven niet op dat ze samenwonen). „Maar het kan ook zijn dat er alleen onderzocht is op die groep en dat wij daar ons algoritme op bouwen.”

Vooroordelen inperken

Zo kunnen ook oude (voor)oordelen in de huidige computermodellen doorgalmen. Als in het verleden veel onderzoek gedaan is naar bepaalde wijken of hotspots met veel fraude, kan dat reflecteren in het profiel van toekomstige verdachten. Luk: „Dit proberen we te voorkomen door anomaliedetectie toe te passen, zodat ook andere fraudegevallen naar voren komen. Uiteindelijk leert het algoritme van oude en nieuwe overtreders, en worden de vooroordelen zoveel mogelijk ingeperkt – zonder dat de pakkans lager wordt.”

Een algoritme zou dus kunnen voorkomen dat opsporingsambtenaren op basis van hun eigen intuïtie of ‘buikgevoel’ werken. Je kijkt met machine learning immers naar feitelijke gedragsdata.

Het algoritme houdt geen rekening met een fraudebedrag. Luk: „Wij bouwen een model op het hele bestand. Als je moet uitsplitsen op een paar gevallen, houd je te weinig cases over om betrouwbare berekeningen te maken.”

Er is nog een reden: „Het gaat om het rechtvaardigheidsgevoel, niet om hoeveel de gemeente eruit kan trekken”, zegt Gerrit van Romunde. „Ik verwacht als burger ook dat de politie mijn woninginbraak net zo serieus onderzoekt als die van een miljonair.”