Lectoraat Data Science

De feiten achterhalen met data-onderzoek

Mischa Beckers, lector Data-Science

Wellicht roept de naam Data Science niet direct een beeld op van het onderzoek dat hierbij hoort. In 2012 kopte Harvard Business Review dat datawetenschapper de meest sexy baan van de 21e eeuw werd en de Nationale Denktank verwachtte tegen 2018 een tekort van 8000 dataspecialisten in Nederland. Maar wat is Data Science eigenlijk? Tijd voor een kennismaking met het gelijknamige lectoraat aan de hand van twee onderzoeken.

Data Science is in essentie het proces dat het nemen van beslissingen op basis van data ondersteunt en niet op intuïtie of omdat “we het altijd zo doen”. Data Science is een multidisciplinaire wetenschap. Natuurlijk is een data-onderzoeker kundig in dataontsluiting, statistiek en programmeren, maar ook kennis van bedrijfsprocessen en communicatie is essentieel. Voor een data-onderzoek moet eerst worden vastgesteld wat het doel is. Dan pas wordt gekeken welke data daarbij nodig is. De methode die het lectoraat standaard hanteert is CRISP-DM (zie kader CRISP-DM) waarvan het iteratieve karakter een snelle oplevering van tussenresultaten garandeert die met de belanghebbenden worden geëvalueerd. De speerpunten van het lectoraat zijn mobiliteit en rotating equipment (zie kader Speerpunten en thema's), waarbij duurzaamheid een belangrijk thema is. Bij Data Science denkt men vaak aan systemen die op basis van heel veel data leren te voorspellen. Dat hier in de praktijk de nodige haken en ogen aan zitten laten de twee volgende casussen zien.

Casus 1: De efficiëntie van een sluis. Rijkswaterstaat is een belangrijke partner van het lectoraat. Vorige zomer is een project afgerond rondom het beheer van de Kreekraksluis. Een van de vragen was welke factoren de passeertijd van een sluis beïnvloeden. Een lange passeertijd kost de schipper geld. Daarom geldt er een norm (maximum) voor. Van alle schuttingen en passages van 2012 tot en met 2019 is onder meer het model in figuur 1 gemaakt. Het levert een fascinerend inzicht op.

Figuur 1: Vullingsgraad versus passeertijd Westsluis (vaarrichting Noord).

Allereerst overstijgt een groot deel van de metingen de norm van 45 minuten voor de passeertijd. Sterker, een deel heeft een grotere passeertijd dan 80 minuten, wat als een praktische grens wordt beschouwd. Deze uitschieters duiden op een uitzonderlijke situatie en moeten daarom nader onderzocht worden. Daarnaast is bij de bezetting te zien dat een aantal metingen boven de maximumcapaciteit van de sluis uitkomt, wat eigenlijk niet kan. De oorzaak bleek de duwbakcombinaties te zijn die altijd geregistreerd worden met het maximale aantal duwbakken, ook als het schip met minder bakken vaart. Tevens bevat het systeem veel artefacten. Passeertijden die dicht bij 0 minuten liggen zijn niet mogelijk. Hier zijn waarschijnlijk testregistraties uitgevoerd. Omdat stremmingen een veroorzaker kunnen zijn van langere passeertijden (langere wachttijd, omdat er niet geschut kan worden) was het verzoek om te achterhalen welke storingen de belangrijkste veroorzakers van stremmingen zijn. Daarvoor hebben we een bestand met storings- en onderhoudsdata gecombineerd met een bestand met passeertijden en stremmingen. De grote uitdaging was het achterhalen van de storingen die een bepaalde stremming hadden veroorzaakt. Door een slimme truc toe te passen met tijdsloten van de stremmingen en storingen lukte dat. En zo vonden we uiteindelijk de daadwerkelijke storende componenten van de sluis, waarmee Rijkswaterstaat de werking van de sluis kan optimaliseren.

Casus 2: Voorspellen restlevensduur van warmtepompen Aangezien verwarmen met een warmtepomp minder milieubelastend is dan met een cv-ketel op gas is er toenemende interesse voor het toepassen van warmtepompen. De hogere kosten van aanschaf worden terugverdiend door een lager verbruik tijdens de levensduur. Omdat warmtepompen relatief nieuw zijn is er nog niet veel informatie over de levensduur beschikbaar. In de wijk Ouverture in Goes worden sinds 2001 ruim 200 woningen verwarmd met warmtepompen. Het lectoraat heeft een schatting gemaakt van de levensduur gebaseerd op gegevens van plaatsing en vervanging van de warmtepompen tussen 2001 en 2018. Voor dit onderzoek is een zogenaamde survival analyse gemaakt, een methode die in de medische wereld gangbaar is om de levensverwachting van groepen patiënten aan te geven na een operatie. Deze techniek is ook toepasbaar op de levensduur van warmtepompen. De survival curve is dan gebaseerd op het aantal vervangingen in de tijd. Door het combineren van twee statistische methodes, Kaplan en Meier (1958) en Weibull (1951) is een survival curve opgesteld die het verloop van de levensduur beschrijft (Figuur 2). De lichtblauwe banden geven de onzekerheid over de curve weer. Die onzekerheid wordt groter met het toenemen van de leeftijd, omdat er in de dataset minder warmtepompen met een hogere leeftijd zijn.

Figuur 2: Survival curve voor levensduur van warmtepompen in woningen van de wijk Ouverture

De oranje curve in figuur 2 toont de geschatte survival curve volgens de Weibull verdeling. Hieruit zijn schattingen voor overleving in de toekomst af te lezen, hoewel de onzekerheid toeneemt met de leeftijd. Volgens die curve zal na 20 jaar ruim 60% van de pompen nog functioneren, na 25 jaar ruim 40% en na 30 jaar bijna 25%. Een resultaat waarmee de opdrachtgever DNWG haar vervangingsstrategie kan opstellen. Deze twee casussen laten zien dat een goed data-onderzoek geld bespaart, milieu spaart en werkprocessen stroomlijnt.

CRISP-DM Het Cross Industry Standard Process for Data Mining (CRISP-DM) is een werkwijze om datagedreven problemen op te lossen. Dat gebeurt iteratief, oftewel de life cycle wordt (doorgaans) meerdere malen doorlopen. De start is het vaststellen van het bedrijfsdoel dat bepaalt welke data relevant is. Vervolgens vindt er een verkennende data-analyse plaats: welke variabelen zijn er gemeten, in welke eenheden, etc. Op basis van die bevindingen wordt de data verwerkt: variabelen of bestanden samengevoegd, nieuwe variabelen gecreëerd, missende waarden worden verwijderd of aangevuld etc. Daarna wordt er een model gemaakt. Belangrijk hierbij is dat bij een model een objectieve indicatie wordt gegeven over de nauwkeurigheid. De volgende stap is een reflectie op de werkwijze. Zijn alle stappen goed doorlopen en hoe interpreteren we de resultaten in relatie tot de gestelde doelen. Ten slotte wordt aangegeven of een nieuwe iteratie nodig is en wat daarin de te volgen stappen zijn, of dat de doelen behaald zijn en dat de cycle is afgerond.

Bron afbeelding: https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining#/media/File:CRISP-DM_Process_Diagram.png

Speerpunten en thema's

Bij mobiliteitsvraagstukken gaat het over hoe we van aanbod gestuurd vervoer naar vraag gestuurd vervoer komen en welke factoren van invloed zijn op het verplaatsingsgedrag van inwoners en toeristen in een regio. Het is alleen vanuit het perspectief van bereikbaarheid, ontsluitbaarheid en veiligheid wenselijk dat het juiste type vervoer op het juiste moment beschikbaar is, het is ook duurzamer. Rotating equipment (‘draaiende apparatuur’) omvat een groot scala aan materiaal van de weg – en vaarwegbeheerders (bruggen en sluizen), de beheerders van de afvalwaterketens (gemalen), energieleveranciers (windturbines) en industrie (pompen en regelkleppen). Als we kunnen voorspellen wanneer (componenten uit) die equipment slechter presteren of zelfs falen, is dat een basis voor het opstellen van efficiëntere onderhoudsplannen. En het biedt perspectief voor op tijd repareren, reviseren en hergebruiken van componenten in plaats van weggooien of (veel) te vroeg vervangen.

Mischa Beckers promoveerde in 1997 aan de Radboud Universiteit Nijmegen op de toepassing van chemometrie in het bepalen van de 3-dimensionale structuur van biomacromoleculen DNA en eiwitten. Daarna paste hij onder meer data mining toe bij Kluwer Academic Publishers en Maxxton. In 2005 startte Mischa bij de opleidingen Informatica en Bedrijfskundige Informatica (inmiddels HBO-ICT) van de HZ. Hij bekleedde diverse functies en rollen zoals docent, projectleider onderzoek en opleidingscoördinator en was altijd nauw betrokken bij onderwijsontwikkeling. De vraag naar datagedreven expertise groeide inmiddels enorm. In maart 2017 werd hij aangesteld als lector Data Science. Het lectoraat werkt aan een groot aantal onderzoeksprojecten, in samenwerking met diverse onderzoeksgroepen binnen de HZ en een veelvoud aan externe partijen. Het lectoraat Data Science is nauw betrokken bij het vormgeven van het onderwijs. Dat resulteerde onder meer in een uitstroomrichting Data Science bij de bachelor HBO-ICT en een minor Applied Science. Daarnaast ontwikkelde het lectoraat een zevendaagse masterclass Data Science. Mischa is tevens jurylid van HZ Stern.

Mischa Beckers

Foto: Mechteld Jansen

Dankwoord Dit artikel is gebaseerd op onderzoeksresultaten van de volgende docentonderzoekers: Gert Jacobusse, Manuel Magallon, Daan de Waard, Jolene Cijsouw en Loek van der Linde (lectoraat Data Science). Een aantal van de resultaten kwam tot stand middels nauwe samenwerking met lector Asset Management Rob Schoenmaker en docentonderzoeker Jeroen van Beers. Referenties warmtepompen:

  • Jacobusse, G. & Beckers, M.L.M. (2020), Onderzoek naar de levensduur van warmtepompen, VV+.
  • Kaplan, E.L. & Meier, M. (1958). Nonparametric Estimation from Incomplete Observations, Journal of the American Statistical Association, 53:282, 457-481.
  • Weibull, W. (1951). A statistical distribution function of wide applicability, Journal of Applied Mechanics, Transactions ASME, 18 (3): 293–297.