Datasets en mobiliteit (VK 1/2014)
Vraag van de redactie: Wat zijn voor- en nadelen van grote datasets?
Antwoord Bert van Wee:
In rap tempo komen steeds meer zeer grote databestanden (‘big data’) beschikbaar, ook op het gebied van verkeer en vervoer/mobiliteit, met zowel voordelen als nadelen/risico’s. Het gaat bijvoorbeeld om data verzameld met smartphones, Tomtoms of via social media. Een overzicht.
Voordelen liggen onder meer op methodisch en theoretisch terrein. De dataverzameling is vaak relatief goedkoop: de data worden om andere redenen dan onderzoekstechnische verzameld. Bovendien maken de grote aantallen het mogelijk alsnog te toetsen op statistische significantie, met name wanneer maar weinig mensen of verplaatsingen vallen onder dat wat de onderzoeker wil weten. Denk bijvoorbeeld aan verplaatsingen naar specifieke bestemmingen (zoals festivals), of het verplaatsings- of rijgedrag onder specifieke (weers)omstandigheden, bijvoorbeeld in geval van evacuaties of zware storm. En we weten weinig van loop- en fietsgedrag; het gebruik van big data kan inzichten daarin sterk doen vergroten. Ook kunnen we beter verplaatsingsgedrag koppelen aan activiteitengedrag, omdat we ook kenmerken van de herkomsten en bestemmingen weten.
Zo kunnen we diverse vormen van winkels (winkelgedrag) onderscheiden, terwijl dat in traditioneel onderzoek vaak simpelweg in hooguit twee categorieën (dagelijkse boodschappen, overig) wordt gesplitst. Soms, maar niet altijd, zijn de data van betere kwaliteit. Denk aan de duur of afstand van trips: een apparaat registreert beide precies; mensen maken schattingen en ronden af. En we kunnen meer te weten komen over korte verplaatsingen (die vergeten mensen nogal eens als ze dagboekjes moeten invullen). Verder kunnen onderzoekers nieuwe patronen ontdekken, of zelfs nieuwe theorieën ontwikkelen door grote bestanden te analyseren, zelfs als ze geen a priori veronderstellingen hebben (‘datamining’).
Andere voordelen hangen samen met het feit dat van dezelfde mensen over een langere periode / op meerdere momenten data beschikbaar komen. Zo kunnen we met big data onderzoeken hoe het verplaatsingsgedrag van mensen verandert als er in hun buurt een station geopend wordt. Ook kunnen we via big data onderzoeken of klachten van bewoners (‘ze rijden veel te hard op deze weg’; ‘elke ochtend staat het verkeer hier vast’) gebaseerd zijn op incidenten, of dat er meer aan de hand is. En kunnen we bottlenecks in het transportsysteem traceren. Via social media kunnen we patronen in opvattingen van mensen over delen van het transportsysteem ontdekken.
Maar er zijn ook nadelen en risico’s. Ten eerste lijkt zich een patroon voor te doen van: hoe meer data, hoe minder theoretische onderbouwing van het onderzoek. Er valt simpelweg heel veel te onderzoeken en ontdekken, maar als dat gebeurt zonder goede theoretische basis, kunnen ‘verkeerde’ conclusies het resultaat zijn. Verder is het de vraag of onderzoekers zich evengoed bewust zijn van de kwaliteit van data; als wanneer de onderzoeker zelf data heeft verzameld.
Een specifiek voorbeeld van datakwaliteit betreft het effect van zelfselectie: de mensen die data genereren, zijn niet representatief voor de gehele groep waarin de onderzoeker is geïnteresseerd (‘populatie'). Bijvoorbeeld: de tomtom gebruiken we vaker voor incidentele dan terugkerende verplaatsingen. En juist de tomtom beïnvloedt de routekeuze. Conclusies over routekeuzegedrag gebaseerd op de tomtom zijn daarmee niet per definitie representatief voor alle routekeuzegedrag. En mogelijk zijn smartphone gebruikers geen aselecte steekproef uit alle mensen waarover de onderzoeker uitspraken wil doen, om over social media gebruikers nog maar te zwijgen. Een ander mogelijk nadeel licht op het gebied van privacy. Wat vinden gebruikers acceptabel ten aanzien van het beschikbaar stellen van ‘hun’ data, al is het geanonimiseerd?
Ik denk dat we nog veel moeten leren ten aanzien van het gebruik van big data voor onderzoeksdoeleinden. In eerste instantie denken we vaak in termen van substitutie: wat kunnen we met big data in plaats van met traditionele methoden voor dataverzameling? Maar op termijn zullen we meer nieuwe mogelijkheden ontdekken, en zullen nieuwe onderzoeksvragen gegenereerd worden. Van veel mogelijkheden zijn we ons misschien nog niet bewust. En verder denk ik dat we in ons vakgebied veel kunnen leren van andere vakgebieden, en omgekeerd.
Auteur: Margriet Verhoog
Bert van Wee, hoogleraar transportbeleid
Reactie plaatsen •