Ook in het riool zit big data

In riolen kun je van alles tegenkomen. Behalve water zitten de riolen tegenwoordig vol met big data. Maar wat heb je daar aan?

Dat cocaïne in Utrecht en Eindhoven het afgelopen jaar veel meer gebruikt wordt weten we dankzij big data. En dan hebben we het niet over ‘ook maar een mening’, maar keiharde feiten. Sporen van drugs komen namelijk terecht in het rioolwater en zijn door het nemen van monsters op te sporen. Hetzelfde geldt natuurlijk ook voor de chemicaliën die vrijkomen bij de productie van chemische drugs. Ook die komen in het riool en laten sporen en dus data achter. Het jaarlijkse rioolonderzoek van de Europese Agentschap voor Drugs en Drugsverslaving (EMCDDA) in 67 Europese steden (waaronder Utrecht, Eindhoven en Amsterdam) laat zien wat big data kan. Het onderzoek brengt het drugsgebruik van maar liefst 35 miljoen mensen in beeld. Op basis van meerdere databases (justitie, gezondheidszorg, bevolkingsgegevens) zorgen analyses voor interessante conclusies. Vooral de veelheid van databases is wat data big data onderscheidt van standaard onderzoek. Zo is de totale consumptie van cocaïne in Eindhoven net iets groter dan in Utrecht (0,5 kilo/dag). Maar ledere getallen naast de bevolkingsgegevens van die twee steden en wat blijkt? Eindhoven telt 225.020 inwoners, tegenover 339.946 in Utrecht. Het is dus 2:3 als het om inwoners gaat en 1:1 wat betreft coke. Een mooi en betrekkelijk eenvoudig voorbeeld dus van hoe big data werkt: onderzoek patronen in grote databases uit verschillende bronnen.

Big data; wat bedoel je er mee?

Verwacht bij nieuwe trends als big data geen duidelijke definitie. Anders gezegd: wat de een big data noemt, is voor de ander nog lang geen big data. Maar er zijn eigenschappen die steeds weer terugkeren als er gesproken wordt van big data. Bijvoorbeeld de grote hoeveelheden data; soms zo groot dat een ‘gewoon’ datamanagementsysteem er geen wijs uit wordt. In dit verband noemen we IoT: niet alleen mensen, maar ook ‘dingen’ (verbonden door sensoren) hebben tegenwoordig een verbinding met internet en verspreiden via het net constant data.

Big data worden steeds groter

Een ander kenmerk is de enorme groei van data dankzij het gemak en snelheid waarmee data verplaatst worden. Ongeacht locatie zijn data steeds eerder beschikbaar. Wat betreft de opslag van data doet zich hetzelfde voor. Gebruikers doen niet meer dan een druk op de knop; op welke servers en datacentra de data uiteindelijk terecht komen is de meeste gebruikers volkomen onbekend. Wat betreft soorten data spreken we van gestructureerde en niet-gestructureerde data. Gestructureerd wil zeggen data correct opgeslagen in databases, veelal op basis van SQL. Kenmerkend voor big data zijn vooral de grote hoeveelheden ongestructureerde data. Voorbeelden daarvan zijn de enorme berichtenstromen die in social media-kanalen rondgaan (Facebook, Instagram). Maar ook telefoongesprekken, foto’s en video’s zijn ongestructureerde data die via het internet verspreid worden.

Maar uiteindelijk gat het om analyse

Naast die groeiende berg data gaat het bij big data om de analyse van data. Data alleen zijn immers geen informatie. Waar overheden, bedrijven, onderwijs en wetenschap en marketingmensen nieuwsgierig naar kijken zijn trends, verklaringen en zelfs voorspellingen. Voor analyse van alle big data schiet SQL, het databasesysteem van traditionele databases, tekort. De databases van nu bestaan uit zeer grote hoeveelheden gestructureerde data, en misschien nog meer ongestructureerde data; en zelfs data die überhaupt niet te structureren zijn. Dit nieuwe soort databases is niet gebaseerd op SQL en wordt daarom NoSQL-databases genoemd. Bij dit type databases hoort een andere manier van data-analyse, gericht op efficiënte algoritmes waarmee patronen in data worden herkend. Voorbeelden daarvan zijn analyses van conversaties in facebook-berichten, whatsapp-berichten of telefoongesprekken. Behalve data-analisten maken ook veiligheidsdiensten en groeperingen met minder goede bedoelingen hier dankbaar gebruik van.

Cloudcomputing? Niet iedereen is er gek op

Nog een ander kenmerk van big data zijn de verschillende ontwikkelingen rond de cloud. Cloudcomputing is in feite bewerking en opslag van data door veel servers tegelijk. Wie via de cloud werkt profiteert van een enorme capaciteit die elders, buiten de eigen PC of bedrijfsnetwerk gestationeerd is. En dat zonder het direct te merken. Door meerdere servers tegelijk te laten werken geniet de gebruiker van een snelheid die ver boven van zijn eigen apparatuur ligt. Cloudcomputing is ook in de industriële automatisering een veel besproken thema. Bedrijven als Siemens en Phoenix Contact bieden tegenwoordig sinds kort oplossingen voor cloudcomputing, toegespitst op gebruikers van industriële automatiseringssystemen. Tijdens de laatste SPS IPC-Drives in Neurenberg viel wel op dat andere aanbieders zoals SEW en Bachmann terughoudend reageren op het werken via de cloud. Zelf werken ze veel via de cloud, maar dergelijke services aan hun klanten bieden gaat hen te ver. Tenminste voorlopig. Gevraagd naar het waarom luidt het antwoord ‘De safety voor data is in de cloud niet voldoende geregeld. Bovendien zijn er teveel onduidelijkheden als het gaat om de aansprakelijkheid. En van wie zijn de data in de cloud? Wie is er aansprakelijk als data verdwijnen, databases gesaboteerd worden, er misbruik van gemaakt wordt? De VDMA en ZVEI zijn nog niet klaar met hun normen voor de cloud. Daarom kijken we liever de kat uit de boom.’

Bewaren