Kennisportal
Kennisportal is een kennisplatform met een focus op de brede doelgroep Business en IT.

Tem je ongestructureerde data

De wereld verzamelt steeds meer data, en met een onrustbarend groeiende snelheid. Vanaf het begin van de beschaving tot ongeveer 2003 produceerde de mensheid zo’n 5 exabyte aan data. Nu produceren we deze hoeveelheid elke twee dagen. 90 procent van alle data is in de afgelopen 2 jaar gegenereerd.

Op zich is er niets mis met data, maar het probleem is dat een groot deel hiervan ongestructureerd is. Deze ‘dark data’ omvat inmiddels al zo’n vier vijfde van de totale databerg. En daarmee beginnen de echte problemen.

Privacy

Ongestructureerde data is onbruikbaar. Je weet niet wat erin zit, wat de structuur is en hoeveel informatie daarvan misschien belangrijk is. Hoe kun je voldoen aan de eisen van de nieuwe privacywetgeving, als je niet eens weet wélke informatie er in je data zit? Het kán gevoelige informatie zijn, zodat je de wet overtreedt zonder dat je daarvan op de hoogte bent. Totdat zich een lek voordoet en alle gegevens op straat liggen. En hoe kun je voldoen aan de Wet openbaarheid bestuur en straks aan de Wet open overheid, als je niet weet waar je de informatie moet vinden? De AVG verplicht je om persoonsgegevens te vernietigen als de persoon daarom vraagt. Maar als je niet weet waar je die moet vinden, sta je met de mond vol tanden.

Databerg

Stel je data voor als een ijsberg. Het grootste deel ligt onder water; je ziet het niet. Wat boven het water uitsteekt is de kritische informatie die je dagelijks gebruikt en die nodig is om jouw organisatie te laten werken. Direct onder het oppervlak ligt een groot deel dat ooit kritisch was. Het is gebruikt en daarna opgeslagen om vervolgens nooit meer aangeraakt te worden: redundant, overbodig geworden en triviaal, kortom ROT.

Het grootste deel van de berg bevindt zich daar weer onder, het is de ‘dark data’, verzameld door mensen, machines en allerlei werkprocessen. Je hebt geen idee wat er zich in dat donkere deel schuilhoudt. Het zijn gegevens die zijn verzameld door sensoren, video’s van beveiligingscamera’s, en vele, vele documenten van lang, lang geleden.

Nieuwe inzichten

Tuurlijk, je kunt het negeren. Je hebt het immers niet nodig voor je dagelijkse workflow. Maar voor hetzelfde geld bevindt zich in die dark data waardevolle informatie die gebruikt kan worden om de processen in de organisatie beter te laten verlopen. Of nieuwe toepassingen mogelijk te maken. Door data uit de berg te leggen op andere data bijvoorbeeld, kun je plotseling nieuwe inzichten verkrijgen waarmee beleid kan worden gemaakt; informatiegestuurd beleid.

Digitale dompteur

Als alle plannen en elke beleidsmaatregel kan worden onderbouwd met keiharde gegevens uit de databerg, dan hebben we de heilige graal gevonden. De kwaliteit van de dienstverlening van de overheid gaat met sprongen omhoog, en er komen nieuwe impulsen voor veiligheid, handhaving, onderhoud en schuldhulpverlening, om maar eens een paar beleidsterreinen te noemen.

Dat zal wel een onbereikbaar ideaal blijven, maar we kunnen wel flinke stappen in de goede richting maken. Digitaal werken betekent voortdurend aanpassen, herordenen, migreren. Om digitale informatie te temmen is een digitale dompteur nodig: een beheeromgeving die structuur aanbrengt en die inspeelt op de voortdurende veranderingen die digitalisering met zich meebrengt.

Hoe kunnen we van de ongestructureerde databerg bruikbare informatie maken? Hoe kun je ervoor zorgen dat je conform de wet met data werkt en deze veilig beheert? Daarover in een volgende blog meer.