3 Hadoop-scenario’s voor náást je datawarehouse

Laatste update 04 juli 2022

Elke organisatie is anders, maar je komt in de praktijk toch een aantal algemene scenario’s voor Hadoop tegen. Over het algemeen komen deze voor wanneer organisaties zich concentreren op het gebruik van Hadoop als dataplatform. Deze blog belicht de cruciale vraag: waar vult Hadoop aan en waar vervangt het?

De inzet van Hadoop als dataplatform gebeurt in veel gevallen naast de traditionele data-aanpak die de meeste bedrijven nu al hanteren. Daarbij zie je drie veel voorkomende scenario’s:

Hadoop als een nieuwe data store.
Hadoop dataplatform als een aanvullende input voor het bestaande enterprise datawarehouse (EDW).
Hadoop dataplatform als een basis voor Business Intelligence (BI) en analytics.

Deze drie gebruiksvormen worden belicht en daarbij wordt aangeven hoe IT-teams de geschiktheid van elk kan inschatten voor hun eigen organisaties. (Voor verschillende organisaties zijn verschillende modellen van toepassing als beste optie).

1. Hadoop als een nieuwe data store undefined

In dit scenario kijken organisaties naar Hadoop om nieuwe soorten data op te pakken. Die data valt dan in dat geval op dit moment niet onder het enterprise datawarehouse (EDW) en omvat ongestructureerde data, semi-gestructureerde data of data waarvan het nut nu nog niet bekend is. Organisaties lopen warm voor dit scenario omdat het geen impact heeft op de bestaande inspanningen voor datawarehouses of datamarts. Tegelijkertijd stelt dit Hadoop-gebruik organisaties in staat om met een goedkope aanpak waarde te extraheren uit data die ze al hebben maar die ze mogelijk nog niet gebruiken.

Over het algemeen vallen organisaties die voor dit scenario gaan uiteen in twee groepen. De ene groep ziet Hadoop als een manier om innovatieve bedrijfsstrategieën te ondersteunen waarbij nieuwe data is vereist. De andere groep ziet Hadoop als een manier om bestaande ongestructureerde en semi-gestructureerde data tegen de laagste kosten over te hevelen naar één beheerde locatie. Als je deze aanpak nader bekijkt, blijkt dat er vaak maar een klein aantal gebruikers echt Hadoop aanspreekt en gebruikt.

2. Hadoop data platform als aanvulling op het EDW

In dit scenario gebruiken organisaties Hadoop om nieuwe soorten data af te handelen, net zoals in het bovengenoemde scenario maar dan met een toevoeging. Zij voeden de nieuwe, dankzij Hadoop ontdekte inzichten door in hun enterprise datawarehouse (EDW) voor massaconsumptie door de organisatie. Hadoop dient in dit model als een goedkoop platform om nieuwe inzichten te halen uit ongestructureerde data, semi-gestructureerde data en data waarvan de waarde nog niet bekend is. Dit heeft geen impact op het bestaande EDW-proces, maar extra data-flows worden vaak vanuit Hadoop opgezet wanneer er iets waardevols is ontdekt dat men beschikbaar te wil stellen voor massaconsumptie. In wezen complementeert Hadoop hierbij de rest van de datastrategie en het EDW blijft de enkelvoudige bron van data voor de meeste gebruikers, zelfs als zij verder downstream daar toegang toe hebben via een datamart. Het neveneffect hiervan is dat het EDW groeit en dat leidt vaak tot extra kosten in dat deel van het IT-landschap.

De ontdekking van waardevolle zaken via Hadoop komt vaak door het gebruik van Business Intelligence en data analytics. Soms worden die BI- en analytics-oplossingen direct op de Hadoop-omgeving uitgevoerd en soms hebben organisaties al wat datatransformatie gedaan vanuit Hadoop naar een RDBMS of een andere valide datastore van waaruit mensen dan werken met de data. Laatstgenoemd analysevoorbeeld is de reden waarom sommige bedrijven ín Hadoop meer gestructureerde datamarts hebben, zoals getoond onderin de afbeelding bij dit tweede gebruiksscenario voor Hadoop. De datamarts zelf kunnen staan in HIVE, Cloudera Impala, Pivotol HAWQ of zelfs in een aparte appliance, RDBMS of SAS-omgeving. Dit ljkt, gezien de technologieën die nu beschikbaar zijn, nogal een overkill maar het is wel een scenario dat je in de praktijk ziet. Het aantal gebruikers dat echt in aanraking komt met Hadoop is in dit geval wel groter dan in het eerste scenario, maar mogelijk wordt de data die in Hadoop wordt gestopt nog altijd niet blootgesteld aan de massa van gebruikers in een organisatie.

Het achterliggende idee van dit tweede Hadoop-gebruiksscenario is dat de kosten van een uitwassend EDW in de hand worden gehouden. Dit wordt bereikt door simpelweg niet alle nieuwe data direct in het datawarehouse te stoppen maar te wachten totdat je weet welke data nuttig is voor massaconsumptie. Daarnaast is er de hoop dat deze nieuwe omgeving de organisatie een zeer goedkope manier geeft om innovatieve bedrijfsstrategieën uit te broeden. Dat zijn dan innovatieve strategieën die enorme datavolumes en datavariëteiten vereisen, die wanneer ze zich eenmaal bewezen hebben weer opgenomen kunnen worden in een meer ‘robuust’ en kostbaar EDW. Het voornaamste doel is om het relatief dure EDW alleen van die data te voorzien die er waardevol voor is, zónder de processen en structuren te verstoren die organisaties al in huis hebben.

3. Hadoop dataplatform als basis voor BI en analytics

In dit scenario omarmen organisaties Hadoop met de intentie om er hun hoofd-datastore van te maken voor alles wat met BI en analytics te maken heeft. EDW-processen worden hierbij grotendeels ongemoeid gelaten, maar extra data-flows worden toegevoegd aan een kopie van de EDW-data in Hadoop. Daar wordt het dan gecomplementeerd door aanvullende data die nooit door het EDW gaat of zal gaan. Deze aanpak kan de omvang van het EDW verkleinen of simpelweg de groei ervan afremmen.

Dit betekent dat het EDW dienst kan blijven doen voor belangrijke taken zoals rapportages voor wet- en regelgeving. Daarnaast blijven systemen die op dit moment het EDW nodig hebben gewoon ongewijzigd functioneren. De meeste BI- en analytics-taken die verder gaan dan deze beperkte scope kunnen overgeheveld worden om te werken op basis van de Hadoop-datastore. Veel organisaties halen voordeel uit het draaien van analyses draaien vanuit Hadoop omdat het meer data uit verschillende systemen bevat dat het EDW en ook nog eens grotere datavolumes met een veel verder teruggaande historie. Plus Hadoop kan data bevatten op een meer detailleerd niveau qua transacties. Dit in tegenstelling tot het zeer geagregeerde beeld dat we vaak zien in een EDW.

Dankzij deze voordelen van Hadoop boven een EDW is het mogelijk om rapportageprocessen uit te voeren op enorme volumes aan data met meer historie. Verder zijn analytische modellen te ontwikkelen die veel fijnmaziger zijn qua data en ook met meer historie, wat ook nuttig kan zijn voor operationele inzet later in een EDW of een andere operationale applicatie. Wat hier in wezen gebeurt, is dat bedrijven hun analytische dataverwerking en -rapportage willen offloaden van het EDW naar Hadoop. Hadoop wordt dan de enige bron voor de meeste gebruikers, ook als zij pas verder downstream via een datamart toegang hebben tot de data.

Vooruit kijken
Deze drie scenario’s tonen aan hoe Hadoop in gebruik wordt genomen rondom bestaande EDW-processen of om nieuwe, opkomende databronnen aan te pakken. Dit zijn nog de drie minst controversiële scenario’s. Vaak wordt er gevraagd welk scenario het beste is. Het juiste antwoord is afhankelijk van dat wat je probeert te bereiken. Waar wordt je data voor gebruikt, nu en in de toekomst? Wat zijn je plannen voor de komende jaren? Één ding is wel zeker: Hadoop zal daarin een rol spelen.

Meer weten over Hadoop? Lees dan ook de whitepaper “Fast and Furious: Big Data Analytics Meets Hadoop”.