07-11-2014

Drie manieren om een business ‘Data lake’ te beschrijven

Deel dit bericht

Het begrip ‘Data lake’ is een relatief nieuw concept in de wereld van Big Data. Het was tot voor kort zelfs niet te vinden op Wikipedia. Er zijn drie manieren om een business ‘Data lake’ te beschrijven. In eerste instantie is het een plaats waar je alle data die je intensief wilt gaan gebruiken en bestuderen, kunt plaatsen. Dat kan zowel gestructureerde data zijn, die normaal in databases staat, als ongestructureerde data zoals mail en tekst. Het is zowel eigen data die de organisatie genereert als data die van buiten komt, zoals van sociale media en van sensoren en telematica en als geheel potentieel interessant is om te onderzoeken.

Ten tweede is het een platform voor Big Data analytics. Het data lake is dus niet alleen de landingsplaats voor al die data, het is ook de plaats waar je die data kunt analyseren, correlaties kunt proberen te vinden of nieuwe algoritmen kunt uitproberen om de business performance te verbeteren. Kortom, data die je eenmaal in een data lake hebt verzameld, is blijvend ter beschikking om te doorzoeken.

Op de derde plaats lost een data lake het spanningsveld op tussen de bedrijfsmatige drang om alles in gestructureerde databases te plaatsen, versus de realiteit dat heel veel data helemaal niet (meer) te structureren valt. In een gestructureerde omgeving wordt van te voren bepaald welke views men op die data wil hebben. Vervolgens wordt hiervoor een structuur bedacht waarbij de data op vaste wijze in rijen en kolommen wordt gepositioneerd.

Echter heel veel data laat zich niet zo structureren, of er zijn vele verschillende deelstructuren aanwezig die elk hun eigen logica hebben. Zo zouden veel organisaties een overall-inzicht willen hebben in alle afdelingsgerichte Excel sheets, zonder dat dat noodzakelijkerwijs eerst in een grote, gestructureerde database wordt ingevoerd. Een data lake is een gedeelde bergplaats waar een heleboel zorgvuldig verzamelde data kan worden opgeslagen. En die de mogelijkheid biedt om snel en efficiënt verschillende views en doorkijkjes door die dataverzameling te maken. En data-correlaties die daarna gebruikt kunnen worden in data-driven applicaties.

Pivotal
Bij Pivotal, de nieuwe loot binnen de EMC familie, zegt men dan ook wel dat een data lake je de mogelijkheid geeft om álles op te slaan, aálles te analyseren en daar álles uit te kunnen bouwen wat je wilt. Een fundamentele, nieuwe manier om met data om te gaan. Database-structuren zijn de afgelopen decennia niet echt veranderd, terwijl de data die we zijn gaan maken en gebruiken intussen dramatisch veranderde.

Data lakes kunnen een grote variëteit aan gegevens opslaan, en je kunt het schalen naar zeer grote hoeveelheden. Je hoeft echter niet alles voor de eeuwigheid in een data lake te bewaren: je verzamelt dié gegevens, waar je op dat moment interesse in hebt en wilt gaan gebruiken. Daarnaast hebt je grote flexibiliteit om snel grote hoeveelheden er in en er uit te brengen op het moment dat je dat nodig vindt. Bijvoorbeeld als je verschillende actuele, interne datasets samen met sociale media-informatie wilt gebruiken om een specifieke marktanalyse uit te voeren.

De architectuur van data lakes is gebaseerd op Hadoop, een nieuw gedistribueerd filesysteem dat zo’n 10 jaar geleden eerst door Yahoo en later verder door Google is ontwikkeld om grote hoeveelheden data te doorzoeken. Hadoop reduceert ook op een drastische wijze de kosten van opslag. Maar een data lake is in principe niet bedoeld voor opslag, maar voor data-exploratie, data samen te voegen op nieuwe manieren, te analyseren en ervan te leren.

Maar het betekent ook niet dat we afscheid gaan nemen van gestructureerde databases. Er is altijd behoefte om bepaalde data gestructureerd te maken, omdat op die wijze allerlei business applicaties hun transactionele bewerkingen efficiënt kunnen maken. En standaard rapportages kunnen leveren. Zaken die horen bij een gestructureerde back-office waar de processen en behoeften niet zo snel veranderen en juist stabiliteit zinvol is. En waar behoefte is aan business intelligence gebaseerd op gestructureerde gegevens.

Complementair
Gestructureerde databases en data lakes vullen elkaar aan. Data dient eerst te worden gemigreerd uit databases of warehouses naar het data lake om ongestructureerde relaties of andere onbekende trends te doorzoeken. De resultaten van die zoektocht kunnen daarna weer worden opgeslagen om later nogmaals te gebruiken.

Het is in feite het platform voor de data scientist om data exploratie te doen; complexe data-omgevingen doorzoeken en iteratief virtualisaties maken van predicatieve modellen om het te kunnen presenteren. Eindelijk hebben we technieken en methoden gekregen om inhoudelijk de grote data hoeveelheden te kunnen verwerken die we tegenwoordig produceren.

Data lakes zijn te bouwen, ze zijn hier en nu. De technische integratie van flexibele, schaalbare storage met Big Data analytics is beschikbaar, maar is beslist niet eenvoudig in te richten. Het vraagt inzicht in de onderliggende technologie. Daarom wordt het vaak aangeschaft als een vooraf samengestelde PaaS. Een Platform as a Service, zoals Pivotal dat momenteel al aan veel bedrijven heeft geleverd en voor hen heeft ingericht als business data lake en waar datascientists direct mee aan de gang kunnen.

De meeste bedrijven gebruiken nog maar een fractie van wat Big Data analytics te bieden heeft. Nu de technische barrières zijn verwijderd, kan elke organisatie in principe zonder problemen van start met Big Data en daaruit business value genereren. Begin met een paar interessante opportuniteiten, wees creatief en ontdek dat het al snel je verwachtingen en ambities zal overstijgen. Het is een totaal nieuwe wereld waar je veel schoonheid in schijnbare chaos kunt ontdekken.

Door: Hans Timmerman, cto EMC Nederland

*De inspiratie van deze blog kwam uit een interview met de CEO van Pivotal, Paul Maritz.

Partners