Het begrip ‘Data lake’ is een relatief nieuw concept in de wereld van Big Data. Het was tot voor kort zelfs niet te vinden op Wikipedia. Er zijn drie manieren om een business ‘Data lake’ te beschrijven. In eerste instantie is het een plaats waar je alle data die je intensief wilt gaan gebruiken en bestuderen, kunt plaatsen. Dat kan zowel gestructureerde data zijn, die normaal in databases staat, als ongestructureerde data zoals mail en tekst. Het is zowel eigen data die de organisatie genereert als data die van buiten komt, zoals van sociale media en van sensoren en telematica en als geheel potentieel interessant is om te onderzoeken.
Ten tweede is het een platform voor Big Data analytics. Het data lake is dus niet alleen de landingsplaats voor al die data, het is ook de plaats waar je die data kunt analyseren, correlaties kunt proberen te vinden of nieuwe algoritmen kunt uitproberen om de business performance te verbeteren. Kortom, data die je eenmaal in een data lake hebt verzameld, is blijvend ter beschikking om te doorzoeken.
Op de derde plaats lost een data lake het spanningsveld op tussen de bedrijfsmatige drang om alles in gestructureerde databases te plaatsen, versus de realiteit dat heel veel data helemaal niet (meer) te structureren valt. In een gestructureerde omgeving wordt van te voren bepaald welke views men op die data wil hebben. Vervolgens wordt hiervoor een structuur bedacht waarbij de data op vaste wijze in rijen en kolommen wordt gepositioneerd.
Echter heel veel data laat zich niet zo structureren, of er zijn vele verschillende deelstructuren aanwezig die elk hun eigen logica hebben. Zo zouden veel organisaties een overall-inzicht willen hebben in alle afdelingsgerichte Excel sheets, zonder dat dat noodzakelijkerwijs eerst in een grote, gestructureerde database wordt ingevoerd. Een data lake is een gedeelde bergplaats waar een heleboel zorgvuldig verzamelde data kan worden opgeslagen. En die de mogelijkheid biedt om snel en efficiënt verschillende views en doorkijkjes door die dataverzameling te maken. En data-correlaties die daarna gebruikt kunnen worden in data-driven applicaties.
Pivotal
Bij Pivotal, de nieuwe loot binnen de EMC familie, zegt men dan ook wel dat een data lake je de mogelijkheid geeft om álles op te slaan, aálles te analyseren en daar álles uit te kunnen bouwen wat je wilt. Een fundamentele, nieuwe manier om met data om te gaan. Database-structuren zijn de afgelopen decennia niet echt veranderd, terwijl de data die we zijn gaan maken en gebruiken intussen dramatisch veranderde.
Data lakes kunnen een grote variëteit aan gegevens opslaan, en je kunt het schalen naar zeer grote hoeveelheden. Je hoeft echter niet alles voor de eeuwigheid in een data lake te bewaren: je verzamelt dié gegevens, waar je op dat moment interesse in hebt en wilt gaan gebruiken. Daarnaast hebt je grote flexibiliteit om snel grote hoeveelheden er in en er uit te brengen op het moment dat je dat nodig vindt. Bijvoorbeeld als je verschillende actuele, interne datasets samen met sociale media-informatie wilt gebruiken om een specifieke marktanalyse uit te voeren.
De architectuur van data lakes is gebaseerd op Hadoop, een nieuw gedistribueerd filesysteem dat zo’n 10 jaar geleden eerst door Yahoo en later verder door Google is ontwikkeld om grote hoeveelheden data te doorzoeken. Hadoop reduceert ook op een drastische wijze de kosten van opslag. Maar een data lake is in principe niet bedoeld voor opslag, maar voor data-exploratie, data samen te voegen op nieuwe manieren, te analyseren en ervan te leren.
Maar het betekent ook niet dat we afscheid gaan nemen van gestructureerde databases. Er is altijd behoefte om bepaalde data gestructureerd te maken, omdat op die wijze allerlei business applicaties hun transactionele bewerkingen efficiënt kunnen maken. En standaard rapportages kunnen leveren. Zaken die horen bij een gestructureerde back-office waar de processen en behoeften niet zo snel veranderen en juist stabiliteit zinvol is. En waar behoefte is aan business intelligence gebaseerd op gestructureerde gegevens.
Complementair
Gestructureerde databases en data lakes vullen elkaar aan. Data dient eerst te worden gemigreerd uit databases of warehouses naar het data lake om ongestructureerde relaties of andere onbekende trends te doorzoeken. De resultaten van die zoektocht kunnen daarna weer worden opgeslagen om later nogmaals te gebruiken.
Het is in feite het platform voor de data scientist om data exploratie te doen; complexe data-omgevingen doorzoeken en iteratief virtualisaties maken van predicatieve modellen om het te kunnen presenteren. Eindelijk hebben we technieken en methoden gekregen om inhoudelijk de grote data hoeveelheden te kunnen verwerken die we tegenwoordig produceren.
Data lakes zijn te bouwen, ze zijn hier en nu. De technische integratie van flexibele, schaalbare storage met Big Data analytics is beschikbaar, maar is beslist niet eenvoudig in te richten. Het vraagt inzicht in de onderliggende technologie. Daarom wordt het vaak aangeschaft als een vooraf samengestelde PaaS. Een Platform as a Service, zoals Pivotal dat momenteel al aan veel bedrijven heeft geleverd en voor hen heeft ingericht als business data lake en waar datascientists direct mee aan de gang kunnen.
De meeste bedrijven gebruiken nog maar een fractie van wat Big Data analytics te bieden heeft. Nu de technische barrières zijn verwijderd, kan elke organisatie in principe zonder problemen van start met Big Data en daaruit business value genereren. Begin met een paar interessante opportuniteiten, wees creatief en ontdek dat het al snel je verwachtingen en ambities zal overstijgen. Het is een totaal nieuwe wereld waar je veel schoonheid in schijnbare chaos kunt ontdekken.
Door: Hans Timmerman, cto EMC Nederland
*De inspiratie van deze blog kwam uit een interview met de CEO van Pivotal, Paul Maritz.
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht