17-11-2023

Rein de Jong: Cloudera maakt data bruikbaar

Deel dit bericht

Ooit begonnen als een aanbieder van een 'super-Hadoop' heeft Cloudera zich ontwikkeld tot een bedrijf dat ervoor zorgt dat data bruikbaar zijn binnen organisaties. Met zijn Data Platform hoeven analisten niet te sleutelen aan bijvoorbeeld dataformaten en bronnen. Dankzij de Unified Data Fabric.

In 2008 bogen drie ingenieurs van Google, Yahoo! en Facebook zich over Hadoop, het softwareframework voor opslag en verwerking van grote hoeveelheden data op meerdere computers. Open source natuurlijk. In het tijdperk waarin datalakes voorzichtig hun intrede deden. Een era waarin bedrijven iets wilden gaan doen met alle gegevens die ze verzamelen.

De oprichters stond voor ogen het gebruik van Hadoop eenvoudiger te maken en ontwikkelden een eigen versie van Hadoop onder de naam CDH. Ze waren de eersten die een commerciële versie ontwikkelden, compleet met (enterprisewaardige) ondersteuning en training. Het samengaan met Hortonworks in 2018, zo vertelt Rein de Jong, heeft de inspanningen van Cloudera meer doen gaan richting het veilig samenbrengen van data. De Jong is sinds ruim een jaar Regional Vice President BeNelux bij Cloudera. De onderneming heeft zich de laatste jaren ontpopt tot datahoeder.

Meerdere bronnen
Niet alleen de fusie met Hortonworks heeft de richting veranderd. “Er zijn als gevolg van cloud computing en edge computing veel meer databronnen ontstaan die organisaties willen gebruiken. En ook op dat vlak zijn ontwikkelingen gaande, denk aan machine learning en kunstmatige intelligentie. Organisaties willen inzicht hebben in de gegevens waarover zij beschikken. Dan moet je zeker weten dat de datasets waarmee je werkt consistent zijn, ongeachte welke gebruiker ermee aan de slag gaat. Bovendien wil je kunnen regelen wie met welke data mag werken en een overzicht hebben van hoe de data worden gebruikt binnen de organisatie. Wat is er veranderd, wanneer en door wie? Daarvoor hebben we verscheidene diensten ontwikkeld. Met het Cloudera Data Platform als basis. Daarmee willen wij organisaties in staat stellen datagedreven te opereren en de kracht van cloud, AI en analytics te benutten.”
Behalve het platform biedt de softwarebouwer Cloudera DataFlow, Cloudera Data Science Workbench, Cloudera Machine Learning en Cloudera Data Engineering.

Verzekeringspolis
Het leven van een CIO, zo meent De Jong, gaat niet over rozen. Vooral in een wereld waar technische innovaties zich in een moordend tempo opvolgen, is het lastig de juiste keuzes te maken. “Je wilt niet dat je een oplossing kiest die je bindt aan een bepaalde leverancier en andere toepassingen daardoor uitsluit. Want dan moet je zelf allerlei koppelingen gaan maken om toch iets met de data te kunnen doen. En dat is een dure, want onderhoudsgevoelige oplossing; als het al naar behoren werkt.”
Daarmee kan IT een rem zijn op de commerciële ontwikkeling van een bedrijf. “Terwijl je als CIO juist wil aantonen dat je relevant bent voor de innovaties binnen de bedrijfsvoering. Doordat wij ervoor zorgen dat data, uit welke bron ze ook komen, toepasbaar zijn, ongeacht welke applicaties je gebruikt, zijn wij eigenlijk een verzekeringspolis voor de CIO. Hij kan zich geen buil vallen. Wij bieden de flexibiliteit om de keuze te maken die hij of zij op dat moment het meest wenselijk acht, zonder dat daar later problemen over ontstaan.”
“Wij scheppen de voorwaarde”, gaat De Jong verder, “dat de CIO kan aantonen een tastbare meerwaarde te leveren voor zijn organisatie.”

Inzichtelijkheid
Met zijn platform en aanvullende diensten biedt Cloudera inzichtelijkheid. “Dat is nodig om controlerende instanties te laten zien hoe de data worden gebruikt en door wie. Audits verlopen als vanzelf.”
In deze tijd met generatieve AI speelt bovendien mee dat je moet kunnen aantonen eigenaar te zijn van de data waarmee je werkt, of minstens toestemming daarvoor te hebben. “Wij houden wat dat betreft een oogje in het zeil”, zegt De Jong. “Daarmee staan we bovendien aan het front van de ontwikkeling van generatieve AI. Deze ontwikkeling is nog vrij nieuw. Wij zorgen dat de context waarbinnen de gegevens worden gebruikt helder is en dat organisaties aan de slag gaan met de geëigende data.”

Open source
Cloudera is geboren in de open source wereld en ondersteunt de ideeën en methodes die hier gangbaar zijn. “Onze ontwikkelaars zitten in de Verenigde Staten en India. En natuurlijk binnen de open source gemeenschap”, legt De Jong uit. En natuurlijk geeft Cloudera terug aan de open source gemeenschap door bij te dragen aan projecten als Apache Impala (SQL Query engine), Apache Kudu (kolomgericht opslagsysteem), Apache Spark (data-verwerkings- en analyse-engine voor grote datasets), en Apache HBase (NoSQL database). En natuurlijk is Cloudera betrokken bij het recente Apache Ozone protocol: een schaalbare, redundante en gedistribueerde objectopslag voor analytics, big data en cloud native applicaties. Ozone ondersteunt S3-compatibele object-API’s en een Hadoop-compatibel bestandssysteem. Het is geoptimaliseerd voor zowel efficiënte objectopslag als bestandssysteemoperaties.

De Jong benadrukt dat Cloudera zelf ook open is. “Wij willen ons niet opdringen. Als iemand goede ervaringen heeft met bijvoorbeeld Databricks voor het analyseren van gegevens, dan moet hij dat vooral blijven gebruiken. Of Talend voor databeheer. Voor ons maakt het niet uit. Ons platform kan met alle datasets overweg. Ook, natuurlijk, die uit AWS, Google Cloud, Azure of bijvoorbeeld Oracle Cloud Infrastructure. Die veelzijdigheid is onze kracht.”

Teus Molenaar is freelance journalist.

Partners