Als één ding mij duidelijk werd tijdens de Strata Conferentie in Santa Clara, Californië aan het begin van dit jaar, dan was het wel dat de overweldigende populariteit van Hadoop enook dat SQL-on-Hadoop dit succes op de voet volgt. Een SQL-on-Hadoop engine maakt het mogelijk big data te benaderen dat in Hadoop opgeslagen is,en wel met behulp van een taal waar veel ontwikkelaars mee vertrouwd zijn, namelijk SQL. Met SQL-on-Hadoop kunnen populaire rapportage en analytische tools ook gemakkelijker big data in Hadoop benaderen en analyseren.
Met datavirtualisatie servers is het al lang mogelijk NoSQL databronnen te benaderen door middel van SQL. De meeste hiervan staan toe dat met SQL gegevens benaderd worden die in spreadsheets, XML documenten, sequentiële bestanden en pre-relationele database servers opgeslagen zijn, gegevens die achter API’s, zoals SOAP en REST, verborgen zijn, en ook gegevens die opgeslagen zijn in applicaties, zoals SAP en Salesforce.com.
De meeste van de huidige SQL-on-Hadoop engines ondersteunen alleen SQL-toegang op één gegevensbron. Dit klinkt eenvoudig, maar dat is het niet. Het technische probleem dat hierbij opgelost moet worden, is hoe al de niet-relationele gegevens die in Hadoop zijn opgeslagen, zoals variabele data, self-describing data en schema-less data, in een platte relationele structuur omgezet moeten worden.
De vraag die we ons ook moeten stellen is of het bieden van SQL query mogelijkheden op Hadoopvoldoende is, aangezien de lat best hoog gelegd is door enkele SQL-on-Hadoop engines. Sommige, zoals SpliceMachine, bieden naast queries ook transactionele ondersteuning voor Hadoop. Andere, zoals Cirro en ScleraDB, ondersteunen datafederatie: gegevens die in SQL databases zijn opgeslagen, kunnen geïntegreerd worden met gegevensopgeslagen in Hadoop. Dit zou dus kunnen betekenen dat het bieden van alleen SQL query mogelijkheden in de nabije toekomst niet meer afdoende zal zijn.
Datavirtualisatie servers bieden inmiddels ook toegang tot Hadoop en daarmee zijn zij toegetreden tot de wereld van SQL-on-Hadoop engines. Hiermee leggen zij de lat voor SQL-on-Hadoop engines nog hoger. De huidige datavirtualisatie servers zijn geen eenvoudige runtime engines die slechts SQL-toegang bieden tot verschillende gegevensbronnen. De meeste bieden tevens datafederatie mogelijkheden voor veel NoSQL gegevensbronnen, een high-level ontwerp en modelleringsomgeving met lineage en impactanalyse-functies, caching mogelijkheden om de toegang tot de gegevensbronnen te versnellen, gedistribueerde joinoptimization technieken en gegevensbeveliging-functies.
Op korte termijn wordt verwacht dat SQL-on-Hadoop engines uitgebreid zullen worden met deze kenmerkende datavirtualisatie-functies. Bovendien zullen datavirtualisatie servers zichzelf moeten verbeteren door de ondersteuning voor Hadoop aanzienlijk te vergroten. Maar wat er ook gebeurt, de twee markten zullen langzaam in elkaar overgaan. Producten zullen samengevoegd worden en andere zullen uitgebreid worden. Deze markt zullen we zeker de aankomende jaren in de gaten moeten gaan houden.
14 en 15 mei 2025 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoord op...
19 t/m 21 mei 2025Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en praktij...
20 en 21 mei 2025 Deze 2-daagse cursus is ontworpen om dataprofessionals te voorzien van de kennis en praktische vaardigheden die nodig zijn om Knowledge Graphs en Large Language Models (LLM's) te integreren in hun workflows voor datamodelleri...
22 mei 2025 Workshop met BPM-specialist Christian Gijsels over AI-Gedreven Business Analyse met ChatGPT. Kunstmatige Intelligentie, ongetwijfeld een van de meest baanbrekende technologieën tot nu toe, opent nieuwe deuren voor analisten met innovatie...
17 t/m 19 november 2025 De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot...
Alleen als In-house beschikbaar Het Logical Data Warehouse, een door Gartner geïntroduceerde architectuur, is gebaseerd op een ontkoppeling van rapportage en analyse enerzijds en gegevensbronnen anderzijds. Een flexibelere architectuur waarbij snell...
Deel dit bericht