17-07-2014 Door: Rick van der Lans

De fusie van datavirtualisatie en SQL-on-Hadoop engines

Deel dit bericht

 

Als één ding mij duidelijk werd tijdens de Strata Conferentie in Santa Clara, Californië aan het begin van dit jaar, dan was het wel dat de overweldigende populariteit van Hadoop enook dat SQL-on-Hadoop dit succes op de voet volgt. Een SQL-on-Hadoop engine maakt het mogelijk big data te benaderen dat in Hadoop opgeslagen is,en wel met behulp van een taal waar veel ontwikkelaars mee vertrouwd zijn, namelijk SQL. Met SQL-on-Hadoop kunnen populaire rapportage en analytische tools ook gemakkelijker big data in Hadoop benaderen en analyseren.

Met datavirtualisatie servers  is het al lang mogelijk NoSQL databronnen te benaderen door middel van SQL. De meeste hiervan staan toe dat met SQL gegevens benaderd worden die in spreadsheets, XML documenten, sequentiële bestanden en pre-relationele database servers opgeslagen zijn, gegevens die achter API’s, zoals SOAP en REST, verborgen zijn, en ook gegevens die opgeslagen zijn in applicaties, zoals SAP en Salesforce.com.

De meeste van de huidige SQL-on-Hadoop engines ondersteunen alleen SQL-toegang op één gegevensbron. Dit klinkt eenvoudig, maar dat is het niet. Het technische probleem dat hierbij opgelost moet worden, is hoe al de niet-relationele gegevens die in Hadoop zijn opgeslagen, zoals variabele data, self-describing data en schema-less data, in een platte relationele structuur omgezet moeten worden.

De vraag die we ons ook moeten stellen is of het bieden van SQL query mogelijkheden op Hadoopvoldoende is, aangezien de lat best hoog gelegd is door enkele SQL-on-Hadoop engines. Sommige, zoals SpliceMachine, bieden naast queries ook transactionele ondersteuning voor Hadoop. Andere, zoals Cirro en ScleraDB, ondersteunen datafederatie: gegevens die in SQL databases zijn opgeslagen, kunnen geïntegreerd worden met gegevensopgeslagen in Hadoop. Dit zou dus kunnen betekenen dat het bieden van alleen SQL query mogelijkheden in de nabije toekomst niet meer afdoende zal zijn.

Datavirtualisatie servers bieden inmiddels ook toegang tot Hadoop en daarmee zijn zij toegetreden tot de wereld van SQL-on-Hadoop engines. Hiermee leggen zij de lat voor SQL-on-Hadoop engines nog hoger. De huidige datavirtualisatie servers zijn geen eenvoudige runtime engines die slechts SQL-toegang bieden tot verschillende gegevensbronnen. De meeste bieden tevens datafederatie mogelijkheden voor veel NoSQL gegevensbronnen, een high-level ontwerp en modelleringsomgeving met lineage en impactanalyse-functies, caching mogelijkheden om de toegang tot de gegevensbronnen te versnellen, gedistribueerde joinoptimization technieken en gegevensbeveliging-functies.

Op korte termijn wordt verwacht dat SQL-on-Hadoop engines uitgebreid zullen worden met deze kenmerkende datavirtualisatie-functies. Bovendien zullen datavirtualisatie servers zichzelf moeten verbeteren door de ondersteuning voor Hadoop aanzienlijk te vergroten. Maar wat er ook gebeurt, de twee markten zullen langzaam in elkaar overgaan. Producten zullen samengevoegd worden en andere zullen uitgebreid worden. Deze markt zullen we zeker de aankomende jaren in de gaten moeten gaan houden.

 

 

Rick van der Lans

Rick van der Lans is een gerespecteerd en onafhankelijk analist, adviseur, auteur en internationaal bekende spreker. Hij is gespecialiseerd in datawarehousing, business intelligence, big data en databasetechnologie. Hij heeft vele seminars en webinars gepresenteerd en keynotes bij industry-leading conferenties. Hij weet als geen ander een goede balans te vinden tussen op de praktijk toegesneden technologische en strategische zaken. Al meer dan tien jaar is hij de voorzitter van de jaarlijkse European Enterprise Data and Business Intelligence Conference in Londen en de jaarlijkse Data Warehousing en Business Intelligence Summit in Nederland. Rick helpt cliënten wereldwijd met het ontwerpen van hun data warehouse, big data en business intelligence architecturen en begeleid hen bij het selecteren van de geschikte producten. Hij is invloedrijk geweest bij het wereldwijd introduceren van de nieuwe logische datawarehouse architectuur waarmee organisaties meer flexibele business intelligence systemen kunnen ontwikkelen. Rick heeft honderden artikelen en blogs geschreven voor toonaangevende vakbladen en websites en van zijn hand zijn vele educatieve en populaire whitepapers verschenen voor een groot aantal leveranciers. Hij was de auteur van het eerste beschikbare boek over SQL, getiteld Introduction to SQL, dat in vele talen gepubliceerd is en waarvan meer dan 100.000 exemplaren verkocht zijn. Recentelijk publiceerde hij het boek Data Virtualization for Business Intelligence Systems.

Rick verzorgt bij Adept Events een seminar over de architectuur, ontwerp en technologie van het Logisch Datawarehouse alsmede een seminar over het Ontwerpen van Nieuwe Data Architecturen.

Alle blogs van deze auteur

Partners