09-10-2015

Apache Spark ontgroeit Hadoop door groeiende populariteit van de cloud

Deel dit bericht

Databricks, het bedrijf dat is opgericht door de grondleggers van Apache Spark, onthult vandaag de bevindingen van een onderzoek waarmee zij in kaart willen brengen hoe organisaties en gebruikers gebruikmaken van de data-analyse- en de processing engine. Het onderzoek werd gehouden onder 1.400 respondenten van de Spark community. De resultaten van de Spark User Survey 2015, tonen aan dat het standalone gebruik van Spark dat van YARN overklast omdat meer gebruikers Spark onafhankelijk gebruiken van Hadoop.

Het aantal gebruikers dat Spark standalone inzet (48%) overtreft het aantal gebruikers die Spark gebruikt in YARN (40%), naast nog eens een meerderheid dat Spark vanuit de cloud gebruikt. Uit het onderzoek kwam namelijk ook naar voren dat 51% van de respondenten Spark gebruikt vanuit een public cloud. Met meer dan 600 participanten in de laatste 12 maanden (komende van 315 participanten in de 12 maanden daarvoor), is Spark het meest actieve open source project in big data. Bovendien dragen meer dan 200 organisaties code bij aan Spark, waardoor het een van de grootste communities met betrokken ontwikkelaars is.

Belangrijkste bevindingen uit het onderzoek zijn:

  • Spark ontgroeit Hadoop: De meest voorkomende Spark implementaties volgens de community zijn: 48% standalone, 40% YARN binnen Hadoop en 11% Apache Mesos. Spark-gebruikers die geen Hadoop-componenten gebruiken zijn meer dan verdubbeld in 2015 (sinds 2014).
  • Gebruik streaming en geavanceerde analyses stijgen: Spark wordt gebruikt voor een steeds meer gevarieerde set van toepassingen, met name datawetenschappers op het gebied van machine learning, streaming en grafiek analyses. In 2015 waren er 56% meer Spark streaming gebruikers, dan in 2014. Het productiegebruik van geavanceerde analytics, zoals MLib voor machine learning en GraphX voor graph processing, is toegenomen van 11% in 2014 tot 15% in 2015. 75% van de Spark-gebruikers gebruikt ook twee of meer Spark-componenten (51% van Sparkgebruikers gebruikt drie of meer componenten).
  • Spark gebruikers worden meer divers: Spark wil de technologische barrières tussen datawetenschappers en ingenieurs, die gezamenlijk werken om dataproblemen op te lossen, wegnemen. Van de ondervraagden definieert 41% zichzelf als dataengineers, terwijl 22% van de respondenten zichzelf identificeerde als datawetenschappers. Spark-gebruikers lossen een verscheidenheid aan problemen op in verschillende ‘talen’- Scala (71%), Python (58%), SQL (36%), Java (31%) en R (18%)- en allemaal binnen hetzelfde raamwerk.
  • Populairste gebruiksmotieven van Spark komen aan het licht: 52% gebruikt Spark voor datawarehousing, 68% voor business intelligence, 40% voor processing application en login systemen, 48% voor het bouwen van recommendation engines, 36% voor ‘user-facing’ services en 29% voor het opsporen van fraude en beveiliging. 
  • Spark vergroot de toegang tot big data: De adoptie van Spark groeit enorm snel omdat Spark gemakkelijk te gebruiken en implementeren is. Daarnaast is Spark betrouwbaar snel en gericht op toekomstige groei in real-time en geavanceerde analytics. 91% van de ondervraagden beweert dat de prestaties de reden voor adoptie is geweest, terwijl 77% het gemak van programmeren aanhaalt, 71% geeft als reden het gemak van implementatie aan, 64% de geavanceerde analysemogelijkheden en 52% de mogelijkheden tot real-time streaming.

“Het enthousiasme voor big data wordt alleen geëvenaard door het tempo van innovatie. Veel organisaties bewegen zich naar een ‘Spark-first’ strategie. Ze erkennen de voordelen van de veelzijdigheid van analytics, het vertrouwde gebruik , de superieure prestaties, een scala aan ondersteunende gegevensbronnen en flexibele implementatie. De markt zal ongetwijfeld blijven evolueren, maar Spark heeft vandaag de dag al heel wat losgeweekt,” zegt Nik Rouda, Senior Analyst bij de Enterprise Strategy Group.

Over het onderzoek
In 2014 behaalde Spark het wereldrecord in het sorteren van data op grote schaal en zag hierbij belangrijke verbeteringen door de hele engine. Dit jaar is de Spark-community ondervraagd om uit te vinden wie de gebruikers van Spark zijn, wat ze maken en hoe zij Spark hiervoor gebruiken. De resultaten van het onderzoek reflecteren de antwoorden en meningen van 1.417 respondenten van 842 verschillende organisaties. 

Tags:

Big Data, Cloud, Spark

Company:

Databricks

Partners