02-11-2015

Spark Summit Europe 2015: Data Science and Engineering at Scale

Deel dit bericht

Apache Spark is een engine voor de rappe verwerking van grote hoeveelheden aan Big Data, het project is het grootste actieve open sourceproject in het Big Data ecosysteem. Spark is aan een snelle opmars bezig en voorziet in toepassingen van Data Science op een manier die voorheen niet mogelijk was. Sinds 2009 hebben er meer dan 800 ontwikkelaars uit meer dan 200 bedrijven een bijdrage geleverd. In 2015 is er veel functionaliteit toegevoegd, en bedrijven als IBM, Databricks en Datastax zien een zonnige toekomst weggelegd voor Spark. Welkom in de wereld van supersnelle in-memory analytics.

Van dinsdag 27 oktober tot en met donderdag 29 oktober vond in de Beurs van Berlage in Amsterdam de Spark Summit Europe 2015 plaats. In een volgepakte zaal werd een groot aantal lezingen gehouden waarin veel nieuws werd gepresenteerd. Zo kondigde IBM aan Apache Spark as a service op het IBM Bluemix Cloud platform te leveren en Typesafe lanceerde haar lifecycle support program voor Spark.
De redactie van BI-Platform was aanwezig op de Spark Summit Europe 2015 en sprak met een aantal experts over de laatste ontwikkelingen. U kunt de komende tijd interviews tegemoet zien met Anjul Bhambhri (IBM), Patrick McFadin (Datastax), Natalino Busa (ING) en medeoprichter van Databricks Patrick Wendell.

Actieve ontwikkelaars
Duidelijk is dat Apache Spark een open source project is dat grote ondersteuning krijgt vanuit het bedrijfsleven en aantoont dat open source voor klanten en bedrijven veel waarde uit data-analyse kan opleveren. In 2015 is een trend zichtbaar dat meer en meer Windows-gebruikers Spark weten te vinden.
In zijn keynote benadrukte Matei Zaharia (CTO van Databricks) dat Apache Spark het meest actieve open sourceproject in Big Data is, met een wijdverspreide adaptie in bedrijven. En de ontwikkelingen staan niet bepaald stil, in een jaar tijd is het aantal actieve ontwikkelaars gestegen van 350 naar 600, er zijn 42000 meetup-groepen en er wordt regelmatig code toegevoegd, recent nog voor ondersteuning van de taal R.
Zaharia legt uit dat Spark in drie dingen voorziet. Ten eerste is het een algemene engine met bibliotheken voor veel analysetaken (Spark SQL, Spark Streaming, Machine Learning MLlib en GraphX. Op de tweede plaats voorziet het in toegang tot diverse databronnen als Hadoop FS, Cassandra, Amazon Web Services, MySQL en Openstack. En als laatste geeft het een eenvoudige en verenigde set API’s.

Drie trends
Interessant waren de cijfers die Zaharia presenteerde uit een survey van 1400 respondenten uit 840 bedrijven. Drie trends kwamen daaruit naar voren. Er is een toename van het aantal applicaties dat Spark inzet, vooral op het gebied van Business Intelligence, Datawarehousing en logprocessing. Op het terrein van runtime environments draait een groot deel standalone, naast op Yarn en Apache Mesos, en een zeer groot deel in Public Cloud. En wat betreft gebruikers is er groei in Python- en R-ontwikkelaars te zien.
In ontwikkeling voor de nieuwe release 1.6 zijn een Dataset API, de mogelijkheid om JSON bestanden in te lezen en de integratie van Dataframes met GraphX en Spark Streaming.

Use cases
Tijdens de Spark Summit waren verhelderende presentaties over use cases te volgen. Ram Sriharsha van Hortonworks sprak over het project Magellan, voor geospatial analytics op Spark. Je stuurt een tweet over koffie? Het analyticssysteem van een bedrijf weet in milliseconden op basis van je locatie en tweet dat je dichtbij een Starbucks bent.
Aaron Davidson van Databricks vertelde dat het Hadoop File System is vervangen door cache memory, Databricks gebruikt nu Amazon S3 dat uitermate geschikt is voor de opslag van Binairy Large Objects (BLOB). Hoe de realtime verkeerscontrole van Madrid in IBM’s Cloud-oplossing Bluemix verliep liet Paula Ta-Shma zien. Een kleine 3000 verkeerssensors sturen streaming data via Apache Kafka, waarna de data geaggregeerd met metadata in een machine-learning engine terecht komen. Het systeem leert daarop zelf onderscheid te maken tussen goede en slechte verkeersomstandigheden.

SMACK
Spark’s in-memory analytics levert honderd keer sneller resultaten dan Hadoop MapReduce. Spark wordt ingezet bovenop het Hadoop File System, Apache Mesos, als standalone en in de Cloud. Daarbij kan data kan uit een veelheid van bronnen komen zoals bijvoorbeeld Hadoop File System, Cassandra, HBase en Hive, zowel ongestructureerd (flat data, logs en caches uit social media) als gestructureerd.
Een speciale stack is de combinatie van Spark (analytics), Mesos (architectuur voor toepassen van containers), Akka (concurrente en gedistribueerde applicaties op de JVM), Cassandra (NoSQL database) en Kafka (realtime data streaming), ook wel SMACK genoemd.

Databricks
Het bedrijf Databricks is opgericht door het team dat het Apache Spark-project heeft opgezet, met de bedoeling om de verwerking van Big Data aanzienlijk te versnellen en te vereenvoudigen en biedt daarvoor Spark-as a-service aan met alle ondersteuning en training. De oprichters van Databricks zijn onder andere Matei Zaharia, initiator van het open sourceproject Spark op UC Berkeley die naast zijn professoraat op MIT de CTO van Databricks is en Spark’s vice president bij de Apache Foundation, en Ion Stoica, Professor Computer Science op UC Berkeley en nu CEO van Databricks.

Partners