Apache Spark is een engine voor de rappe verwerking van grote hoeveelheden aan Big Data, het project is het grootste actieve open sourceproject in het Big Data ecosysteem. Spark is aan een snelle opmars bezig en voorziet in toepassingen van Data Science op een manier die voorheen niet mogelijk was. Sinds 2009 hebben er meer dan 800 ontwikkelaars uit meer dan 200 bedrijven een bijdrage geleverd. In 2015 is er veel functionaliteit toegevoegd, en bedrijven als IBM, Databricks en Datastax zien een zonnige toekomst weggelegd voor Spark. Welkom in de wereld van supersnelle in-memory analytics.
Van dinsdag 27 oktober tot en met donderdag 29 oktober vond in de Beurs van Berlage in Amsterdam de Spark Summit Europe 2015 plaats. In een volgepakte zaal werd een groot aantal lezingen gehouden waarin veel nieuws werd gepresenteerd. Zo kondigde IBM aan Apache Spark as a service op het IBM Bluemix Cloud platform te leveren en Typesafe lanceerde haar lifecycle support program voor Spark.
De redactie van BI-Platform was aanwezig op de Spark Summit Europe 2015 en sprak met een aantal experts over de laatste ontwikkelingen. U kunt de komende tijd interviews tegemoet zien met Anjul Bhambhri (IBM), Patrick McFadin (Datastax), Natalino Busa (ING) en medeoprichter van Databricks Patrick Wendell.
Actieve ontwikkelaars
Duidelijk is dat Apache Spark een open source project is dat grote ondersteuning krijgt vanuit het bedrijfsleven en aantoont dat open source voor klanten en bedrijven veel waarde uit data-analyse kan opleveren. In 2015 is een trend zichtbaar dat meer en meer Windows-gebruikers Spark weten te vinden.
In zijn keynote benadrukte Matei Zaharia (CTO van Databricks) dat Apache Spark het meest actieve open sourceproject in Big Data is, met een wijdverspreide adaptie in bedrijven. En de ontwikkelingen staan niet bepaald stil, in een jaar tijd is het aantal actieve ontwikkelaars gestegen van 350 naar 600, er zijn 42000 meetup-groepen en er wordt regelmatig code toegevoegd, recent nog voor ondersteuning van de taal R.
Zaharia legt uit dat Spark in drie dingen voorziet. Ten eerste is het een algemene engine met bibliotheken voor veel analysetaken (Spark SQL, Spark Streaming, Machine Learning MLlib en GraphX. Op de tweede plaats voorziet het in toegang tot diverse databronnen als Hadoop FS, Cassandra, Amazon Web Services, MySQL en Openstack. En als laatste geeft het een eenvoudige en verenigde set API’s.
Drie trends
Interessant waren de cijfers die Zaharia presenteerde uit een survey van 1400 respondenten uit 840 bedrijven. Drie trends kwamen daaruit naar voren. Er is een toename van het aantal applicaties dat Spark inzet, vooral op het gebied van Business Intelligence, Datawarehousing en logprocessing. Op het terrein van runtime environments draait een groot deel standalone, naast op Yarn en Apache Mesos, en een zeer groot deel in Public Cloud. En wat betreft gebruikers is er groei in Python- en R-ontwikkelaars te zien.
In ontwikkeling voor de nieuwe release 1.6 zijn een Dataset API, de mogelijkheid om JSON bestanden in te lezen en de integratie van Dataframes met GraphX en Spark Streaming.
Use cases
Tijdens de Spark Summit waren verhelderende presentaties over use cases te volgen. Ram Sriharsha van Hortonworks sprak over het project Magellan, voor geospatial analytics op Spark. Je stuurt een tweet over koffie? Het analyticssysteem van een bedrijf weet in milliseconden op basis van je locatie en tweet dat je dichtbij een Starbucks bent.
Aaron Davidson van Databricks vertelde dat het Hadoop File System is vervangen door cache memory, Databricks gebruikt nu Amazon S3 dat uitermate geschikt is voor de opslag van Binairy Large Objects (BLOB). Hoe de realtime verkeerscontrole van Madrid in IBM’s Cloud-oplossing Bluemix verliep liet Paula Ta-Shma zien. Een kleine 3000 verkeerssensors sturen streaming data via Apache Kafka, waarna de data geaggregeerd met metadata in een machine-learning engine terecht komen. Het systeem leert daarop zelf onderscheid te maken tussen goede en slechte verkeersomstandigheden.
SMACK
Spark’s in-memory analytics levert honderd keer sneller resultaten dan Hadoop MapReduce. Spark wordt ingezet bovenop het Hadoop File System, Apache Mesos, als standalone en in de Cloud. Daarbij kan data kan uit een veelheid van bronnen komen zoals bijvoorbeeld Hadoop File System, Cassandra, HBase en Hive, zowel ongestructureerd (flat data, logs en caches uit social media) als gestructureerd.
Een speciale stack is de combinatie van Spark (analytics), Mesos (architectuur voor toepassen van containers), Akka (concurrente en gedistribueerde applicaties op de JVM), Cassandra (NoSQL database) en Kafka (realtime data streaming), ook wel SMACK genoemd.
Databricks
Het bedrijf Databricks is opgericht door het team dat het Apache Spark-project heeft opgezet, met de bedoeling om de verwerking van Big Data aanzienlijk te versnellen en te vereenvoudigen en biedt daarvoor Spark-as a-service aan met alle ondersteuning en training. De oprichters van Databricks zijn onder andere Matei Zaharia, initiator van het open sourceproject Spark op UC Berkeley die naast zijn professoraat op MIT de CTO van Databricks is en Spark’s vice president bij de Apache Foundation, en Ion Stoica, Professor Computer Science op UC Berkeley en nu CEO van Databricks.
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht