11-02-2016

Anjul Bhambhri (IBM): "Analytics is een continuum"

Deel dit bericht

Anjul Bhambhri is werkzaam bij IBM als Vice President Product Development voor het Big Data en Analytics Platform. Zij kwam bij IBM na de overname van Informix in 2001, en daarvoor werkte ze als ontwikkelaar bij Sybase. Bhambhri heeft bijna drie decennia ervaring met software ontwikkeling na haar studie Electrical Engineering in Delhi. Tijdens de Spark Summit Europe sprak BI-Platform met haar over IBM's plannen met Spark als nieuwe generatie van analytics software en het aanbod van Spark-as-a-service op het Bluemix Cloud platform.

Gevraagd naar de achtergrond van IBM's Spark-as-a-service propositie op Bluemix steekt Anjul Bhambhri van wal. "Bluemix is een Cloud platform van IBM waarop applicatie-ontwikkelaars elke service kunnen vinden die nodig is om data- en analytics-gebaseerde applicaties te bouwen. Ongeacht of de data opgeslagen zijn in een relationele database of in een NoSQL database, of in een Hadoop opslag, al deze mogelijkheden zijn beschikbaar. Vervolgens kunnen ontwikkelaars daarop een predictive model bouwen, ze kunnen descriptive analytics toepassen: alles is op een plek te vinden."
Ontwikkelaars hoeven geen moeite te doen om clusters op te zetten, de infrastructuur is aanwezig en ze hebben de elasticiteit van de Cloud. Gebaseerd op de omvang van de data en waar ze zijn opgeslagen maakt de elasticiteit up- en downscaling voor hen mogelijk.

"Dus je hebt de data in je database, al of niet NoSQL," vervolgt Bhambhri, "of je gebruikt de schaalgrootte van Hadoop MapReduce: als je vervolgens naar realtime analytics wilt dan speelt Spark daarin een heel belangrijke rol. Daarom brengt IBM Spark-as-a-service in de Cloud. Spark kan data uit verschillende bronnen samenvoegen en benaderen, dat voorkomt dat je met data moet slepen. Als je Operational Data Store in een relationele database zit en je hebt daaruit gegevens nodig dan legt Spark-as-a-service de verbinding met de databronnen. Je kan verbinden met dashDB (IBM's cloud datawarehouse), Cloudant (IBM's NoSQL DBaaS) of BigInsights (IBM's Hadoop-as-a-service) en de data samenvoegen. Deze data-integratie mogelijkheden kunnen een complete en alomvattende view geven op elke entity.
Het is naar mijn mening een unieke propositie die IBM aanbiedt, het is dus niet slechts een afzonderlijke service maar een set van services tegelijk die op een plaats wordt aangeboden."

IBM brengt op het Bluemix platform meer dan alleen maar Spark-as-a-service. De propositie van IBM is dat je Spark kan gebruiken in samenhang met alle andere data- en analytics services. Dat is naar de mening van Bhambhri een unieke waardepropositie. "Want vaak als applicaties gebouwd worden is er, afhankelijk van de data, de workload, de latency, of de vereisten die je aan de antwoorden stelt, niet een eenduidige oplossing. 'One size does not fit all'. Vaak komen gegevens ook van heel verschillende systemen. Ons Bluemix platform, als host van Spark-as-a-service, is in staat om applicatie-ontwikkelaars flexibiliteit te bieden. De applicatie-ontwikkelaar heeft vrijheid en hoeft zich niet te bekommeren over een lock-in. En als je een BlueMix klant bent, kan je elke service gebruiken die beschikbaar is op Bluemix."

Open Source
In de verhouding tot andere Cloud-aanbieders is het volgens Bhambhri vooral het Open Source aspect waarin Bluemix onderscheidend is. "Wij bouwen onze services gebaseerd op Big Data en Open Source. We maken gebruik van de Hadoop stack, van Spark. Onze klanten krijgen de mogelijkheden die bovenop Open Source gebouwd zijn, een open platform dus, wat veel flexibiliteit levert. Ze krijgen ook de waardepropositie van het ISV-ecosysteem dat goed gedijt op het open platform. Er is geen sprake van vendor lock-in. Dat is heel belangrijk want wij willen dat de klant zelf kan bepalen wat het beste is om een business probleem op te lossen.
Dit is dus een belangrijk onderscheid tussen ons en sommige andere Cloud-aanbieders. Mijn team werkt in de Open Source. Om de beste applicaties te bouwen en om snelle innovatie mogelijk te maken is het belangrijk dat klanten het gevoel hebben niet aan een leverancier te zijn gebonden."

Met IBM Bluemix wordt ook een hybride oplossing gepresenteerd, zegt Anjul Bhambhri. Want niet alle data zitten in de Cloud, veel klanten hebben hun data on-premise in hun eigen bedrijf. Als ze analyses willen doen, antwoorden op hun vragen willen krijgen of financiële rapportages moeten maken, willen ze hetzelfde antwoord, de 'single version of the truth', uit data in de Cloud en data on-premise. "IBM heeft het unieke aanbod dat klanten in staat zijn om hun data- en analyseplatform op een hybride wijze te kunnen bouwen."

Klanten kunnen ook hun eigen data verrijken met externe gegevens. Bhambri geeft als voorbeeld het partnerschap met Twitter en IBM's overname van weervoorspellingsdienst Weather.com. Voor retail-bedrijven is het van groot belang om een compleet beeld van hun consument te hebben, niet alleen op basis van data uit hun systems-of-record of systems-of-engagement, maar ze willen het ook verrijken met bijvoorbeeld Twitter-data. Door de combinatie met externe data kunnen retail-bedrijven hun klant beter begrijpen. "IBM biedt door de partnerschappen en de overname van de digitale assets van Weather.com haar klanten de mogelijkheid data te verrijken met externe data. Ook dit vind ik een uniek aanbod, dat ons van concurrenten onderscheidt," stelt Bhambhri.

Streaming data
Spark maakt realtime interactieve en iteratieve analytics mogelijk. IBM heeft echter ook haar eigen product, InfoSphere Streams (op dit moment IBM Streams 4.1). Bhambhri: "Elke andere streaming-oplossing maakt gebruik van microbatching, dus dan is er latency. Maar met InfoSphere Streams gebeurt verwerking feitelijk realtime. Afhankelijk van wat de vereisten zijn bestaat soms de noodzaak data in realtime te verwerken, zonder directe vastlegging op disk of misschien pas latere opslag, zodat als de data binnenkomen ze gelijk gefilterd en geaggregeerd worden naar verschillende stromen data. Gebaseerd op de gestelde vragen krijg je antwoord, terwijl de data continu binnenstromen. Dus de vraag kan hetzelfde zijn maar de antwoorden veranderen steeds, omdat je data in realtime binnen krijgt. Dit kan je doen met Spark streaming, maar als je het extreem realtime nodig hebt dan kan je Streams inzetten."

In de IBM propositie wordt ook gebruik gemaakt van Akka, Kafka en Mesos, onderdelen uit de SMACK stack. Bhambhri vervolgt, "IBM biedt ook deze componenten aan. Wij bieden niet alleen aan wat door IBM is gebouwd, maar een compleet ecosysteem. Daardoor heeft de klant een keuze, als ze Akka of Kafka willen inzetten dan kan dat, dan krijgen ze bijvoorbeeld Kafka als service. Wij willen onze klanten niet beperken en bieden ze een heel uitgebreid technologisch arsenaal aan. De klant kan de waarde die in de data verborgen zit visualiseren, en wij als technologieprovider zien het als onze taak om ze te helpen het te vinden."

R, Python, Java en Scala
Tegenwoordig zit bijna elke applicatie boordevol analytics componenten. Er is nu een grote behoefte aan mensen die het begrijpen en analytische applicaties kunnen bouwen, maar zij moeten wel een achtergrond hebben in statistiek en wiskunde. Tien, vijftien jaar geleden ging het nog om datagerichte applicaties. Toen waren vooral ontwikkelaars nodig met kennis van databases, datastructuren, SQL en query's. Maar nu is deze kennis alleen niet meer toereikend, meent Bhambhri. Onderzoekers moeten kennis van R, Python, Java en Scala bezitten.

In termen van know-how van deze mensen, op welke wijze verrichten zij hun werk? Anjul Bhambhri: "Sommigen zullen nog steeds behoefte hebben aan highlevel modelleer tools, bijvoorbeeld wat SPSS Modeler biedt. Wij hebben gezorgd dat modelleermogelijkheden op Spark draaien. Je kan doen wat je voorheen ook deed, maar nu op een groot datavolume, en naast gestructureerde data ook op on- of semigestructureerde data. De kwaliteit van de modellen zal nu beter zijn omdat je alle data kan inzetten en deze compleet kan testen, niet meer op een subset. Door testen van het model ben je ervan verzekerd dat het de juiste en accurate voorspelling doet. Maar als jouw modelleer-tool werkt, waarom zou je het willen veranderen? Wij hebben onlangs SPSS Analytic Server aangekondigd dat met modelleermogelijkheden komt die op Spark draaien. Feitelijk SPSS Modeler dat op Spark draait."

Er is echter volgens Bhambhri ook een groep onderzoekers die geen behoefte heeft aan een dergelijke grafische interface, ze willen algoritmen schrijven in Python, Scala en R. "Voor deze onderzoekers leveren we ook ondersteuning, als ze alleen R of R Studio willen inzetten en niet de modeler. Dit alles wordt hen naar keuze zowel on-premise als in de Cloud geleverd. Wie alleen R of R Studio wil gebruiken kan dat met BigInsights, en daarna Spark of MapReduce kiezen voor verwerking. Natuurlijk bieden we daarbij, zeker voor nieuwe gebruikers, gidsinformatie en aanbevelingen. Niemand zit dus vast aan een paradigma. Dit maakt het ook gemakkelijker om de nieuwe technologie te omarmen.
Wij zijn nu ook bezig met een Data Science workbench (nog een w.i.p.), waarin we ondersteuning van Apache Zeppelin en Jupiter aanbieden en door middel van bindings voor Python en Scala, ontwikkelaars in staat stellen in hun favoriete taal te werken. Ook worden predictive en prescriptive modelleermogelijkheden met een Notebook interface als service geleverd."

Machine Learning
IBM is erg actief op het gebied van Machine Learning, onder andere met de ontwikkeling van SystemML. Bhambhri: "Analytics is een soort continuum; er is descriptive analytics, predictive, prescriptive op de best volgende actie, en er is cognitive. Het is niet een of de ander. Het is ook niet zo dat er een exact pad gevolgd moet worden, van descriptive analytics naar cognitive. Afhankelijk van hun volwassenheidsniveau hebben organisaties altijd al descriptive, predictive en prescriptive analytics ingezet. En nu komt Machine Learning erbij, waarin systemen kunnen leren of worden getraind op basis van historische data en zo intelligenter worden. Hierdoor is een weg naar cognitive ontstaan. Of er zijn misschien nieuwe bedrijven die starten met cognitive; Machine Learning is de basis daaronder."

IBM heeft in 2015 actief bijgedragen aan SystemML, een open source project dat als Apache Incubator project is geaccepteerd. "We nodigen de open source gemeenschap uit om het verder te ontwikkelen in de richting waarin het behoeften kan vervullen. Data komen in alle vormen en formaten, je kan dense data hebben, sparse data. Maar je wilt niet steeds algoritmes schrijven, gebaseerd op de data, omdat je niet weet welke data zullen komen. Het is onze Machine Learning algorithm optimizer, zodat de ML algoritmes worden geoptimaliseerd om dergelijke data snel te verwerken en het juiste antwoord te geven," besluit Bhambhri.
 

Partners