13-07-2018

IRIS fleurt Big Data op

Deel dit bericht

Op 6 juni j.l. wist een zestigtal klanten en partners van InterSystems de weg te vinden naar het Evoluon in Eindhoven voor een presentatie over het multimodel dataplatform IRIS. De bijeenkomst werd ingeleid door Helene Lengler, Regional Marketing Director Benelux & DACH, waarna Patrick Keller, senior analist bij het Duitse onderzoeksbureau BARC de aanwezigen een inspirerende lezing voorschotelde over de samenhang tussen kunstmatige intelligentie en Big Data analyse. Joe Lichtenberg, Director Data Platform Marketing en Benjamin De Boe, Product Manager bij InterSystems gingen in hun betoog meer in op de inhoudelijke aspecten van IRIS.

Het ordenen en beoordelen van data gedurende hun levensduur vraagt steeds meer tijd. Volgens Joe Lichtenberg (foto) is die doorlooptijd binnen de IT-infrastructuur van veel organisaties niet meer te verantwoorden. Binnen een organisatie zijn dikwijls te veel verschillende databases in omloop; het beheer wordt te complex. Onder invloed van moordende concurrentie of onder druk van de publieke opinie moet het allemaal veel sneller. Bovendien moet het gemakkelijker en goedkoper. Juist op dat vlak scoren de fintech bedrijven, terwijl de traditionele grootbanken nog worstelen met hun bedrijfscultuur en verouderde IT-infrastructuur.

Joe Lichtenberg toont ze maar wat graag het voorbeeld van een van zijn klanten, een Amerikaanse investeringsbank met 50.000 werknemers die voor 1.000 miljard US dollar aan vermogen beheren. Veel factoren die de bank niet zelf in de hand heeft beïnvloeden het resultaat. Snel handelen op basis van correcte en actuele data is een vereiste. De vervanging van de bestaande IT-omgeving met in-memory databases en separate datawarehouses door het IRIS-platform, zorgde ervoor dat in veel kortere tijd tien keer meer data de revue passeren met beduidend minder beslag op de voorhanden infrastructuur. Die verbetering is volgens Lichtenberg vooral toe te schrijven aan multifunctionele eigenschappen en uitgebreide integratiefaciliteiten van het platform met soortgelijke systemen van andere leveranciers. Operationele data laten zich nu direct analyseren zonder tussenkomst van datawarehouses met te veel niet relevante gegevens. Verder volstaat één architectuur voor het onderbrengen van praktisch alle soorten data, variërend van gestructureerd tot ongestructureerd.  

Dataverlies door te weinig in-memory capaciteit
Voor het snel analyseren van omvangrijke datasets viel tot dusver de keuze vaak op systemen met in-memory databases. Die laten zich niet zonder meer direct opschalen op het moment dat de werkbelasting en de omvang van de datasets toenemen. De keuze voor de maximale omvang van de in-memory database verkleint weliswaar het risico van gebrek aan geheugencapaciteit, maar laat in theorie nog steeds toe dat door een onverwacht tekort aan capaciteit, data verloren gaan. Bovendien is het een heel kostbare oplossing. IRIS werkt met een intelligent mechanisme voor het managen van het cachegeheugen en schrijft na een in-memory uitgevoerde bewerking, automatisch data ook naar geheugen op schijf. Onder geen beding gaan tijdens de operatie gegevens verloren.

Een transactie van één record laat zich binnen één microseconde (0,001 milliseconden) verwerken en in-memory plaatsen om van daaruit door een query te worden benaderd. Binnen 20 microseconden staat de transactie bijgeschreven in het logboek op de harde schijf.   

Schaalbaarheid via data sharding mechanisme
Schaalbaarheid ontleent IRIS aan het ’workload’ mechanisme, gebaseerd op het al langer gebruikte Enterprise Cache Protocol (ECP) voor het onderverdelen van één monolithische database naar gedistribueerde databasetabellen in het cachegeheugen. In IRIS is hieraan Intelligent Inter-shard Communication toegevoegd waardoor zeer grote volumes gedistribueerde data sets zijn te analyseren. Zo’n geclusterde sharded omgeving verdeelt de werkbelasting met datasets horizontaal in rijen. De technologie, die onder andere ook Facebook toepast, zorgt ervoor dat datapartities in specifieke, grote tabellen omwille van de snelheid en beheersbaarheid op verschillende servers zijn ondergebracht. Ze worden aangeduid als data shards. IRIS maakt het proces slimmer en laat, wanneer een veelgebruikte analysetoepassing query’s op een geclusterde data-omgeving afvuurt, de shard master de query’s opdelen en verspreiden over de data shards voor parallelle uitvoering. Daarna aggregeert de shard master de verschillende resultaten en levert die in zijn geheel terug aan de betreffende analyse-applicatie. Onderling kunnen de shards data uitwisselen zonder de shard master erbij te betrekken.  

Data laten zich binnen het platform zowel in een relationele structuur (SQL) opslaan als in een object-georiënteerd model met een synchronisatiemechanisme tussen die twee omgevingen. Het dupliceren van data kan achterwege blijven, evenals een representatie van het proces (mapping) van object naar relationeel. De mogelijkheid om het meest geschikte formaat en representatiemodel toe te passen, zorgt voor flexibiliteit in de fase van systeemontwikkeling, voor een hoger prestatieniveau tijdens de operationele uitvoering en voor minder complexiteit bij het beheer. 

Company:

InterSystems

Partners