23-11-2013

Bert Oosterhof, Informatica: ‘Wij zijn klaar voor het Big Data-traject’

Deel dit bericht


Informatica werd opgericht in 1993, een tijd waarin bedrijven nog hun eigen programma’s schreven voor de extractie van gegevens uit databases, om die vervolgens in een datarapportage-omgeving te plaatsen, een datawarehouse. Een arbeids- en tijdsintensieve klus waarvoor Informatica een oplossing bedacht door het een niveau hoger aan te pakken. Een oplossing waarbij je geen programmeurs meer nodig had en de uit te voeren code werd gegenereerd door een engine. Het markeerde het begin van de ETL-software (Extract, Transform en Load), een gebied waarop Informatica jarenlang de scepter zwaaide.

Het bedrijf werd groot met PowerCenter, van oorsprong een ETL-tool maar in de loop der jaren sterk veranderd en uitgebreid. Dit jaar werd de Big Data-editie van PowerCenter uitgebracht. Van een leidende positie in de ETL-markt maakte Informatica met succes de sprong naar een leidende positie in de data-integratiewereld van vandaag. Een wereld waarin op hoge snelheid grote datavolumes van allerlei aard verwerkt moeten kunnen worden. Het bedrijf beschikt daarvoor tegenwoordig over een platform waarop we naast de centrale pijler Enterprise Data Integration, aanvullende bouwstenen aantreffen alsultra messaging, complex event processing, B2B data exchange, applicatie-ILM, datakwaliteit en master- en metadata-management.

Hadoop

Hoe is de stand van zaken rond Informatica anno 2013? “Het gaat goed met Informatica”, aldus Bert Oosterhof, technisch directeur bij Informatica Europe. “Het aantal klanten groeit nog steeds en er zijn bij bedrijven een hoop data-gerelateerde projecten aan de gang.” Er is volgens Oosterhof dan ook geen reden om af te wijken van de weg die een jaar of vijf, zes geleden werd ingeslagen met meer aandacht voor cloudcomputing, en meer datamanagementprojecten op gebied van master- en metadata-management, datakwaliteit en data-integratie.

“Toen ik hier eind jaren negentig bij Informatica begon”, blikt Oosterhof terug, “was het uitgangspunt al de loskoppeling van aan de ene kant de metadata en definities en aan de andere kant de uitvoering. Die lijn is constant doorgetrokken, met in de loop der jaren functionaliteit als ‘push down optimization’ en nu ook weer onze Big Data-editie.Stel je hebt vandoen met grote hoeveelheden weblogdata of sensordata. Dan kun je nu zeggen: die dump ik allemaal in een Hadoop-platform. Metde grafische gebruikersinterfacevan het Informatica-platform definieer je wat je ermee wilt doen, en vervolgens laat je het uitvoeren in het Hadoop-cluster. Dus in plaats van dure programmeurs te moeten huren die Map Reduce-of Java-code moeten schrijven, kunnen dezelfde mensen die vroeger PowerCenter-mappings voor het datawarehouse maakten, nu ingezet worden op een Big Data Hadoop-project. Met precies dezelfde user interface, dezelfde functionaliteit, en zonder die complexe programmering.”

Vibe

Als nieuwste uitbreiding opde product-stack lanceerde Informatica kort geleden zijnVibe-platform. “Dat is ons embeddable data integration platform”, licht Oosterhof toe. Ook dat borduurt weer voort op wat we al jaren lang gedaan hebben, maar nu in een zodanige vorm dat andere leveranciers het data-integratieplatform heel makkelijk kunnen embedden in hun oplossing. Het uiteindelijke doel is dat het zo klein wordt, dat je bij wijze van spreken op een device, of desnoods op een krachtige chip, een stukje data-integratie kunt laten uitvoeren. Ook hier geldt weer voor, dat je het ontwerp in de grafische interface kunt doen en vervolgens kunt zeggen: dit moet daar ‘gedeployed’ worden. ‘Map once, deployanywhere’, noemen we dat. Het betekent: je maakt een stukje logica, en als je dat op Hadoop wilt uitvoeren, dan doe je het op Hadoop. Maar als je het ergens anders wilt laten uitvoeren, doe je het ergens anders. We zien nu ook cloudleveranciers die dat stukje gebruiken, zodat ze makkelijk data van en naar de cloudapplicatie kunnen versturen. Ook weer met dezelfde tool of taal, zeg maar, zonder daar dure programmeurs voor in te hoeven huren.”

Dataservices

Een ander relatief nieuw element in het productportfolio van Informatica zijn de Informatica Data Services. Dat komt eigenlijk uit de ‘data federation’-hoek, begrijpen we van Oosterhof. “Dat is een hele evolutie geweest. Een jaar of tien geleden praatte men over EAI, Enterprise Application Integration. Verder was er ETL, voor de batch data-integratie, en je had wat toen bekend stond als EII, Enterprise Information Integration. EII was een soort ‘datafederation’- software. Daarbij definieer je als het ware een logisch object, bijvoorbeeld een klant. Sommige data daarvoor zitten, laten we zeggen, in Siebel, sommige in SAP en sommige in een datawarehouse.Op het moment dat het nodig is, wordt dat allemaalgeïntegreerd. In die richting zijn wij ook doorgegaan. Dat heet bij ons nu Informatica Data Services, of data virtualization. Dat is een platform waarbij je weer een scheiding maakt tussen het logische data-object en de fysieke implementatie. Wij hebben nooit een databaseleverancier willen zijn en zijn dat nog steeds niet. Maar we hebben nu wel door die dataservices een dataservices-platform. Dat betekent dat mensen met een BI-tool richting ons platform kunnen zeggen ‘select * from customer’, in SQL-termen, waarna wij dat vertalen naar een integratiejob, om dingen uit verschillende systemen te lezen, eventueel te transformeren en aggregeren en vervolgens terug te geven aan de BI-tool.”

En de toekomst?

Informatica gaat gewoon voort op de weg die het al jaren geleden is ingeslagen. Wat de toekomst betreft heeft het bedrijf zijn pijlen gericht op Big Data, data governance, lifecycle management en masterdata-manmagement. Door zijn positie midden in het speelveld tussen leveranciers van databases aan de ene en data-analysetools aan de andere kant, bezet Informatica een zeer strategische positie in de wereld die Big Data heet.

Oosterhof tot slot: “Wat we hebben, zullen we in de toekomst verder uitbouwen. We zijn klaar voor het Big Data-traject. Big Data niet alleen in de zin van volumes, maar met name ook in de zin van variëteit. Als ik nu kijk naar al die bedrijven die bezig zijn met zaken als ‘theconnectedcar’ en ‘the internet of things’, dan zie ik een toekomst waarinsteeds meer devicessteeds meer data zullen genereren. En dat in allerlei vormen: binair, gestructureerd en ongestructureerd. Dat moet allemaal ergens verzameld, getransformeerd en bewaard worden. Wij kijken hoe we daarop het beste kunnen inspelen. Zodat, indien onze klanten straks ook die weg opgaan, wij hun data snel kunnen oppakken en transformeren, opdat ze gebruikt kunnen worden voor analyse. Dus we evolueren richting de toekomst, maar wel op basis van het platform dat onze klanten al jaren kennen en dat hun investeringen beschermt. Een klant die twaalf jaar geleden een mapping heeft geschreven in PowerCenter, kan die nog steeds draaien, maar nu ook opHadoop, terwijl dat er twaalf jaar geleden nog helemaal niet was.”

Dick Schievels

 

 

Partners