Veel organisaties zijn bezig nieuwe data-architecturen te ontwerpen en te implementeren waarmee aan de nieuwe informatiebehoeften kan worden voldaan. Waren we ooit tevreden met systemen die vooraf gedefinieerde dashboards en rapporten tevoorschijn konden toveren en die een-dag oude data toonden, tegenwoordig gelden andere regels. Nieuwe vormen van datagebruik, zoals self-service BI, data science, embedded BI en streaming analytics, vereisen dat nieuwe data-architecturen worden ontworpen.
Ooit gingen we er van uit dat data-architecturen onafhankelijk van technologieën en producten opgezet moesten worden; ofwel, eerst de data-architectuur en dan de bijpassende producten erbij zoeken. Dat kon toen ook omdat veel producten redelijk uitwisselbaar waren. Zo waren ETL-producten vergelijkbaar in mogelijkheden en hetzelfde gold voor veel SQL databaseservers en rapportagetools. Uiteraard bestonden er prijsverschillen en andere, functionele verschillen tussen die producten, maar er kon toch uit een homogene groep producten gekozen worden.
Dus bij het uitdenken van je data-architectuur nam je een blokje ETL op en een blokje databaseserver en later selecteerde je het product waarmee een blokje geïmplementeerd kon worden. Maar is de situatie nog steeds hetzelfde? Zijn de producten nog steeds zo uitwisselbaar?
Specialisatie
De laatste jaren worden we geconfronteerd met een niet aflatende stroom technologieën voor het verwerken, analyseren en opslaan van gegevens. Denk hierbij aan Hadoop, NoSQL, NewSQL, GPU-databases, Spark en Kafka. Deze technologieën hebben een grote invloed op data-architecturen. Dit komt omdat ze op twee manieren verschillen van de wat klassiekere producten.
Het eerste verschil is dat veel producten gespecialiseerd zijn. Ze zijn niet meer geschikt voor allerlei soorten toepassingen maar voor slechts één of twee. Bijvoorbeeld, veel NoSQL-producten, zoals MongoDB en Riak, zijn ontwikkeld en geoptimaliseerd voor het verwerken van veel transacties. Daarentegen zijn hun analysemogelijkheden zeer minimaal. Neo4j, ook een NoSQL-product, is juist gebouwd om data te analyseren en is niet sterk in transacties. In feite ondersteunt het één vorm van analyse en wel graph analytics. GPU-based SQL databaseservers zijn speciaal ontworpen om razendsnel query’s op veel data te verwerken. Het zijn ideale producten om als data mart in te zetten. Hun specialisatie maakt ze echter een stuk minder uitwisselbaar.
En dit was ooit compleet anders. Bijvoorbeeld, de bekende klassieke databaseservers waren geschikt voor een breed scala aan toepassingen. Ze konden ingezet worden ter ondersteuning van transacties, rapportage, portals, websites, datawarehouses, en nog veel meer.
Unieke interne architecturen
Het tweede verschil betreft hun meestal unieke interne architecturen. Een SQL databaseserver als SnowflakeDB bijvoorbeeld is eigenlijk een product dat de rol op zich neemt van de drie databases waaruit een datawarehouse-architectuur bestaat; dus de staging area, het datawarehouse en de data marts. Een ander voorbeeld is de databaseserver Edge Intelligence die query’s verwerkt op de plekken waar de data geproduceerd wordt. Op een bepaalde manier is het een gedistribueerde databaseserver.
Dit soort producten dwingt een bepaalde data-architectuur af. Wil men optimaal van ze gebruik maken, dan moeten ze ten eerste ingezet worden voor de toepassing waarvoor ze gebouwd zijn. Ten tweede moet hun interne architectuur leidend zijn bij de bepaling van de data architectuur. Dus kunnen we nog wel een technologie onafhankelijke data-architectuur ontwikkelen? Het lijkt me niet.
Rick van der Lans zal over dit onderwerp tijdens de Data Warehousing & Business Intelligence Summit op 27 maart 2019 een keynote presenteren; De invloed van nieuwe database-technologie op data-architecturen.
15 oktober 2024 Workshop met BPM-specialist Christian Gijsels over AI-Gedreven Business Analyse met ChatGPT. Kunstmatige Intelligentie, ongetwijfeld een van de meest baanbrekende technologieën tot nu toe, opent nieuwe deuren voor analisten met i...
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
21 november 2024 Praktische en interactieve workshop met Nigel Turner Data-gedreven worden lukt niet door alleen nieuwe technologie en tools aan te schaffen. Het vereist een transformatie van bestaande business modellen, met cultuurverandering, een h...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
28 november 2024Workshop met BPM-specialist Christian Gijsels over business analyse, modelleren en simuleren met de nieuwste release van Sparx Systems' Enterprise Architect, versie 16.Intensieve cursus waarin de belangrijkste basisfunctionaliteiten v...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
Deel dit bericht