Het perfecte metadatamodel
Door marktontwikkelingen, volwassen BI-omgevingen en veranderende informatiebehoeften, neemt de behoefte aan metadata toe. In de praktijk blijkt de beschikbare metadata vaak niet voldoende geschikt om aan de eisen en wensen van (wijziging)beheer te kunnen voldoen. Daarnaast mist vaak een integraal metadatamodel waarbij alle benodigde metadata in één centrale repository wordt opgeslagen. In dit artikel wordt het metadatamodel beschreven dat inmiddels volwassen genoeg is om aan de vereisten van diverse stakeholders te voldoen.
Metadata, wat is het?
“Metadata is what you know and data is what you are looking for. Therefore, everything can function as metadata”. Deze quote van David Weinberger komt uit een heel ander veld dan BI, namelijk uit de bibliotheekwereld.
Wij definiëren metadata als data over data en alle gegevens die nodig zijn om verwerking, autorisatie, transparantie, traceerbaarheid, wijzigingen, beschikbaar- en toegankelijkheid van de data te borgen. Daarnaast onderscheiden we operationele, technische en business metadata.
De metadatabehoefte neemt toe
Een succesvolle BI-oplossing voorziet in de huidige informatiebehoefte, is voorbereid op de te voorspellen informatiebehoefte en kan flexibel en snel aangepast worden aan toekomstige informatiebehoeften. Met de toenemende complexiteit van de markt, de grotere beschikbaarheid van data en sneller wijzigende businessmodellen is snel kunnen adapteren onmisbaar voor de business.
Tegenwoordig is BI verweven met de primaire processen en is er behoefte aan BI op operationeel, tactisch en strategisch niveau. Vooral het operationele niveau en de inbedding in het primaire proces stellen hoge eisen aan de tijdigheid en beschikbaarheid van BI. Waren voorheen gegevens met een leeftijd van een dag en beschikbaarheid tijdens kantooruren voldoende, nu moet BI 24/7 beschikbaar zijn en worden hybride architecturen geïmplementeerd waar real-time reporting direct op de bron of op een replica plaatsvindt en het 'traditionele' integratieproces nog via een DWH loopt.
Als laatste is de behoefte aan traceerbaarheid en reproduceerbaarheid van informatie ook enorm toegenomen. Denk bijvoorbeeld aan financiële instellingen en verzekeraars, deze moeten conform Basel of Solvency in staat zijn de herkomst van gegevens en mogelijke manipulatie aan te kunnen tonen.
Bovenstaande veranderingen resulteren in de volgende eisen:
In de inleiding werd metadata onderverdeeld in drie categorieën, namelijk in business, technische en operationele metadata. Hieronder volgt een toelichting van de diverse onderdelen per categorie:
Business metadata
Begrippenlijst
Hier wordt de gezamenlijke begrippenlijst vastgelegd en bijgehouden via een grafische interface.
Business rules
De logica die toegepast wordt op de ingelezen data komt in veel verschijningsvormen. Het kan afleidingen of filters betreffen, maar ook prioriteiten. Zowel de business als ETL maken gebruik van de hier, centraal opgeslagen business rules.
Autorisatiematrix
Gevoelige data hoort slechts beschikbaar te zijn voor een beperkt gremium. Door het gebruik van een autorisatiematrix kan de organisatie een bewuste keuze maken welke informatieproducten en welke data binnen die informatieproducten voor wie inzichtelijk zijn. De inhoud van deze matrix wordt in deze entiteit opgeslagen en beheerd via een grafische interface.
Datavalidaties
Vaak wordt de data vanuit bronsystemen aangeboden volgens een vooraf afgesproken format. Voorbeelden van eenvoudige validaties zijn controles op datatype, veldlengte of aanwezigheid. Complexere varianten zijn controles op domeinen en onderlinge verbanden. De definities van deze validaties worden in deze entiteit vastgelegd.
Technische metadata
Groeiprognoses
Groeiprognoses zijn gebaseerd op statistieken over in gebruik zijnde database-objecten. Deze statistieken worden opgeslagen in de metadata repository en na elk laadproces bijgewerkt. Naast het monitoren van reguliere en verwachte groei heeft het bijhouden van groeiprognoses ook een nevendoel, namelijk het signaleren van onverwachte afwijkende patronen, wat kan duiden op een fout in het ETL-proces of een gewijzigde aanlevering.
Informatieproductenoverzicht
In het informatieproductenoverzicht wordt bijgehouden welke output het DWH genereert in de vorm van rapportages, kubussen, dashboards, feeds naar applicaties en overige bestandsformaten.
Ook het gebruik van de informatieproducten wordt bijgehouden en er ligt een relatie met de autorisatiematrix.
Auditinformatie
De essentie van auditinformatie is aan kunnen tonen wat de oorsprong van een gegeven is en welke bewerkingen en business rules er op toegepast zijn tot en met het informatieproduct. De scope begint hier vaak bij binnenkomst van het DWH en eindigt bij het informatieproduct. Alle dataverplaatsingen en bewerkingen binnen de OLTP-omgeving vallen buiten de scope van de lineage, deze behoren tot de 'verantwoordelijkheid' van het bronsysteem. Binnen de auditinformatie worden entiteiten, attributen, ETL-mappings, business rules en datavalidaties aan elkaar gerelateerd. De ETL-mappingtabel staat centraal, omdat daarin de hele keten van bron tot en met informatieproduct wordt opgeslagen. Hieronder worden de auditcomponenten toegelicht:
Entiteiten
Alle entiteiten die onderdeel zijn van het DWH worden hier beschreven, zoals de definitie , de relatie met het bronsysteem waar hij deel van uitmaakt en specifieke eigenschappen van de entiteit (bijvoorbeeld statisch/volatiel, retentieperiode, versie et cetera). De entiteit is gerelateerd aan de begrippenlijst waar de functionele betekenis van de entiteit wordt beschreven.
Attributen
Alle attributen die onderdeel zijn van de ontsloten entiteiten worden hier beschreven, zoals veldlengtes, datatypes, namen en definitie van de attributen. Het attribuut is gerelateerd aan de begrippenlijst waar de functionele betekenis van het attribuut wordt beschreven.
ETL-mappings
In de ETL-mapping-tabel wordt bijgehouden wat de bron- en doelattributen van de ETL-mappings zijn per laag en/of component in de logische BI-architectuur, zoals mappings tussen bron en staging, staging en DWH, DWH en data mart, data mart en kubus en tot slot kubus en rapport. Daarnaast wordt ook bijgehouden waar en wanneer business rules en datavalidaties worden toegepast.
Versiebeheer
Om binnen een bepaalde release, increment of iteratie alle wijzigingen bij elkaar te kunnen houden is het wenselijk één integrale versiebeheertool te gebruiken, waarbij alle onderdelen van het BI-project beheerd kunnen worden. Hierbij gaat het onder andere om functionele specificaties, datamodellen, ETL-software, informatieproducten en DDL.
Operationele metadata
Broninformatie
In de beschrijving van een te ontsluiten bronsysteem hoort de methode en de frequentie van aanlevering of de beschikbaarheid voor uitlezen. Een indicatie of de bron actief is en wanneer de laatste verwerking op de bron heeft plaatsgevonden, maken het beeld compleet.
Laadbereik
Transactietabellen in de bron zijn vaak te groot om in z’n geheel over te halen. Als er een laadbereik is gespecificeerd voor een bron dan beperkt dat de dataset aanzienlijk. Voorwaarde is dat de transacties statisch zijn of dat er in de bron een wijzigingsdatum beschikbaar is voor filtering.
Geautomatiseerde verversing
Alle onderlinge afhankelijkheden van entiteiten en hun attributen zijn in kaart gebracht en de beschikbaarheid van bronsystemen is bekend. Dan is het inrichten van geautomatiseerde verversing een logische vervolgstap. Afhankelijk van de capaciteiten van de infrastructuur kan een plafond gezet worden op de mate van parallel verwerken. Op die manier vindt maximale uitnutting plaats van de beschikbare resources en blijft het tijdsraam van de verwerking zo kort mogelijk.
Loginformatie
Log informatie is informatie over statistieken en resultaten van laadprocessen, zoals bijvoorbeeld de geautomatiseerde of ad-hoc-verversing. Deze informatie kan bestaan uit een combinatie van native-tool-logging en custom-made logging.
Één centrale metadata repository
Technische metadata wordt veelal binnen BI-tool-repositories bijgehouden. In de meeste organisaties wordt gebruik gemaakt van meerdere producten en leveranciers met allen hun eigen metadata repository (silo). Om een integraal beeld te krijgen is het belangrijk deze metadata te centraliseren in één repository. De tools blijven gebruik maken van hun eigen proprietary repositories, maar de stakeholders krijgen alleen toegang tot de metadata vanuit de centrale repository.
Metadata stakeholders
Binnen een organisatie zijn er diverse stakeholders die al dan niet bewust gebruik maken van metadata. Technisch beheerders hebben behoefte aan operationele metadata. Functioneel beheerders richten zich op de business metadata. De releasemanager controleert de technische metadata. Ontwikkelaars en changemanagers focussen zich op een combinatie van de drie categorieën. Binnen het ETL-proces worden business rules toegepast uit de business metadata. De DBA is vooral geïnteresseerd in de operationele en technische metadata en de eindgebruikers zijn geïnteresseerd in business metadata.
Vanwege de diversiteit aan gebruik is het belangrijk dat de metadata voor iedereen toegankelijk is ter inzage en aanvulling via een intuïtieve interface. Een goed voorbeeld van een tool die dit ondersteunt, is Master Data Services, beschikbaar in Microsoft SQL Server. Met een Excel add-in kan zowel technisch als functioneel beheer de inhoud van de metadata repository onderhouden zonder dat hiervoor specifieke technische kennis nodig is.
Metadata in de logische architectuur
Als alle beschikbare metadata is opgeslagen in de metadata repository, kan deze via een data mart en eventueel een semantische laag naar de informatielaag ontsloten worden voor alle stakeholders Zo kan elke gebruikersgroep besluiten nemen op basis van relevante rapportages, hier acties op ondernemen en zo is de cirkel weer rond. Zie hieronder een schets van de logische architectuur van de centrale metadata repository.
Afsluiting
Metadata is overal aanwezig en broodnodig; Het is hoog tijd het in zijn geheel toegankelijk en inzichtelijk te maken. Het helpt alle stakeholders om de voor hun relevante data te begrijpen en snel in te kunnen spelen op veranderende businessmodellen en inherente informatiebehoefte. Daarnaast bevordert het ook de toenadering tussen de verschillende groepen stakeholders, doordat de zwarte doos met complexiteit hierdoor transparanter wordt.
Jorik Kool MSc en Vincent Wylenzek MSc zijn beiden Senior Consultant bij Ordina
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht