De Big Data-trend betekent dat er een groeiende behoefte is grote hoeveelheden gegevens te verwerken met een nieuw soort technologische oplossingen. Deze zijn onvergelijkbaar met de oude vertrouwde database. Dus wat moet een bedrijf overwegen voor het aan de slag gaat met Big Data?
Bij de meeste IT-afdelingen die nadenken over big data-oplossingen, gaat het al snel om hardware, verwerkingssnelheden en platforms. Voor zover IT-afdelingen al genoeg kennis en inzicht hebben om de beperkingen van hun huidige technologieën te begrijpen, blijkt het erg lastig de zakelijke waarde en ROI's van de verschillende oplossingen zichtbaar te maken. En als je de data een beetje fatsoenlijk in beeld hebt, hoe moet je deze dan classificeren en prioriteren? Dat is waar Big Data Governance om de hoek komt.
Ik zie zeven stappen die noodzakelijk zijn om het volledige potentieel van big data te realiseren:
Verzamelen: Gegevens worden verzameld uit de gegevensbronnen en verdeeld over meerdere nodes - vaak een raster - die alle een deel van de gegevens parallel verwerken.
Verwerken: Het systeem gebruikt vervolgens ditzelfde krachtige parallellisme om snel op elke node (knooppunt) met de gegevens berekeningen uit te voeren. Vervolgens reduceren de knooppunten de resulterende bevindingen tot bruikbare gegevensverzamelingen voor ofwel een mens (bij analyse) ofwel een machine (in het geval van grootschalige interpretatie van resultaten).
Beheren: Vaak is big data heterogeen, afkomstig uit verschillende transactionele systemen. Bijna al deze gegevens moeten worden begrepen, gedefinieerd, geannoteerd, gereinigd en gecontroleerd op zuiverheid.
Meten: Bedrijven zullen vaak de snelheid willen meten waarmee gegevens kunnen worden geïntegreerd met andere records om te zien of de snelheid van integratie of correctie toeneemt in de tijd. Zakelijke vereisten moet bepalen welk type meting en tracking wordt gebruikt.
Consumeren: Het uiteindelijke gebruik van de gegevens moet aansluiten bij de oorspronkelijke eis voor de verwerking. Als bijvoorbeeld het binnenhalen van een paar honderd terabyte aan social media-interacties zou aantonen dat de verwerking social mediagegevens extra productaankopen oplevert, dan moeten er regels komen voor de manier waarop de social mediagegevens worden geopend en bijgewerkt.
Opslaan: Nu de "data-as-a-service" trend vorm krijgt blijven gegevens meer en meer op dezelfde locatie, terwijl de programma's die er toegang tot hebben degene zijn die zich verplaatsen. Of de data nu wordt opgeslagen voor korte termijn batch processing of wordt bewaard voor de de langere termijn, de opslagoplossingen moeten bewust worden aangepakt.
Regelen: Data Governance omvat het beleid en het toezicht op de gegevens vanuit een zakelijk perspectief. Data governance geldt voor elk van de zes bovengenoemde stappen van big data delivery.
Het merendeel van de 'early adopters' belast met het onderzoek naar en de aanschaf van big data–oplossingen, concentreert zich op het verzamelen en opslaan van data. De vraag is impliciet: "Hoe kunnen we al deze petabytes aan gegevens verzamelen, en waar laten we ze allemaal als we ze eenmaal hebben?" Maar de processen voor het definiëren van heldere business requirements voor big data gaan veel IT-afdelingen nog boven de pet. En zakelijke beslissers zien big data dan ook nog te vaak als een voorwendsel van de IT-afdeling om zichzelf belangrijker te maken en verder te laten groeien, zonder helder doel. Een dergelijk milieu van de wederzijds cynisme is helaas niet erg productief…
Door Jill Dyché, vice president of thought leadership SAS
14 en 15 mei 2025 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoord op...
19 t/m 21 mei 2025Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en praktij...
20 en 21 mei 2025 Deze 2-daagse cursus is ontworpen om dataprofessionals te voorzien van de kennis en praktische vaardigheden die nodig zijn om Knowledge Graphs en Large Language Models (LLM's) te integreren in hun workflows voor datamodelleri...
22 mei 2025 Workshop met BPM-specialist Christian Gijsels over AI-Gedreven Business Analyse met ChatGPT. Kunstmatige Intelligentie, ongetwijfeld een van de meest baanbrekende technologieën tot nu toe, opent nieuwe deuren voor analisten met innovatie...
17 t/m 19 november 2025 De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot...
Alleen als In-house beschikbaar Het Logical Data Warehouse, een door Gartner geïntroduceerde architectuur, is gebaseerd op een ontkoppeling van rapportage en analyse enerzijds en gegevensbronnen anderzijds. Een flexibelere architectuur waarbij snell...
Deel dit bericht