27-02-2013

Zeven stappen naar een betere aanpak van big data

Deel dit bericht


De Big Data-trend betekent dat er een groeiende behoefte is grote hoeveelheden gegevens te verwerken met een nieuw soort technologische oplossingen. Deze zijn onvergelijkbaar met de oude vertrouwde database. Dus wat moet een bedrijf overwegen voor het aan de slag gaat met Big Data?

Bij de meeste IT-afdelingen die nadenken over big data-oplossingen, gaat het al snel om hardware, verwerkingssnelheden en platforms. Voor zover IT-afdelingen al genoeg kennis en inzicht hebben om de beperkingen van hun huidige technologieën te begrijpen, blijkt het erg lastig de zakelijke waarde en ROI's van de verschillende oplossingen zichtbaar te maken. En als je de data een beetje fatsoenlijk in beeld hebt, hoe moet je deze dan classificeren en prioriteren? Dat is waar Big Data Governance om de hoek komt.

Ik zie zeven stappen die noodzakelijk zijn om het volledige potentieel van big data te realiseren:

Verzamelen:
Gegevens worden verzameld uit de gegevensbronnen en verdeeld over meerdere nodes - vaak een raster - die alle een deel van de gegevens parallel verwerken.

Verwerken:
Het systeem gebruikt vervolgens ditzelfde krachtige parallellisme om snel op elke node (knooppunt) met de gegevens berekeningen uit te voeren. Vervolgens reduceren de knooppunten de resulterende bevindingen tot bruikbare gegevensverzamelingen voor ofwel een mens (bij analyse) ofwel een machine (in het geval van grootschalige interpretatie van resultaten).

Beheren:
Vaak is big data heterogeen, afkomstig uit verschillende transactionele systemen. Bijna al deze gegevens moeten worden begrepen, gedefinieerd, geannoteerd, gereinigd en gecontroleerd op zuiverheid.

Meten:
Bedrijven zullen vaak de snelheid willen meten waarmee gegevens kunnen worden geïntegreerd met andere records om te zien of de snelheid van integratie of correctie toeneemt in de tijd. Zakelijke vereisten moet bepalen welk type meting en tracking wordt gebruikt.

Consumeren:
Het uiteindelijke gebruik van de gegevens moet aansluiten bij de oorspronkelijke eis voor de verwerking. Als bijvoorbeeld het binnenhalen van een paar honderd terabyte aan social media-interacties zou aantonen dat de verwerking social mediagegevens extra productaankopen oplevert, dan moeten er regels komen voor de manier waarop de social mediagegevens worden geopend en bijgewerkt.

Opslaan:
Nu de "data-as-a-service" trend vorm krijgt blijven gegevens meer en meer op dezelfde locatie, terwijl de programma's die er toegang tot hebben degene zijn die zich verplaatsen. Of de data nu wordt opgeslagen voor korte termijn batch processing of wordt bewaard voor de de langere termijn, de opslagoplossingen moeten bewust worden aangepakt.

Regelen:
Data Governance omvat het beleid en het toezicht op de gegevens vanuit een zakelijk perspectief. Data governance geldt voor elk van de zes bovengenoemde stappen van big data delivery.

Het merendeel van de 'early adopters' belast met het onderzoek naar en de aanschaf van big data–oplossingen, concentreert zich op het verzamelen en opslaan van data. De vraag is impliciet: "Hoe kunnen we al deze petabytes aan gegevens verzamelen, en waar laten we ze allemaal als we ze eenmaal hebben?" Maar de processen voor het definiëren van heldere business requirements voor big data gaan veel IT-afdelingen nog boven de pet. En zakelijke beslissers zien big data dan ook nog te vaak als een voorwendsel van de IT-afdeling om zichzelf belangrijker te maken en verder te laten groeien, zonder helder doel. Een dergelijk milieu van de wederzijds cynisme is helaas niet erg productief…

Door Jill Dyché, vice president of thought leadership SAS 

  

Partners