28-03-2019

Trifacta breidt Data Preparation focus uit naar moderniseren van datakwaliteit

Deel dit bericht

Trifacta heeft een nieuwe reeks mogelijkheden aangekondigd, specifiek gericht op het meer intelligent en efficiënt maken van datakwaliteitsbeoordeling, -herstel en -monitoring. Deze mogelijkheden zijn ontworpen om organisaties te helpen bij modernisering van hun aanpak van problemen met datakwaliteit die het succes van analyses, machine learning en cloud data management initiatieven belemmeren.

Omdat steeds meer behoefte is aan snellere inzichten en voorspellingen van ongelijksoortige gegevensbronnen, kunnen organisaties niet langer vertrouwen op legacy en in silo’s aanwezige datakwaliteitsprocessen om snelheid, schaal en diversiteit van hedendaagse data te verwerken. De eerste nieuwe mogelijkheid Active Profiling is een selectiemodel dat realtime visuele en interactieve begeleiding combineert met machine learning, waardoor gebruikers datakwaliteitskwesties kunnen ontdekken en ze kunnen oplossen met intelligente suggesties. De tweede is Smart Cleaning, een reeks nieuwe functies om problemen met datakwaliteit aan te pakken die zich voordoen bij het formatteren en standaardiseren. Met Cluster Clean, Pattern Clean en Reference Clean kunnen gebruikers kiezen uit verschillende intelligente cleaningmethoden.

Naarmate volumes en bronnen van data blijven toenemen, neemt ook het aantal geavanceerde machine learning-modellen en beschikbare analysetools toe. Het probleem is dat modellen voor machine learning en analysetools alleen zo goed zijn als de onderliggende data, en dat veel organisaties worstelen met problemen met de datakwaliteit. Het succes van de huidige machine learning en analytische initiatieven vereist een nieuwe benadering van datakwaliteit die zich richt op het vergroten van de snelheid, schaal en nauwkeurigheid van het opschonen en standaardiseren van gegevens. Naarmate organisaties datakwaliteitsprocessen moderniseren voor de machine learning en analytics use cases van vandaag, zal het slaagpercentage van deze initiatieven snel verbeteren in vergelijking met de momenteel lage succespercentages.

De nieuwe functies van Trifacta om initiatieven voor datakwaliteit verder te ondersteunen zijn:
Active Profiling
- Een nieuw selectiemodel creëert een naadloze ervaring die problemen met datakwaliteit benadrukt en biedt interactieve richtlijnen voor het oplossen van deze problemen.
- Kolomselectie biedt uitgebreide histogrammen, datakwaliteitsdiagrammen en patrooninformatie om direct inzicht te bieden in kolomdistributies en problemen met de datakwaliteit.
- Interactie met profileringsinformatie stimuleert suggesties en methoden voor het opschonen waar de gebruiker uit kan kiezen.

Smart Cleaning
- Cluster Clean gebruikt geavanceerde clusteralgoritmen om vergelijkbare waarden te groeperen en op te lossen tot een enkele standaardwaarde.
- Pattern Clean verwerkt samengestelde gegevenstypen zoals datums en telefoonnummers die vaak meerdere weergaven hebben.
- Met Reference Clean kunnen gebruikers een referentiedataset of dictionary specificeren, waarmee Trifacta waarden vergelijkt en standaardiseert.

Later in 2019 zal Trifacta zich richten op datakwaliteit naar het automationproces brengen. Met de uitrol van extra functionaliteit ter ondersteuning van flow orchestration, monitoring en alarmering, kunnen organisaties datakwaliteitspecificaties instellen en data isoleren die niet voldoen aan de datakwaliteitsnormen van de organisatie. Dit zal de strategie van het bedrijf om verder te gaan dan data preparation voortzetten door ondersteuning voor datakwaliteit toe te voegen en Trifacta naar een modern DataOps-platform uit te bouwen.

Meer informatie: Trifacta

Partners