04-06-2021

Databricks tilt databeheer en machine learning naar hoger niveau

Deel dit bericht

Databricks lanceert vier nieuwe productinnovaties die haar Lakehouse-platform en mogelijkheden voor machine learning verbeteren.

De eerste vernieuwing, Delta Live Tables, versimpelt de ontwikkeling en het beheer van betrouwbare data pipelines met Delta Lake. De tweede, Unity Catalog, is een nieuwe, verenigde datacatalogus die het makkelijk maakt om alle data assets van een organisatie te beheren en biedt een compleet overzicht van alle data binnen de verschillende clouds en bestaande catalogi in gebruik. De Unity Catalog wordt ondersteund door Delta Sharing, een nieuw open source-protocol van Databricks. Tenslotte lanceert het bedrijf Databricks Machine Learning, een nieuw, data-native platform dat is gebouwd op een open lakehouse-architectuur. Dit platform biedt ML-engineers alles wat ze nodig hebben om de volledige ML-levenscyclus te beheren, en komt met twee gloednieuwe features: AutoML, dat veel van het handwerk in de opzet van ML-modellen automatiseert zonder in te boeten op controle en transparantie, en Feature Store, die verbeterde vindbaarheid, governance en betrouwbaarheid van model-features biedt.

Delta Live Tables
Delta Live Tables is een cloudservice die ETL-werk (Extract, Transform en Load) simpeler en betrouwbaarder maakt binnen Delta Lake om ervoor te zorgen dat gegevens opgeschoond en consistent zijn wanneer ze worden gebruikt voor analytics en ML. Dit gebeurt bijvoorbeeld door veel handwerk in de opzet en het beheer van pipelines te automatiseren. Delta Live Tables is als preview beschikbaar voor Databricks-klanten.

Unity Catalog
Unity Catalog verbetert data governance in multi-cloud- en multi-format-omgevingen door één interface te bieden voor governance van alle data assets, zowel gestructureerd als ongestructureerd en in alle gebruikte cloud data lakes. Dit maakt het voor ondernemingen eenvoudiger om hun data te verenigen op het Lakehouse-platform. Unity Catalog integreert ook met bestaande catalogi, zodat organisaties kunnen voortbouwen op wat er al staat en een toekomstbestendig en gecentraliseerd governancemodel kunnen opzetten zonder dure migratiekosten.

Databricks Machine Learning
Databricks Machine Learning biedt datateams alle benodigde tools binnen één omgeving, waarin ze kunnen schakelen tussen functies voor data science/engineering, SQL Analytics en gloednieuwe ML-functies. Databricks Machine Learning is gebouwd op de open lakehouse-architectuur en zorgt ervoor dat klanten eenvoudig ML-werk kunnen uitvoeren met ieder type data en op elke schaal. Databricks Machine Learning lanceert daarnaast met twee nieuwe functionaliteiten die ML-werk verbeteren, Databricks AutoML en Databricks Feature Store.

Databricks AutoML
Nieuwe AutoML-mogelijkheden in Databricks ML stellen datateams niet alleen in staat om snel modellen te trainen via een UI of API, maar ook de onderliggende experimenten en notebooks te delen, zodat data scientists gemakkelijk een onbekende dataset kunnen valideren of een nieuw ML-project kunnen toetsen. Databricks’ focus op transparantie voor AutoML geeft unieke inzichten in hoe een model werkt en biedt gebruikers te allen tijde volledige controle.

Bovendien zijn alle AutoML-experimenten geïntegreerd met de rest van Databricks’ Lakehouse-platform, zodat onder meer alle gerelateerde parameters, statistieken, modellen die aan elke proefrun zijn gekoppeld kunnen worden bijgehouden. Hierdoor zijn modellen eenvoudig te vergelijken en kunnen ze eenvoudig in productie worden genomen.

Databricks Feature Store
Features zijn de attributen die door ML-modellen worden gebruikt om beslissingen te nemen. Om zo efficiënt mogelijk te kunnen werken, moeten data scientists features binnen de organisatie in kaart brengen, weten hoe ze zijn opgebouwd en waar ze worden gebruikt. Feature Store van Databricks is de eerste feature store die binnen een data- en MLOps-platform is ontworpen. Feature Store stelt datateams in staat om eenvoudig features te hergebruiken in verschillende modellen om herbewerking en duplicatie van features te voorkomen, wat datateams maanden kan besparen bij het ontwikkelen van nieuwe modellen. Features worden opgeslagen in Delta Lake's open bestandsformaat en kunnen worden benaderd via de native API's van Delta Lake. Feature Store biedt daarnaast zowel real-time- als batch-toegang tot features voor bijvoorbeeld ML-training en streaming. En dankzij een integratie met MLflow zijn feature-referenties ingebed in het model zelf, zodat gebruikers features kunnen bijwerken zonder dat het applicatieteam wijzigingen hoeft aan te brengen in de applicatiecode. Databricks Machine Learning is als preview beschikbaar voor alle Databricks-klanten.

Partners