Databricks maakt Unity Catalog open source, een complete oplossing voor data- en AI-beheer binnen meerdere clouds, dataformaten en databronnen. Dit is een belangrijke stap in Databricks' missie om open ecosystemen te bevorderen, waardoor klanten de flexibiliteit en controle houden die ze nodig hebben zonder afhankelijk te zijn van specifieke leveranciers. Databricks trekt in deze visie samen op met partners zoals Amazon Web Services, Google Cloud, Microsoft, NVIDIA, Salesforce en vele anderen.
Unity Catalog OSS biedt een universele interface die ieder dataformat en elke compute-engine ondersteunt, inclusief de mogelijkheid om tabellen uit te lezen met Delta Lake, Apache Iceberg en Apache Hudi-clients via Delta Lake UniForm. Unity Catalog ondersteunt ook de Iceberg REST Catalog- en Hive Metastore (HMS) interface-standaarden. Verder biedt Unity Catalog OSS uniform beheer voor zowel tabeldata als niet-tabeldata en AI-assets, zoals ML-modellen en generatieve AI-tools, waardoor organisaties beheer op grote schaal kunnen vereenvoudigen.
Databricks lanceerde Unity Catalog in 2021 om aan een dringende klantbehoefte te voldoen: de noodzaak voor een interoperabele catalogus voor hun data- en AI-workflows. Voorheen moesten organisaties op verschillende oplossingen vertrouwen voor specifieke doeleinden. Dit resulteerde echter in silo's tussen platforms en data- en AI-assets. Deze silo's maakten het lastiger om moderne data- en AI-toepassingen te bouwen die uiteenlopende data en tools combineren, zoals tabeldata in meerdere tabelformats, ongestructureerde data, ML-modellen, vector-indices en AI-tools. Dit leidde weer tot veel te complexe netwerken om de metadata-silo's te beheren, kopieën van data in verschillende omgevingen en formats. Het eindresultaat: verhoogde kosten en complexiteit, gebrekkig beheer en gefragmenteerde toegangscontrole.
Unity Catalog doorbreekt silo's
“Onze klanten zijn dol op Unity Catalog. Het stelt hen in staat om al hun data-objecten te beheren als één enkele bron van waarheid binnen het Databricks Data Intelligence Platform, in plaats van dat ze meerdere oplossingen voor specifieke doeleinden aan elkaar moeten knopen”, zegt Ali Ghodsi, medeoprichter en CEO van Databricks. “Ons platform is het enige grote dataplatform op de markt waar alle data standaard in een open format beschikbaar is. Nu zijn ook de metadata en het beheer open, en bieden we organisaties de beheermogelijkheden die ze nodig hebben in het huidige data- en AI-landschap. We zijn verheugd om Unity Catalog als open source aan te bieden en de code openbaar te maken. We zullen de open standaard blijven ontwikkelen in nauwe samenwerking met onze partners.”
Enkele belangrijke kenmerken van Unity Catalog OSS:
• Interoperabiliteit: Unity Catalog OSS biedt een universele interface die elk dataformat en iedere compute-engine ondersteunt, inclusief de mogelijkheid om tabellen te lezen met Delta Lake, Apache Iceberg en Apache Hudi-clients via Delta Lake UniForm. Unity Catalog OSS is interoperabel met alle grote cloudplatforms, waaronder Microsoft Azure, AWS, GCP en Salesforce; compute-engines zoals Apache Spark, Presto, Trino, DuckDB, Daft, PuppyGraph en StarRocks; en data- en AI-platforms zoals dbt Labs, Confluent, Eventual, Fivetran, Granica, Immuta, Informatica, LanceDB, LangChain, Tecton en Unstructured.
• Geïntegreerde governance: Unity Catalog OSS maakt uniform beheer mogelijk van datatabellen, ongestructureerde data en AI-assets zoals ML-modellen en generatieve AI-tools, waardoor organisaties onder meer hun beheer en ontwikkeling op schaal kunnen vereenvoudigen.
• Openheid: Met open API's en een open source server met Apache 2.0-licentie maximaliseert Unity Catalog OSS de flexibiliteit en keuzemogelijkheden voor klanten door brede interoperabiliteit te ondersteunen met uiteenlopende engines, tools en platforms.
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht