26-02-2020

Databricks versnelt opzet van lakehouses met Databricks Ingest

Deel dit bericht

Databricks integreert Databricks Ingest in haar Unified Data Analytics Platform. In combinatie met het Databricks Ingestion partnernetwerk kunnen datateams nu gemakkelijker data management, Business Intelligence en Machine Learning combineren in een nieuw data management paradigma genaamd lakehouse, dat de beste aspecten van data lakes en datawarehouses verenigt.

Traditioneel moesten bedrijven beschikbare data opsplitsen in gestructureerde data en big data. Deze datasets werden vervolgens los van elkaar gebruikt voor BI- en ML-cases. Hierdoor waren data lakes en data warehouses van elkaar gescheiden. Dat leidde tot trage verwerkingsprocessen en gefragmenteerde resultaten, die ofwel te vertraagd ofwel te incompleet waren om ze effectief in te kunnen zetten.
Dit verandert met Databricks Ingest, waarmee klanten gemakkelijk vanuit verschillende databronnen hun data direct toe kunnen voegen aan Delta Lake: open source technologie om betrouwbare en snelle lakehouses op te zetten. Het bijbehorende partnernetwerk bestaat uit ingebouwde integraties met Fivetran, Qlik, Infoworks, Streamsets en Syncsort, die het mogelijk maken om geautomatiseerd data in te laden. Azure Databricks klanten konden overigens al gebruik maken van de ingebouwde integratie met Azure Data Factory om data vanuit verschillende bronnen in te laden.

Data uit applicaties als Salesforce, Marketo, Zendesk, SAP en Google Analytics, databases zoals Cassandra, Oracle, MySQL en MongoDB en file storage zoals Amazon S3, Azure Data Lake Storage en Google Cloud Storage, kan eenvoudig gecombineerd worden in Delta Lake voor alle BI- en ML-use cases. Naast de aangekondigde netwerkpartners zullen binnenkort integraties met onder andere Informatica, Segment en Talend beschikbaar komen.

Partners