31-03-2026

Uber realiseert streaming-first data lake

Uber heeft een flinke stap gezet in de evolutie van zijn data-infrastructuur. Ingenieurs van het techbedrijf hebben een deel van hun data lake herontworpen: van een traditionele batch-gebaseerde pipeline naar een streaming-first systeem dat data in realtime verwerkt. De nieuwe aanpak, genaamd IngestionNext, is bedoeld om verbetering te brengen in de manier waarop het bedrijf data verzamelt, opslaat en beschikbaar stelt voor analyse en machine learning.

Tot voor kort draaide Ubers data-inname op Apache Spark, uitgevoerd als geplande batchjobs. Dit ging gepaard met een fundamentele beperking: data was pas uren later beschikbaar voor analytics of experimenten. Voor een bedrijf dat draait op snelle besluitvorming — denk aan dynamische prijsstelling, routeoptimalisatie of realtime aanbevelingen — was dit een bottleneck.

Met IngestionNext is die vertraging verleden tijd, aldus Uber. Het systeem verwerkt event streams continu, waardoor data vrijwel direct na binnenkomst beschikbaar is voor verwerking en analyse. De ingestion latency daalde van uren naar enkele minuten, een prestatie die niet alleen de efficiëntie verhoogt, maar ook nieuwe mogelijkheden opent voor realtime toepassingen.

IngestionNext, waarover Uber eerder publiceerde, is inmiddels in gebruik genomen. Er wordt wel opgemerkt dat de versnelde verversing van de data nog niet end-to-end is gerealiseerd, namelijk wel in de intake van data, maar nog niet in de transformatie naar real-time inzichten en analytics.

Meer informatie over deze case is te vinden op de site van Uber.


Adept Events

Deze website gebruikt cookies om de beste gebruikerservaring mogelijk te maken. Meer informatie