Google heeft de Spark operator for Kubernetes aangekondigd op Google Cloud Platform. Met deze software is het mogelijk om Apache Spark in te zetten op met Kubernetes beheerde clusters. Kubernetes stroomlijnt een groot deel van de technische problemen bij het beheren en schalen van op microservices gebaseerde applicaties.
Volgens Google worden dataverwerkingsworkloads, inclusief Spark-taken, uitgevoerd op speciale softwarestacks zoals Yarn of Mesos. Met toenemend gebruik van microservices en containers laten organisaties zien dat er behoefte is aan ondersteuning voor dataverwerking- en machine learning workloads in Kubernetes. De integratie van Kubernetes met Spark was een project van ontwikkelaars die aan Apache Spark werkten. De eerste aflevering van de integratie vond plaats met Spark 2.3.0 afgelopen april en de Kubernetes Scheduler werd afgelopen november verbeterd met Spark 2.4.0.
Aangepast Docker-bestand
De Spark Operator van Google is gebaseerd op de native Kubernetes-integratie voor het uitvoeren, bewaken en beheren van Spark-toepassingen in een Kubernetes-cluster op GCP. Hoewel het technisch een bèta is, meent Google dat de Spark-operator klaar is voor gebruik voor grootschalige dataverwerking, analytics en machine learning op op Google Cloud Platform. De operator ondersteunt Spark 2.4.0, waarmee het uitvoeren van PySpark- en SparkR-toepassingen in het Kubernetes-cluster wordt ondersteund. De operator kan worden geïntegreerd met andere GCP-producten en -services, waaronder Stackdriver voor logging en monitoring, met Cloud Storage en met BigQuery voor analyses. De software wordt geleverd met een aangepast Docker-bestand dat ondersteuning biedt voor cloudopslag, en met de Prometheus JMX-exporter voor monitoring.
De Spark-operator is volgens Google al in gebruik op GCP. Er is een Slack-kanaal gewijd aan de operator met meer dan 170 leden die betrokken zijn bij discussies hierover. Er is ook een GitHub-repository waar ontwikkelaars code delen en distribueren die gerelateerd is aan het project. Google heeft verdere plannen voor ondersteuning van de Spark-operator, onder andere voor verschillende Spark-versies (er is incompatibiliteit tussen Kubernetes-operators die worden gebruikt voor Spark 2.4 en Spark 2.3.x).
De Spark Operator is beschikbaar in de GCP Marketplace.
8 en 9 januari 2025 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoord ...
2 april 2025 Schrijf in voor al weer de twaalfde editie van ons jaarlijkse congres met wederom een ijzersterke sprekers line-up. Op deze editie behandelen wij belangrijke thema’s als Moderne Cloud Data Architecturen, Datawarehouse Design met Ge...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
3 april 2025 Deze workshop met Winfried Etzel behandelt de centrale pijler van Data Mesh: Federated Data Governance. Hoe zorg je voor een goede balans tussen autonomie en centrale regie? Praktische workshop van een halve dag op 3 april in Utre...
3 april 2025 In de snel veranderende wereld van vandaag is het effectief benutten en beheren van gegevens een kritieke succesfactor voor organisaties. Deze cursus biedt een fundamenteel begrip van Master Data Management (MDM) en de centrale ro...
7 t/m 9 april 2025Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare richt...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht