27-06-2014

Veel Big Data en storage bij ICT-onderzoek om geschiedenis van heelal te begrijpen

Deel dit bericht


Binnen het onderzoeksprogramma Big Bang, Big Data: Innovating ICT as a Driver for Astronomy heeft NWO Exacte Wetenschappen (EW) vijf ICT-onderzoeksaanvragen gehonoreerd. Het gaat om onderzoek naar de nieuwste generatie geavanceerde computersystemen (‘exascale’ technologies) die nodig zijn om de gigantische hoeveelheden data te verwerken die gegenereerd zullen worden door de Square Kilometre Array (SKA), 's werelds grootste en meest gevoelige radiotelescoop. 

SKA is een internationaal project om de grootste en gevoeligste radiotelescoop ter wereld te bouwen in Zuid-Afrika en Australië, om zo de geschiedenis van het heelal beter te begrijpen. Het project is de ultieme uitdaging in ‘Big Data' (het werken met extreem grote hoeveelheden gegevens) en wetenschappers moeten grote sprongen op het gebied van computerwetenschappen maken om hiermee om te kunnen gaan. De impact hiervan zal ook ver buiten de SKA zichtbaar zijn en een nieuw tijdperk inluiden dat de samenwerkingspartners het tijdperk van de cognitieve systemen noemen.

DOME en NWO

Het onderzoek Big Bang, Big Data: Innovating ICT as a Driver for Astronomy  is een samenwerking tussen DOME (een samenwerking tussen ASTRON en IBM) en NWO-EW. Voor DOME onderzoeken wetenschappers extreem snelle, maar energiezuinige, computersystemen om de enorme gegevensstromen die door de Square Kilometre Array (SKA)-telescoop zullen worden geproduceerd, op te vangen. De vloed aan data die SKA zal genereren, is te groot voor de huidige supercomputers. Naar verwachting zal er elke dag ongeveer één exabyte aan informatie binnenkomen. Dat is ruwweg 19.000 keer zoveel als alle informatie uit alle boeken die ooit geschreven zijn.

Vijf onderzoeksprojecten

De vijf onderzoeksprojecten hebben als gemeenschappelijk doel om additionele Big Data ICT-innovaties te ontwikkelen die de astronomie en de maatschappij als geheel ten goede komen. Daarnaast draagt het honoreren van deze vijf projecten bij aan het opbouwen van een onderzoeksnetwerk in Nederland. Het beschikbare budget voor dit programma is ruim € 2,2 miljoen. Hiervan wordt 50% in kind door DOME (ASTRON en IBM) bijgedragen en 50% in cash door NWO-EW.

Gehonoreerde projecten:

The Computer Science challenge of calibrating the ionosphere over the SKA sky

Hoofdaanvrager: Prof. dr. H.J.A. Röttgering, Universiteit Leiden

De ionosfeer verstoort in hevige mate de radiosignalen die de SKA uit het heelal gaat opvangen. Deze verstoring moet uit de data verwijderd worden om toch radiokaarten van zeer hoge kwaliteit te kunnen maken, die voor de wetenschap nodig zijn. Gezien de zeer grote hoeveelheid data en de complexiteit van de benodigde algoritmes is dit een serieuze ICT-uitdaging. In dit project zullen bestaande algoritmes voor de verwerking van grote datastromen uit de SKA onderzocht worden om uit te vinden welke stappen veel rekentijd kosten. Vervolgens worden wijzigingen ontworpen, geïmplementeerd en getest om deze knelpunten te overwinnen.


Data reduction and image formation for future radio telescopes (DRIFT)

Hoofdaanvrager: Prof. dr. ir. A.J. van der Veen, Technische Universiteit Delft

In de SKA zullen duizenden antennes op honderden locaties continu metingen verrichten. Deze gegevens worden bijeengebracht op een centraal punt waar deze in twee stappen worden omgezet in astronomische plaatjes (de zogenaamde beeldvorming). Dit gaat via een tussenstap waarin de metingen van diverse antennes met elkaar gecorreleerd worden. Voor de beeldvorming zullen bestaande algoritmes orde 350 petaflops nodig hebben (een petaflop is een biljard operaties per seconde), dat is een onrealistisch hoge complexiteit, een factor honderd meer dan voor LOFAR. Een ander knelpunt is datatransport van de antennes naar het centrale punt; berekeningen wijzen uit dat dit zeer veel energie gaat kosten.

Het onderzoek beoogt (A) het transportprobleem te verminderen door efficiënte "compressive sampling" technieken, waarmee veel data weggelaten wordt terwijl uiteindelijk toch alle benodigde correlaties berekend worden, en (B) geavanceerde numerieke technieken om de beeldvorming te versnellen. Idealiter wordt zelfs de tussenstap (correlatie-berekening) overgeslagen.

 

Beyond Compressive Sensing: Learning Radio-Interferometric Image Reconstruction

Hoofdaanvrager: Dr. M. Welling, Universiteit van Amsterdam

De hoeveelheid data die door toekomstige radiotelescopen gaat worden geproduceerd is te groot om nog te kunnen worden getransporteerd of opgeslagen. De huidige methoden schieten tekort om efficiënt uit deze gegevensstroom beelden van de radiobronnen aan de hemel te berekenen. In dit project gaan we observaties en simulaties gebruiken om de statistische eigenschappen van de te reconstrueren astronomische beelden in modellen te vangen. Met deze modellen kunnen we dan al dicht bij de antennes het merendeel van de ruwe data weggooien (het deel dat correspondeert met oninteressante ruis) en alleen de essentiële informatie bewaren (het deel dat correspondeert met het te reconstrueren beeld). Deze modellen zullen ook leiden tot een verbeterde beeldkwaliteit en het mogelijk maken ze efficiënter op te slaan. 

 

Improving Power-Efficiency for Digital processing in Radio Astronomy (IMPEDRA)

Hoofdaanvrager: Dr. ir. A.B.J. Kokkeler, Universiteit Twente

Signalen in de radioastronomie zijn onnauwkeurig door de aanwezige ruis. Toch worden hierop  met grote nauwkeurigheid berekeningen uitgevoerd. Die hoge rekennauwkeurigheid kost veel energie, wat een belemmering is voor de bouw van waarneemsystemen.

In dit project wordt gewerkt aan het drastisch verlagen van het energieverbruik door de nauwkeurigheid van de berekeningen in balans te brengen met die van de signalen, zonder dat daarbij de uiteindelijke waarneming beïnvloed wordt. Er zullen twee technieken onderzocht worden: probabilistic en approximate computing. Bij probabilistic computing is het toegestaan dat op een willekeurig moment ergens in een berekening een fout optreedt. Dit effect treedt bijvoorbeeld op wanneer voedingsspanningen verlaagd worden, wat een erg effectief middel is om energie te besparen. Er moet hierbij wel gegarandeerd kunnen worden dat de opgetreden fouten de uiteindelijke waarneming niet beïnvloeden. Bij approximate computing worden delen van een berekening die weinig invloed hebben op de uiteindelijke uitkomst, geschrapt om energie te besparen. Hierbij moeten de resultaten die gegenereerd worden wel voldoen aan de uiteindelijke nauwkeurigheidseisen.

 

Layered Astronomical Databases (LAD)

Hoofdaanvrager: Prof. dr. M.L. Kersten (Centrum Wiskunde en Informatica)

Onderzoekers zijn steeds meer afhankelijk van het effectief onderzoeken van enorme hoeveelheden aan experimentele gegevens: de database is het nieuwe laboratorium.

Het efficiënt opslaan van petabytes aan gegevens wordt echter nog niet efficiënt ondersteund door databasesystemen, evenals het snel bepalen van statistische eigenschappen en het genereren van compacte samenvattingen. Beide vormen de grote uitdaging waar in het LAD-project aan gewerkt zal worden.

In het project zal worden gewerkt aan een schaalbare oplossing met real-time mogelijkheden, waar de toegangspatronen passen bij de samenvattingslagen in een gelaagd opslagsysteem. Verschillende lagen presenteren de data dan in verschillende formaten, variërend van bovenaan de erg grove statistische overzichten op hoog niveau, tot helemaal onderaan de ruwe details.

 

Tags:

Big Data

Partners