16-09-2008

Infobright wordt Open Source BI

Deel dit bericht

Datawarehouse-markt heeft er een open source-oplossing bij die gebruik maakt van MySQL.

Infobright stelt haar nieuwe datawarehouse-software als open source ter beschikking onder de naam Infobright Community Edition (ICE). Infobright is een enterprise-class, self-managing datawarehouse-oplossing die heeft bewezen een goed alternatief te zijn voor de bekende datawarehouse-producten die veel kosten en onderhoudsintensief zijn. Tevens lanceert Infobright de nieuwe site www.infobright.org als basis voor de community en ontwikkelportal voor open source-enthousiasten. Bovendien heeft www.infobright.org links naar product-downloads en developer/user community’s voor diverse open source databases, en BI- en datawarehouse-projecten.ICE is geïntegreerd met Sun Microsystems’ MySQL database, ‘s werelds populairste open source database.InfoBright is opgericht door 4 Polen, waarvan er 3 gepromoveerd zijn aan de universiteit van Warschau. Het analytische database product dat ze ontwikkeld hebben heet Brighthouse, en is in essentie een storage engine voor MySQL. Dat maakt Brighthouse ook meteen toegankelijk voor een grote groep gebruikers en betekent eveneens dat er ten eerste een wereld aan additionele software beschikbaar is en ten tweede dat het product naadloos in de meeste ICT omgevingen ingepast kan worden. De software wijkt op een paar punten af van de hiervoor beschreven oplossingen. Allereerst is er geen sprake van MPP ondersteuning. Deze is wel voor het eind van 2008 aangekondigd, maar bestaat nu dus nog niet. De tweede afwijking betreft de behaalde compressie die met meer dan 10:1 verder gaat dan alle vergelijkbare oplossingen. De laatste, en wellicht belangrijkste, betreft de wijze van opslag en indexering. De data wordt weliswaar kolomsgewijs opgeslagen maar verder onderverdeeld in 'data packs' van 64K. Elke data pack heeft een corresponderende data pack 'node' waarin de metadata van een data pack wordt opgeslagen. Denk hierbij bijvoorbeeld aan minimum en maximum waarde en data pack totaal in het geval van numerieke waarden. Vervolgens worden er dynamisch zogenaamde 'knowledge nodes' aangemaakt waarin bijvoorbeeld wordt opgeslagen welke combinatie van data packs voor welke joins een resultaat op gaan leveren. Een en ander wordt uitgebreid beschreven in de white papers op de site en zal ik hier omwille van de ruimte achterwege moeten laten. In figuur 5 is schematisch goed te zien hoe de opbouw van de database en overige software componenten in elkaar steekt. Let daarbij vooral op de term 'semantic optimizer'. Er wordt dus vooral getracht om op basis van de beschikbare kennis over de opgeslagen gegevens een snelle responsetijd te realiseren, in tegenstelling tot de overige oplossingen die een meer 'brute force' aanpak hebben. Een wellicht subtiel, maar toch niet onbelangrijk verschil. Bron: Tholis Consulting

Partners