In discussie met onder meer Bill Inmon en Mark Greaves tijdens de BI Round Table bij VX Company.
Video-impressie.
Wat gebeurt er als je 30 Nederlandse datawarehouse architecten in discussie laat gaan met Bill Inmon, Mark Greaves en elkaar? Op 18 mei 2010 vond er bij VX Company in Baarn een Roundtable BI plaats in Pauw & Witteman setting. Er werd gesproken over de toekomst van Bussiness Intelligence: wordt het open standards, open content of toch open source? En wat voorziet de toekomst als het gaat om de opslag van ongestructureerde data? Open sourceOver open source was iedereen aan de tafel het eens: dat wordt het niet. Leveranciers van open source leven allemaal van software die juist niet open source is. Het is een mooie truck om binnen te komen in een nieuwe markt, maar daar blijft het bij. ‘Open’ is niet nieuw en in 1993 leerden we al dat object oriented niet gaat werken. Iedereen heeft namelijk zijn eigen waarheid over een object, waardoor er nooit een algemene waarheid, een ‘open’ zal zijn. Eén afvallige op dit gebied opperde dat met het terug kunnen laden van gewijzigde parameterizering de bron van bijvoorbeeld Pentahoe kan worden aangepast. Volgens mij ga je dan zelfs terug naar vóór de cowboytijd, want waar blijf je met je versie updates als je zelf de tool (let wel de tool, niet mét de tool) gaat programmeren?
Open standardsHet gebruik van open standards is oud, maar nog steeds heel effectief. Aan de ronde tafel is iedereen het erover eens dat open standards in de IT-wereld veel belangrijker zijn dan open source. Het grootste voordeel komt van standaardisatie. Software zoals DataVault geeft je een uitstekend gereedschap in handen om je centrale datawarehouse te modelleren en maakt het eenvoudig mensen in een IT-project snel aan de slag te krijgen. Want het is toch van de zotte dat een ontwikkelaar in een datawarehouse soms drie(!) maanden nodig heeft om in te werken voordat hij zelfstandig aan de slag kan? De overheersende meningen over DataVault tijdens de roundtable sessie: 'eigenlijk is het niets meer dan een set van best practices' en 'het modelleerdeel is maar een heel klein deel van het principe van DataVault'. Conclusie: je kunt dus beter niet aan een Datavault beginnen, maar wat dan?Er is ook een richting (inclusief ondergetekende) die er nog steeds van overtuigd is dat je gewoon relationeel moet modelleren. Er is geen voordeel te behalen als je data niet efficiënt opslaat, punt. Wel apart om dan uit de mond van een van de meest vooraanstaande Nederlandse architecten te horen: ‘Niet moeilijk doen. Iedereen weet hoe het hoort in relationeel modelleren. Mensen zijn vanaf dag één inzetbaar en uitwisselbaar. De kwaliteit van de modellering ligt zo veel hoger dan bij DataVault modellering. Het werkt al 20 jaar zo.’
Open contentRelatief nieuw is transparency, oftewel open content. Daarmee deel je kennis met alle partners in de keten. Het nut daarvan is eigenlijk heel logisch: als je alleen excelleert ben je niet zo goed als dat je dit met een hele keten doet. Vertaald naar de hippische sport. Jij bent een goede ruiter. De eerste stap is jouw stalmanagement op orde te hebben: jij moet zorgen voor een goede gezondheid en vervoer van je paarden. De tweede stap is een goed contact met fokkers of eigenaren te hebben zodat je ook de beschikking hebt over goede paarden. Als derde moet je de PR op order hebben. Supply chain dus. Alleen dan kun je naar de Olympische spelen!Delen van informatie. Want daar komt het op neer. Open staan voor verbeteringen. Het zakenleven wordt steeds complexer en de tijd dat je het in je eentje kan redden is voorbij. Er is ook een hele nieuwe zakelijke stroom op gang aan het komen. Met het geven van informatie krijg je vanuit een ander deel van de supply chain een andere vraag, waardoor je beter/goedkoper kunt leveren. Als men binnen een keten dat optimum van elkaar weet, kun je daar allemaal je voordeel uit halen. Als jij lagere prijzen hanteert, dan zijn zij tenslotte ook goedkoper uit. Het is eigenlijk helemaal niet zo anders dan in sommige andere branches. Neem de Nederlandse tuinders. Die wisselen regelmatig informatie uit. Een raampje wel of niet open bij een bepaalde windrichting, wel of geen chemische bestrijding van insecten? Alleen door informatie te delen kan je in een complex vakgebied beter worden en je tomaten goed laten groeien. Je blijft als bedrijf en individu anders toch hangen op een cowboy of middeleeuws scenario. Het is tijd dat wij als BI professionals die stap gaan zetten.
Wiki als centrale databaseEr zijn drie soorten dataopslag: systeemopslag, ongestructureerde opslag zoals spreadsheets en documenten, en opslag van kennis in de hoofden van mensen. Wat het semantische web doet heeft te maken met de tweede en derde soort van dataopslag. Het semantische web is, net als HTML, een protocol om ruwe data op het internet te zetten. Hoe verhouden Business Intelligence en het semantische web zich tot elkaar? We kunnen de grootste database bouwen, maar we kunnen een computer niet vragen hoeveel mensen er in Slovenië wonen. Met behulp van semantiek kunnen we dat wel. Op dat punt ontmoeten BI en het semantische web elkaar.Wiki is de grootste encyclopedie van de wereld. Het aparte aan Wiki is dat het een consensusmodel heeft: een groep mensen bereikt samen consensus over wat de waarheid is. Als je dat doortrekt naar data en je zou daar consensus over kunnen bereiken, wordt Wiki de centrale database in de wereld! Kun je je dat voorstellen? Een hele mooie toepassing van semantische Wiki's zou zijn in de terminologie. Nu is er vaak iemand een hele tijd bezig om een woordenboek te schrijven voor alle bedrijfstermen. Dat boek wordt feestelijk onthaald, maar nooit gebruikt. Met Wiki’s kun je de gebruikers van de terminologie en de controleurs van de terminologie bij elkaar brengen. We laten gebruikers en controleurs beiden spreken. Het mee laten beslissen van ‘leken’ zorgt ervoor dat iedereen gehoord wordt. Dit heeft echter ook een keerzijde. Een mooie anekdote van Bill over zijn ervaringen met Wiki illustreert deze keerzijde. Op een goede dag kwam hij erachter dat iemand pertinente leugens op zijn Wiki pagina schreef. Deze heeft hij gecorrigeerd totdat hij volgens het systeem aan de limiet van wijzigingen zat. Hij viel voortaan onder de 'weet niet waar dit over gaat' groep. Gelukkig heeft hij meer vrienden dan dat Wiki kan achterhalen en duurde de strijd nog even voort!
Grijze vlakte rondom opnemen ongestructureerde data in databaseBill Inmon houdt zich bezig met het in een datawarehouse tillen van ongestructureerde data. In eerste instantie was ik sceptisch hierover. Meer van hetzelfde; hebben we dat in '93 niet ook al gehad? Toen hadden we hypertexten en dergelijke. Maar na enige discussie ben ik helemaal overtuigd! Met het laden van ongestructureerde data in een datawarehouse komt de inhoud van ongestructureerde data naar boven. Dit met als doel er analyses op los te kunnen laten. Dit is bijvoorbeeld relevant bij contracten van bedrijven. De meest recente contracten zijn opgeslagen in het huidige contractsysteem en de rest vind je ergens anders: een ordner, een directory op een computer en ga zo maar door. Stel je brengt de inhoud van alle contracten bij elkaar om analyses op uit te voeren. Dan kun je dus zien hoe het verloop is van de aangekochte materie. Bijvoorbeeld de hoeveelheid contracten op butaangas, het verloop in butaangas over drie maanden of de onderlinge verbanden (het blijft een Texaan die Bill, dus bij ieder huis zit een oliecontract). Door de ongestructureerde data in een datawarehouse te tillen kun je bijvoorbeeld visualiseren hoe de dichtheid in een bepaald gebied is op butaan. Je kunt dus ook een laag dieper zoeken. Niet te vergelijken met een zoekmachine, aangezien je een laag extra informatie tot je krijgt. De mogelijkheden zijn natuurlijk gigantisch. Binnen een bedrijf zijn gegevens opgeslagen in systemen, in ongestructureerde data zoals documenten of in de hoofden van mensen. Voor die middelste categorie is 'unstructured ETL' dé uitkomst. Er zijn verschillende tagging tools beschikbaar, maar de tool van Bill Inmon gaat nog een stap verder. Deze tool bevat zeer geavanceerde semantische technieken om de betekenis van het geschreven woord te achterhalen. Voor het merendeel gepatenteerd, die les heeft hij wel geleerd van eerdere uitvindingen.Er is sprake van een brede grijze vlakte rondom het opnemen van ongestructureerde data in een database. Enkele deelnemers aan de Roundtable vinden dat het beter beperkt kan blijven tot een zoekmachine op interne documenten. Dit werkt in de praktijk goed, maar of dit ook het optimum is van het opnemen van ongestructureerde data in een database betwijfel ik. Het leidt namelijk niet informatie of analyse, maar genereert alleen gegevens. Dit dus in tegenstelling tot de theorie van Bill Inmon, die daadwerkelijk andere informatie uit ongestructureerde data kan halen. Vaak wordt de parallel getrokken tussen gestructureerde en ongestructureerde data en numerieke en non-numerieke data. Relevant zijn interpretatie, de grenzen van een taal en de consensus over een term. Volgens een deelnemer aan de Roundtable moet je weg blijven van de grenzen op dit gebied. Er zijn draken aan de andere kant van de omheining! De kracht ligt in het eenvoudig houden van het algoritme: zodra je kunt uitleggen wat het algoritme inhoudt, kun je uitleggen waar de uitkomsten vandaan komen. Daarin schuilt de kracht.
ir. Liesbeth SmitsAutomatiseringsdeskundige, VX Company
Deel dit bericht