08-12-2016 Door: Rick van der Lans

De oorsprong van de logische datawarehouse architectuur

Deel dit bericht

De logische datawarehouse architectuur mag dan misschien voor het ontwerpen van BI-systemen een nieuwe architectuur zijn, haar oorsprong leidt ons terug naar de eerste helft van de jaren zeventig; meer dan veertig jaar geleden.

Het begon allemaal met de eerste artikelen over het relationele model geschreven door de bedenker Edgar F. ‘Ted’ Codd. In 1970 publiceerde hij een baanbrekend artikel over het relationele model onder de titel “A Relational Model for Large Shared Data Banks”. Dit artikel begint als volgt: “Future users of large data banks must be protected from having to know how the data is organized […] application programs should remain unaffected when the internal representation of data is changed […].”
De doelstelling van het relationele model is dat wanneer IT-systemen ontwikkeld worden, de structuur en logica van de applicaties onafhankelijk zouden moeten zijn van de structuur en opslagaspecten van de gegevens. Hoe minder afhankelijkheid er tussen deze twee bestaat, hoe flexibeler de IT-systemen zijn, aangezien wijzigingen op de applicatielaag niet automatisch leiden tot wijzigingen op de gegevensopslaglaag en vice versa. Dit verbetert de productiviteit en vergemakkelijk het onderhoud.

Het gaat bij het relationele model allemaal om abstractie. Ontwikkelaars hoeven met het relationele model alleen maar aan te geven welke gegevens ze willen gebruiken. Ze hoeven zich niet druk te maken over technische aspecten, zoals gegevensopslag en -toegang.

In 1981 ontving Codd de zeer gerespecteerde ACM Turing Award voor zijn onderzoek naar het relationele model en in zijn Turing Award-lezing benoemde hij deze abstractie-eigenschap: de data independence objective.

Onafhankelijk van Codd, en ongeveer in dezelfde periode, publiceerde een andere grote denker, David Parnas, een baanbrekend artikel, getiteld “On the Criteria To Be Used in Decomposing Systems into Modules.” In dit artikel introduceerde Parnas het concept van information hiding. Wikipedia definieert information hiding als volgt: “[…] protecting other parts of the program from extensive modification if the design decision is changed. The protection involves providing a stable interface which protects the remainder of the program from the implementation.” Parnas gebruikte andere woorden dan Ted Codd, maar de betekenis was hetzelfde: zorg dat een bepaalde vorm van ontkoppeling of abstractie in een IT-systeem bestaat.

Parnas zei dus precies hetzelfde als Codd, behalve dat Parnas er naar keek vanuit een applicatie-perspectief, terwijl Codd het juist vanuit een data-perspectief bekeek. Desalniettemin zijn zij tot dezelfde conclusie gekomen.

Ongeacht hoe dit concept genoemd wordt, data independence, information hiding, decoupling, or abstraction, het is altijd essentieel voor de ontwikkeling van IT-systemen geweest. Met de logische datawarehouse architectuur en de ondersteunende datavirtualisatietechnologie, is abstractie op grote schaal in de BI-wereld geïntroduceerd. In het logische datawarehouse bestaat een duidelijke scheiding of ontkoppeling tussen, aan de ene kant, gegevensgebruikers en, aan de andere kant, gegevensopslag en gegevensproducenten. Het logisch datawarehouse is één grote abstractielaag. Hierdoor is het mogelijk BI-systemen te ontwikkelen die flexibeler en gemakkelijker te onderhouden zijn en de productiviteit verbeteren.

De conclusie is dat de oorsprong van de logische datawarehouse architectuur gebaseerd is op een gedegen en bewezen computerbegrip dat meer dan veertig jaar geleden geïntroduceerd is: abstractie. Dezelfde oorsprong wordt gedeeld met andere populaire begrippen, zoals object-oriented programming, component based development, en service oriented architectures.

Rick van der Lans

Rick van der Lans is onafhankelijk adviseur, docent en auteur op het terrein van datawarehousing, business intelligence, big data en databasetechnologie. Als consultant heeft hij door de jaren heen veel grote bedrijven geadviseerd bij het ontwerpen van hun datawarehouse- en big data architecturen. Rick heeft als spreker op conferenties een zeer goede naam verworven zowel in binnen- als buitenland en is chairman van de jaarlijkse Datawarehousing & BI Summit.  Hij weet als geen ander een goede balans te vinden tussen op de praktijk toegesneden technologische ontwikkelingen en strategische zaken. Hij schrijft voor diverse bekende websites waaronder BI-Platform. Verschillende van zijn boeken, waaronder het populaire "SQL Leerboek", zijn in vele talen gepubliceerd. Recent is van zijn hand verschenen "Data Virtualization for Business Intelligence Systems", alsook tientallen whitepapers over BI. Rick verzorgt bij Adept Events een seminar over Hadoop, NoSQL en Big Data alsmede een seminar over de architectuur, ontwerp en technologie van het Logisch Datawarehouse.

Alle blogs van deze auteur

Partners