Mensen stellen vragen met verschillende bedoelingen. De een is tevreden met een hele lijst Koreaanse restaurants, de ander wil een eenduidig, precieus antwoord. De echte zoekmachine achterhaalt de bedoeling van een vraag, denkt mee met de vragensteller, anticipeert op vervolgvragen; is, kortom, een Antwoordapparaat, zoals de Amerikaanse deskundige Sue Feldman ze noemt. Daarmee kun je big data echt analyseren.
Een man, in beschonken toestand, kijkt nadrukkelijk naar de grond. Het is al laat en vrij donker buiten. Het is duidelijk dat hij iets zoekt. Maar met weinig succes. We besluiten hem te helpen. ‘Waar zoekt u naar?’ ‘Naar mijn huissleutel’. ‘Waar ongeveer bent u hem kwijt geraakt?’ De man wijst naar een plaats zo’n dertig meter verder. ‘Maar waarom gaat u dan hier zoeken?’ ‘Nou’, is het heldere antwoord, ‘Omdat hier een lantaarnpaal staat; en daar niet.’
Het grapje is al heel oud, maar geeft precies weer hoe zoeken niet altijd tot vinden leidt. Voor een goede speurtocht moet je eerst weten wat je zoekt, waar je het eventueel kunt vinden en welke middelen je ter beschikking hebt. Als je op een website voor dameskleding gaat zoeken naar reisinformatie, dan komt je van een koude kermis thuis.
Over zoektechnologieën en vindwens gaat het boek ‘The Answer Machine’ van Sue Feldman. Hoe is zij ertoe gekomen haar bevindingen ter schrift te stellen? “Een paar jaar geleden, in de tijd dat ik nog werkte bij marktonderzoeksbureau IDC, had ik een artikel geschreven over het vinden van de juiste gegevens in een grote hoeveelheid data. Later kwam een uitgever naar me toe of ik dat artikel wilde verdiepen en verwerken in een boek. Het is natuurlijk mooi als je wordt gevraagd – zeker van een uitgeverij als Morgan & Claypool die voornamelijk academisch werk uitgeeft, maar het is wel heel veel werk. Uiteindelijk heb ik het wel gedaan, want het is ook goed voor mezelf om alles eens goed uit te werken. De titel is hetzelfde gebleven: The Answer Machine”, vertelt zij.
Inmiddels is Feldman, die in Boston (VS) woont, CEO van Synthexis, een adviesbureau voor organisaties die zoek- en tekstanalyse-technologieën willen gebruiken.
Groot probleem
Het vinden van de juiste informatie is een groot probleem bij veel organisaties. Zoveel is Feldman in haar arbeidzame leven wel te weten gekomen. En dat wordt, met de enorme groei van data, alleen maar erger. Tegelijkertijd groeit de vraag naar de juiste antwoorden. En daar begint Feldman een beetje te steigeren. “Wat is het juiste antwoord? Dat is echt niet zo eenduidig als het lijkt”, vertelt zij. “Google komt altijd met een hele waslijst aan mogelijke antwoorden. Soms is dat goed, soms wil je gewoon één respons; soms wil je een rijtje suggesties van antwoorden die gerelateerd zijn aan de zoekvraag. Bij dat laatste moet je denken aan een wetenschapper die gebaat is bij denkrichtingen”, zegt Feldman.
Veel mensen binnen een bedrijf vragen zich af, zo weet zij, of zij hun bedrijfsgegevens niet ook zo kunnen doorzoeken als Google het web afschuimt. “Maar je zit niet te wachten op vijfhonderd hits; je wilt gewoon één oplossing. Er is een verschil tussen web search en enterprise search. Er zijn veel karakteristieken die een rol spelen: snelheid, exactheid, en snuggerheid (antwoorden die in de buurt liggen), om er enkele te noemen. Daarom is er niet één oplossing aan te dragen.”
Zij zegt dat er niet een lijstje is te maken met de beste zoekmachines. “De juiste oplossing hangt af van de werkelijke behoeftes. Een bedrijf moet begrijpen waaraan het behoefte heeft. Vervolgens een proof of concept afspreken met de mogelijke leverancier. En een test uitvoeren op de eigen data.”
Meedenkende machine
Feldman is onder de indruk van wat IBM heeft gedaan (en nog doet) met Watson. Zij beschrijft in een apart hoofdstuk hoe Watson de Jeopardy-winnaar is geworden. Big Blue heeft ook een Watson ingericht specifiek voor de industrie.
“Je moet een zoekmachine hebben die met je meedenkt. Die helpt de vraag goed te formuleren. En ook nog eens anticipeert op vervolgvragen. Iemand die een camera wil kopen, zal eerst een keuze moeten maken tussen analoge en digitale camera’s. Vervolgens wil je weten welke goed genoeg is voor jouw doeleinden of heel professioneel. Je wilt een exemplaar dat in jouw budget past. Dan wil je weten waar je die kunt kopen. Je wilt ook weten hoe anderen het beoogde toestel hebben beoordeeld. Gewoonlijk krijg je steeds hetzelfde rijtje antwoorden, maar een Antwoordapparaat onthoudt wat je eerder hebt gezocht en gevonden, en weet wat de volgende vraag is. Het leert van de vragen die de gebruiker stelt en hoe de gebruiker met de antwoorden omgaat. Het Antwoordapparaat is contextgevoelig en komt met waarschijnlijk juiste replieken.”
Onbekend terrein
De relatie tussen mens en machine staat nog maar in het begin. Als de aandacht is gericht op de vraag en de vragensteller, dan gaan we van een informatie-stortvloed naar een informatie-voordeel. Feldman verwacht dat de juiste technologieën en uitgangspunten helpen ‘onze wereld te begrijpen op een manier die eerder niet mogelijk was. “We hebben het topje van de ijsberg gezien, maar we zijn nog maar net begonnen. Het potentieel van onverwachte toepassingen, voor nieuwe informatie-instrumenten, en instrumenten die bruikbaar zijn voor niet-specialisten is groot”, meent Feldman.
Zij heeft het over nog onbekend terrein waar vragen voor medicijnonderzoek een antwoord gaan vinden, waar gefundeerde suggesties ontstaan voor cycloonvoorspellingen, waar churn een naam krijgt en waar overheden zicht krijgen op mensen die zich mogelijk tot terrorist ontwikkelen.
“Dan hebben we het over alle informatie: tekst, (bewegend) beeld, geluid, stemherkenning. Zinvolle bevraging van al die gegevens, gaat het bedrijfsleven op zijn kop zetten; evenals de overheid en de academische wereld.”
Treparel geeft betekenis
Ontsproten aan de TU Delft is het Nederlandse bedrijf Treparel gespecialiseerd in het toekennen van betekenis aan big data. Directeur Jeroen Kleinhoven vertelt dat de technologie van Treparel al in gebruik is bij Philips om patenten te doorzoeken om te voorkomen dat de onderneming iets gaat ontwikkelen, produceren en verkopen dat al ergens is gepatenteerd. “Het probleem van een patent is dat het bijzonder vaag is omschreven, om de werkingsbreedte van het patent zo groot mogelijk te maken. Wij hebben algoritmes ontwikkeld die wel betekenis kan geven aan enorme hoeveelheid vage informatie wereldwijd”, legt Kleinhoven uit.
Een technologie die ook goed is te gebruiken voor contactcenters. “In een CRM-systeem staat gewoonlijk gestructureerde data. Maar de belangrijkste informatie staat in het veld met antwoorden op de vraag of iemand nog iets anders te melden of vragen heeft. Dat is ongestructureerde data. Wij kunnen bijzonder snel achterhalen wat de onderliggende verbinding is tussen al die opmerkingen. Misschien blijkt dat veel mensen bellen voor een autoverzekering en tegelijk vragen naar een reisverzekering. Wie zijn dat, wanneer vragen ze dat, hoe oud zijn ze? Is er een relatie met onlangs afgesloten reisverzekeringen?”
“Of gebruik Treparel om de analyse van röntgenfoto’s te analyseren, zoals we hebben getest bij het academisch ziekenhuis Maastricht”, vertelt Kleinhoven, wie het overigens is opgevallen dat in Nederland nog maar weinig organisaties zijn die echt bezig zijn applicaties te ontwikkelen om big data te analyseren. “Want dat gaat verder dan BI; het gaat om de convergentie van gestructureerde en ongestructureerde data. Precies dat waar wij sterk in zijn.”
Teus Molenaar
7 november (online seminar op 1 middag)Praktische tutorial met Alec Sharp Alec Sharp illustreert de vele manieren waarop conceptmodellen (conceptuele datamodellen) procesverandering en business analyse ondersteunen. En hij behandelt wat elke data-pr...
11 t/m 13 november 2024Praktische driedaagse workshop met internationaal gerenommeerde trainer Lawrence Corr over het modelleren Datawarehouse / BI systemen op basis van dimensioneel modelleren. De workshop wordt ondersteund met vele oefeningen en pr...
18 t/m 20 november 2024Praktische workshop met internationaal gerenommeerde spreker Alec Sharp over het modelleren met Entity-Relationship vanuit business perspectief. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikbare ...
26 en 27 november 2024 Organisaties hebben behoefte aan data science, selfservice BI, embedded BI, edge analytics en klantgedreven BI. Vaak is het dan ook tijd voor een nieuwe, toekomstbestendige data-architectuur. Dit tweedaagse seminar geeft antwoo...
De DAMA DMBoK2 beschrijft 11 disciplines van Data Management, waarbij Data Governance centraal staat. De Certified Data Management Professional (CDMP) certificatie biedt een traject voor het inleidende niveau (Associate) tot en met hogere niveaus van...
3 april 2025 (halve dag)Praktische workshop met Alec Sharp [Halve dag] Deze workshop door Alec Sharp introduceert conceptmodellering vanuit een non-technisch perspectief. Alec geeft tips en richtlijnen voor de analist, en verkent datamodellering op c...
10, 11 en 14 april 2025Praktische driedaagse workshop met internationaal gerenommeerde spreker Alec Sharp over herkennen, beschrijven en ontwerpen van business processen. De workshop wordt ondersteund met praktijkvoorbeelden en duidelijke, herbruikba...
15 april 2025 Praktische workshop Datavisualisatie - Dashboards en Data Storytelling. Hoe gaat u van data naar inzicht? En hoe gaat u om met grote hoeveelheden data, de noodzaak van storytelling en data science? Lex Pierik behandelt de stromingen in ...
Deel dit bericht