BI – Very Big data

Oracle BI – Overpeinzingen (10) – Cadran publiceert een reeks blogs en artikelen over het gedachtegoed rondom Oracle Business Intelligence in combinatie met Oracle JD Edwards ERP. In deze artikelen komen diverse overwegingen en overpeinzingen aan bod, die behulpzaam kunnen zijn in het maken van de juiste beslissingen bij de implementatie en toepassing van beide systemen. In dit artikel nemen we Big Data onder de loep.

Big Data

Enige tijd geleden kwam ik een zeer interessante lezing op TED tegen over big data. Spreker Kenneth Cukier doet in 15 minuten tijd alles rondom dit fenomeen uit de doeken. Hij bespreekt de voordelen, maar ook de gevaren en geeft zijn visie op de toekomst.

Een leuk deel uit deze lezing gaat over de ontwikkeling van de schaakcomputer. Nadat een techneut een eerste schaakprogramma had gemaakt en hij het uitprobeerde, bleek dat hij keer op keer van de software won. Hij besloot toen de computer te laten ‘leren’ van elke partij, die hij ertegen speelde. Hij bleef echter winnen. Toen bedacht de ontwikkelaar dat de hoeveelheid partijen niet groot genoeg is, om altijd de beste conclusies te trekken en beslissingen te nemen. Vervolgens heeft hij de schaakcomputer tegen zichzelf laten spelen en elke partij toe te voegen aan de databank van gespeelde partijen. Na een tijd is de man weer tegen de schaakcomputer gaan spelen. Hij heeft er nooit meer van kunnen winnen. Voeg hier dan ook nog alle informatie van alle ooit officieel gespeelde partijen aan toe en er is vrijwel geen kans meer om van de computer te kunnen winnen. Big Data (en een vorm van Artificial Intelligence) is geboren.

Bij Big Data geldt uiteraard de wet van de grote getallen. Hoe breder en dieper de set aan informatie, hoe betrouwbaarder de conclusies, die er uit getrokken worden. De intelligentie in de vorm van algoritmes, die deze conclusies en causale verbanden tussen data aan het licht kunnen brengen, is de afgelopen jaren in hoog tempo verbeterd en het einde van deze ontwikkelingen is nog lang niet in zicht.

Unstructured Data

Aanvankelijk begint Big Data doorgaans met Unstructured Data. Daarmee wordt data bedoeld, die (nog) niet gecategoriseerd en gerubriceerd is. Een voorbeeld hiervan is de inhoud van een email of een document. Er bestaat geen metadata, labels, sleutelwoorden, rubricering of indexering op. Structurering kan plaats vinden middels formulieren. Een bekend voorbeeld is een klacht van een klant over een product. In de vorm van een email is dit compleet ongestructureerd. De structuur ontstaat pas wanneer deze email wordt gelezen, toegekend wordt aan een bepaald product, waar de klacht over gaat en aan een bepaald soort klacht. Wordt de klant een formulier aangeboden, met duidelijke invoervelden, met daarop keuzelijsten, dan krijgt de klacht direct structuur mee in de vorm van metadata over deze klacht.

De kracht van Big Data is dat met heel veel Unstructured Data correlaties en causale verbanden in de informatie kunnen worden ontdekt. De metadata wordt door de software ‘slim’ gegenereerd en naar mate er maar genoeg data in wordt gestopt, worden deze rode lijnen steeds betrouwbaarder. Zo kunnen de algoritmes inhoud als datums herkennen en daar een tijdsdimensie aan toe kennen. Ook kunnen adressen en plaatsen worden herkend, die voor een geografische structuur kunnen zorgen. Dit zijn slechts twee hele eenvoudige voorbeelden. De techniek gaat nog veel verder.

Technologie

Conventionele relationele databases schieten te kort als het gaat om de hoeveelheden data, de vastlegging en de logica van het vinden van verbanden en het aanbrengen van structuur hierin. Mede door de snelle ontwikkelingen van Facebook en Google zijn nieuwe technieken ontwikkeld, die hier wel toe in staat zijn. Hier komen termen als NoSQL en Hadoop opzetten. Dit zijn opslagstructuren, die bedoeld zijn voor hoeveelheden ongestructureerde data, die ons bevattingsvermogen ver te boven gaan. Dergelijke databases kunnen niet precies antwoord geven op de vraag hoeveel omzet er vorig jaar gemaakt is, maar ze kunnen wel ongeveer antwoord geven op de vraag welke leuke restaurantjes er in een straal van 10 kilometer er te vinden zijn.

De technologie is verder zelflerend. De metadata wordt door de technologie zelf vervaardigd op basis van allerlei overeenkomsten, die in de data gevonden worden. De algoritmes zijn onder meer slim in het herkennen van een datum en/of tijd (en dus een structurering in de tijd) en een locatie (en dus structurering in geografie) aan te brengen. En dit zijn slechts twee zeer voor de hand liggende voorbeelden. Naar mate het volume van de data toeneemt, worden deze rode draden steeds betrouwbaarder, zeker wanneer een gebruiker deze bij tijd en wijlen bevestigt in juistheid.

Data Discovery

Het hebben van Big (Unstructured) Data op zich is zonder waarde wanneer er geen analisten zijn die er iets mee doen. De technologie assisteert en geeft voorzetten, maar zal zelf niet een eindconclusie trekken, althans nog niet. Er is op dit moment nog steeds een mens nodig om de verbanden te vinden, conclusies uit de analyses te halen, en de algoritmes verder te helpen met leren. Dit soort analytisch werk wordt wel Data Discovery genoemd. Op basis van sample-sets geeft de technologie mogelijk voorzetten in de structurering van de data, maar menselijke analyse is nodig om de echte conclusies er uit te halen. Deze regels, kunnen vervolgens wel weer terug worden gegeven aan de tooling, zodat toekomstige data steeds beter wordt gestructureerd en geanalyseerd. Dit noemen we het zelflerend vermogen van de algoritmes.

Van Big Data naar Small Data

Op hoog niveau zullen we slechts zelden in elk onderliggende detail geïnteresseerd zijn. Laten we als voorbeeld de temperatuur op aarde als meetwaarde nemen. Laten we zeggen dat in elk land enkele tientallen thermometers elk uur de temperatuur meet. Als we al die metingen in een database stoppen, creëren we big data. Elke meter heeft een locatie en een tijdstip van meting. Na tien jaar hebben we een aardige set aan informatie, waaruit conclusies en correlaties kunnen worden gehaald. Uiteindelijk zijn we geïnteresseerd in de grote lijnen, of in de excepties en grote afwijkingen. Voeden we deze data met nog veel meer geografische informatie (zoals CO2-waardes) dan zullen we steeds beter in staat zijn de juiste conclusies uit metingen te trekken en de juiste voorspellingen te doen. Het gaat daarbij wellicht slechts om een enkel antwoord op een enkele vraag. Wat is de temperatuur op aarde over 50 jaar? Heel veel data levert een enkel antwoord op.

Van Unstructured Data naar Structured Data

Big Data kan ook heel goed helpen om van Unstructured Data tot Structured Data te komen. Als we even teruggrijpen op het eerdere voorbeeld van een klachtenbericht, dan kunnen die emails best als begin worden gebruikt. Als het er maar genoeg zijn, kan technologie tegenwoordig analyses op deze emails doen, waardoor labels als product, soort klacht, de datum en de locatie (de metadata) er uit kunnen worden gehaald. Dit stelt men in staat om deze informatie te gaan structureren en om te vormen naar een duidelijk klachtenformulier dat met de juiste velden en keuzelijsten ingevuld kan worden en gestructureerd in een relationele database in tabellen en velden kan worden opgeslagen. Hierover is vervolgens weer met Business Intelligence gestructureerd op te analyseren.

Praktische toepassingen

Een bekend voorbeeld is van een passagier, die op Schiphol op zijn bagage zit te wachten. Hij post op Twitter dat het allemaal wel erg lang duurt. Tien minuten later komt een medewerker van de luchthaven met de bagage van de man aanlopen en biedt excuses aan voor de overlast. De man plaatst vervolgens op Twitter een pluim aan de luchtvaartmaatschappij en een bericht draait direct om van negatief naar positief.

Laatst vernam ik ook over een leverancier van digitale weerstationnen. Een apparaat leuk voor thuis waarop informatie over de buitentemperatuur, maar ook luchtvochtigheid en luchtdruk is af te lezen. Dit apparaat staat in verbinding met de servers van de leverancier, zodat eenvoudig software-updates zijn door te voeren. Met een bepaalde frequentie wordt echter ook de data, die het apparaat meet, doorgegeven aan de servers van de leverancier. Inmiddels hebben zoveel Nederlanders zo’n apparaat in huis, dat de data erg big wordt. Door deze grote hoeveelheid meetpunten kan inmiddels een heel goed en betrouwbaar beeld worden gemaakt van weerbewegingen door het land heen. De leverancier verkoopt inmiddels ook in het buitenland… Afijn, het zou de vraag kunnen zijn hoe lang het KNMI nog zal bestaan…

Big Data wordt vergaard en zorgt op de juiste plek en op het juiste moment voor de juiste informatie. Het lijkt een heilige graal, maar big data stelt ons hiertoe in staat. Met de opkomst van Internet of Things (IoT) wordt de mogelijkheid om alles van sensors te voorzien en het internet te koppelen eindeloos groot. De stroom Big Data groeit exponentieel in omvang en snelheid. De mogelijkheden van Big Data zijn er. Nu is het nog aan ons om gegevens of data waarde te geven en er informatie van te maken.

In een toekomstig artikel zal ik nader ingaan op hoe Oracle Business Intelligence kan fungeren als Artificial Intelligence in de vorm van Automated Decisions. Lees het blog: Doe het lekker zelf!

Auteur: Rick Brobbel
BI Consultant bij Cadran Consultancy