Big data for big dummies

Door: Peter van Lonkhuyzen

Geschreven door:
Peter van Lonkhuyzen

2 juli 2012 02-07-2012 8,5 minuten

In uw bedrijfsdata zit goud verstopt – wist u het maar te vinden! Goudzoekers moeten zich in een wereld storten vol geheimzinnig jargon als Hadoop en de drie V’s.

De ICT-gids 2012 is uit!

**Bestel hier de gids**

Er was eens… een bedrijf vol met gegevens. Dit veelbelovende sprookje gaat over vrijwel alle managers, uit vrijwel elk bedrijf. Elke onderneming beschikt immers over bergen data: klantgegevens, bestellingen, productspecificaties, voorraadgegevens, noem maar op. Daarnaast zijn er nog externe bronnen: marktgegevens, zaken die over het bedrijf getwitterd worden, etcetera; giga-, tera-, petabytes aan data.

Helaas loopt niet elk sprookje goed af. Niet alle door data overspoelde bedrijven weten er raad mee. Ze zien de patronen niet die kunnen leiden tot scherpe klantaanbiedingen, tot betere klantretentie, tot efficiëntere logistieke stromen, tot… En dan komt ineens die concurrent op zijn witte paard, die de mogelijkheden wél ziet. Hij verovert de schone jonkvrouw wel, terwijl jouw bedrijf het nakijken heeft. Het verdwijnt, met zijn big data en al, in de afgrond. Einde verhaal.

What’s new?

Big data is hét gespreksonderwerp in de ict anno 2012. Tegelijkertijd bestaan er nog veel vragen over. Wat is er eigenlijk nieuw aan? We hadden toch al business intelligence? Wat moet ik doen om worst te maken van de biljoenen bytes die gegenereerd worden door mijn websitebezoekers, truck- of autokilometers, helpdeskgevens, productretouren, Twitter- of Yammerfeeds? Kortom: hoe vind ik mijn weg in deze nieuwe wereld?

Op de volgende pagina's drie noodkreten voor wie de weg kwijt is en er niet naar durft te vragen. En een poging tot (voorzichtige) antwoorden:

#Help 1: ‘Ik ben te laat!’

De ict-sector wil u laten geloven dat big data een rijdende trein is en dat u te laat bent als u er niet tijdig opspringt. De bedrijven die net als Amazon en Facebook, als eerste gebruik maken van al hun beschikbare data zullen het winnen. Het woord ‘revolutie’ is niet van de lucht. De traditionele manier waarop bedrijven hun gegevens gebruiken, maakt plaats voor een revolutionaire nieuwe manier.

Nou heet iets in de ict-wereld al snel een revolutie. In de wandelgangen hoor je echter, off the record natuurlijk, ook andere geluiden. Big data, wordt dan met een knipoog gezegd, is net als tienerseks: iedereen heeft het erover, maar bijna niemand doet het. Het aantal big data-projecten is nog tamelijk klein, en dan nog hebben we het vooral over pilots en tests; niet meer dan een eerste teen die bedrijven in hun datazwembad steken. Maar moeten we de sector nageven, als je niet met die eerste teen begint, duurt het wel erg lang voor je goed leert zwemmen. Er is kortom geen reden om te wachten, vooral niet omdat de investeringen in veel gevallen zeer bescheiden zijn. Daarover verderop meer.

Wat doet de Rabobank, Alliander, Orcacle, Facebook, Amazon en Bol.com?

Wat doen deze bedrijven met hun pilots? De Rabobank onderzoekt bijvoorbeeld de mogelijkheden om hun risicoanalyse en fraudedetectie te verbeteren, maar kijkt ook naar haar marketing. Energienetwerkbedrijf Alliander koos ervoor om als eerste teen in het big data-zwembad zijn eigen klantgegevens flink op te schonen. Prompt kwam het erachter dat 6.000 klanten een aansluiting voor grootverbruikers hadden, terwijl ze toch maar het standaardtarief betaalden. Daar konden dus nog wat naheffingen de deur uit. “De laatste tijd zie ik voorbeelden uit alle hoeken komen”, zegt Sandor Nieuwenhuijs, big data-specialist bij Oracle.

De grote pioniers en lichtende voorbeelden voor de markt, zijn de internetbedrijven, met name Facebook en Amazon. Die analyseren voortdurend de datastromen op hun websites. Amazon heeft bijvoorbeeld zo zijn systemen voor aankoopsuggesties ontwikkeld. Geen wonder dat een bedrijf als Bol.com daar inmiddels ook druk mee bezig is.

Een heel Nederlands voorbeeld, en letterlijk down to earth, is de toepassing die IT-bedrijf Agis verzon. Dat bracht recent het programma CowManager op de markt, dat de data meet die door een veestapel worden geproduceerd. Koeien worden daartoe uitgerust met sensoren, waarmee de temperatuur, activiteit en het eet- en herkauwgedrag worden gemeten. Zo kan onder meer de voedselvoorziening worden verbeterd en wordt de gezondheid in de gaten gehouden. “Een kenmerkend verschijnsel” aldus Nieuwenhuijs. “Als bedrijven eenmaal beginnen is er al snel sprake van voortschrijdend inzicht. Op basis van de data worden bijvoorbeeld marketinginzichten bijgesteld. Daardoor ontstaan weer nieuwe vragen. De uitdaging van big data is om razendsnel nieuwe analyses los te laten op dezelfde gegevensstromen.”

Klaar om te wenden dankzij big data

Big data gaat ook over de spectaculaire catamarans die Team USA volgend jaar gaat gebruiken om zijn titel in ’s werelds oudste zeilrace, de America’s Cup, te verdedigen. De boten zitten volgepakt met ruim 550 sensoren, die elke seconde hun meetgegevens (vaar- en windsnelheid, kracht op het zeil en roer, etc.) doorsturen. De bemanning laadt de gegevens, samen met externe data als weersvoorspellingen in vooraf ontwikkelde scenario’s, waarmee de wedstrijdtactiek kan worden bepaald.
Alles draait om de drie V’s: volume, velocity en variety. Enorme databergen (volume), afkomstig uit verschillende bronnen (variety) moeten met grote snelheid (velocity) – vaak realtime – worden verwerkt. Die 3 V’s vormen het eigenlijke hart van de uitdaging. De zeilers op de AC72’s (de gebruikte catamarans) willen niet morgen of volgende week terughoren wat hun talloze sensoren te melden hebben, ze willen het nú weten. Zodat ze kunnen besluiten of ze nu overstag moeten of niet.

Een koe die is uitgerust met een SensOor genereert tijdens zijn leven 200 MB aan data.

# Help 2: ‘Ik begrijp er geen f@%& van!’

De koeien van Agis brengen ons bij een lastige vraag, want 3 jaar geleden zou zo’n project waarschijnlijk nog ‘data-analyse’ worden genoemd. Wat is er sinds die tijd veranderd dat we het nu hebben over big data? De waarheid is dat het als zo nieuw en spannend gepresenteerde big data in feite een voortzetting is van oude technieken, die toen datamining of business intelligence heetten. Steeds gaat het om het binnenhalen en analyseren van grote hoeveelheden gegevens. Big data klinkt alleen sexier dan het inmiddels wat belegen datamining.

Toch is er wel degelijk ook nieuws onder de zon. Dat zit hem erin dat de hoeveelheid data waar bedrijven mee te maken hebben, en waar het mogelijk ‘goud’ in zit, exponentieel blijft groeien. Er zijn nieuwe technieken nodig om deze data te lijf te gaan en die brengen onverwachte mogelijkheden met zich mee, die de wondere wereld van big data pas echt openen.

Neem bijvoorbeeld die koeien met een SensOor, inderdaad in hun oor: zo’n koe kan tijdens zijn leven 200 Mb aan data genereren, wat een aardige staaltje big data oplevert voor een boer die duizenden koeien heeft. Dat valt nog in het niet bij de luchtvaart: één straalmotor produceert in een half uur 10 terabyte (10.000 gigabyte) aan gegevens. Toch kunnen ergens in de databergen die het vliegtuig produceert vitale aanwijzingen zitten voor het onderhoud of de veiligheid.

Grote puzzel oplossen met Hadoop

Steeds vaker gaat het bij big data om ongestructureerde data. In de overzichtelijke goede oude tijd werden databases voor een vooraf vastgesteld doel en met een vastgestelde structuur ingericht (bijvoorbeeld data: klant – NAW-gegevens – verkoophistorie; doel: verkoopondersteuning). Tegenwoordig worden er bijvoorbeeld ook Twitter- en Facebookfeeds bij betrokken. En de vraag die aan de databerg wordt gesteld, is niet altijd van tevoren geformuleerd, maar wordt soms pas achteraf bedacht. “Het is net een grote puzzel”, zegt Hans Timmerman, cto van EMC. “Als de stapel puzzelstukjes op een hoop ligt, besef je dat er een bepaalde combinatie moet zijn waardoor een mooie afbeelding ontstaat. Maar welke? Big data is als het vinden van de spreekwoordelijke speld in de hooiberg. ‘Ergens’ moet interessante informatie of kennis uit de berg data te halen zijn. Maar hoe ga je te werk? Welk algoritme ga je volgen?”

Voor conventionele computertechnieken is deze uitdaging een brug te ver. Om te weten hoe het wordt opgelost, moeten we wat dieper onder de motorkap van big data kijken. Onvermijdelijk moet nu het H-woord vallen: Hadoop. Dit opensource-softwareprogramma is speciaal ontwikkeld voor de analyse van grote hoeveelheden ongelijksoortige gegevens; big data dus. Hadoop is zo’n essentieel onderdeel geworden van big data dat het nu bijna als synoniem wordt gebruikt. En het is – geen onprettige bijkomstigheid – helemaal gratis.

Wat is Hadoop

Hadoop is gebaseerd op een door Google ontwikkelde techniek om grote taken in stukjes te hakken. De stukjes worden apart verwerkt en de resultaten vervolgens samengevoegd. Bij huis-tuin-en-keuken computers worden taken lineair afgewerkt, maar bij big dataklussen is de hoeveelheid gegevens daarvoor te groot. Bij gebruik van Hadoop is extra snelheid eenvoudig een kwestie van het bijplaatsen van wat pc’s, zodat de taak over meer computers wordt verdeeld. Gespecialiseerde communicatie en databasetechnieken (met namen zoals NoSQL) zorgen voor verdere verwerking en opslag. Een ander sterk punt van Hadoop is dat de software goed kan omgaan met ongestructureerde gegevens. Daardoor kunnen snel nieuwe vragen die opkomen in de business op de datastuwmeren worden afgevuurd.

Eén straalmotor van een vliegtuig kan in een half uur 10 terabyte, oftewel 10.000 gigabyte, aan gegevens produceren.

# Help 3: ‘Ik weet niet waar ik moet beginnen!’

Big data begint met inventariseren. Welke gegevens hebben we in huis? Welke combinaties zijn te maken? Welke extra gegevens zouden we ter aanvulling nog kunnen gebruiken? Vaak is er meer in huis dan men zich realiseert. “De data zijn er meestal al is mijn ervaring”, zegt Nieuwenhuijs van Oracle. Het inventariseren moet gebeuren door IT-mensen en ‘business’mensen samen. De eersten om aan te geven wat technisch mogelijk is, de laatsten om de kansen te zien, waarbij out of the box mag worden gedacht. “Een van de belangrijkste eigenschappen op het gebied van big data is nieuwsgierigheid”, zegt Timmerman van EMC.

Toch zijn er zijn wel degelijk restricties, bijvoorbeeld op privacygebied. Lang niet alle data mogen worden bewaard, wat bijvoorbeeld geldt voor sociale mediagegevens, en soms mogen alleen statistische en geen individuele analyses worden gemaakt. Kennis van privacyregels moet daarom in het projectteam aanwezig zijn.

En dan? “Met een klein project beginnen”, adviseert Nieuwenhuijs. “De praktijk is meestal dat afgeschreven pc’s die ergens stonden te verstoffen, in de kelder aan elkaar worden geknoopt en men vervolgens met Hadoop aan de slag gaat. Het is open source, dus allemaal low budget. Dat is prettig, want zo’n project mag in de regel niks kosten. Wat het oplevert is immers nog onzeker.”

Datastuwmeren

Blijft dat eigenlijk zo, dat big dataprojecten tegen lage investeringen kunnen worden ingevoerd? Helaas. Zodra de projecten beginnen te lopen, zullen bedrijven in de regel moeten investeren in hun infrastructuur. Het principe van Hadoop is dat data zo dicht mogelijk ‘bij de bron’ wordt opgehaald; de klantgegevens blijven bijvoorbeeld in het klantsysteem staan, waar ze ook kunnen worden bijgewerkt. Voor een big data-project worden ze door de software opgeroepen, wat inhoudt dat grote hoeveelheden data razendsnel door het bedrijfsnetwerk heen worden gepompt. Kortom, er valt door de ict-sector écht wel wat te verdienen aan big data.

Er zit nog een andere adder onder het gras. Hoe aantrekkelijk de big datatoekomst ook wordt voorgespiegeld, uiteindelijk zullen alle bedrijven tegen hetzelfde probleem aanlopen: het vinden van de juiste expertise. Het inrichten van Hadoop- en NoSQL-systemen is een gespecialiseerd klusje, dat uw eigen IT-staf waarschijnlijk niet in de vingers heeft. Daardoor is een nieuwe beroepsgroep ontstaan: de ‘data scientist’, die de verschillende data kan organiseren en snapt waar het bedrijf behoefte aan heeft. McKinsey heeft al berekend dat er in de VS 1,5 miljoen data scientists nodig zijn, er is voorlopig een nijpend tekort.
Wiskundig onderlegde managers die op een zijspoor zijn beland, grijp je kans. Laat je nú omscholen! De toekomst ligt in de datastuwmeren.

Winkelmand

Big data for big dummies

In uw bedrijfsdata zit goud verstopt – wist u het maar te vinden! Goudzoekers moeten zich in een wereld storten vol geheimzinnig jargon als Hadoop en de drie V’s.