leren in het E-landschap...
image1 image2 image3 image3

Worstenbroodjes en Hadoop het kleine olifantje

Een typisch Brabants ontvangst, bij Ricoh in het nieuwe futuristische pand te s' Hertogenbosch, kopje koffie met worstenbroodje, gaf mij een flash back naar mijn eigen Brabantse periode, immers lang geleden een jaar of zeven in Breda gewoond. Zoals gebruikelijk een zeer onderhoudend en informatieve bijeenkomst georganiseerd door CMBO, GTSC en MediaAlliantie met deze keer als thema "Big Data in Marketing en Media". Weer plezierig om veel “oude” bekende uit de branche te spreken.
Onder de bezielende leiding van Roelof Jansen van Media Alliantie werden de onderwerpen aan elkaar geregen.
De taak van Roelof was duidelijk, eerst het schetsen van de big picture en met name het verschil tussen werken met “gewone data” en het werken met big data. Het verschil tussen SQL databases en NoSQL databases. Big data is booming zelfs in de Formule 1 wereld is big data een strategie om te winnen. Om dat te doen, vergaren teams gigabyte's aan gegevens van meer dan 100 sensoren op elke F1 auto , overgebracht naar de pit of direct naar hun hoofdkwartier . Zodra de gegevens zijn geanalyseerd door hun ingenieurs , worden besluiten teruggekoppeld aan de chauffeur / monteurs binnen enkele minuten of zelfs seconden.

Deze split-second data-analyse is de sleutel in het hebben van een voorsprong op de concurrentie, alle Formula One teams investeren tijd en middelen om deze kunst te beheersen. Het onderliggende probleem ligt in het vastleggen van deze grote toestroom van data on the fly en het analyseren om te vinden wat belangrijk is voor de ontwikkeling van een winnende strategie.

McLaren Formule1 team is leidend in de race van Big Data. De McLaren Group , die nu de helft eigendom is van Bahrein Mumtalakat Holding Co hebben onlangs een big data center opgezet in het Aziatische hoofdkantoor in Singapore, waar door split second beslissingen tijdens de hitte van een Grand Prix strijd mogelijk worden en voordeel mee behaald kan worden. Maar uiteraard zijn de Amazon's en Bol.coms van deze wereld ook earley adapters van deze techniek.

De Gartner Data Magnitude Index verklaart een aantal van de verschillen, het draait om een drietal begrippen:

  • Velocity
  • Volume
  • Variety


Bij de analyse van data wordt het belangrijk om deze drie begrippen inzichtelijk te krijgen, praten we over:

  • uren
  • seconden
  • sub-seconden
  • Terabytes
  • Petabytes
  • Exabytes
  • 5 tot 10 bestandsformaten
  • 10 tot 25 bestandsformaten
  • > 25 bestandsformaten

 

MapReduce

Door dat er met extreme hoeveelheden data gewerkt wordt is dit niet meer op een eenvoudige desktop computer mogelijk. Er moet met clusters gewerkt gaan worden. MapReduce is een door Google geïntroduceerd framework voor het in korte tijd uitvoeren van berekeningen over zeer grote hoeveelheden data van vaak meerdere petabytes. MapReduce wordt door Google onder andere gebruikt voor het indiceren van grote hoeveelheden documenten voor zijn zoekmachine en het analyseren van bezoekersaantallen en bezoekersgedrag van websites (Google Analytics).

Apache Hadoop
Hadoop is een op MapReduce geïnspireerd opensource Java-framework voor de bouw van data-intensieve gedistribueerde applicaties en wordt onder meer ontwikkeld door medewerkers van Facebook, Yahoo, LinkedIn en Twitter. Even Googelen naar dit fenomeen en dan blijkt dat dit niet uitsluitend op clusters 19” rek servers wordt gedaan in high end data centers. Maar dat met name voor studie doeleinden, om te leren hoe je een Hadoop cluster opzet is er een kleinschalige opzet mogelijk: Clusters van Rasbery Pi computers ter grote van een creditcard.

Video Running Hadoop on Raspberry Pi's", Jamie Whitehorn


Nu wil het toeval dat ik sinds kort aan het experimenteren ben met een Rasberry Pi, om op mijn boot navigatie data NMEA-0183 informatie via wifi in de lucht te brengen, om al mijn navigatie draadloos met de Apple iPad te kunnen doen. Misschien is een supercluster een leuk projectje voor de winter, "als ik mij ga vervelen in mijn man cave", het bouwen van mijn eigen super cluster met Rasberry Pi. Immers Data Scientist is the Sexiest Job Of The Century?


Na de lezing van Roelof was het de beurt aan Danny Holten, de eerste indruk is een sportschool jongen, die als je hem in de kroeg zou tegenkomen, je absoluut niet zou verwachten dat hij dr.ir. voor zijn naam mag dragen.


Verrassend, was dat hij zijn presentatie met een laptop voorzien van het besturingssysteem Linux deed, "Ubuntu" om exact te zijn.
Een goed verhaal, met name over de visualisatie van big data, SynerScope is een spin-off van het infovis research project aan de TU te Eindhoven. Om in grote datastromen anomalieën te kunnen ontdekken is het niet voldoende om rechttoe rechtaan statistiek toe te passen. Fuzzy patterns moeten gevisualiseerd worden. Leuk om de technische achtergronden te horen, dat er gebruik gemaakt wordt van clusters “GPU” ofwel NVidia high-end game video kaarten.
Na het verzamelen en visualiseren, volgt de volgende stap het analyseren:

Cum hoc ergo propter hoc (Latijn voor "met dit, dus vanwege dit") bijvoorbeeld twee gebeurtenissen die samen optreden ten onrechte voorgesteld worden als oorzaak en gevolg. Een verband wordt dus ten onrechte voorgesteld als een oorzakelijk verband.
Bijvoorbeeld:
           Tieners gaan veel uit.
           Tieners hebben puistjes.
           Dus: uitgaan veroorzaakt puistjes.

Het analyseren van de resultaten blijft misschien wel het lastigste, zoeken naar patronen die verwacht worden of juist de niet verwachtte afwijkingen. Danny demonstreerde zijn verhaal aan de hand van een collectie emails van een grote onderneming, met deze ongestructureerde data collectie werden wonderlijke verbanden zichtbaar gemaakt.

Zelfs het opsporen van witwas activiteiten behoort tot de mogelijkheden, zou George Orwell toch meer en meer gelijk gaan krijgen?


Eric Roubos (Ricoh Nederland) over Customer Intimacy hoe kun je de verkregen informatie inzetten om klantgedrag te beïnvloeden. En de verbinding tussen traditioneel print en mogelijkheden tot interactie van de gebruiker van print.
Nog enige discussies, waar de grenzen van Big Data liggen, voor wat betreft de privacy en de wetgeving. Dit is beslist niet eenvoudig, aangezien door het internet de wereld in een dorp aan het veranderen is, maar ieder land zijn eigen wetgeving kent rondom privacy .
En uiteraard waar liggen de kansen voor de grafische "creatieve industrie" industrie?


Na afloop een leuke netwerkborrel en met ideeën rijker naar huis, dus Houdoe op zijn Brabants...
 

2021  Hans Huijsing Blog  
Our website is protected by DMC Firewall!