Een ogenblik geduld aub, op dit moment wordt uw cv geüpload,
dit kan tot 15 seconden duren.

De struggles en successes in Data Science

Door: Hanneke Lettinga
De struggles en successes in Data Science

Als ondernemer of consument kun je er tegenwoordig niet meer omheen: Data is de toekomst! Als je als bedrijf succesvol wilt zijn of als organisatie met de tijd mee wilt, moet je ‘data-gedreven gaan werken’, zo luidt de boodschap. Alle apparaten die je als consument in de winkel koopt moeten ‘smart’ zijn. Het doel? Zorgen dat je inzicht krijgt in processen (of dat nou een werkproces is of het energieverbruik bij je thuis), met als hogere doel het optimaliseren van die processen. Meten is nou eenmaal weten, toch?

Klopt. En dat is dan ook precies waar het traineeship Business Analytics en Data Science op gericht is. De omslag naar een digitale wereld heeft ervoor gezorgd dat bedrijven en organisaties massaal data zijn gaan verzamelen, of data dat allang werd verzameld weer heeft opgesnord ergens uit een database – en de vraag naar mensen die daar ‘iets zinvols’ mee kunnen neemt exponentieel toe.

Vanuit mijn achtergrond in de neuropsychologie en Research Master aan de UvA heb ik allerlei vernieuwende statistische methoden en technieken aangereikt gekregen, die ik tijdens het traineeship verder kan ontwikkelen en in kan zetten bij de opdrachtgevers waar ik aan de slag ga.

Error!

Het proces dat Data Science heet, gaat alleen niet altijd over rozen. Het halsoverkop verzamelen van data zonder van tevoren na te denken over hoe en wat, leidt nogal eens tot onoverzichtelijke datasets. Missing values, losse tekstvelden, onduidelijke velden met codes waar niemand de betekenis meer van weet… een greep uit de observaties die niet ongewoon zijn in het leven van een data scientist. En deze zogenoemde ‘messy data’ is een probleem, omdat de data op deze manier niet aan de assumpties voldoet van je model. In andere woorden: Op deze manier kun je geen betrouwbare informatie ontfutselen uit je data, en dat kan leiden tot verkeerde interpretaties (‘garbage in = garbage out’).

Een groot deel (cijfers lopen uiteen van 60-80%) van de tijd ben je als data scientist bezig met het gereedmaken en ‘opschonen’ van de data waar je mee gaat werken. Ondanks dat dit eigenlijk nooit het doel is van het project, is ook dit een uitdaging. Ik vergelijk het vaak met een puzzel: in het begin focus je op de losse puzzelstukjes om uiteindelijk het grotere geheel te kunnen zien. Dit proces kan zeker in het begin van je carrière als data scientist nogal frustrerend zijn. Oneindige errors (‘computer says no’) en uren online zoeken naar de oplossing, tot de slok van je vijfde kopje koffie er voor zorgt dat je ziet waar je precies die komma was vergeten in je code…

Houd jij een beetje van puzzelen?

Toch zit hier voor mij ook wel de schoonheid en plezier van het vak in. Mijn inner geek maakt een sprongetje als een algoritme werkt zonder errors. Wat dit werk daarnaast ook heel leuk maakt is dat, ondanks dat je op opdrachtbasis werkt, ook een grote mate van vrijheid hebt. Hoe jij tot een antwoord komt op de vraag van een bedrijf of organisatie, kun je vaak zelf bepalen. Hier kun je dus al je creativiteit kwijt om tot nieuwe inzichten en oplossingen te komen.

En hoe belonend is het dan als je de puzzel af hebt? Het totaalplaatje is nu voor iedereen te zien en zorgt voor dat “Aha”-moment waar je het allemaal voor gedaan hebt. Het probleem waar je mee aan de slag bent gegaan heeft een helder antwoord. Dat antwoord zorgt op zijn beurt vaak weer voor nieuwe vragen, en zo begint het hele verhaal weer van voor af aan. Ja, inclusief errors.

Reacties

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Bekijk de vacatures