Data-balanse? Glem det!

Det underlige er ikke at data er ubalanserte, men at vi trodde noe annet. Verden er ubalansert, og vi har siden tidenes morgen omskrevet historien (tilpasset data) slik det passer. Hvor skulle balansen eller nøytraliteten komme fra?

Nøytrale data er en selvmotsigelse: Nøytralitet er en holdning, ikke en egenskap. Når data blir karakterisert som 'nøytrale' betyr det som regel at de er ubalanserte eller av ukjent kvalitet – og ingen vil innrømme det. Det er lite seriøst. De fleste datasett er ubalanserte – inklusive eksakte målinger og regnskaper. Fordi også eksakte målinger og økonomiske transaksjoner forteller kun en del av historien. Det er derfor vi trenger eksperter for å forstå regnskaper – bruke innsikt og erfaring til å lese mellom linjene. Og derfor trenger vi påminnelser om at data som mangler eller er utelatt, ofte forteller en ganske annen historie enn de som er med.

For eksempel – en klient vi var i kontakt med nylig brukte egenregistrerte værdata som én av flere komponenter for å forutsi arbeidsforhold utendørs – i fjellheimen. Resultatene ble først oppsiktsvekkende, så åpenbart feil. Et mysterium helt til én som kjente den historiske datafangsten, påpekte at kun dårlig vær ble detaljregistrert det meste av perioden. Siden 80-tallet.

Poenget er forventninger – som heldigvis fikk en kraftig korreks i 2019 (se 2019 inn for landing). Men det er fortsatt langt igjen. Ubalanserte data er normalen, ikke unntaket. De er like verdifulle som balanserte data (som knapt finnes), så lenge vi vet hva vi har og behandler dem deretter. Problemene oppstår når entusiasmen overskygger realismen og forståelsen mangler. 'Data is the new oil' blir tatt bokstavelig, behovet for raffinering blir oversett og – om vi følger analogien videre – 'råolje' kjøres rett inn i kjeler, biler og fly. Med forutsigbare resultater: Forurensing, motorstopp, havari etc.

Kast ikke dataene fordi de er ubalanserte. Bruk dem for det de er – og det de er verdt.
En effektiv måte å visualisere både problemet og løsningen på. 'Ubalansert' er en karakteristikk, ikke en feil. Det er raffineringen, raffinerikapasiteten og kompetansen som svikter. Og forventningene – inkludert at ML er en snarvei til ny kunnskap og nye markeder fordi 'vi har så mye data'. Forhold vi har vært inne på tidligere, spesielt i analysen Hvor er din CDO?

Poenget i denne sammenhengen er forventninger og fornuft. Når ordensmakt, forskere, markedsførere og 'ansettere' (HR) får en velfortjent smell for manglende balanse og overdreven tillit til ML, er det ikke dataene som er feil, men innstillingen som er lettvint og forståelsen mager.

Kast ikke dataene fordi de er ubalanserte. Bruk dem for det de er – og det de er verdt.

Legg igjen kommentar

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.