ML: Når data lyver ...

Jakten på 'korrekte' data - balanserte i alle retninger - intensiveres. Nødvendig for ‘riktig’ maskinlæring - tror vi. Men virkeligheten er verken balansert eller nøyaktig. Skal maskinene lære om og av virkeligheten eller fra kurerte, balanserte og kontrollerte data som forskere mener er nøytrale? Hvem er disse 'forskerne' forresten?

Årets mest undertrykte 'datakatastrofe' er Microsofts åpne bildedatabase MS CELEB – antatt å være sammensatt av celebritet-ansikter fra hele verden. Så viste det seg at dine og mine bilder også var med. Det kalles dataforurensing. Spesifikasjonen stemte ikke (helt) med innholdet. Fagmiljøene ble indignert og overrasket, mens resten av verden - de relativt få som fikk med seg historien - trakk på skuldrene og tenkte ‘enda en lekkasje’.

Databasen – med over 250 GB data – er forlengst stengt hos Microsoft og beklagelsene publisert. Men åpne data er akkurat det, og dataene er fortsatt ’på frifot’. Hundrevis, kanskje tusenvis av systemer har lært ansiktsgjenkjenning og kategorisering fra forurensede data – ikke bare fra denne, men fra en lang rekke databaser med innhold som viser seg å avvike betydelig fra 'innholds-fortegnelsen’. I en verden som tror maskinlæring og kunstig intelligens kan redde fremtiden, står mye mer enn privacy på spill.

Les mer ...
Proff-innhold: Er du abonnent? Logg inn for tilgang til hele artikkelen. Standardbruker? Logg inn for tilgang til alt åpent stoff. Ingen tilgang? Registrer deg - bli med i 'det gode selskap'. Bruk meny-knappen REGISTRERING øverst.

Legg igjen kommentar

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.