Data Lakes - digitale søppelfyllinger?

Teknologimiljøer med selvrespekt har en Data Lake. Det kvalifiserer til klubben 'foroverlent'. Ingen spør hva denne sjøen av data fylles med. Blir den en digital søppelfylling?

«Organizations invest incredible amounts of time and money obtaining and then storing big data in data stores called data lakes. But how many of these organizations can actually get the data back out in a useable form? Very few can turn the data lake into an information gold mine. Most wind up with garbage dumps.»

Sitatet fra den ferske boken Data Lake Architecture (ISBN13 978-1634621175) provoserer – og setter fingeren på et ømt punkt. Ingen diskuterer behovet for og nytteverdien av Data Lakes, men forfatteren Bill Inmour og mange andre er kritiske til forarbeidet og motivasjonen. Markedet lagrer for sikkerhets skyld, ikke fordi det finnes et mål med lagringen. ‘Det kan være noe nyttig her’ er ikke et mål, men en unnskyldning.

Data Lakes skiller seg fra klassisk BI og Data Warehousing på mange områder, blant annet at data lagres i sin opprinnelige form/format. Denne egenskapen forårsaker et holdningsproblem: ‘Opprinnelig format’ oppfattes betimelig som ‘opprinnelig format og mengde’ – eller enda enklere: 'Urørt'. Dermed åpnes slusene og alt som kan minne om digitale data, dumpes ukritisk inn – just in case.

«Without some smart management for the data going into the lake … you’re going to end up with a ‘toxic dump’» observerte en ekspert på et webinar for en stund siden (Chuck Yarbrough, Pentaho), og setter effektivt fokus på poenget: Data management.

Presiseringen av 'data i sin opprinnelige form' (raw data) er at preparerte, tilpassede data - som er karakteristisk for BI og Data Warehousing - filtrerer bort informasjon. Denne filtreringen er irreversibel. En funksjonell Data Lake bevarer både innholdet i 'full oppløsning' og frihetsgradene for fremtiden – hvis lagringsprosessen er styrt og planlagt.

En annen ekspert på samme webinar, Phillip Russom fra TDWI, forklarer:

«Unlike data warehousing, data lakes turn the data modeling practice ‘on its head.’ Instead of preparing the heck out of data before it goes into the database, we’re looking at getting the data in there in its raw state, and then that’s when we make another pass for modeling, data quality, and a number of other practices.»

Data Lakes har en viktig og voksende oppgave å fylle – for business, for utvikling og for ‘fremtidig historie’. Ekstremt verdifullt – hvis fyllingen er kontrollert og innholdet ikke får råtne.


Se også Datalagring: Fiktivt kapasitetsproblem.

Vær den første til å kommentere

Skriv en respons

Epostadressen din vil ikke vises.


*


Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.