Varför ”Big Data” bara är lurendrejeri

Big data - statistik

Det finns ett outtalat antagande med big data att mer information innebär att vi kan fatta bättre beslut. Det vill säga, om vi kan få åtkomst till mer och mer data så blir slutsatsen vi kan dra från datan betydligt mer säker. Om vi exempelvis analyserar 2 miljarder inlägg från Twitter skulle vi med väldigt hög säkerhet kunna säga vad människor tänker och tycker om olika saker.

Allt detta är dock lurendrejeri.

(Först ett skämt: Finns det telefoner i lera, eller är det lurendrejeri? Okej, nu åter till allvaret.)

Vi behöver rätt information – inte mer

Mer information innebär inte nödvändigtvis bättre information. Det fundamentala är att man måste ha rätt sorts information för att kunna dra slutsatser. Inte mer information. Då spelar saker som ”big data” heller ingen roll, eftersom det inte löser de fundamentala problemet med att ha rätt information från första början.

Det kallas information bias och är en sorts ”skevhet” i människors sätt att tänka. Det är tron att ju mer information man har (för att fatta ett beslut), desto bättre är det. Men den tron är alltså ogrundad.

Nya, sexiga ”data science”

Ett roligt ord är ”data science”. Ungefär som om det vore ett helt nytt och revolutionerande sätt att bedriva forskning.

Forskare som håller på med stora mängder data borde ju rimligtvis innebära att de därmed kan dra stora slutsatser och stora generaliseringar. Det låter kanske som ett rimligt argument, men det är det knappast. Det är inte bara mängden data som avgör, utan också hur man har fått tag i den som är det väsentliga.

Ingenjören Pete Warden skriver på sin blogg om varför man aldrig ska lita på en data scientist. Genom att göra färgglada bilder med linjer och streck från 200 miljoner Facebookprofiler skulle man kanske kunna tro att han gjort en ”objektiv” beskrivning av Facebookanvändarna:

The clustering was produced by me squinting at all the lines, coloring in some areas that seemed more connected in a paint program, and picking silly names for the areas. I thought I was publishing an entertaining view of some data I’d extracted, but it was treated like a scientific study. A New York Times columnist used it as evidence that the US was perilously divided. White supremacists dug into the tool to show that Juan was more popular than John in Texan border towns, and so the country was on the verge of being swamped by Hispanics.

[…]

I’ve never ceased to be disturbed at how the inclusion of numbers and the mention of large data sets numbs criticism.

Det är gammal hederlig statistik…

Kan man säga att ”7 av 10 av unga har provat droger” så låter det trovärdigt och som ett allvarligt hälsoproblem. Det är ”fakta” som serveras rakt upp och ned. Att det i själva verket bara är femtio personer på Sergels torg som har fyllt i ett formulär och fått uppskatta droganvändningen bland sina vänner tycks vi vara mindre angelägna om att ta reda på. Formuleringen ”7 av 10” tycks vara nog för att vi ska sluta ställa frågor och låta vårt intellekt kapitulera.

Men man måste fortfarande göra lämpliga stickprov ur populationen, välja rätt skala och variabler liksom att analysera med rätt koefficienter och så vidare. Kort sagt: Man måste fortfarande hålla på med statistik. Och det kräver i regel lång utbildning och är ingenting som mer data eller snyggare infographics kan råda bot på.

…men statistik är inte sexigt

Det låter ju mer övertygande att säga att man har analyserat 200 miljoner Facebookprofiler än någon sociolog som gjort ett obundet slumpmässigt urval bland några tusental personer. Stora siffror är häftiga. Krångliga metodavsnitt i avhandlingar är ångestframkallande.

Vad som ger rätt slutsats är nämligen inte samma sak som det som ger en intressant slutsats. Forskare letar efter rätt slutsats till precist formulerade frågor, medan medierna letar efter en intressant slutsats baserad på vaga och förutfattade spekulationer till frågor (det som passar medielogiken).

Med hjälp av ”data science” och ”big data” får man däremot siffror att låta sexigt, utan att behöva befatta sig med jobbig statistik. Men som satirikern H.L. Mencken uttryckte det: ”För varje komplext problem finns det ett enkelt svar, och det är fel.”

Och när vi ändå är inne på att såga myter så kan jag säga att den ”magiska” gränsen för statistisk signifikans med ett p-värde < 0,05 är fullständigt godtycklig. Men det låter ju mer vederhäftigt om det är 0,05 eller under.

Slutsats

Big data är, trots sitt sexiga namn, inget annat än vanlig statistisk analys. Däremot finns det helt andra användningsområden för så kallad ”big data” som är mer lämpliga, men man kommer däremot inte ifrån att man håller på med statistik i någon form, eller att metoderna (insamling och analys) kommer att påverka resultatet.

Siffror öppnar inte en magisk dörr av värdeneutral objektivitet. Man måste fortfarande veta var siffrorna kommer ifrån och vad de betyder och, framför allt, vilka slutsatser man faktiskt kan dra från dem. Och det är gammal kunskap som ny teknik inte har förändrat.

Vad vi sällan behöver är mer och mer data. Vad vi snarare behöver är mer välformulerade problem.

Läs mer