Kommunikation

Massmedier, sociala medier, copywriting, PR och journalistik är några av de ämnen jag skriver om här.

Kan-journalistik: nyheter om saker som kan hända

Krispanikskräck

Journalisterna har inte mycket makt, men de har ändå en specifik och mycket viktig makt, nämligen att skapa moralpanik. Åtminstone om man frågar Eric Louw, som i boken The Media and Political Process (s. 73f) skriver:

journalists do not have the power to make policy or allocate resources, but they can (in certain circumstances) undermine those with such power. Hence, journalists have (sometimes) the power to frighten politicians and to mobilize ‘moral panics’ and ‘groundswells of hostility’ to policies.

Historien ”X påverkade Y” är förstås mer intressant än ”X påverkade inte Y”.  Men ibland räcker verkligheten inte till för att skapa sådana rubriker, och då finns det andra sätt att skapa moralpanik.

Har man inget konkret exempel att komma med kan man alltid använda vinkeln ”X kan påverka Y”.

Har man fortfarande inget att komma med kan man med fördel använda ”det kan inte uteslutas att X kommer påverka Y”.

Här bör man därmed förhålla sig kritisk. Varför inte ställa följdfrågan ”när kunde detta uteslutas senast?”. Om svaret är att man sällan eller aldrig kan utesluta något gör man sig snarare skyldig till att appellera till okunnigheten och flytta bevisbördan till de som påstår att något inte sker, snarare än att presentera belägg för att detta något faktiskt sker.

MSB kan inte utesluta utländsk påverkan på valet – ”vi står inför en stor utmaning”

Thomas Mattsson, chefredaktör för Expressen, sa i en intervju i P1 Medierna under 2014 apropå användet av ordet kan när tidningen skrev om försvunna planet flight MH370:

Det är väl en bra formulering som tydliggör för publiken att det här är inte något vi vet, utan det här är något som man kanske utreder eller en teori som myndigheterna har. Men det är inget fakta som vi kan slå fast.

Denna kan-journalistik, där man inte berättar vad som faktiskt har hänt eller sannolikt kommer hända, utan vad som logiskt sett kan hända, innebär att man har en oändlig källa att ösa nyheter från. Det är bara fantasin som sätter gränserna om vilka saker som ännu inte har uteslutits eller vilka konsekvenser det kan tänkas få. Den verkliga konsekvensen kan (notera kan här!) många gånger i stället bli, som Louw uttrycker det, att en moralpanik skapas.

Men när allt kommer till kritan, hur många saker kan du komma på som verkligen kan uteslutas i framtiden?

Överdrivna påståenden om Cambridge Analytica

Cambridge Analytica är ett företag som samlat in över 5 000 datapunkter på över 220 miljoner amerikanska Facebookanvändare. Det var så de lyckades få det republikanska partiet att vinna presidentvalet i USA under slutet av 2016.  Titta bara på videon nedan. Big data kan förutsäga beteende in i minsta detalj.

Det är så det låter ibland, åtminstone. Men beläggen för påståendena har till viss del lyst med sin frånvaro, och de som har kommit med påståendet har varit företaget själva, som finansieras av bland annat av en republikansk investerare.

I en intervju kallad Google Post-Election Review säger exempelvis Matt Oczkowski, produktchef för Cambridge Analytica:

we actually didn’t do any psychographics with the Trump campaign

Men det var ju så Trump vann valet? Analys av sociala medier och riktade budskap? En artikel vid New York Times ifrågasätter påståendet från Cambridge Analytica att de hade ett 50-tal kunder under 2016, en uppgift som har skiftat över tid och enligt officiella register var betydligt färre:

Cambridge executives now concede that the company never used psychographics in the Trump campaign. The technology — prominently featured in the firm’s sales materials and in media reports that cast Cambridge as a master of the dark campaign arts — remains unproved, according to former employees and Republicans familiar with the firm’s work.

Cambridge Analytica arbetade först för Ted Cruz. Han slogs ut under valkampanjen. Företaget började då arbeta för Trump. Så i stället för att Cambridge Analytica skapade förutsättningarna för en republikansk seger skulle man mycket väl kunna hävda att kausaliteten var omvänd: Cambridge Analytica följde de bästa förutsättningarna för en republikansk seger. Det är därför inte speciellt konstigt om det vinnande laget använder deras produkter om man får byta häst mitt under pågående lopp. Då kan det vara bra att reflektera kring survivorship bias.

De överdrivna påståendena om Cambridge Analytica var dock inte negativt för företaget, tvärtom. De fick finansiärer och det var också deras huvudfokus. Från Matt Oczkowski och Google Post-Election Review igen:

the emphasis was always on fundraising

Cambridge Analytica använde NLP och sentimentanalys (men inte psykografisk analys), vilket på sätt och vis är ganska triviala saker i jämförelse. Som brukligt är det inhämtandet av data och att få det i rätt format som är det svåra och som tar tid.

Cambridge Analytica verkar vara den vanliga historien. Grandiosa påståenden följt av massmedier som okritiskt rapporterar vidare. Om man befinner sig i ett kunskapsvakuum och inte vet varför någonting händer, och det finns någon som kommer med en inte allt för otrolig historia, är det lätt att acceptera den förklaringen utan att först grundligt kontrollera både sannolikheten i förklaringen liksom alternativa förklaringar. Då kan man skapa feedbackloopar och självuppfyllande profetior, där uppfattningen om ett problem leder till att problemet ifråga också uppstår.

Därför kan påverkanskampanjer spelas upp inför öppen ridå samtidigt som man kliar sig i huvudet och undrar vad för slags osynlig kraft det är som orkestrerat kampanjen. Då kan det vara lättare att tolka in en aktör med ett syfte snarare än resultatet av flera stokastiska processer. Slutsatsen kan väl för enkelhetens skull vara att det inte är lätt att vara människa alla gånger…

Uppdaterat 17 mars 2018: En tidigare anställd säger att de mycket väl använde Facebookdata. Se videon Cambridge Analytica whistleblower: ‘We spent $1m harvesting millions of Facebook profiles’ hos The Guardian samt relaterade nyheter på sidan.

Har nazister rätt att demonstrera? Två experter säger nej, två andra ja. Vem ska man lita på?

Henry Ascher är professor och säger i artikeln Nazism är ett brott – inte en åsikt att nazism är brott mot de mänskliga rättigheterna och sakfrågan därmed är enkel, det är ett brott mot de mänskliga rättigheterna att ens låta nazister få demonstrera:

Att förvägra eller begränsa andra människors mänskliga rättigheter innebär alltså ett brott mot mänskliga rättigheter. Det är just detta som är kärnan i nazismen och högerextremismen. Därför bryter Bokmässans och Polisens beslut mot de mänskliga rättigheterna. Både i teorin och i praktiken.

En annan professor, Stefan Jonsson, säger också samma sak i artikeln Experter: Redan stöd att stoppa nazisterna:

Det finns redan idag stöd i lagen för att stoppa nazisterna och deras demonstrationer, anser en rad experter.
– Polisen är okunniga och principlösa och framstår som rent ryggradslösa, säger professor Stefan Jonsson.

Men det finns de som inte håller med.

Mårten Schultz, också professor, säger motsatsen i tv-inslaget Därför går det inte att stoppa nazistdemonstrationer.

I en annan artikel, Experterna svarar: Därför får nazisterna marschera, säger professor Eva-Maria Svensson följande:

Varför får nazister marschera?

– Demonstationsfriheten är långtgående. Man kan inte stoppa någon från att demonstrera bara för att de har en speciell åsikt, säger Eva-Maria Svensson.

Så inte ens experterna kan komma överens om nazister får demonstrera eller inte. Två experter säger ja, två andra experter säger nej.

Just det ja, jag glömde säga att Henry Ascher är professor i folkhälsovetenskap och barnöverläkare, medan Stefan Jonsson är professor i etnicitet. Eva-Maria Svensson är professor i rättsvetenskap, medan Mårten Schultz är professor i civilrätt.

Jag låter er läsare avgöra vem som är mest lämpad att uttala sig om juridiken i Sverige.

Medieforskare blir av med sin doktorsexamen

Enligt Retraction Watch så har Ohio State University sett till att en av deras tidigare doktorander har fått sin doktorsgrad tillbakadragen. En vetenskaplig tidskrift har nämligen dragit tillbaka en av hennes artiklar (samförfattad med hennes handledare) på grund av ”inkonsistens i datan”, vilket är ett förmildrande uttryck för något som inte har gjorts på ett korrekt sätt.

Det gäller artikeln ‘Boom, Headshot!?’: Effect of Video Game Play and Controller Type on Firing Aim and Accuracy som publicerades på nätet 2012 och som kom ut i tryck 2014. Artikeln argumenterade för att first-person shooter tv-spel förbättrar människors hanterande av riktiga vapen.

Men under 2015 hörde andra forskare av sig och ville titta på datan ifråga, eftersom de hade upptäckt ”inkonsistenser”. Men forskarna till artikeln kunde inte hitta datan, vilket är sannerligen misstänksamt.

Så här skriver Communication Research, tidskriften som drog tillbaka artikeln, om varför de dragit tillbaka den:

The editors of Communication Research, Drs. Gibbs and Knobloch-Westerwick, wish to issue a retraction of the article entitled ““Boom, Headshot!?”: Effect of Video Game Play and Controller Type on Firing Aim and Accuracy” by Jodi L. Whitaker and Brad J. Bushman.

This article was first published online on April 30, 2012 and in print in the October 2014 issue of Communication Research (issue 41, pp. 879-891) as doi:10.1177/0093650212446622. It should be noted that, to ensure impartiality, Dr. Knobloch-Westerwick was not involved in the preparation of this decision, because she is on the faculty at the same institution as the corresponding author. This retraction is in response to inquiries from Drs. Markey (Villanova U) and Elson (Ruhr U Bochum), in agreement with the corresponding author Dr. Bushman.

A Committee of Initial Inquiry at Ohio State University recommended retracting this article after being alerted to irregularities in some variables of the data set by Drs. Markey and Elson in January 2015. Unfortunately, the values of the questioned variables could not be confirmed because the original research records were unavailable. In 2016, Drs. Markey and Elson sent their report to Dr. Gibbs, one of the editors of Communication Research, who decided that a retraction was warranted. A replication of the study by Dr. Bushman is in review.

Här hittar man abstractet till originalstudien:

Video games are excellent training tools. Some writers have called violent video games “murder simulators.” Can violent games “train” a person to shoot a gun? There are theoretical reasons to believe they can. Participants (N = 151) played a violent shooting game with humanoid targets that rewarded headshots, a nonviolent shooting game with bull’s-eye targets, or a nonviolent nonshooting game. Those who played a shooting game used either a pistol-shaped or a standard controller. Next, participants shot a realistic gun at a mannequin. Participants who played a violent shooting game using a pistol-shaped controller had 99% more headshots and 33% more other shots than did other participants. These results remained significant even after controlling for firearm experience, gun attitudes, habitual exposure to violent shooting games, and trait aggressiveness. Habitual exposure to violent shooting games also predicted shooting accuracy. Thus, playing violent shooting video games can improve firing accuracy and can influence players to aim for the head.

Enligt Google Scholar har artikeln redan hunnit citerats 14 gånger sedan den publicerades 2012, bland annat i en översiktsartikel vilket förmodligen förvärrar situationen med tanke på att alla som läser översiktsartikeln förmodligen inte kommer att läsa tillbakadragandet av originalartikeln.

Det är som viskleken för forskning, och mängden myter som florerar inom forskning behöver på inga sätt vara mindre än utanför forskarsamhället därför att det som bekräftar vad forskare tror är också det som i högre utsträckning kommer i tryck.

Enligt Retraction Watch var handledaren omedveten om dessa inkonsistenser, och verkar inte ha fått några repressalier.

Retraction Watch bevakar tillbakadragna vetenskapliga artiklar inom akademin (det är många, många, många forskningsartiklar som dras tillbaka regelbundet) och har skrivit följande om forskaren ifråga:

De snabbast växande orden i två miljoner nyhetsrubriker under tre år

Vilka ord har ökat och minskat i bruk bland drygt två miljoner nyhetsrubriker från 2014 till 2017? I den här analysen har jag tagit nyhetsrubriker som är insamlade från början av 2014 till och med juni 2017 för att se vilka ord som förekommit mest och vilka som har snabbast ökat i popularitet.

Vilka ord har ökat mest på kortast tid? Kanske inte så förvånande är Donald Trump väldigt omskriven, precis som på Twitter. Lika lite förvånande är det ett väldigt fokus på USA och Storbritannien.

Men intressant nog verkar också vanlig lokal nyhetsvärdering öka relativt mycket, apropå ”trafikolycka” och ”singelolycka”.

Se också de snabbast sjunkande orden.

Tittar man på de ord som ökade mest under 2015 så är det ”flyktingar”, vilket jag satt i relation till ”migrationer” respektive ”nyanlända”. Av grafen att döma verkar de svenska medierna nästan unisont börja skriva om flyktingar vid samma tillfälle, därav den vertikala ökningen av texter.

De här graferna har jag mest gjort för skojs skull, men jag tänker mig att denna typ av analyser kan vara en förhållandevis enkel början till att forska om agenda-sättning. Över lång tid ger de här analyserna väldigt intressant information jämfört med de korta nedslag som ofta görs i forskningen.

Mer intressant, tror jag, är att de också också kan användas för att identifiera var man bör starta sin undersökning (eftersom de är helt induktiva), snarare än att hipp som happ sätta upp sitt blöta finger i luften för att mäta vart vinden blåser.

Den fullständiga analysen har jag som vanligt lagt upp på GitHub där du hittar både källkod och länkar till datan som du kan ladda ned. Kom gärna med förslag på hur det kan göras annorlunda.

Fler analyser

Här är några andra analyser jag gjort i R med framför allt öppna data:

Big data i medieforskning

Att bara analysera rubriker går bra på en vanlig laptop. Det var inga svårigheter att ladda in en miljon rubriker i minnet. Vid två miljoner rubriker började datorn gå på knäna. R tog 11 gigabyte i anspråk för att köra unnest_tokens för att skapa en vektor på drygt 5,1 miljoner ord mappat till nyhetsrubrikerna.

Framöver behövs mer datorkraft för analyser av hela brödtexten, kanske med hjälp av Apache Spark som jag använt tidigare. Dock ska jag testa om bigmemory i R kan fungera eftersom den, vad jag förstår, genomför analysen på disken snarare än i minnet. Det går lite långsammare, men om man sysslar med forskning så är allt redan långsamt.

RMarkdown

Dokumenten i listan med länkarna ovan är gjorda med hjälp av RMarkdown, ett sätt att blanda källkod i valfritt språk, bilder, text och… tja, allt man kan tänka sig. Även om RMarkdown är skapat för språket R fungerar även andra språk och jag har exempelvis skrivit Python-kod i RMarkdown som jag använde som presentation under en lektion i web scraping. Det går med andra ord utmärkt att exportera till Powerpoint, Word, hemsidor eller PDF.

Det är ett behändigt sätt att paketera sina analyser. Steget från källkod till presentation blir minimalt, och det är också varför den brittiska regeringen valt att satsa på RMarkdown.

Jag tror detta kommer bli vanligare i framtiden. I stället för att presentera ett begränsat antal analyser på ett lika begränsat antal sidor så kan man dokumentera hela sin process för att låta andra upptäcka hur tankeprocessen har gått till, och även se resultat man kanske borde följa upp. Detta kan sedan bifogas till artikeln i ett appendix så att man kan se diagram och källkod tillsammans.

Frågan är vilken tidskrift som blir först med kräva att analyserna i Markdown bifogas till varje artikel? Stata 15 har ju också kommit ut med Markdown så R är ju knappast något krav längre.

Läser journalister källorna de hänvisar till?

Viskleken har nog de flesta hört talas om. En person säger något till en andra person, som i sin tur säger det till en tredje, och så vidare. Poängen är att informationen bitvis förändras på vägen.

I journalistiken (och i forskningen också, faktiskt) förekommer också visklekar. Man kollar helt enkelt inte upp källorna, utan accepterar slutsatsen någon annan har skrivit (och kanske inte ens förstått), för att sedan föra vidare slutsatsen ifråga. Här följer ett exempel.

Sveriges Radio Medieormen skriver så här:

New York Times har uppmärksammat fenomenet i en artikel om hur Googles algoritmer, oavsiktligt får man hoppas, har börjat diskriminera. Som exempel anger man en studie som visar att Googles platsannonser för högbetalda jobb oftare riktas mot män än mot kvinnor.

Följer man länken till New York Times kan man läsa detta:

Google’s online advertising system, for instance, showed an ad for high-income jobs to men much more often than it showed the ad to women, a new study by Carnegie Mellon University researchers found.

Klickar man sedan vidare till studien kan man läsa detta:

We cannot determine who caused these findings due to our limited visibility into the ad ecosystem, which includes Google, advertisers, websites, and users.

Så efter två klick kan man konstatera att originalpåståendet (”Googles algoritmer har börjat diskriminera”) inte hade mycket substans (”We cannot determine who caused these findings”). Även forskare har misstagit sig på samma punkt.

Det är väldigt positivt att massmedierna länkar till sina källor. Det gör deras arbete mer transparent och felaktigheter kan lättare upptäckas. För i ärlighetens namn är dessa fel inte förbehållet journalister. Forskare citerar också på samma sätt emellanåt, det vill säga till andrahandskällor utan att kontrollera originalkällorna. Den omvända praktiken förekommer också, att originalkällor citeras medan fullständiga vederläggningar av dessa källor inte alls citeras.

Fördelen inom akademin är dock att referenssystem både är standardiserade och nödvändiga. Därmed är också missuppfattningar i grunden demonstrerbara. Det finns inget värre än att läsa ”en studie har visat att”, vilket omedelbart skapar frågor. Vilken studie? När? Vem? Var? Hur?

I dag fick jag frågan varför så många tror att filterbubblor existerar trots att forskningen visar att de sällan gör det. Kanske kan viskleken vara en av förklaringarna. Om vi börjar med slutsatsen kan vi enkelt viska oss fram till vad som helst.

Fler exempel

6 tjänster som kartlägger (och visar) din politiska användning av sociala medier

Det har dykt upp en mängd tjänster under den senaste tiden som visar hur vi använder sociala medier för att få politiska nyheter och information, och kanske i synnerhet hur begränsad bild av verkligheten vi får av sociala medier (eller medier i största allmänhet, egentligen).

Här har jag sammanställt några intressanta tjänster jag stött på, många av dem Chrome-tillägg, som visar vår medieanvändning på nätet eller varnar oss när vi surfar in på tvivelaktiga sajter.

I korthet är tjänsterna i tur och ordning: FlipFeed, PolitEcho, Data Selfie, Emergent, Viralgranskarens varningslista och Ekokammaren.

FlipFeed låter dig se hur en annan persons flöde ser ut på Twitter genom att installera ett Chrome-tillägg. Se flödet genom ögonen från en person från den politiska vänster- eller högerkanten. FlipFeed är utvecklat hos MIT.

PolitEcho är ett Chrome-tillägg som försöker förutsäga dina Facebookvänners politiska åsikter utifrån vilka nyhetssidor som dina Facebookvänner har gillat. Notera att detta tillägg enbart fungerar för amerikanska nyhetssidor.

Data Selfie är ytterligare ett Chrome-tillägg som visar vilken information som skickas till Facebook när du surfar på nätet. Tillägget registrerar vad du tittar på, hur länge du tittar på det, vad du gillar, vad du klickar på och allt du skriver på Facebook. Enkelt uttryckt, du blir kartlagd. Tillägget låter dig sedan se all insamlad information. (Datan som tillägget samlar in sparas bara på din egen dator, den skickas inte vidare.)

Emergent visar hur overifierad information som rykten sprids på nätet, i realtid. Det är ett projekt från Columbia University.

Viralgranskarens varningslista är ett Chrome-tillägg som varnar för svenska sajter som är kända för att sprida exempelvis påhittade nyheter. Tillägget bygger på en amerikansk dito som kallas B.S. Detector.

Ekokammaren visar svenska nyhetssidor och intresseorganisationer som finns på Facebook, kategoriserade efter politisk tillhörighet. Det gör det enkelt att jämföra hur diverse Facebooksidor skriver om ett och samma ämne.

”Fyra av fem kan inte skilja journalistik från sponsrat innehåll”

En ny studie visar att unga är dåliga på källkritik. Men vänta? Studien existerar inte ens, utan består av några krönikor och sammanfattningar där forskare presenterar sina reaktioner. Ändå rapporterar journalister om studien. Var är källkritiken om bristande källkritik?

Jag intervjuades av P1 Medierna för någon vecka sedan om filterbubblor och ekokammare och fick bland annat frågan om varför journalister tror på filterbubblor och ekokammare trots att forskningsläget säger att det inte är ett speciellt stort problem i nuläget.

Jag har egentligen ingen aning (eftersom jag inte kan läsa tankar), men man kan åtminstone spekulera i att det bekräftar journalisternas uppfattning och att det har skrivits om det mycket under oktober och november. Det publicerades exempelvis betydligt fler artiklar om fejknyheter under dessa månader både i tryckt svenskt press och på den svenska webben, i förhållande till tidigare månader.

Fejknyheter är helt enkelt på tapeten, och källkritik är därför relevant just nu. Så när det kommer en studie som bekräftar bilden av att unga är dåliga på källkritik, då är det förmodligen enkelt att tro att studien är någonting på spåren.

Så här skriver P1 Medierna på sin hemsida nu:

Fyra av fem unga amerikaner kan inte skilja sponsrat innehåll från journalistik. Det visar Stanford-universitetet i en av de största studierna av frågan hittills. Nästan 8 000 elever och studenter, från högstadiet till universitetsnivå, har svarat på frågor om hur de värderar information. Och på många frågor hade de svårt skilja mellan till exempel PR och journalistik.

Nej, det visar studien inte alls.

Det finns inte ens någon studie. Det finns bara en executive summary. Det betyder inte att resultatet är fel, utan att det över huvud taget inte går att bedöma resultatet eller studiens kvalitet. Än, åtminstone. Men vi kan däremot titta på det som hittills är känt.

Så här står det i executive summary, på sidan 23:

We piloted several drafs of this task with 350 middle school students. We completed final piloting with 203 middle school students. Results indicated that students were able to identify traditional news stories and traditional advertisements: more than three-quarters of the students correctly identifed the traditional advertisement and the news story. Unfortunately, native advertising proved vexing for the vast majority of students. More than 80% of students believed that the native advertisement, identifed by the words “sponsored content,” was a real news story.

Och så här säger pressmeddelandet från Stanford:

But of the 203 students surveyed, more than 80 percent believed a native ad, identified with the words ”sponsored content,” was a real news story.

Så det är minst 162 elever av totalt 203 elever som inte kan skilja mellan sponsrat innehåll och journalistik. Det är knappast ett slumpmässigt urval av unga amerikaner, och det är inte de 8 000 eleverna som det förefaller i P1 Mediernas ingress. Det går därför inte uttala sig om ”fyra av fem unga amerikaner” (det vill säga 80 procent).

Vidare står det på sidan 2 i executive summary:

Between January 2015 and June 2016, we administered 56 tasks to students across 12 states. In total, we collected and analyzed 7,804 student responses.

Det betyder att 56 uppgifter genomfördes av totalt 7 804 elever och studenter. Det var alltså inte 7 804 elever som genomförde 56 uppgifter, vilket man kanske kan tro.

Inte ens Wikipedia, som rapporterat om studien under artikeln Fake news website, ger speciellt informativ beskrivning av resultatet (mina fetmarkeringar):

Education and history professor Sam Wineburg of the Stanford Graduate School of Education at Stanford University and colleague Sarah McGrew authored a 2016 study which analyzed students’ ability to discern fraudulent news from factual reporting.[69][70] The study took place over a year-long period of time, and involved a sample size of over 7,800 responses from university, secondary and middle school students in 12 states within the United States.[69][70] The researchers were ”shocked” at the ”stunning and dismaying consistency” with which students thought fraudulent news reports were factual in nature.[69][70] The authors concluded the solution was to educate consumers of media on the Internet to themselves behave like fact-checkers — and actively question the veracity of all sources they encounter online.[69][70]

Vem bryr sig om forskarnas reaktioner? Det viktiga för en encyklopedi borde väl vara resultatet av studien, inte vilka känslor forskarna visade under tiden. Vi får faktiskt inte veta något substantiellt över huvud taget från Wikipedia.

Det finns alltså inga spår av den här studien. Bara pressmeddelande från Stanford och en executive summary. De enda publikationerna som forskarna visar på projektets hemsida är en krönika i Education Week!

Däremot finns det mängder med nyhetsartiklar som rapporterar kring studien, här är några av dem:

Vad är detta?!

Det finns inget underlag för att göra bedömningar av studien över huvud taget. Som det ser ut nu är denna studien ett skämt av det enkla skälet att det inte finns någon studie att bedöma, och executive summary visar verkligen ingenting av värde. Men jag kan ha fel, och då tar jag tacksamt emot rättelser i kommentarsfältet.

Varför Stanford lyfter fram studien i ett pressmeddelande är också märkligt. Varför någon journalist publicerar den är ytterligare ett frågetecken för mig. Det blir extra pinsamt när en studie om bristande källkritik bland unga inte källgranskas av de journalister som rapporterar om den.

Uppdaterat

Jag hann knappt sova ett par timmar efter att jag skrivit denna text innan P1 Medierna hade korrigerat sin text på hemsidan:

Fyra av fem unga amerikaner kan inte skilja sponsrat innehåll från journalistik. Det rapporterar Wall Street Journal utifrån en ännu opublicerad studie från Stanford-universitetet. Resultatet baserar sig på en liten delstudie med 200 elever i hela Stanfords projekt, som totalt berört nästan 8 000 elever och studenter, från högstadiet till universitetsnivå. Innan hela studien publicerats är det svårt att bedöma bärigheten i resultaten.
OBS: Denna notis är uppdaterad. En tidigare version kritiserades av medieforskaren Peter M Dahlgren.

Föredömligt som vanligt av journalisterna bakom P1 Medierna.

Filterbubblor och ekokammare under politiska val

Ekokammare

Efter det amerikanska presidentvalet blev frågan om filterbubblor och ekokammare aktuell som en av förklaringarna till Donald Trumps framgång. I denna text ska jag ge några skäl till varför effekten av filterbubblor och ekokammare är överdriven, delvis baserat på min egen forskning.

Ett vanligt förekommande fenomen är att människor framför allt tar del av nyheter och information som bekräftar vad de redan tror. Detta brukar förklaras med selektiv exponering och confirmation bias. Åtminstone i forskningen. I massmedier är detta ofta beskrivet som filterbubblor och ekokammare.

Men journalister och massmedier är dock duktiga på att lyfta fram just filterbubblor och ekokammare och ge dem ovanligt stor förklaringskraft, kanske för att det går trender och att många journalister använder sociala medier själva (dock långt ifrån alla) där exempel efter exempel på falska nyheter, propaganda och uppenbara lögner har spridits.

Det går naturligtvis inte sticka under stolen med att filterbubblor och ekokammare kan vara en bidragande orsak. Men det intressanta är ju i vilken utsträckning det är en bidragande orsak, och i nuläget finns det inte mycket som tyder på att den är speciellt stor.

För att sammanfatta forskningen i en mening kan jag säga att föreställningen om filterbubblors och ekokammares inverkan är tämligen överdriven. Det finns flera skäl till att vara skeptisk till det och jag ska redogöra för ett godtyckligt antal av skälen i denna text.

Men först:

Vad är filterbubblor och ekokammare?

Med filterbubblor menas oftast algoritmer som styr vad som ska visas i exempelvis en sökmotors resultatsidor och i våra nyhetsflöden på sociala medier. Dessa resultatsidor och nyhetsflöden påverkas i sin tur av vårt användande av dem.

Då människor generellt föredrar information som bekräftar vad de redan tror (ett väletablerat faktum i forskningen), är idén att människor klickar sig allt djupare in i en omslutande ”bubbla” av information som allt mer bekräftar vad de redan tror. På så vis återkommer (”ekar”) välbekant information dag ut och dag in.

Forskningen om filterbubblor är dock inte speciellt omfattande, utan startade i mångt och mycket med Eli Parisers bok The Filter Bubble. Det är förvisso ingen akademisk bok, utan i mångt och mycket en bok om Eli Parisers egna erfarenheter och farhågor av att använda Google med några illustrativa exempel.

Boken har gett upphov till mycket diskussion och forskningsfrågor, men det är kanske bäst att se boken på just det viset och inte som ett bevis på problemen med sökmotorer eller sociala medier.

1. Alla algoritmer är inte personaliseringar

Först av allt verkar det finnas en vanlig missuppfattning att algoritmer kan likställas med personalisering. Men algoritmer är långt ifrån synonymt med personalisering.

En algoritm är helt enkelt instruktioner som en dator följer för att slutföra en specifik uppgift, precis som vi människor följer ett recept i en kokbok. En algoritm kan därför vara väldigt enkel (exempelvis ”Om A är lika med 1, så ska B utföras”) eller betydligt mer komplex, och kan slutföra vilken typ av uppgift som helst (det vill säga, den behöver inte vara relaterad till personalisering). Det är samma för recept, du kan göra ett bakverk eller ett sprängmedel.

Personalisering innebär, i detta sammanhang, att sociala medier och sökmotorer kommer ihåg och anpassar sig efter vad just du gillar, klickar på eller liknande. Klickar du exempelvis på länkar om att mänsklig klimatpåverkan är falsk så kommer mer länkar om att mänsklig klimatpåverkan är falsk att visas framöver. Risken är då uppenbar: Du får tills slut bara se länkar om hur mänsklig klimatpåverkan är falsk.

Men då missar man alla andra algoritmer som också finns i sociala medier och sökmotorer. Google arbetar med att kontrollera sanningshalten i påståenden, att öka mångfalden på YouTube genom att infoga relaterade videor, med mera. Facebook har också algoritmer som visar relaterade länkar till en upplagd länk, vilket har visat sig minska effekten av ekokammare. Kort sagt, det finns många algoritmer och några kan öka filterbubblan, andra minska den. Vi vet alltså inte ens åt vilket håll pendeln lutar, generellt sett.

Men detta är den tekniska biten. Forskningen visar också att människor tröttnar på att höra samma sak flera gånger, även under kortare tidsperioder som ett par timmar, och letar sig därför vidare till annan information som säger emot deras övertygelser. Med andra ord, tekniken kanske har ändrats drastiskt på senare år, men människor är fortfarande stenåldersmänniskor.

Så vad är konsekvenserna av filterbubblor på sikt? Det är svårt att säga, men vad som däremot är säkert att säga att det är lätt att överdriva och antingen prata om en av två ytterligheter där tekniken styr människorna eller där människorna styr tekniken. Sanningen pendlar dock fram och tillbaka mellan dessa två ytterligheter beroende på sammanhang.

Därför är varningarna om filterbubblor och ekokammare också överdrivna eftersom det verkar bygga på antagandet att människor bara vill bekräfta sina övertygelser och att algoritmer bara syftar till att personalisera innehållet i sociala medier, vilket endast är sant om man ignorerar alla andra tillfällen då de inte gör det.

2. Preferenser är inte val

Även om det är ett etablerat faktum att människor föredrar nyheter och information som bekräftar vad de redan tror, följer det inte att de också exponerar sig för sådana nyheter. Inte heller följer det att de undviker nyheter som säger emot deras övertygelser. Det går alltså alldeles utmärkt att föredra nyheter som bekräftar ens övertygelser, och ändå exponeras för nyheter som går emot ens övertygelser. Det är också ett väletablerat forskningsresultat.

Det är nämligen viktigt att skilja mellan vad man själv föredrar, vad man själv väljer och vad man exponeras för som andra har valt. Det vi väljer kan också skapa en preferens för det vi har valt (så kallad mere exposure effect), vilket innebär att det inte är så enkelt att människor har en färdig åsikt och sedan inhämtar information som bekräftar den. De kan mycket väl vara tvärtom: de har inte en åsikt, utan blir exponerade för en specifik information som sedan hjälper till att forma en åsikt.

Vi får en mängd nyheter som dyker upp i våra flöden som inte bekräftar vad vi redan tror, och vår benägenhet att klicka vidare till dessa nyheter påverkas av sociala faktorer (som hur populära de är, vem som är avsändare, vilka relaterade nyheter det finns, vilket humör man är på, med mera), och inte bara huruvida innehållet bekräftar vad vi redan tror.

3. Våra vänner är inte homogena

I sociala medier sägs det ofta att vi blir vänner med människor som tycker likadant som oss själva. Forskningen visar att det stämmer i viss utsträckning. Men forskningen visar också att vi är relativt dåliga på att bedöma vilken politisk övertygelse våra vänner har. En anledning till det är att våra vänner (både offline och online) ofta kommer från arbetsplatsen där det redan finns en bredd av politiska åsikter.

Dessutom blir våra personliga nätverk mer diversifierade ju mer vi använder sociala medier. Så det borde innebära att vi exponeras för en större mångfald, inte mindre, ju mer vi använder sociala medier.

Det är dessutom de yngre som använder sociala medier mest, och det verkar vara äldre som i högre grad röstade på Donald Trump. Om nu filterbubblor och ekokammare vore den bidragande faktorn till detta valresultat (som när nyheter från högersidan med falsk information sprids på Facebook) skulle vi förvänta oss att sambandet vore tvärtom.

4. Intresserade rör sig över gränserna

De som är politiskt intresserade har ofta redan en stark politisk övertygelse och rör sig över blockgränsen och exponerar sig för nyheter som rör motståndarsidan, det vill säga nyheter som går emot deras övertygelser. De som inte är politiskt intresserade tar helt enkelt inte del av speciellt mycket nyheter från varken den ena eller andra sidan.

Detta leder till den paradoxala situationen att de som är mest mottagliga för att påverkas av information inte exponeras för den, och de som är minst mottagliga för att påverkas av information är de som exponeras mest för den.

5. Polariseringen startade innan sociala medier

Man skulle kunna tänka sig att människor som tar del av information som bekräftar vad de redan tror också kommer att bli mer extrema i sina politiska övertygelser ju längre de håller på. Men det verkar de dock inte bli, enligt en artikel jag presenterade på kommunikationskonferensen Ecrea i Prag häromdagen, som jag skrivit tillsammans med Adam Shehata och Jesper Strömbäck.

Politiska övertygelser är tvärtom relativt stabila över tid och benägenheten att exponera sig för nyheter från motståndarsidan är också relativt stabil – oberoende av varandra. Med andra ord verkar inte den politiska övertygelsen förstärka benägenheten att exponera sig för nyheter som bekräftar den egna eller andra sidan, eller vice versa. En av anledningarna är att upprepad exponering för samma typ av nyheter tappar i effekt.

Det gäller Sverige och svenskarna, men forskare från Tyskland jag pratat med under konferensen har också nått likartade resultat, dock inte publicerat i någon tidskrift ännu, liksom tidigare resultat från Nederländerna. Både Tyskland och Nederländerna har ungefär samma partisystem som Sverige.

De som pratar om ökad polarisering hänvisar ofta till USA och kraftigt vinklade medier på vänster- respektive högerkanten, mycket tack vare att det bara finns två partier och kandidater att välja mellan. Men även där tycks tendensen vara densamma.

Polariseringen inom den amerikanska kongressen och allmänheten ökade exempelvis långt innan sociala medier eller vinklade nyhetsmedier på nätet slog igenom på bred front. Vad som därför är en rimligare tolkning är att vinklade medier har vuxit fram ur en redan befintlig politisk polarisering, snarare än att vinklade medier har skapat politisk polarisering.

Om man förväxlar detta orsakssamband är det lätt att gå vilse och peka ut fel förövare, såsom filterbubblor och ekokammare, och ödsla tid på att försöka lindra problemets symptom snarare än att försöka komma till rätta med problemets orsaker.

6. Nyhetsdelningar är inte mått på hur många som tror på nyheten

Det kanske är uppenbart, men av mina diskussioner med journalister att döma behövs det påpekas upprepade gånger: bara för att en nyhet har delats tusen gånger betyder det inte att tusen personer tror att nyheten är sann.

Man kan dela en nyhet av flera skäl, till exempel för att kommentera sanningshalten i texten eller helt enkelt för att man roas av den. Inte minst delar personer på högerkanten artiklar från vänsterkanten (och vice versa) genom att påpeka det absurda i någon detalj.

Så när en nyhet har delats tusentals gånger vet vi inte varför. Vi vet bara att den delats tusentals gånger.

Sedan har vi begreppen engagemang eller interaktioner. Det är begrepp som massmedierna själva har hittat på genom att slå ihop alla siffror som rapporteras från Facebook. Facebook rapporterar nämligen antalet gillningar, kommentarer och delningar, vilket tillsammans blir ”engagemang”. En fejknyhet om valet har exempelvis fått 700 000 engagemang. Men hur ofta har den gillats, kommenterats och delats? Det vet vi inte eftersom pratet om ”engagemang” döljer den informationen. Så vi har alltså en situation där mängder av siffror slås ihop och bildar nya, större siffror. Dessa stora siffror tas sedan som ett mått på problemen i samhället: Tänk att en fejknyhet har fått 700 000 engagemang! Men eftersom vi inte vet vad som döljer sig bakom denna siffra bör man förhålla sig skeptisk och ta reda på vad som har hänt, och mer viktigt varför det har hänt. Men på inga sätt kan man utifrån blott denna information dra slutsatsen om hur det påverkar människor, som att de tror på nyheten ifråga.

Att sätta ett likhetstecken mellan antal engagemang och storleken på samhällets problem är endast ett antagande, inte ett observerbart faktum. Sluta sätta så stor tilltro till stora siffror.

Slutsats

Filterbubblor, ekokammare, selektiv exponering och confirmation bias i alla ära, det är mitt forskningsområde och jag skulle gärna vilja överdriva dess betydelse för att göra min egen forskning mer relevant. Men faktum kvarstår att det i nuläget inte kan förklara speciellt mycket av den polarisering vi ser, varken i amerikanska val (som en majoritet av forskningen utgår ifrån) eller svenska val.

Det är så många faktorer som samverkar på samma gång att det är för svårt att peka ut en enda faktor, även om det känns intuitivt när man tittar på sociala medier och ser en person som delar en artikel fylld till bredden av faktafel, och att det därmed ”måste” vara en konsekvens av användningen av sociala medier.

Men däremot kan ekokammare och filterbubblor ha stor förstärkande effekt på redan befintlig polarisering. Så när vi ser extrema avarter i sociala medier så ser vi sällan genomsnittssvensken som hamnat i en ond spiral av filterbubbla, utan oftare ser vi just den extrema avarten som har fått ett medium för att göra sin röst hörd.

Forskares uppgift är då delvis att ignorera avarterna och i stället studera majoriteten, precis som vi inte studerar en sekt för att sedan dra slutsatser om befolkningen eller religioner i allmänhet.

Men låt oss leka med tanken att filterbubblor och ekokammare är de viktigaste förklaringarna till att människor röstar som de gör. Då följer genast ett par frågor: Vad förklarar tidigare val där sociala medier inte fanns? Och varför är en republikan, i stället för en demokrat, invald som president i detta val om människor helt enkelt bara bekräftar sina egna övertygelser – borde vi inte se samma resultat vid varje val och opinionsundersökning?

När massmedierna försöker lägga större delen av fokus på just fejknyheter på Facebook som en förklaring till ett valresultatet finns det alltså all anledning att vara kritisk.

Läs mer

Se mer

På Internetdagarna 2017 höll jag en föreläsning om filterbubblor – se på YouTube.

Lyssna mer

Ställen där jag pratat mer om så kallade filterbubblor.

Sveriges Radio P1 Medierna i direktsändning: Mediers reklamjulklapp och falska filterförklaringar:

Varför spelar journalister med i hysterin om Årets julklapp? Lösenordläcka i fokus efter SVT:s granskning. Och filterbubblor och falska nyheter – fenomenen som seglat upp som roten till allt ont.

Podcasten Digitalsamtal avsnitt #059 – Den porösa filterbubblan:

”Filterbubblan” är ett dåligt definierat begrepp, och vars effekter dessutom överskattas kraftigt. Bubblorna är i själva verket väldigt porösa. Det säger Peter Dahlgren, doktorand i mediepåverkan på JMG i Göteborg.

I veckans avsnitt av Digitalsamtal pratar han bland annat om selektiv exponering och vad forskningen egentligen säger om hur mediakonsumenter väljer att gallra i informationsfloden och vilka effekter det får. Läs gärna också hans blogginlägg som kommenterar bubbeldebatten efter det amerikanska presidentvalet.

Podcasten Aning avsnitt 15. Filterbubblor med Peter Dahlgren:

Ett avsnitt i gränslandet mellan mediepåverkan, politisk kommunikation och social kognition. Hur påverkar långvarig användning av sociala medier människors världsbild? Vad är filterbubblor, selektiv exponering, ekokammare och confirmation bias? Hur bör man värdera nyheter? Medieforskaren Peter Dahlgren svarar.

Uppmaning till journalister att sansa er förtjusning för big data

I min tidigare artikel om Big data: hur man mäter exakt fel beskrev jag problemet med att ge avkall på sitt kritiska tänkande eftersom datamängden är så pass stor att blotta storleken på något magiskt vis gör att problem försvinner. I synnerhet när det gäller data som handlar om människor och deras sociala relationer.

I denna artikel tänker jag fortsätta på den linjen och ge två exempel där journalister har en förutbestämd tolkning de lägger till datan, snarare än att de hämtar tolkningen från datan. De två olika tillvägagångssätten kan kanske bäst sammanfattas med teckningen nedan. För den som inte känner till så är kreationism tron att Gud skapade världen.

Big data och tolkning

The scientific method: Here are the facts. What conclusions can we draw from them?
The creationist method: Here’s the conclusion. Whats facts can we find to support it?

Exempel 1. Kit analyserar den hatiska flyktingopinionen

Den relativt nystartade nyhetssajten Kit skriver i artikeln Så sprids flyktinhatet på nätet exakt hur omfattande hatet (och även rädslan) mot just flyktingar är. Nedan följer ingressen samt det inledande stycket från nyhetssajten.

Så sprids flyktinghatet

Man kan fråga sig hur denna analys har gått till, och Kit är vänliga med att presentera den för oss (med mina fetmarkeringar):

Allt som publiceras öppet på nätet i en viss fråga sparas och blir sökbart. Inläggen klassificeras utifrån vilka ord som förekommer i samband med det tema som analyseras. När det gäller ”flyktingar” är det alltså inlägg i flyktingfrågan som räknas, så hatet behöver inte vara riktat mot flyktingar, det kan även vara riktat mot exempelvis politiker som fattat beslut i flyktingfrågan. För varje tonalitet finns några tusen ord. När det gäller hat är det ord som ”avsky”, ”hata”, ”förakta”, ”föröda”, ”bua”, ”pervertera” osv.
Inlägg klassas som positiva när det förekommer ord som ”bra”, ”cool”, ”snygg”, ”najs” Även olika typer av smileys räknas.

Metoden tillåter alltså att man mäter hur ofta två typer av ord förekommer tillsammans, då företrädesvis flyktingar och hatiska ord. Det har Kit sedan valt att tolka som att det är hat riktat mot flyktingar. Det finns dock ingenting i metoden som tillåter den tolkningen, eftersom en fras som ”jag hatar politiker som inte hjälper flyktingar” är riktat mot politiker till stöd för flyktingar.

En metod medger vissa tolkningar men inte andra. Det är så med alla metoder och det är därför vi måste ha flera metoder som fungerar som ett lapptäcke och i den bästa av världar ger ett samstämmigt resultat. För att kunna dra slutsatser från en analys av detta slag måste man därför ha kunskaper vad en metod faktiskt kan göra (och kanske mer viktigt, vad den inte kan göra) för att kunna berättiga en slutsats. I det här fallet har Kit ignorerat begränsningarna genom att göra om ett samband mellan ord till ett orsakssamband som ska tolkas på ett specifikt vis. Enkelt uttryckt har ”hat och flyktingar” blivit ”hat mot flyktingar”.

Det tycks dock ligga någon sorts vinst i att det åtminstone går att mäta detta hat exakt eftersom Kit menar att de nu kan visa ”exakt hur omfattande det är”. Men det är mer sannolikt ett exakt mått på fördomen som journalisten hade i huvudet när datan analyserades.

För den som är intresserad av den här frågan kan jag hänvisa till en diskussion på Twitter jag hade med journalisten ifråga. Mina frågor om huruvida metoden tillåter denna slutsats besvaras dock inte (förmodligen på grund av att vi inte förstod varandra, en inte helt ovanlig situation på Twitter).

Exempel 2. Guardian analyserar 70 miljoner kommentarer

Ett annat exempel kommer från den brittiska tidningen The Guardian, som för en tid sedan publicerade The dark side of Guardian comments. Tidningen analyserade 70 miljoner kommentarer på sin nyhetssajt sedan 2006 och kom fram till att artiklar som är skrivna av kvinnor innehöll fler blockerade kommentarer än de som var skrivna av män. Blockerade kommentarer raderades alltså inte, utan doldes bara för visning eftersom de bröt mot tidningens regler. De raderade dock kommentarer som innehöll spam och dylikt.

Det mest intressanta är förmodligen det tredje diagrammet i artikeln, som visar vilka journalister (män eller kvinnor) som fått flest kommentarer blockerade till sina artiklar. Diagrammet visar att upp till 2,6 procent av kommentarerna har blockerats från artiklar skrivna av kvinnor (vilket också är uppdelat per sektion). Motsvarande siffra för män är 1 procent. Skillnaden mellan könen är maximalt 3 procentenheter och återfinns år 2013. (Detta är en uppskattning eftersom jag mätt pixlarna i de färgade linjerna i diagrammet där 60 pixlar motsvarar ungefär 1 procentenhet.)

The Guardian kommentarer

Detta är ett intressant fynd även om det inte är speciellt stor skillnad. Men det är viktigt att ha i åtanke att detta bara är ett samband mellan journalistens kön med kommentarer som blockerats. Samband betyder inte orsakssamband. Vi vet därför inte varför sambandet ser ut som det gör.

Vi vet heller inte vad det är för slags kommentar som blockerats. Guardian ger inte speciellt ingående analys av vad för slags kommentarer det handlar om. Jag har läst texten och sammanställt deras beskrivning i tabellen nedan:

Typ av kommentar som blockerats Andel av kommentarerna
legal small proportion
disruptive vast majority
– disruptive: threats extremely rare
– disruptive: dismissive trolling
– disruptive: author abuse significant proportion
hate speech rarely seen
xenophobia, racism, sexism and homophobia seen regularly
“whataboutery”
Totalt antal kommentarer: 70 miljoner

(Tomma rutor indikerar att Guardian inte skrev andelen eller frekvensen.)

Sammanfattningsvis finns det mellan 0-3 procentenheters skillnad mellan könen, och de största skillnaderna återfinns snarare mellan typ av ämne.

Detta hindrar dock inte Guardian från att dra följande slutsats: ”of the 10 most abused writers eight are women, and the two men are black” (återigen mina fetmarkeringar). Men Guardian är för ivriga att sätta ett likhetstecken mellan hat mot journalister och antalet blockerade kommentarer. Guardian har över huvud taget inte analyserat vad kommentarerna innehåller utan bara hur många kommentarer som blockerats från kvinnliga respektive manliga journalisters artiklar. Och det är en tämligen trivial räkneövning som inte säger speciellt mycket.

Guardians metod och källkod finns beskrivet på deras hemsida, där de också skriver att ”we took blocked comments as an indicator of abuse and/or disruption”. Det vill säga, om en kommentar har blockerats så räknas den som kritik mot journalisten oberoende vad den innehåller. Men de blockerade kommentarerna kan dock mycket väl vara riktade mot någon helt annan än journalisten. Till exempel kan två kommentatorer växelvis kalla varandra idioter genom 200 ömsesidiga meddelanden (en inte helt osannolik situation för den som följt sociala medier). Men det innebär inte att journalisten som skrivit artikeln har blivit kallad idiot 200 gånger.

Precis som i fallet med Kit sker här en förväxling till fördel för den tolkningen som tycks vara närvarande i journalistens huvud snarare än i den data som analyseras. I det här fallet har ”blockerade kommentarer” blivit ”kommentarer som trakasserar journalister”.

Och det är fel.

Big data kan på detta sätt användas för att ge mycket exakta svar på frågor ingen har ställt. Med det menar jag att det inte är ursprungsfrågorna som människor funderar över som faktiskt ställs till datan, utan man ställer frågor som låter sig besvaras med hjälp av datan, och tolkar sedan det som ett svar på den ursprungliga frågan. Men det är fusk, eller till och med påhitt skulle jag vilja säga.

Journalistik kontra vetenskap

I forskarspråk pratar man om validitet. I båda exemplen ovan handlar det om att den teoretiska definitionen (hat och hot mot flyktingar respektive journalister) bör stämma överens med den operationella definitionen (det som faktiskt mäts). Här konstruerar journalisterna implicit både en teoretisk definition genom att prata om hat (och dylikt) samt en operationell definition genom mätandet, men det sker ingen större ansträngning att förena dem. I stället antas de vara förenade.

I värsta fall används data bara för att bekräfta journalisternas fördomar om verkligheten. Man kan tro att journalister är utsatta för hat och att antalet kommentarer är det objektiva beviset. Men det vore ingen analys, utan bara en form av cirkelbevis som döljs i pratet om hur stor datamängden är.

”Men vi gör inte anspråk på att vara vetenskapliga!” är en invändning från journalister.

Det är sant, det är viktigt att inte förväxla journalistik med vetenskap. Men när journalister förlitar sig allt mer på stora datamängder som de själva samlar in och analyserar ställer det krav på att analysen genomförs på ett korrekt sätt för att de ska kunna dra giltiga slutsatser. Det är det logik handlar om, att dra slutsatser från påståenden. Att logik används inom vetenskapen innebär inte att det är förbehållet vetenskapen eller ens att det endast bör förekomma där. Snarare tvärtom. Det är inte så att frasen ”vi håller inte på med vetenskap” är ett frikort till att dra slutsatser som inte låter sig dras från de metoder som används. Det vore absurt att hävda att 1+1=3 för att jag inte gör anspråk på att vara matematiker.

Men det tycker tydligen inte Guardian som skriver ”Even allowing for human error, the large number of comments in this data set gave us confidence in the results.” Med andra ord, även om Guardian gör fel så innebär antalet kommentarer att Guardian är säkra på sitt resultat.

Det tycks, i mina ögon, vara en övertro på stora datamängder kan ge oss en särskild insikt som små datamängder inte kan ge oss, och att problem enkelt försvinner med ökad storlek. Men det är viktigt att skilja mellan slumpmässiga fel som uppstår lite här och var (som namnet antyder) och mellan systematiska fel som uppstår med en viss regelbundenhet. Den stora datamängden kan hjälpa till att minimera slumpmässiga fel (jämför centrala gränsvärdessatsen). Men stora datamängder minimerar aldrig systematiska fel. De systematiska felen kvarstår oberoende av storleken på datamängden av det enkla skälet att de inte har ett dugg med storleken att göra.

Designen av en studie och hur insamlingen av data går till är ofta mycket viktigare än storleken på det insamlade materialet. Ett exempel är randomiserat kontrollexperiment som kan generera så lite som 50 datapunkter, men ändå ge betydligt högre säkerhet i vad som är orsak och verkan på grund av sin design. En analys med väldigt stor osäkerhet blir inte automatiskt säkerställd (i valfri mening av begreppet) bara för att det råkar vara många nollor efter de första siffrorna.

Slutsats

Sluta tro att storleken på en datamängd är något speciellt.

Det är teori, design och analys som är det viktigaste. Gör man dessa slapphänt blir också slutsatsen slapphänt.

Det är vanskligt att se data som objektiv fakta, och mer data som mer objektivt ur vilken man sedan letar efter en slutsats man har bestämt på förhand. Det kan bäst beskrivas som en irrationell tilltro till förklaringskraften hos mängden data, snarare än tillvägagångssättet datan införskaffades eller analyserades.

Forskare gör många gånger fel trots rigorös sakkunniggranskning. Nu när journalister, i värsta fall utan adekvat förståelse för metodens möjligheter och begränsningar, tar sig an uppgifter som många gånger är typiska forskningsuppgifter riskerar det att förstora upp triviala småproblem som lätt hade kunnat undvikas.

Det är dessutom ett vanligt tankefel att se sin egen grupp utsatt för hot liksom att man letar efter sådant som stödjer den egna ståndpunkten. Journalister är på inga sätt undantagna från sådana tankefel, och den lilla genomgång jag har gjort här med dessa två exempel kan vara ett sätt att se vilken slags bias journalisterna har. Med andra ord, om journalisterna redovisar hur de har gått tillväga går det att se vad för slags frågor metoden kan ge svar på och därmed också hur journalisterna lägger till sina egna tolkningar till resultaten.

Och kanske mer viktigt att påpeka, att säga journalisterna har hanterat metoden på ett felaktigt sätt innebär därmed inte att hot inte förekommer mot vare sig journalister eller flyktingar. Det är nämligen också en fallasi.

För att läsa om hot mot svenska journalister rekommenderar jag Journalism Under Threat av Monica Löfgren Nilsson och Henrik Örnebring.