Medier

SVT Rapports Y-axel som inte slutade växa (covid-19)

SVT Rapport har under flera månader låtit sin Y-axel växa så att dödstalen ser mindre och mindre ut. Medan TV4 säger sig ha gjort ett misstag, kommer SVT fortsätta som tidigare.

Under ett par år har jag hållit en föreläsning om hur man kan luras med statistik. I föreläsningen pratar jag bland annat om hur olika axlar på diagram kan ändra vår uppfattning av det budskap som kommuniceras.

Titta exempelvis på bilden nedan, som visar samma data i alla diagram, men där värdet på Y-axeln förändras. I diagrammet till höger ser det ut som att kurvan inte pekar lika mycket uppåt som de andra två diagrammen.

Ställer man dessa diagram sida vid sida är det uppenbart att de ger olika intryck. Däremot kan det vara svårt att upptäcka den här typen av grafer när man inte har något att jämföra med. Eller när diagrammen förändras över tid.

På Twitter hade några uppmärksammat att SVT Rapport sakta ökade Y-axeln över tid, så att kurvan över antalet döda med covid-19 ser plattare och plattare ut. För att bekräfta detta passade jag på att göra ett liknande diagram med dödstalen för covid-19. Dessvärre är det bara tre bildrutor från några slumpmässigt utvalda sändningar.

För att få lite mer substans än bara tre bildrutor passade jag därför på att i stället försöka plocka ut alla diagram och sätta ihop dem till ett videoklipp som du kan se nedan.

Diagram med dödstal

I videoklippet nedan ser du alla diagram som SVT Rapport visat om dödstalen covid-19 från 29 maj 2020 till 11 februari 2021. Notera särskilt hur Y-axeln (den vertikala axeln) förändras från 120, 200, 250, 300 och slutligen till 400.

Varför ökar Y-axeln på detta vis?

Flera personer har kontaktat SVT och frågat varför Y-axeln förändrats som den gör.

En representant för SVT menade att det är flera som gör nyhetsgrafiken och att det mycket väl skulle kunna vara tvärtom vissa dagar (det vill säga, att Y-axeln minskar), och att det beror på vilka exempel man väljer att plocka ut. Av videon ovan att döma verkar så inte vara fallet.

Andra som frågat SVT har fått svaret att SVT helt enkelt kopierat Folkhälsomyndighetens grafer (och formaterat dem efter sin egen grafiska profil), men att Folkhälsomyndighetens grafer även visar det faktiska antalet dödsfall per dag som är högre (och inte som i videon ovan från SVT, som har ett glidande medelvärde). SVT säger att:

Vi vill inte göra egna grafer då det mycket lätt blir fel. Att fylla i varje enskild dags stapel i ljust grått är ett mycket stort jobb och tillför ganska lite då det är utvecklingen vi vill visa på.
Vi kommer därför fortsätta som nu [och] får bemöta kritiken med sakliga argument.

Man kan hålla med SVT om vikten av att minska risken för att det blir fel, liksom att undvika merjobb. Men i andra vågskålen har vi Sveriges största nyhetsprogram som hellre presenterar missvisande diagram än lägger tid på att anpassa dem för det innehåll de ska kommunicera. De säger heller inte att det är ett medelvärde de presenterar.

Men nu finns det även en tredje förklaring! Folkhälsomyndigheten har ställt sig frågande inför SVT:s uppgifter och när SVT dubbelkollar visar det sig att det faktiskt är SVT:s egna diagram, men att det är datajournalisterna som tagit fram den för webben (och Rapport sedermera bara plockat bort de överflödiga uppgifterna från diagrammet). SVT vill dock inte ändra detta diagram på grund av resursskäl:

Att vi inte bett våra datajournalister om en egen graf till Rapport beror på hur vi prioriterar våra resurser. Våra datajournalister arbetar med mängder av olika projekt och prioriterar de arbetsuppgifter som är viktigast och mest intressanta journalistiskt. Att producera en egen graf till Rapport är helt enkelt inte prioriterat även om det vore välkommet.  

Ett förslag till SVT: i stället för att göra diagram över smittspridningen i USA:s delstater och andra länders smittspridning till webben, lägg lite av de resurserna på att göra ett (1) diagram av Sverige som är mindre missvisande, som sedan kan visas i SVT Rapport.

TV4 visade ett snarlikt diagram om utvecklingen av konstaterade fall med covid-19 där Y-skalan också hade förstorats. De meddelade att det var ett misstag som inte ska upprepas.

Metod

Diagrammen identifierades med hjälp av ett neuralt nätverk tränat av Johan Strömbom, som kontaktade mig på Twitter och delade koden med mig. Han tränade modellen på några dagsaktuella inslag av SVT Rapport. Därefter körde jag programmet på alla SVT Rapports sändningar under pandemin från och med mars 2020. Programmet gick igenom alla sändningar, bildruta för bildruta, för att identifiera om det fanns ett diagram. När programmet stötte på ett diagram spottade det ut stillbilderna, och dessa bilder lät jag sedan strömma genom FFmpeg för att skapa videoklippet.

Fördelen med den här metoden är att den är helt automatiserad och har förmågan att själv plocka ut alla diagram. SVT Rapport (och SVT mer generellt) har i hög grad standardiserad grafik som ser i mångt och mycket likadan ut år efter år, vilket gör det till en relativt enkel uppgift (men notera ändå de subtila skillnaderna i diagrammen över tid, vilket indikerar att de inte helt och hållet återanvänds från en tid till en annan!). Sannolikheten att denna klassificerare missar några diagram är därför väldigt låg, även om sannolikheten aldrig är noll (klassificeraren kunde exempelvis inte identifiera diagram med perspektivförskjutning som dök upp häromdagen).

Läs mer

Uppdaterat 5 mars: Det här inlägget uppdaterades med nya uppgifter om att det faktiskt var SVT som gjorde grafen, inte Folkhälsomyndigheten som SVT påstod.

Kan-journalistik: nyheter om saker som kan hända

Krispanikskräck

Journalisterna har inte mycket makt, men de har ändå en specifik och mycket viktig makt, nämligen att skapa moralpanik. Åtminstone om man frågar Eric Louw, som i boken The Media and Political Process (s. 73f) skriver:

journalists do not have the power to make policy or allocate resources, but they can (in certain circumstances) undermine those with such power. Hence, journalists have (sometimes) the power to frighten politicians and to mobilize ’moral panics’ and ’groundswells of hostility’ to policies.

Historien ”X påverkade Y” är förstås mer intressant än ”X påverkade inte Y”.  Men ibland räcker verkligheten inte till för att skapa sådana rubriker, och då finns det andra sätt att skapa moralpanik.

Har man inget konkret exempel att komma med kan man alltid använda vinkeln ”X kan påverka Y”.

Har man fortfarande inget att komma med kan man med fördel använda ”det kan inte uteslutas att X kommer påverka Y”.

Här bör man därmed förhålla sig kritisk. Varför inte ställa följdfrågan ”när kunde detta uteslutas senast?”. Om svaret är att man sällan eller aldrig kan utesluta något gör man sig snarare skyldig till att appellera till okunnigheten och flytta bevisbördan till de som påstår att något inte sker, snarare än att presentera belägg för att detta något faktiskt sker.

MSB kan inte utesluta utländsk påverkan på valet – ”vi står inför en stor utmaning”

Thomas Mattsson, chefredaktör för Expressen, sa i en intervju i P1 Medierna under 2014 apropå användet av ordet kan när tidningen skrev om försvunna planet flight MH370:

Det är väl en bra formulering som tydliggör för publiken att det här är inte något vi vet, utan det här är något som man kanske utreder eller en teori som myndigheterna har. Men det är inget fakta som vi kan slå fast.

Denna kan-journalistik, där man inte berättar vad som faktiskt har hänt eller sannolikt kommer hända, utan vad som logiskt sett kan hända, innebär att man har en oändlig källa att ösa nyheter från. Det är bara fantasin som sätter gränserna om vilka saker som ännu inte har uteslutits eller vilka konsekvenser det kan tänkas få. Den verkliga konsekvensen kan (notera kan här!) många gånger i stället bli, som Louw uttrycker det, att en moralpanik skapas.

Men när allt kommer till kritan, hur många saker kan du komma på som verkligen kan uteslutas i framtiden?

Överdrivna påståenden om Cambridge Analytica

Cambridge Analytica är ett företag som samlat in över 5 000 datapunkter på över 220 miljoner amerikanska Facebookanvändare. Det var så de lyckades få det republikanska partiet att vinna presidentvalet i USA under slutet av 2016.  Titta bara på videon nedan. Big data kan förutsäga beteende in i minsta detalj.

Det är så det låter ibland, åtminstone. Men beläggen för påståendena har till viss del lyst med sin frånvaro, och de som har kommit med påståendet har varit företaget själva, som finansieras av bland annat av en republikansk investerare.

I en intervju kallad Google Post-Election Review säger exempelvis Matt Oczkowski, produktchef för Cambridge Analytica:

we actually didn’t do any psychographics with the Trump campaign

Men det var ju så Trump vann valet? Analys av sociala medier och riktade budskap? En artikel vid New York Times ifrågasätter påståendet från Cambridge Analytica att de hade ett 50-tal kunder under 2016, en uppgift som har skiftat över tid och enligt officiella register var betydligt färre:

Cambridge executives now concede that the company never used psychographics in the Trump campaign. The technology — prominently featured in the firm’s sales materials and in media reports that cast Cambridge as a master of the dark campaign arts — remains unproved, according to former employees and Republicans familiar with the firm’s work.

Cambridge Analytica arbetade först för Ted Cruz. Han slogs ut under valkampanjen. Företaget började då arbeta för Trump. Så i stället för att Cambridge Analytica skapade förutsättningarna för en republikansk seger skulle man mycket väl kunna hävda att kausaliteten var omvänd: Cambridge Analytica följde de bästa förutsättningarna för en republikansk seger. Det är därför inte speciellt konstigt om det vinnande laget använder deras produkter om man får byta häst mitt under pågående lopp. Då kan det vara bra att reflektera kring survivorship bias.

De överdrivna påståendena om Cambridge Analytica var dock inte negativt för företaget, tvärtom. De fick finansiärer och det var också deras huvudfokus. Från Matt Oczkowski och Google Post-Election Review igen:

the emphasis was always on fundraising

Cambridge Analytica använde NLP och sentimentanalys (men inte psykografisk analys), vilket på sätt och vis är ganska triviala saker i jämförelse. Som brukligt är det inhämtandet av data och att få det i rätt format som är det svåra och som tar tid.

Cambridge Analytica verkar vara den vanliga historien. Grandiosa påståenden följt av massmedier som okritiskt rapporterar vidare. Om man befinner sig i ett kunskapsvakuum och inte vet varför någonting händer, och det finns någon som kommer med en inte allt för otrolig historia, är det lätt att acceptera den förklaringen utan att först grundligt kontrollera både sannolikheten i förklaringen liksom alternativa förklaringar. Då kan man skapa feedbackloopar och självuppfyllande profetior, där uppfattningen om ett problem leder till att problemet ifråga också uppstår.

Därför kan påverkanskampanjer spelas upp inför öppen ridå samtidigt som man kliar sig i huvudet och undrar vad för slags osynlig kraft det är som orkestrerat kampanjen. Då kan det vara lättare att tolka in en aktör med ett syfte snarare än resultatet av flera stokastiska processer. Slutsatsen kan väl för enkelhetens skull vara att det inte är lätt att vara människa alla gånger…

Uppdaterat 17 mars 2018: En tidigare anställd säger att de mycket väl använde Facebookdata. Se videon Cambridge Analytica whistleblower: ’We spent $1m harvesting millions of Facebook profiles’ hos The Guardian samt relaterade nyheter på sidan.

Har nazister rätt att demonstrera? Två experter säger nej, två andra ja. Vem ska man lita på?

Henry Ascher är professor och säger i artikeln Nazism är ett brott – inte en åsikt att nazism är brott mot de mänskliga rättigheterna och sakfrågan därmed är enkel, det är ett brott mot de mänskliga rättigheterna att ens låta nazister få demonstrera:

Att förvägra eller begränsa andra människors mänskliga rättigheter innebär alltså ett brott mot mänskliga rättigheter. Det är just detta som är kärnan i nazismen och högerextremismen. Därför bryter Bokmässans och Polisens beslut mot de mänskliga rättigheterna. Både i teorin och i praktiken.

En annan professor, Stefan Jonsson, säger också samma sak i artikeln Experter: Redan stöd att stoppa nazisterna:

Det finns redan idag stöd i lagen för att stoppa nazisterna och deras demonstrationer, anser en rad experter.
– Polisen är okunniga och principlösa och framstår som rent ryggradslösa, säger professor Stefan Jonsson.

Men det finns de som inte håller med.

Mårten Schultz, också professor, säger motsatsen i tv-inslaget Därför går det inte att stoppa nazistdemonstrationer.

I en annan artikel, Experterna svarar: Därför får nazisterna marschera, säger professor Eva-Maria Svensson följande:

Varför får nazister marschera?

– Demonstationsfriheten är långtgående. Man kan inte stoppa någon från att demonstrera bara för att de har en speciell åsikt, säger Eva-Maria Svensson.

Så inte ens experterna kan komma överens om nazister får demonstrera eller inte. Två experter säger ja, två andra experter säger nej.

Just det ja, jag glömde säga att Henry Ascher är professor i folkhälsovetenskap och barnöverläkare, medan Stefan Jonsson är professor i etnicitet. Eva-Maria Svensson är professor i rättsvetenskap, medan Mårten Schultz är professor i civilrätt.

Jag låter er läsare avgöra vem som är mest lämpad att uttala sig om juridiken i Sverige.

De snabbast växande orden i två miljoner nyhetsrubriker under tre år

Vilka ord har ökat och minskat i bruk bland drygt två miljoner nyhetsrubriker från 2014 till 2017? I den här analysen har jag tagit nyhetsrubriker som är insamlade från början av 2014 till och med juni 2017 för att se vilka ord som förekommit mest och vilka som har snabbast ökat i popularitet.

Vilka ord har ökat mest på kortast tid? Kanske inte så förvånande är Donald Trump väldigt omskriven, precis som på Twitter. Lika lite förvånande är det ett väldigt fokus på USA och Storbritannien.

Men intressant nog verkar också vanlig lokal nyhetsvärdering öka relativt mycket, apropå ”trafikolycka” och ”singelolycka”.

Se också de snabbast sjunkande orden.

Tittar man på de ord som ökade mest under 2015 så är det ”flyktingar”, vilket jag satt i relation till ”migrationer” respektive ”nyanlända”. Av grafen att döma verkar de svenska medierna nästan unisont börja skriva om flyktingar vid samma tillfälle, därav den vertikala ökningen av texter.

De här graferna har jag mest gjort för skojs skull, men jag tänker mig att denna typ av analyser kan vara en förhållandevis enkel början till att forska om agenda-sättning. Över lång tid ger de här analyserna väldigt intressant information jämfört med de korta nedslag som ofta görs i forskningen.

Mer intressant, tror jag, är att de också också kan användas för att identifiera var man bör starta sin undersökning (eftersom de är helt induktiva), snarare än att hipp som happ sätta upp sitt blöta finger i luften för att mäta vart vinden blåser.

Den fullständiga analysen har jag som vanligt lagt upp på GitHub där du hittar både källkod och länkar till datan som du kan ladda ned. Kom gärna med förslag på hur det kan göras annorlunda.

Fler analyser

Här är några andra analyser jag gjort i R med framför allt öppna data:

Big data i medieforskning

Att bara analysera rubriker går bra på en vanlig laptop. Det var inga svårigheter att ladda in en miljon rubriker i minnet. Vid två miljoner rubriker började datorn gå på knäna. R tog 11 gigabyte i anspråk för att köra unnest_tokens för att skapa en vektor på drygt 5,1 miljoner ord mappat till nyhetsrubrikerna.

Framöver behövs mer datorkraft för analyser av hela brödtexten, kanske med hjälp av Apache Spark som jag använt tidigare. Dock ska jag testa om bigmemory i R kan fungera eftersom den, vad jag förstår, genomför analysen på disken snarare än i minnet. Det går lite långsammare, men om man sysslar med forskning så är allt redan långsamt.

RMarkdown

Dokumenten i listan med länkarna ovan är gjorda med hjälp av RMarkdown, ett sätt att blanda källkod i valfritt språk, bilder, text och… tja, allt man kan tänka sig. Även om RMarkdown är skapat för språket R fungerar även andra språk och jag har exempelvis skrivit Python-kod i RMarkdown som jag använde som presentation under en lektion i web scraping. Det går med andra ord utmärkt att exportera till Powerpoint, Word, hemsidor eller PDF.

Det är ett behändigt sätt att paketera sina analyser. Steget från källkod till presentation blir minimalt, och det är också varför den brittiska regeringen valt att satsa på RMarkdown.

Jag tror detta kommer bli vanligare i framtiden. I stället för att presentera ett begränsat antal analyser på ett lika begränsat antal sidor så kan man dokumentera hela sin process för att låta andra upptäcka hur tankeprocessen har gått till, och även se resultat man kanske borde följa upp. Detta kan sedan bifogas till artikeln i ett appendix så att man kan se diagram och källkod tillsammans.

Frågan är vilken tidskrift som blir först med kräva att analyserna i Markdown bifogas till varje artikel? Stata 15 har ju också kommit ut med Markdown så R är ju knappast något krav längre.

Läser journalister källorna de hänvisar till?

Viskleken har nog de flesta hört talas om. En person säger något till en andra person, som i sin tur säger det till en tredje, och så vidare. Poängen är att informationen bitvis förändras på vägen.

I journalistiken (och i forskningen också, faktiskt) förekommer också visklekar. Man kollar helt enkelt inte upp källorna, utan accepterar slutsatsen någon annan har skrivit (och kanske inte ens förstått), för att sedan föra vidare slutsatsen ifråga. Här följer ett exempel.

Sveriges Radio Medieormen skriver så här:

New York Times har uppmärksammat fenomenet i en artikel om hur Googles algoritmer, oavsiktligt får man hoppas, har börjat diskriminera. Som exempel anger man en studie som visar att Googles platsannonser för högbetalda jobb oftare riktas mot män än mot kvinnor.

Följer man länken till New York Times kan man läsa detta:

Google’s online advertising system, for instance, showed an ad for high-income jobs to men much more often than it showed the ad to women, a new study by Carnegie Mellon University researchers found.

Klickar man sedan vidare till studien kan man läsa detta:

We cannot determine who caused these findings due to our limited visibility into the ad ecosystem, which includes Google, advertisers, websites, and users.

Så efter två klick kan man konstatera att originalpåståendet (”Googles algoritmer har börjat diskriminera”) inte hade mycket substans (”We cannot determine who caused these findings”). Även forskare har misstagit sig på samma punkt.

Det är väldigt positivt att massmedierna länkar till sina källor. Det gör deras arbete mer transparent och felaktigheter kan lättare upptäckas. För i ärlighetens namn är dessa fel inte förbehållet journalister. Forskare citerar också på samma sätt emellanåt, det vill säga till andrahandskällor utan att kontrollera originalkällorna. Den omvända praktiken förekommer också, att originalkällor citeras medan fullständiga vederläggningar av dessa källor inte alls citeras.

Fördelen inom akademin är dock att referenssystem både är standardiserade och nödvändiga. Därmed är också missuppfattningar i grunden demonstrerbara. Det finns inget värre än att läsa ”en studie har visat att”, vilket omedelbart skapar frågor. Vilken studie? När? Vem? Var? Hur?

I dag fick jag frågan varför så många tror att filterbubblor existerar trots att forskningen visar att de sällan gör det. Kanske kan viskleken vara en av förklaringarna. Om vi börjar med slutsatsen kan vi enkelt viska oss fram till vad som helst.

Fler exempel

”Fyra av fem kan inte skilja journalistik från sponsrat innehåll”

En ny studie visar att unga är dåliga på källkritik. Men vänta? Studien existerar inte ens, utan består av några krönikor och sammanfattningar där forskare presenterar sina reaktioner. Ändå rapporterar journalister om studien. Var är källkritiken om bristande källkritik?

Jag intervjuades av P1 Medierna för någon vecka sedan om filterbubblor och ekokammare och fick bland annat frågan om varför journalister tror på filterbubblor och ekokammare trots att forskningsläget säger att det inte är ett speciellt stort problem i nuläget.

Jag har egentligen ingen aning (eftersom jag inte kan läsa tankar), men man kan åtminstone spekulera i att det bekräftar journalisternas uppfattning och att det har skrivits om det mycket under oktober och november. Det publicerades exempelvis betydligt fler artiklar om fejknyheter under dessa månader både i tryckt svenskt press och på den svenska webben, i förhållande till tidigare månader.

Fejknyheter är helt enkelt på tapeten, och källkritik är därför relevant just nu. Så när det kommer en studie som bekräftar bilden av att unga är dåliga på källkritik, då är det förmodligen enkelt att tro att studien är någonting på spåren.

Så här skriver P1 Medierna på sin hemsida nu:

Fyra av fem unga amerikaner kan inte skilja sponsrat innehåll från journalistik. Det visar Stanford-universitetet i en av de största studierna av frågan hittills. Nästan 8 000 elever och studenter, från högstadiet till universitetsnivå, har svarat på frågor om hur de värderar information. Och på många frågor hade de svårt skilja mellan till exempel PR och journalistik.

Nej, det visar studien inte alls.

Det finns inte ens någon studie. Det finns bara en executive summary. Det betyder inte att resultatet är fel, utan att det över huvud taget inte går att bedöma resultatet eller studiens kvalitet. Än, åtminstone. Men vi kan däremot titta på det som hittills är känt.

Så här står det i executive summary, på sidan 23:

We piloted several drafs of this task with 350 middle school students. We completed final piloting with 203 middle school students. Results indicated that students were able to identify traditional news stories and traditional advertisements: more than three-quarters of the students correctly identifed the traditional advertisement and the news story. Unfortunately, native advertising proved vexing for the vast majority of students. More than 80% of students believed that the native advertisement, identifed by the words “sponsored content,” was a real news story.

Och så här säger pressmeddelandet från Stanford:

But of the 203 students surveyed, more than 80 percent believed a native ad, identified with the words ”sponsored content,” was a real news story.

Så det är minst 162 elever av totalt 203 elever som inte kan skilja mellan sponsrat innehåll och journalistik. Det är knappast ett slumpmässigt urval av unga amerikaner, och det är inte de 8 000 eleverna som det förefaller i P1 Mediernas ingress. Det går därför inte uttala sig om ”fyra av fem unga amerikaner” (det vill säga 80 procent).

Vidare står det på sidan 2 i executive summary:

Between January 2015 and June 2016, we administered 56 tasks to students across 12 states. In total, we collected and analyzed 7,804 student responses.

Det betyder att 56 uppgifter genomfördes av totalt 7 804 elever och studenter. Det var alltså inte 7 804 elever som genomförde 56 uppgifter, vilket man kanske kan tro.

Inte ens Wikipedia, som rapporterat om studien under artikeln Fake news website, ger speciellt informativ beskrivning av resultatet (mina fetmarkeringar):

Education and history professor Sam Wineburg of the Stanford Graduate School of Education at Stanford University and colleague Sarah McGrew authored a 2016 study which analyzed students’ ability to discern fraudulent news from factual reporting.[69][70] The study took place over a year-long period of time, and involved a sample size of over 7,800 responses from university, secondary and middle school students in 12 states within the United States.[69][70] The researchers were ”shocked” at the ”stunning and dismaying consistency” with which students thought fraudulent news reports were factual in nature.[69][70] The authors concluded the solution was to educate consumers of media on the Internet to themselves behave like fact-checkers — and actively question the veracity of all sources they encounter online.[69][70]

Vem bryr sig om forskarnas reaktioner? Det viktiga för en encyklopedi borde väl vara resultatet av studien, inte vilka känslor forskarna visade under tiden. Vi får faktiskt inte veta något substantiellt över huvud taget från Wikipedia.

Det finns alltså inga spår av den här studien. Bara pressmeddelande från Stanford och en executive summary. De enda publikationerna som forskarna visar på projektets hemsida är en krönika i Education Week!

Däremot finns det mängder med nyhetsartiklar som rapporterar kring studien, här är några av dem:

Vad är detta?!

Det finns inget underlag för att göra bedömningar av studien över huvud taget. Som det ser ut nu är denna studien ett skämt av det enkla skälet att det inte finns någon studie att bedöma, och executive summary visar verkligen ingenting av värde. Men jag kan ha fel, och då tar jag tacksamt emot rättelser i kommentarsfältet.

Varför Stanford lyfter fram studien i ett pressmeddelande är också märkligt. Varför någon journalist publicerar den är ytterligare ett frågetecken för mig. Det blir extra pinsamt när en studie om bristande källkritik bland unga inte källgranskas av de journalister som rapporterar om den.

Uppdaterat

Jag hann knappt sova ett par timmar efter att jag skrivit denna text innan P1 Medierna hade korrigerat sin text på hemsidan:

Fyra av fem unga amerikaner kan inte skilja sponsrat innehåll från journalistik. Det rapporterar Wall Street Journal utifrån en ännu opublicerad studie från Stanford-universitetet. Resultatet baserar sig på en liten delstudie med 200 elever i hela Stanfords projekt, som totalt berört nästan 8 000 elever och studenter, från högstadiet till universitetsnivå. Innan hela studien publicerats är det svårt att bedöma bärigheten i resultaten.
OBS: Denna notis är uppdaterad. En tidigare version kritiserades av medieforskaren Peter M Dahlgren.

Föredömligt som vanligt av journalisterna bakom P1 Medierna.

Uppmaning till journalister att sansa er förtjusning för big data

I min tidigare artikel om Big data: hur man mäter exakt fel beskrev jag problemet med att ge avkall på sitt kritiska tänkande eftersom datamängden är så pass stor att blotta storleken på något magiskt vis gör att problem försvinner. I synnerhet när det gäller data som handlar om människor och deras sociala relationer.

I denna artikel tänker jag fortsätta på den linjen och ge två exempel där journalister har en förutbestämd tolkning de lägger till datan, snarare än att de hämtar tolkningen från datan. De två olika tillvägagångssätten kan kanske bäst sammanfattas med teckningen nedan. För den som inte känner till så är kreationism tron att Gud skapade världen.

Big data och tolkning

The scientific method: Here are the facts. What conclusions can we draw from them?
The creationist method: Here’s the conclusion. Whats facts can we find to support it?

Exempel 1. Kit analyserar den hatiska flyktingopinionen

Den relativt nystartade nyhetssajten Kit skriver i artikeln Så sprids flyktinhatet på nätet exakt hur omfattande hatet (och även rädslan) mot just flyktingar är. Nedan följer ingressen samt det inledande stycket från nyhetssajten.

Så sprids flyktinghatet

Man kan fråga sig hur denna analys har gått till, och Kit är vänliga med att presentera den för oss (med mina fetmarkeringar):

Allt som publiceras öppet på nätet i en viss fråga sparas och blir sökbart. Inläggen klassificeras utifrån vilka ord som förekommer i samband med det tema som analyseras. När det gäller ”flyktingar” är det alltså inlägg i flyktingfrågan som räknas, så hatet behöver inte vara riktat mot flyktingar, det kan även vara riktat mot exempelvis politiker som fattat beslut i flyktingfrågan. För varje tonalitet finns några tusen ord. När det gäller hat är det ord som ”avsky”, ”hata”, ”förakta”, ”föröda”, ”bua”, ”pervertera” osv.
Inlägg klassas som positiva när det förekommer ord som ”bra”, ”cool”, ”snygg”, ”najs” Även olika typer av smileys räknas.

Metoden tillåter alltså att man mäter hur ofta två typer av ord förekommer tillsammans, då företrädesvis flyktingar och hatiska ord. Det har Kit sedan valt att tolka som att det är hat riktat mot flyktingar. Det finns dock ingenting i metoden som tillåter den tolkningen, eftersom en fras som ”jag hatar politiker som inte hjälper flyktingar” är riktat mot politiker till stöd för flyktingar.

En metod medger vissa tolkningar men inte andra. Det är så med alla metoder och det är därför vi måste ha flera metoder som fungerar som ett lapptäcke och i den bästa av världar ger ett samstämmigt resultat. För att kunna dra slutsatser från en analys av detta slag måste man därför ha kunskaper vad en metod faktiskt kan göra (och kanske mer viktigt, vad den inte kan göra) för att kunna berättiga en slutsats. I det här fallet har Kit ignorerat begränsningarna genom att göra om ett samband mellan ord till ett orsakssamband som ska tolkas på ett specifikt vis. Enkelt uttryckt har ”hat och flyktingar” blivit ”hat mot flyktingar”.

Det tycks dock ligga någon sorts vinst i att det åtminstone går att mäta detta hat exakt eftersom Kit menar att de nu kan visa ”exakt hur omfattande det är”. Men det är mer sannolikt ett exakt mått på fördomen som journalisten hade i huvudet när datan analyserades.

För den som är intresserad av den här frågan kan jag hänvisa till en diskussion på Twitter jag hade med journalisten ifråga. Mina frågor om huruvida metoden tillåter denna slutsats besvaras dock inte (förmodligen på grund av att vi inte förstod varandra, en inte helt ovanlig situation på Twitter).

Exempel 2. Guardian analyserar 70 miljoner kommentarer

Ett annat exempel kommer från den brittiska tidningen The Guardian, som för en tid sedan publicerade The dark side of Guardian comments. Tidningen analyserade 70 miljoner kommentarer på sin nyhetssajt sedan 2006 och kom fram till att artiklar som är skrivna av kvinnor innehöll fler blockerade kommentarer än de som var skrivna av män. Blockerade kommentarer raderades alltså inte, utan doldes bara för visning eftersom de bröt mot tidningens regler. De raderade dock kommentarer som innehöll spam och dylikt.

Det mest intressanta är förmodligen det tredje diagrammet i artikeln, som visar vilka journalister (män eller kvinnor) som fått flest kommentarer blockerade till sina artiklar. Diagrammet visar att upp till 2,6 procent av kommentarerna har blockerats från artiklar skrivna av kvinnor (vilket också är uppdelat per sektion). Motsvarande siffra för män är 1 procent. Skillnaden mellan könen är maximalt 3 procentenheter och återfinns år 2013. (Detta är en uppskattning eftersom jag mätt pixlarna i de färgade linjerna i diagrammet där 60 pixlar motsvarar ungefär 1 procentenhet.)

The Guardian kommentarer

Detta är ett intressant fynd även om det inte är speciellt stor skillnad. Men det är viktigt att ha i åtanke att detta bara är ett samband mellan journalistens kön med kommentarer som blockerats. Samband betyder inte orsakssamband. Vi vet därför inte varför sambandet ser ut som det gör.

Vi vet heller inte vad det är för slags kommentar som blockerats. Guardian ger inte speciellt ingående analys av vad för slags kommentarer det handlar om. Jag har läst texten och sammanställt deras beskrivning i tabellen nedan:

Typ av kommentar som blockerats Andel av kommentarerna
legal small proportion
disruptive vast majority
– disruptive: threats extremely rare
– disruptive: dismissive trolling
– disruptive: author abuse significant proportion
hate speech rarely seen
xenophobia, racism, sexism and homophobia seen regularly
“whataboutery”
Totalt antal kommentarer: 70 miljoner

(Tomma rutor indikerar att Guardian inte skrev andelen eller frekvensen.)

Sammanfattningsvis finns det mellan 0-3 procentenheters skillnad mellan könen, och de största skillnaderna återfinns snarare mellan typ av ämne.

Detta hindrar dock inte Guardian från att dra följande slutsats: ”of the 10 most abused writers eight are women, and the two men are black” (återigen mina fetmarkeringar). Men Guardian är för ivriga att sätta ett likhetstecken mellan hat mot journalister och antalet blockerade kommentarer. Guardian har över huvud taget inte analyserat vad kommentarerna innehåller utan bara hur många kommentarer som blockerats från kvinnliga respektive manliga journalisters artiklar. Och det är en tämligen trivial räkneövning som inte säger speciellt mycket.

Guardians metod och källkod finns beskrivet på deras hemsida, där de också skriver att ”we took blocked comments as an indicator of abuse and/or disruption”. Det vill säga, om en kommentar har blockerats så räknas den som kritik mot journalisten oberoende vad den innehåller. Men de blockerade kommentarerna kan dock mycket väl vara riktade mot någon helt annan än journalisten. Till exempel kan två kommentatorer växelvis kalla varandra idioter genom 200 ömsesidiga meddelanden (en inte helt osannolik situation för den som följt sociala medier). Men det innebär inte att journalisten som skrivit artikeln har blivit kallad idiot 200 gånger.

Precis som i fallet med Kit sker här en förväxling till fördel för den tolkningen som tycks vara närvarande i journalistens huvud snarare än i den data som analyseras. I det här fallet har ”blockerade kommentarer” blivit ”kommentarer som trakasserar journalister”.

Och det är fel.

Big data kan på detta sätt användas för att ge mycket exakta svar på frågor ingen har ställt. Med det menar jag att det inte är ursprungsfrågorna som människor funderar över som faktiskt ställs till datan, utan man ställer frågor som låter sig besvaras med hjälp av datan, och tolkar sedan det som ett svar på den ursprungliga frågan. Men det är fusk, eller till och med påhitt skulle jag vilja säga.

Journalistik kontra vetenskap

I forskarspråk pratar man om validitet. I båda exemplen ovan handlar det om att den teoretiska definitionen (hat och hot mot flyktingar respektive journalister) bör stämma överens med den operationella definitionen (det som faktiskt mäts). Här konstruerar journalisterna implicit både en teoretisk definition genom att prata om hat (och dylikt) samt en operationell definition genom mätandet, men det sker ingen större ansträngning att förena dem. I stället antas de vara förenade.

I värsta fall används data bara för att bekräfta journalisternas fördomar om verkligheten. Man kan tro att journalister är utsatta för hat och att antalet kommentarer är det objektiva beviset. Men det vore ingen analys, utan bara en form av cirkelbevis som döljs i pratet om hur stor datamängden är.

”Men vi gör inte anspråk på att vara vetenskapliga!” är en invändning från journalister.

Det är sant, det är viktigt att inte förväxla journalistik med vetenskap. Men när journalister förlitar sig allt mer på stora datamängder som de själva samlar in och analyserar ställer det krav på att analysen genomförs på ett korrekt sätt för att de ska kunna dra giltiga slutsatser. Det är det logik handlar om, att dra slutsatser från påståenden. Att logik används inom vetenskapen innebär inte att det är förbehållet vetenskapen eller ens att det endast bör förekomma där. Snarare tvärtom. Det är inte så att frasen ”vi håller inte på med vetenskap” är ett frikort till att dra slutsatser som inte låter sig dras från de metoder som används. Det vore absurt att hävda att 1+1=3 för att jag inte gör anspråk på att vara matematiker.

Men det tycker tydligen inte Guardian som skriver ”Even allowing for human error, the large number of comments in this data set gave us confidence in the results.” Med andra ord, även om Guardian gör fel så innebär antalet kommentarer att Guardian är säkra på sitt resultat.

Det tycks, i mina ögon, vara en övertro på stora datamängder kan ge oss en särskild insikt som små datamängder inte kan ge oss, och att problem enkelt försvinner med ökad storlek. Men det är viktigt att skilja mellan slumpmässiga fel som uppstår lite här och var (som namnet antyder) och mellan systematiska fel som uppstår med en viss regelbundenhet. Den stora datamängden kan hjälpa till att minimera slumpmässiga fel (jämför centrala gränsvärdessatsen). Men stora datamängder minimerar aldrig systematiska fel. De systematiska felen kvarstår oberoende av storleken på datamängden av det enkla skälet att de inte har ett dugg med storleken att göra.

Designen av en studie och hur insamlingen av data går till är ofta mycket viktigare än storleken på det insamlade materialet. Ett exempel är randomiserat kontrollexperiment som kan generera så lite som 50 datapunkter, men ändå ge betydligt högre säkerhet i vad som är orsak och verkan på grund av sin design. En analys med väldigt stor osäkerhet blir inte automatiskt säkerställd (i valfri mening av begreppet) bara för att det råkar vara många nollor efter de första siffrorna.

Slutsats

Sluta tro att storleken på en datamängd är något speciellt.

Det är teori, design och analys som är det viktigaste. Gör man dessa slapphänt blir också slutsatsen slapphänt.

Det är vanskligt att se data som objektiv fakta, och mer data som mer objektivt ur vilken man sedan letar efter en slutsats man har bestämt på förhand. Det kan bäst beskrivas som en irrationell tilltro till förklaringskraften hos mängden data, snarare än tillvägagångssättet datan införskaffades eller analyserades.

Forskare gör många gånger fel trots rigorös sakkunniggranskning. Nu när journalister, i värsta fall utan adekvat förståelse för metodens möjligheter och begränsningar, tar sig an uppgifter som många gånger är typiska forskningsuppgifter riskerar det att förstora upp triviala småproblem som lätt hade kunnat undvikas.

Det är dessutom ett vanligt tankefel att se sin egen grupp utsatt för hot liksom att man letar efter sådant som stödjer den egna ståndpunkten. Journalister är på inga sätt undantagna från sådana tankefel, och den lilla genomgång jag har gjort här med dessa två exempel kan vara ett sätt att se vilken slags bias journalisterna har. Med andra ord, om journalisterna redovisar hur de har gått tillväga går det att se vad för slags frågor metoden kan ge svar på och därmed också hur journalisterna lägger till sina egna tolkningar till resultaten.

Och kanske mer viktigt att påpeka, att säga journalisterna har hanterat metoden på ett felaktigt sätt innebär därmed inte att hot inte förekommer mot vare sig journalister eller flyktingar. Det är nämligen också en fallasi.

För att läsa om hot mot svenska journalister rekommenderar jag Journalism Under Threat av Monica Löfgren Nilsson och Henrik Örnebring.

Detta är det äckligaste jag sett (speciellt bild 2) – Hyllat.se tar betesjournalistiken till Sverige

Betesjournalistik, eller länkbete, har länge varit ett kännetecken av kvällstidningar: Rubriker som lovar mer än vad de håller. På internet har det funnits länge, men däremot inte så många i Sverige. Därför är det kul att det numera finns en svensk blogg som jagar klick.

Ett par av mina vänner på Facebook och de jag följer på Twitter har oberoende av varandra länkat till hyllat.se. Domänen skapades redan 4 mars 2014 så den har inte varit aktiv mer än en knapp månad.

De har redan fler än 10 000 fans på Facebook så det har gått relativt snabbt för dem att skapa sig en följarskara. På Twitter är det dock bara 45 följare, men det är förmodligen inte så konstigt med tanke på att så få använder Twitter i förhållande till Facebook. Google+ är inte ens värt att nämna.

Vad är hemligheten?

Tittar man på deras Instagramkonto så blir det ganska tydligt att rubriker fyller en väldigt viktig funktion. Den ska inte bara skrivas, den ska finslipas in i minsta detalj.

Hyllat.se lägger ned mycket tid på sina rubriker

Det är förstås rubriker som lovar guld och gröna skogar, men som sällan når ända dit. Lite som att sälja sand i Sahara. Det brukar ofta kallas länkbete på internet, men det är egentligen inget nytt. Jag har sett detta på förstasidan av dagstidningar från början av 1900-talet där rubriken är väldigt subjektivt värderad och hårt vinklad, förvisso amerikanska tidningar.

Efter journalistikens professionalisering fasades den typen av rubriker ut mer och mer, men lever såklart vidare i kvällstidningarna. Att använda superlativ (bästa, sämsta, äckligaste, viktigaste etc) är något man bör undvika i journalistiska texter, men på nätet är det annorlunda.

Däremot är det få rubriker i kvällstidningar som är uttalat subjektiva, som exempelvis ”Detta är det värsta jag sett”. Professionaliseringen har gjort att journalisten står i bakgrunden och framför allt rapporterar fakta, inte sina egna värderingar. (Vilket såklart är en sanning med modifikation därför att urvalet av fakta speglar journalistikens värderingar, men det kan vi skippa här.)

På internet är den här typen av rubriker väldigt effektiva eftersom man kan mäta resultatet i realtid. En liten justering av rubriken och en ny placering är ibland allt som behöver göras för att artikeln ska återuppväckas från de döda. Lägg även till spridningen i sociala medier, som är personlig och värderande redan från början, och vi har en väldigt effektiv metod för spridning. Gödselspridning, skulle man kunna kalla det om man ville vara elak och nedvärdera metoden.

Vilka rubriker från Hyllat.se presterar bäst?

Jag lovade ju dessutom i min egen rubrik att visa det äckligaste jag har sett. Speciellt bild nummer två som kommer nu. Om du läst så här långt så förstår du förmodligen att superlativet bara var hittepå för att få dig att klicka vidare.

Klicka på diagrammet nedan så ser du vilka artiklar och rubriker som har presterat bäst. Det är en ganska imponerande bedrift att på mindre än en månad få en väldig snabb och och ”hög” spridning av artiklarna. Då väljer jag att medvetet inte tala om kvaliteten.

Den artikel som spridits mest har ungefär 128 000 gillningar, delningar och kommentarer på Facebook. Rubriken är ”De fem saker människor ångrar mest på dödsbädden”.

Delningar m.m. på Facebook för Hyllat.se

(Du kan också ladda ned datan i Excel-format om du själv vill undersöka det närmare.)

Som så mycket annat på nätet (och i resten av hela världen) så är det som sprids väldigt få. I detta fallet är det bara fem artiklar som sprids i 90-percentilen och två artiklar som sprids i 95-percentilen. Tittar man på forskningen inom journalistik och informationsspridning (vilket jag forskar om just nu) så är det ungefär så det ser ut. Det är bara ett fåtal av artiklarna som sprids vidare i någon nämnvärd omfattning, och ofta är det i ett begränsat antal ämnesområden.

Läs mer

Även Hans Kullin skriver om den här formen av journalistik, men då hur kvällstidningar och i synnerhet Expressen använder ”stjärnan” för att dölja vem artikeln handlar om. Allt för att vi ska bli nyfikna på vem det handlar om, och klicka vidare för att läsa.

Som en motreaktion har även speciella Twitterkonton dykt upp, som avslöjar vad artiklarna egentligen handlar om. För Huffington Post finns @HuffPoSpoilers och för flera svenska tidningar finns @Nyhetsspoilers. Följ dem gärna, för det är roligt att se hur rubriken är skriven och vad som egentligen döljer sig bakom den, utan att behöva läsa hela artikeln.

”Skicka dina okunniga åsikter till oss på medierna”

Så fungerar kommentarsfält på nätet.

Ju mindre information det finns för medierna att rapportera vid en speciell händelse, desto mer spekuleras det. Humorserien That Mitchell and Webb Look drar det hela ett steg längre.

Vad tycker du? Var vänlig och skriv hela din arsenal av oinformerade tyckanden i kommentarsfältet nedan.