Zamke u interpretiranju statističkih podataka

Zamke u interpretiranju i izvještavanju statističkih podataka

Zamke u interpretiranju statističkih podataka

Zloupotreba statistike ima ozbiljne posljedice pogotovo u vrijeme „post-istine“, „alternativnih činjenica“ i teorija zavjere.

Foto: Pixabay

Nauka 21. vijeka je velikim dijelom bazirana na podacima i statistici. Pravilno prikazivanje nauke u medijima je time nerazdvojivo od pravilne interpretacije i razumijevanja statistike. Postoje razne definicije statistike, ali sve su vezane za skupljanje, analizu i interpretaciju podataka. Cilj statistike je da kvantificira i rukovodi nesigurnosću i rizikom, i da pravi predikcije bazirane na prethodnim događajima. S obzirom na to da se budućnost naravno nikada ne može u potpunosti predvidjeti, statistika uvijek sadrži dozu nesigurnosti, a to ostavlja prostor za manipulaciju i zloupotrebu. Takva zloupotreba ima ozbiljne posljedice, pogotovo u vrijeme „post-istine“, „alternativnih činjenica“ i teorija zavjere.

Neki od načina na koji se statistikom može manipulisati su:

  • obmanjujuće vizualizacije,
  • brkanje korelacije i uzročnosti,
  • mali uzorci,
  • pristranost,
  • pregeneralizacija,
  • manipulacija terminima i definicijama,
  • poređenje neuporedivih termina,
  • pitanja koja navode na određeni odgovor,
  • manipulacija podacima, itd.

U ovom tekstu ćemo dati neke primjere ovih fenomena koja mogu služiti kao upozorenje i poziv novinarima da se pažljivije odnose prema matematici i statistici s kojom se susreću dok izvještavaju o nauci. Na kraju ćemo se i osvrnuti na neka pitanja koja bi novinarima trebala da pomognu dok razmišljaju o statistikama.

Obmanjujuće vizualizacije 1: Na ovom grafikonu izgleda kao da je kamatna stopa naglo narasla od 2008. do 2012. godine:

Međutim vertikalna osa pocinje od 3.140%, što nema smisla jer rata može biti i manja od te vrijednosti. Ako osa počne od nule, kako bi i trebalo, onda je grafikon mnogo manje dramatičan:

Obmanjujuće vizualizacije 2: Ovaj grafikon pokazuje kumulativnu prodaju iPhone-a:

Problem je da će ovaj grafikon uvijek da raste jer prikazuje sveukupnu prodaju do tog dana. Uzlazna putanja naravno dobro izgleda, ali ne predstavlja sliku prodaje u bilo kojem specifičnom periodu. Takođe, na vertikalnoj osi nema nikakvih oznaka, tako da ne znamo da li je vrijednost prodaje u hiljadama, milionima, milijardama...

Bolja vizualizacija je ova, jer pored kumulativne prodaje takođe daje prikaz prodaje po kvartalima, i na njoj se vidi da nekad prodaja opada u odnosu na prethodni period:

Obmanjujuće vizualizacije 3: Ovim grafom se pokušava umanjiti pad nezaposlenosti u oktobru i novembru 2011. godine. Skala se naglo mijenja na kraju grafa gdje je 8.6% otprilike na istom nivou kao 9.0%:

Ako bi se 8.6% stvarno stavilo gdje pripada, dakle odmah iznad horizontalne linije koja vodi od 8.5% sa lijeve strane, onda bi graf izgledao ovako i pad nezaposlenosti bi bio evidentniji:

Obmanjujuće vizualizacije 4: Ovaj tortni grafikon nema smisla jer, kada se brojevi saberu, dobije se više od 100%. Torta se ne može izrezati na komade koji su onda zajedno veći od početne torte:

Obmanjujuće vizualizacije 4: Oni koji negiraju klimatske promjene često pokažu ovu sliku, tvrdeći da ona dokazuje da se prosječna temperatura ne mijenja i zato je globalno zagrijavanje samo izmišljotina:

Problem je da je vremenski interval jako precizno izabran, i to treba da odmah bude zabrinjavajuće. Kada govorimo o promjeni klime, u pitanju su procesi koji traju decenijama i vijekovima tako da su pažljivo izabrani intervali sumnjivi. I zaista, ovaj interval počinje odmah iza toplog vala El Niño 1998. godine koji je uzrokovao neprirodno visoke temperature, tako da su u narednim godinama temperature relativno manje. Pravi trend je ovaj:

Po ovoj slici se naravno vidi da globalna temperatura generalno raste.

Pregeneralizacija: U jednom svom govoru 2012. godine, Nancy Pelosi (prva osoba Demokratske stranke u Američkom kongresu) je rekla da će Obamin novi zdravstveni plan učiniti da „svi plaćaju manje, imaju bolju brigu i bolji pristup zdravstvu“. Treba se paziti apsolutizama kao „svi“, „sve“, „uvijek“ itd. zato što je rijetkost da neki fenomen ima isti efekat na sve ljude. Tačno je da u prosjeku ljudi plaćaju manje po Obaminom zdravstvenom planu, imaju bolju brigu i bolji pristup zdravstvu, ali taj prosjek ne vrijedi za sve. Na primjer, nekih 8% ljudi sada plaća više za zdravstvo.

Treba se paziti svake statistike koja je navodno primjeniva na svakoga, kao na primjer da svi trebaju da piju osam čaša vode ili naprave 10.000 koraka dnevno.

Osjećaj za brojeve: Trump je u aprilu 2020. godine rekao da „Amerika testira više ljudi za COVID-19 nego sve ostale zemlje svijeta zajedno“. U tom momentu je COVID-19 razarao Kinu, Italiju i Španiju, a bio je prisutan u 215 zemalja. Jednostavno nema smisla da je Amerika, sa svojih 4,25% svjetske populacije, u tom momentu toliko testirala. Tačno je da je Amerika tada testirala više nego bilo koja druga zemlja, ali je netačno da je testirala više nego sve ostale zemlje zajedno.

Skeptičnost prema ovoj Trumpovoj izjavi bi trebala da dolazi iz generalnog osjećaja za brojeve, velike i male. Taj osjećaj se najbolje stiče ako se brojevi stavljaju u kontekst uz pomoć analogija i metafora. Na primjer:

  • DNK lanac sadrži 2,5 miliona karaktera, što je otprilike isto kao 2.600 kopija Tolstojevog Rata i mira.
  • Atom hidrogena je širok 10-11 metara, što je dva miliona puta uže nego ljudska dlaka.
  • Milion sekundi je otprilike 12 dana.
  • Milijarda sekundi je otprilike 32 godine.
  • Milion dolara u novčanicama od $100 teži 10kg i može stati u ruksak.
  • Milijarda dolara teži 10 tona i za to je potrebna velika soba.

Definicija termina: 2019. godine su američki mediji prenijeli vijest koju je objavila American Heart Association i koja kaže da će „48% odraslih Amerikanaca imati neku kardiovaskularnu bolest tokom svog života“. Ovo je zastrašujući broj, ali se postavlja pitanje šta znači „kardiovaskularna bolest“? Ispostavilo se da ovaj termin uključuje blage i ozbiljne bolesti, a jedna od njih je i visoki pritisak koji se može relativno lako kontrolisati. Ako se izuzme visok pritisak, onda broj spada na 9%, što daje potpuno drugu predstavu o riziku od kardiovaskularnih bolesti.

Relativni i apsolutni rizik: American Journal of Clinical Nutrition je 2017. godine objavio da jedenje prženih krompirića uduplava rizik za smrt. Tu šokantnu vijest su prenijeli svi veliki mediji. Međutim, koji je bazni rizik koji se uduplava? Ispostavlja se da je to 1% za grupu koju je studija pratila, što je relativno mali broj koji kaže da će jedan od 100 ljudi u studiji umrijeti od nečega što nije prirodna smrt. Uduplavanje tog broja daje još jedan relativno mali broj, 2%. Dakle apsolutni rizik zvuči alarmantno, ali kada se on stavi u kontekst i postane relativni rizik, onda se više ne čini tako veliki.

Informacija o uduplavanju rizika nam takođe ne govori ništa o uzročnosti – ona samo kaže da su jedenje prženih krompirića i uduplavanje smrtnosti u korelaciji, ali možda postoje neki drugi srodni faktori koji stvarno uduplavaju rizik, kao što su jedenje „junk food“, neaktivnost, pretilost, itd. Evo još jedan primjer koji ilustruje ovaj problem.

Korelacija i uzročnost: The Washington Post je 2011. godine objavio vijest da pijenje gaziranih pića podiže stopu adolescentnog nasilja. To je uzrokovalo lavinu reakcija i mjera, uključujući to da su mnoge škole eliminisale sodu. Međutim, kada se malo bolje pogleda u studiju iz koje je vijest izvedena, ona ne tvrdi da postoji uzročnost između konzumacije sode i nasilja, nego samo korelacija. Dalje studije su utvrdile da je uzrok za obje stvari socio-ekonomski status djece – u siromašnijim dijelovima Amerike ima više nasilja, i u njima djeca piju više sode nego drugdje jer je ishrana u takvim sredinama generalno lošija, ali ta dva faktora nisu u direktnoj uzročno-posljedičnoj relaciji.

COVID-19: Trenutna pandemija je ukazala na važnost kvantitativne pismenosti i uloge medija u njenom pravilnom i odgovornom komuniciranju. Poravnanje krive, reproduktivni broj, stopa infekcije, stopa smrtnosti, lažni pozitivni ili negativni rezultati, modeliranje širenja virusa, kolektivni imunitet, efektnost vakcine – ovo su sve termini koji su matematičke prirode a koji su krucijalni da se pandemija razumije i zaustavi. Zaključićemo sa tri primjera ali ćemo preskočiti neke kalkulacije koje stoje u njihovoj pozadini.

  • U vrijeme pisanja ovog teksta, u Bosni i Hercegovini je od koronavirusa umrlo oko 9.700 ljudi, dok je u Americi taj broj 606.000. Amerika izgleda puno gore, ali to je samo dok se ovi brojevi ne stave u kontekst. Ako gledamo stopu smrtnosti – broj umrlih po glavi stanovnika – onda Amerika ima 1.860 umrlih na milion ljudi, a Bosna i Hercegovina ima 2.950. Stopa smrtnosti u Bosni i Hercegovini je za 60% veća od rate u Americi!
  • Pretpostavimo da je test za antitijela 90% tačan i neko je pozitivan. Da li to znači da su šanse 90% da ta osoba ima koronavirus? Ne, jer pravi broj zavisi od stope zaraženosti, što je procenat populacije koja ima koronavirus. Ovu stopu niko tačno ne zna, ali ako je ona, na primjer, 5%, onda se ispostavi da će test pogrešno identifikovati 66% ljudi kao zaražene! Ovo se zove base rate fallacy i čak i mnogi doktori ne razumiju matematiku iza ovog fenomena.
  • Šta znači da je vakcina „95% efektivna“? Da li to znači da su šanse da vakcinisana osoba neće dobiti koronavirus 95%? Ne – ovaj broj znači da vakcina smanjuje rizik od infekcije za 95%. Dakle ako se očekuje da će određeni broj ljudi u nekoj nevakcinisanoj populaciji biti zaražen, onda se očekuje da će 95% manje ljudi biti zaraženo populaciji iste veličine u kojoj su svi vakcinisani. Na primjer, po Pfizerovim studijama, 74 od 100.000 nevakcinisanih bi u prosjeku bili zaraženi, dok bi taj broj bio 4 u 100.000 vakcinisanih ljudi. Ono što je najbitnije, i na što su se mediji trebali više fokusirati u početku izvještavanja o vakcinama je da sve vakcine gotovo eliminišu rizik od težih simptoma, hospitalizacije i smrti.

Svi gorenavedeni primjeri ilustruju opasnost od lažnog predstavljanja i manipulacije brojevima, grafikonima, tabelama i statistikama koja vreba sa svih strana. Kako se novinari mogu zaštititi od ove zloupotrebe? Evo nekih pitanja koja se trebaju postaviti ako se želi kritički razmišljati o kvantitativnim aspektima u novinarstvu.

  • Da li mi razum govori da ova statistika ima smisla?
  • Šta ovaj broj zaista znači?
  • Mogu li ovaj podatak staviti u neki kontekst?
  • Kome ova statistika koristi?
  • Je li izvor ove statistike vjerodostojan?
  • Jesu li drugi mediji ili naučnici potvrdili ovu statistiku?

Naravno, još bolje bi bilo kada bi novinari znali dovoljno statistike da postave tehnička pitanja koja bi rigorozno ukazala na validnost nekog podatka, kao na primjer:

  • Kako su definisani pojmovi u anketi?
  • Koja je metodologija korištena?
  • Koliki je bio uzorak?
  • Da li je uzorak bio nasumičan i reprezentativan?
  • Kolika je margina greške?
  • Kolika je standarna devijacija?
  • Koliki je interval pouzdanosti?
  • Koji je koeficijent korelacije?

Puni kapacitet nauke da pomogne i unaprijedi čovječanstvo jedino može biti realizovan kroz njenu efektivnu komunikaciju, ali brojevi i statistike sami od sebe nisu dovoljni za to. Novinari zato imaju odgovornost da se pobrinu da su oni pravilno uokvireni i kontekstualizirani, da predstavljaju stvarnost i da ih čitatelji razumiju.

___

Želite sedmični pregled vijesti, analiza, komentara i edukacija za novinare u Inboxu Vašeg e-maila? Pretplatite se na naš besplatni E-bilten ovdje.