Data novinarstvo za samouke početnike
Data novinarstvo za samouke početnike
Data novinarstvo je metoda i tehnologija crpljenja informacija, zaključaka i pokazatelja iz niza podataka uz pomoć različitih softvera. Iako "previše brojeva" često odbija novinare, ljude sklone slobodnijem promišljanju koji bježe od krutih formula, promjena pristupa je ključna za uspješan početak u data novinarstvu.
foto: unsplash/ screenshots K. Efendić
Data novinarstvo jedan je od velikih trendova u novinarstvu i medijskoj industriji. Kao i svaki trend, i data novinarstvo donosi malo mitizacije i malo nerazumijevanja; neki mu pripisuju snagu revolucionarne promjene novinarstva, drugi pak vide samo nove oblike starih metoda, dok treći nastoje, bez teorijske muke, koristiti blagodeti novih tehnologija, alata i metoda.
U ovom tekstu nećemo predviđati utjecaj data novinarstva na budućnost novinarstva niti sporiti ili slaviti njegov eventualni revolucionarni potencijal. Kratko ćemo objasniti šta je data novinarstvo i šta može biti, kakve su varijacije i izazovi u zemljama u kojima su javni podaci dostupni a kako data novinarstvo izgleda u zemljama sa manje otvorenim institucijama. U konačnici, proći ćemo kroz nekoliko nezaobilaznih alata bez kojih se ne može ući u svijet analize podataka zarad crpljenja tragova koji mogu voditi istraživačkim pričama ili dobrim vijestima.
Podaci postavljaju pitanja
Jednostavno gledano: data novinarstvo je metoda i tehnologija crpljenja informacija, zaključaka i pokazatelja iz niza podataka uz pomoć različitih softvera. Novinar koji ima na raspolaganju, naprimjer, tabele sa podacima o popisu stanovništva u Bosni i Hercegovini mogao bi, prateći nivo prosječnih primanja po kantonima, ustanoviti određene trendove. Ako bi se pokazalo da građani u određenim kantonima imaju znatno niža primanja nego u drugim, onda takav pokazatelj može biti pokretač analize o ekonomskim problemima i izazovima određene lokalne zajednice. Takav trend može i postaviti pitanja koja mogu voditi dobroj priči ili prilogu. Takav set podataka može biti i sam po sebi kvalitetan medijski sadržaj, ukoliko se predstavi na dovoljno prijemčiv način – odnosno: vizualizira. Sigurno nije isto na portalu objaviti screenshot tabele i objaviti interaktivnu pitu ili mapu.
Upravo na ovom primjeru možemo pokazati višeslojnost pojma data novinarstvo: ono može značiti, uže shvaćeno, samo metodu crpljenja informacije i zaključka ili pravog pitanja, a može biti i metoda za analizu i podloga za vizualno/grafičko predstavljanje podataka.
U zemljama u kojima su javni podaci, ne samo dostupni na web stranicama nego i u formatima pogodnim za alate data novinarstva, fokus upravo jeste na tome da podaci služe kao prostor za otkrivanje trendova i pitanja. No, u zemljama poput Bosne i Hercegovine, u kojima je potrebno boriti se za podatke koji bi morali biti javno dostupni online, izazovi data novinarstva su malo drukčiji.
Dostupnost resursa
Stoga ćemo se u nastavku teksta fokusirati na programska rješenja i alate koji početnicima u data novinarstvu u Bosni i Hercegovini mogu pomoći da ako ne savladaju osnove onda barem da se zainteresiraju i lakše prolaze kroz svoje prve zadatke u toj oblasti.
Kao samoukom početniku najvažnijim mi se čini jedan banalan savjet: Google. Pod uslovom da poznajete osnove engleskog. Magična pitanja koja počinju sa How to... otvorit će vam nevjerovatan svijet besplatnih kvalitetnih savjeta, (video) instrukcija, kao i samih alata i programa neophodnih za obradu i analizu podataka.
Spomenimo samo nekoliko stranica koje su uvod u svijet i resurse data novinarstva: Data Journalism Handbook – pokriva cijeli proces rada u data novinarstvu (od prikupljanja do vizualizacije podataka), Data Driven Journalism – nudi besplatne video instrukcije i rad na pripremljenim materijalima, stranica organizacije Global Investigative Journalism Network – predstavlja odličnu bazu odgovora i linkova za sva moguća pitanja i nedoumice, te School of Data, koja nudi također sistematičnu obuku za početnike.
Posebno ću istaći stranicu američke novinarke i trenerice Mary Jo Webster, koja nastoji svojih 20-tak godina iskustva u data novinarstvu iskoristiti u obuci mlađih kolega. Njeni treninzi su jako praktični i kvalitetni a njen edukativni materijal bukvalno odgovara na svako pitanje koje i početnik i novinar s više iskustva u data novinarstvu može postaviti.
No, prije pregleda osnovnih funkcija najvažnijih alata data novinarstva, važno je napomenuti ono što se mnogima može podrazumijevati, ali nekima ne: ukoliko ne razumijete oblast koju istražujete/obrađujete koristeći se data metodama – vaš rad je uzaludan.
Alati poput Excela mogu vam, naprimjer, u nekoliko sekundi izračunati koliko je novca u javnim nabavkama u BiH potrošeno i koji su postupci nabavke korišteni. Ali ako ne razumijete osnovne razlike i izazove postupaka javnih nabavki, kretanja i anomalije u podacima za vas nemaju značenja. Ili ako u analizi stanja sigurnosti uvidite da je broj krivičnih dijela znatno veći u, naprimjer, Zenici nego u Travniku i takav zaključak vizaulizirate bez dodatne analize ili prikupljanja podataka – pogriješili ste i objavili nepotpune i polukorisne podatke: jer naprosto niste uzeli u obzir broj stanovnika u navedenim gradovima.
Nizovi podataka raspoređeni u tabele te alati kojima ih analizirate su samo sredstvo u vašim rukama i reći će vam samo ono što ih pitate – ovako bi se moglo sumirati možda i najvažnije pravilo data novinarstva.
Osnovni alat: Excel
Za početnika ili novinara koji ne poznaje neke od programskih jezika, nema data novinarstva bez Microsoft Excela, odnosno alternativnog OpenOffice Calc ili – što otvara mogućnosti prenošenja bez slanja fajlova i nosanja laptopa – Google Sheets. (Kako ovaj tekst nema ni cilj ni mogućnost da služi kao trening, samo ćemo se zadržati na uputama koje naznačuju pravce kretanja za početnike u data novinarstvu.)
Ne morate niti ćete, najvjerovatnije, savladati sve formule i funkcionalnosti Excela, ali je bitno poznavati nekoliko osnovnih funkcionalnosti bez kojih ne možete ni isprobati čari i izazove data novinarstva.
Kada prikupite niz podataka i rasporedite ih u redove i kolone, slijedi analiza. Osnovna funkcija Excela za analizu podataka jeste filtriranje: omogućava vam da sortirate vrijednosti i redove u kolonama prema redu veličina, tipu podataka; da neke podatke isključite ili posmatrate samo dio podataka. Filter često otkriva trendove: šta je najviše, šta je najniže; ko se pojavljuje češće, ko je vezan za koga.
Ako filteri ne daju odgovore na vaša osnovna pitanja, tu je sistem pivot tabele, gdje svoju već podešenu i sređenu tabelu prebacujete u druge oblike i postavljate upite: Koliko puta se vrijednost iz kolone te i te veže za vrijednost iz reda tog i tog.... (Pivot tabele su poprilično intuitivne, a Google će vam brzo ponuditi tutorijal kroz koji ćete za par minuta naučiti koristiti pivot tabele...
U konačnici, cijeli svijet napornih i polurazumljivih formula iz Excela može riješiti mnoge nedoumice i odgovoriti na ključna pitanja: kolika je prosječna vrijednost u redu ili koloni, kakve su razlike među vrijednostima, koliko te razlike iznose u procentima, da li rastu i padaju, kada rastu a kada padaju...
Iako Excel sa svojom matematikom često odbija novinare, ljude sklone slobodnijem promišljanju koji bježe od krutih formula, promjena pristupa prema ovom alatu je ključna za uspješan početak u data novinarstvu.
Alati za pripremu i crpljenje podataka
U Sjedinjenim Državama ili Švedskoj, primjerice, dosta ćete podataka povući sa zvaničnih stranica u formatima koji su spremni za rad u Excelu. No, u Bosni i Hercegovini, u većini slučajeva, institucije ili nemaju volju ili nemaju znanja i kapaciteta da podatke prilagode za eventualnu analizu.
Tako ćete često dobiti tabele u .pdf formatu (kao što se vidi na slici, spisak dužnika Uprave za indirektno oporezivanje BiH), koji je naprosto beskoristan za analizu podataka i zahtijeva prilagodbu.
Idealan, besplatan alat za izvlačenje tabela iz .pdf-a u formate koji se mogu analizirati jeste Tabula. Tabula se, banalno gledano, zapisuje na hard-disk, pokreće se iz foldera, a koristi se u okruženju browsera, dok je za njen rad neophodno instalirati Javu.
Tabula odlično radi kada su tabele u .pdf-u jasne, kvalitetno skenirane/priređene i kada su slova i linije čisti. Ako imate loše skeniran .pdf razmislite dobro da li će vam više vremena oduzeti sređivanje haotične tabele koju ponudi Tabula ili je bolje možda krenuti s ručnim prepisivanjem podataka iz .pdf-a u Excelu. Stranica s koje se preuzima Tabula nudi jako kvalitetne instrukcije za osnove funkcije.
Ovaj alat nudi nekoliko prilično razumljivih opcija za izvlačenje podataka, a najvažnije je, zapravo, da ispitate svaki od njih dok ne uvidite kojem se vaš .pdf najbolje prilagođava, što zavisi od gustine redova, debljine linija i slično.
Prijenos već donekle sređene tabele iz Tabule u Excel može biti veliki izazov za početnike – barem je meni bio. Pokazalo se da je podatke najbolje eksportovati kao .csv file a potom ih importovati u Excel, nego li koristiti se direktnim kopiranjem.
Treći, i za ovaj tekst posljednji alat, jedan je od najvažnijih za uštedu vremena i očuvanje motivacije tokom napornog i katkad monotonog rada sa tabelama. Često ćete dobiti potpuno nesređene podatke od institucija, ili će ih Tabula haotično isporučiti, ili ćete ih sami nesređeno unositi ili će vaše kolege koje rade na istom projektu podatke unositi na jedan način a vi na drugi.
Primjerice, kod vas će pisati „FBiH“, kod kolega „Federacija BiH“ ili „Federacije Bosne i Hercegovine“ ili „F BiH“. Nama je sve to jedan pojam, ali za Excel ili bilo koji drugi program to su četiri potpuno odvojena elementa i ako ih ne ujednačimo naši podaci su poluvrijedni i mogu nas navesti na pogrešne zaključke.
Iako možete pješice ispravljati vrijednosti u Excelu, sigurno – naročito u slučaju ogromnih tabela – nećete ispraviti sve neujednačenosti a na kraju posla ćete proklinjati data novinarstvo i svijet tabela. Spas je Open Refine napravljen s jednom svrhom: da nam besplatno pomogne u brzom i pouzdanom sređivanju haotičnih tabela.
Nakon što u Open Refine povučete dokument sa nesređenom tabelom i kreirate takozvani projekt unutar Refinea, dobit ćete opet svojevrsnu tabelu, gdje svaki naziv kolone nudi nekoliko opcija. Nama najvažnija opcija jeste facet, koja na lijevoj strani otvara sve vrijednosti koje se pojavljuju u toj koloni, sortirajući ih po sličnosti, broju pojavljivanja i tako dalje. Tada slične vrijednosti gledate uporedno i ujednačavate ih.
Ipak, treba biti oprezan, nekada različiti ljudi imaju ista ili slična imena, dvije firme iz dvije opštine mogu se isto ili slično zvati, tako da je sve sumnjive situacije potrebno dodatno provjeriti. Ponavljamo, alati nam pomažu, ali oni ne mogu raditi naš novinarski posao.
Sama stranica za preuzimanje ovog alata nudi osnovne video instrukcije za korištenje i za početak je dovoljno pregledati ih. Open Refine, kao i mnoge druge alate za data novinarstvo, potrebno je čačkati, istraživati i isprobavati, nikada ne zaboravljajući magično pitanje na Googleu – How to...