Kako Guardian analizira i grupiše podatke?

Jonathan Stray

06/09/2010

baze podataka

CAR

data-novinarstvo

Google Spreadsheets

Guardian

Internet

javni podaci

vizualizacija podataka

Guardian ozbiljno shvata novinarstvo zasnovano na bazama podataka. Oni prikupljaju setove podataka koji su intresantni za novinarstvo, mijenjaju njihov format i objavljuju ih na svom Data Blogu. Zatim prate inicijative za povećanje transparentnosti u svom pretraživom indeksu podataka o svjetskim vladama, te obavljaju originalno istraživanje o podacima koje prikupe, kao što je, naprimjer, njihovo fenomenalna dubinska analiza 90 000 dokumenata o ratu u Afganistanu koji su iscurili u javnost. Većinu posla obavljaju pomoću jednostavnih, besplatnih alata.

Sa urednikom Data Bloga, Simonom Rogersom, sam obavio dosta dinamičan intervju u londonskoj redakciji Guardiana, koji je počeo uvodom u cijelu priču i završio filozofskom raspravom o promjenjivoj ulozi podataka u novinarstvu. Taj video obavezno morate pogledati ukoliko vas interesuje šta za novinsku agenciju predstavlja digitalizacija svjetskih činjenica. Slijede dijelovi koje sam lično odabrao, a kompletan transkript možete naći odmah ispod.

Tehnologija koja iza svega stoji je iznenađujuće jednostavna i uglavnom je besplatna. Guardian koristi Google Spreadsheets koji dozvoljavaju samo čitanje kako bi podijelili prikupljene podatke. Ovo ne zahtijeva nikakve posebne alate za čitanje i mogu se skinuti u bilo kojem formatu. Vizualizacija je odrađena uglavnom pomoću Many Eyes i Timetric alata, koji su besplatni.

Postovi na Data Blogu su često vezani za određene vijesti, ili ih podržavaju, ali to nije uvijek slučaj. Rogers smatra da je objavljivanje interesantnih podataka standardni novinarski čin, ali je jasno kako novinska redakcija daje dodatnu vrijednost:

Smatram da se podatak mora obraditi u skladu sa novinarskim standardima. Podaci moraju proći proces selekcije i uređivanja. Smatram da se svi podaci moraju obraditi tako da ih ljudi mogu lako koristiti, te da im budu korisni.

Guardian aranžira mnogo više podataka nego što ih sam proizvodi. Neke setove podataka obezbjeđuje sam Guardian, kao što su njihove godišnje ankete o platama izvršnih direktora, mada mnogo češće podaci već postoje u određenom formatu kao što je PDF na vladinim web stranicama. Guardian pronalazi takve podatke, prikuplja ih i prebacuje na spreadsheets i postavlja na Data Blog. Ali isto tako, održavaju i indeks o podacima svjetskih vlada koje sakupljaju podatke sa otvornih vladinih web stranica, kako bi kreirali pretraživ indeks dostupnih grupa podataka.

˝Naša misija je da pomognemo ljudima da dođu do podataka˝, kaže Rogers. ˝Želimo da ljudi posjećuju našu stranicu kada traže neke podatke.˝

U skladu sa njihovom otvorenom strategijom, Guardian podržava i ponovnu upotrebu i kombinovanje njihovih podataka. Čitaoci mogu dostaviti aplikacije i vizuelna rješenja koja su sami osmislili, no podaci su se pokazali jednako popularnim i među običnim ljudima koji ne učestvuju u razvoju aplikacija, već samo traže neobrađene informacije.
Ponekad čitaoci pruže dodatne podatke ili važnu povratnu informaciju, i to najčešće kroz komentare koje daju na postove. Rogers navodi primjer čitaoca koji je napisao da se akademske škole iz njegovog područja koje su navedene u podacima Guardiana nalaze u bogatim naseljima, što otvara u novinarskom smislu interesantno pitanje da li će bogatije škole više iskorištavati prednosti ovakvog programa tzv."charter" škola. Vezano za ovo, Rogers dalje kaže:

˝U prošlosti smo se ponašali kao neka vrsta čuvara ovih informacija. Čuvali bismo ih samo za sebe. Nismo htjeli da ih se naša konkurencija domogne i da im tako prepustimo priče. Mi smo bili ti koji objavljuju priče i nismo vjerovali da ljudi izvan naše redakcije mogu pružiti bilo kakav doprinos.

Međutim, sada se to sve promijenilo. Mislim da smo konačno shvatili da zapravo nismo stručnjaci za sve. Bilo da je u pitanju Doctor Who ili škole-akademije, uvijek negdje postoji neko ko posjeduje mnogo veće znanje od nas i ko može pružiti značajan doprinos. Tako da, na neki način, možete naknadno dobiti i proširiti priče od njih. Ukoliko učinite informacije dostupnima, uvijek dobijete nešto zauzvrat. Ljudi će vam se uvijek vraćati.

Možda malo neočekivano, ali podaci sotvaruju veoma veliki internet saobraćaj, što je pokazao i Data Blog u toku nedavnog pokrivanja izbora. ˝Pod okriljem Guardianovih web stranica, to i nije tako loše.˝, kaže Rogers. ˝I to samo nakon jedne godine postojanja.˝ (Čak je i stranica sa podacima mlađeg Texas Tribune-a jako popularna i upravo ona ima trećinu posjetilaca od ukupnog broja posjeta.)

Rogers i ja smo razgovarali još i o tome kako dobiti informacije od nedjelotvornih i nekooperativnih vlada, ulozi koju stručnjaci za podatke imaju u novinskim redakcijama koje se sve više mijenjaju, te o tome kako je Guardian uključio svoje čitaoce u izradu konačne baze podataka o negativcima iz serije Doctor Who.

U nastavku je transcript intervjua, ovlaš editovan.
------------------------------
JS: Nalazim se u društvu Simonsa Rogersa iz Guardianove novinske redakcije u Londonu. Dakle, Vi ste urednik Data Bloga?

SR: Da, i urednik vijesti, tako da se u suštini u sklopu ove organizacije bavim novinarstvom zasnovanim na podacima.

JS: Za početak, možete li nam reći šta je Data Blog?

SR: Ovako, kao što sam spomenuo, kao urednik vijesti sam veoma mnogo radio sa grafikonima. Shvatili smo da prikupljamo ogromne količine podataka, pa smo se zapitali da li bi naši čitaoci bili zainteresovani za to da ih vide. Lansiranje stranice Guardian Open Platform se učinilo kao pogodan trenutak za otvaranje Guardiana ka tehnološkom napretku, kao i za objavljivanje podataka koje smo prikupili.

Primijetili smo da ljudi neprestano tragaju za sirovim, neobrađenim podacima. Na internetu postoje ogromne količine neobrađenih podataka, ali kada počnete tražiti neku određenu informaciju, zaprepasti vas broj rezultata pretrage koji dobijete. Ukoliko, naprimjer, tražite nešto o emisiji ugljika, rezultat će biti milioni ukucanih podataka o tome. Kako onda da znate koji su podaci ispravni? Mi, dakle, obavimo taj dio posla za naše čitaoce, jer, prvo moramo pronaći te podatke, zatim ih odabrati i urediti. Tako da smo shvatili da ljudima na taj načn olakšavamo posao.

Pored toga, kada smo lansirali ovaj blog, smatrali smo da stvaramo i podatke za developere softvera. U tom trenutku se činilo da ima mnogo takvih developera koje zanimaju sirove informacije i da su upravo oni ti koji bi koristili Data Blog, a samim tim bi se povećao i broj posjetilaca Open Platform.

Ali ono što se zapravo desilo je jedna interesantna stvar - obični ljudi su počeli koristiti Data Blog jednako mnogo koliko i developeri. A možda čak i više.

JS: Na koga mislite kada kažete ˝obični ljudi˝?

SR: U suštini, na one koje interesuju tačne cifre. Tako, naprimjer, trenutno je aktuelna priča o vladinim planovima za izgradnju škola, koje je nova vlada nedavno srezala. Planove je napravila stara vlada i uložila milione funti u izgradnju novih školskih prostorija. Tako da ovdje imamo kompletan spisak škola, kojim nadležnim organima pripadaju, gdje se nalaze i o kakvom se projektu radilo. A to je danas zaista popularno i prestavlja jednu od najvećih vijesti, jer trenutno traju prosvjedi zbog ovog pitanja. I pretpostavljam da 90% ljudi koji traže ove podatke samo žele saznati neobrađene podatke.

I to je ono što je sjajno u vezi s Internetom, on vam daje pristup ka sirovoj, stvarnoj informaciji. I mislim da je ono za čime ljudi stvarno žude. Oni žele tumačenje i analizu od stručnjaka, ali također žele i istinitost promatranja stvarnih činjenica, bez da ih neko skuplja ili stavlja zajedno. Oni samo žele vidjeti sirove podatke.

JS: Dakle, vi objavljujete neobrađene podatke, onako kako ih preuzmete od vlade?

SR: Upravo tako. Jedino što na Data Blogu podate pokušavamo uobličiti u vijest što je više moguće, tako da se blog često oslanja na vijesti dana. Dijelom jer tako povećava broj posjeta, a istovremeno odgovaramo i na postojeće zahtjeve.
To je zapravo eklektična mješavina podataka. Mogu Vam to pokazati i na ekranu.

JS: Da, da nešto i vidimo.

SR: Dakle, Data Blog danas izgeda ovako. Očekivano, na vrhu se nalazi Afganistan, što se već duže vrijeme ne mijenja. Ovo je kompletan spisak umrlih i svih britanskih žrtava i ranjenika. Dakle, sakupimo ove podatke i zatim, ja naročito, koristimo usluge trećeg lica. Mi koristimo usluge firme koja se zove Timetric koja pravi veoma dobru vizualizaciju vremenskog niza podataka. Da ovo napravite, potrebno Vam je 5 minuta, i onda se možete spustiti dole i naći još informacija.

JS: Da li je ta usluga besplatna?

SR: Da, u popunosti. Samo se registrujete i možete je koristiti. Slično kao i sa Many Eyes, znate, onom IBM-ovom uslugom.

JS: Da.

SR: Uključit ćemo ove Google dokumene. Koristimo Google docs i Google spredsheets da prenosimo informacije, jer ih ljudi veoma lako mogu skinuti. Recimo da želite skinuti ove podatke. Kliknete na link i za sekundu će Vas prebaciti tamo gdje...evo, vidite, dobili ste popunjen Google spreadsheet. I tu imate sve. Tu su mjesečni total iznosi koje ne možete naći nigdje drugo, jer niko drugi se ne bavi tim informacijama.

JS: Šta tačno mislite pod tim da se niko drugi ne bavi tim informacijama?

SR: Niko ih ne pravi na mjesečnoj osnovi. Možete naći godišnje total iznose na iCasualties, čini mi se, ali mi smo sakupili i mjesečne podatke, jer smo često morali crtati mjesečne grafike. Zapravo, veoma je interesantno to što možete vidjeti u kojem mjesecu je bilo najviše žrtava.

Postoje liste sa imenima koje se nalaze na različitim lokacijama. Mi sakupljamo statistike o ranjenicima u Afganistanu koje su u UK-u užasno konfuzne, jer se upravo i nastoji da se zakomplikuju što je više moguće. Najozbiljnjiji je NOTICAS. Pored toga, ogroman broj ljudi je evakuiran. Dakle, o takvim podacima se radi. Isto tako, sakupljamo i podatke o amputacijama. To je noviji set podataka, jer je vlada odbijala da ih objavi, a zahvaljujći jednom Guardianovom novinaru, ovi podaci su sada svima dostupni.

Dakle, šta sada možete sa ovim podacima? Možete kliknuti na ´File´ i spasiti te podatke u kojem god formatu želite – Excel, XML, CSV. Upravo zbog toga koristimo Google spreadsheets. Taj format je veoma pristupačan svima.

Mi zapravo pokušavamo navesti zajednice da se razvijaju oko podataka i informacija. Tako da svaki post pruža mogućnost za razgovor.

Sada malo pregledam. Ovako danas izgleda Data Blog i tu su Afganistan i škole-akademije u UK. Te škole uglavnom vodi vlada.

JS: Možete li za publiku iz Amerike pojasniti šta je to škola-akademja?

SR: Pa, većina škola u UK su državne i većina djece pohađa ove škole. Mi svi plaćamo državne škole, jer se za njih odvaja dio poreza koji plaćamo. Uprava ovih škola je na lokalnom nivou, što sa sobom nosi očigledne prednosti, jer to znači da na neki način radite za određeni prostor. Ono što nova vlada predlaže je da dozvoli svakoj školi koja želi da postane akademija da to i ostvari. A akademija je škola koja može samostalno voditi svoje finansije i posao.

A mi ovdje imamo podatke koje je objavila vlada – u PDF formatu, naravno, jer vlada ove zemlje uvijek sve objavljuje u PDF formatu – i ovdje smo fino sakupili spiskove svih škola koje su izrazile zainteresovanost za to da postanu akademije. Tako da ovdje imate lokalnu nadležnu instituciju, naziv škole, vrstu škole, adresu i poštanski broj. Ovo su sve odlični podaci i zahvaljujući tome što su u PDF formatu, veoma lako ih možemo prebaciti na spreadsheet.

JS: Da li ste ovo sve morali prekucati, ili ste jednostavno prekopirali, copy-paste?

SR: Ne, ne, nismo, hvala Bogu. Na našu sreću, imamo voma dobar uređivački tim koji zahvaljujući Data Blogu postaje sve vještiji u preuzimanju podataka iz dokumenata u PDF formatu. Sve vladine insitucije svoje podatke objavljuju u PDF formatu čisto da se može navesti kao da su ti podaci otvoreni, što zapravo nisu.

JS: To je interesantno, jer u UK i Sjedinjenim Državama vlade promovišu svoju praksu da otvoreno objavljuju podatke.

SR: Upravo tako.

JS: Ali, želite reći da zapravo -

SR: Još uvijek nije 100 posto sigurno. Za koji sekund ću vam pokazati da oni zapravo samo objavljuju – većina vladinih sektora objavljuju isključivo u PDF formatu. Nikako da to prevaziđu. Ili im jednostavno nije jasno zašto bi iko htio koristiti spreadsheet. Većini ljudi to nije jasno.

A mi smo se opredijelili za spreadsheet zbog ovakvih stvari. Evo, ovo je mapa škola koje žele postati akademije raspoređnih po područjima. Zahvaljujući tome što imamo sirove podake u spreadsheet formatu, možemo vidjeti koliko ih je u ovom području. Tako možete vidjeti da ovaj dio Engleske, Kent, ima 99 škola, što je najveći broj u zemlji. A samo jedno područje, Barking, ovdje dole u Londonu, uopšte nema škola koje su aplicirale.

Vlade su u početku tvrdile da će aplicirati samo škole koje se posebno ne ističu. Ali, ako pogledate ove cifre, kao što sada možete, vidite da su sve ove škole izvrsne. Dakle, te škole koje su aplicirale da postanu akademije su već sada dobre. Međutim, nije stvar u tome, ali ovakva vrsta analize – to je u suštini novinarstvo zasnovano na podacima. Ono se svodi na cifre na osnovu kojih se pronalaze i pišu priče.

JS: A koliko vam je vremena trebalo da sastavite tu priču? Da nabavite cifre, napravite grafike, i tako dalje?

SR: Pa, malo sam i sam pomogao, jer imam jednog pomoćnika koji radi u uredništvu i koji je pomogao da se podaci prebace na spreadsheet. A što se tiče crtanja grafika, ovdje imamo fantasičan alat koji nam je postavio jedan od naših razvojnih timova za tehnički razvoj. Taj alat vam pomaže da prekopirate ogromne količine podataka, geografskih podataka, u ovaj prozor, I zatim kažete da li je u pitanju neki sektor parlamenta, neki lokalni organ, obrazovni organ ili neki drugi regionalni organ koji postoji u UK, i sam će Vam nacrtati mapu. Ovu mapu je nacrtao kompjuter i zatim je neko iz tima zaduženog za grafike sredio nazive i ostale finese, tako da grafik izgleda lijepo. Ali Vam uštedi vrijeme jer se ne morate sami patiti sa bojenjem. Tako da mi je za ovo trebalo ukupno nekoliko sati.

JS: A za prikupljanje podataka? Koliko je vremena na to otišlo?

SR: Srećom, vlada je sama postavila te podatke, ali, kao što sam rekao, u PDF fomatu. Dakle, ovo je vladina web stranica, a ovo je spisak. Kada ga otvorite, otvorit će se kao PDF format, jer će nas link odvesti na taj dokument.

Srećom, momci iz OUU [Odjela za uređivačke usluge] su već, zahvaljujući Data Blogu, veoma vješti u prebacivanju podataka na spreadsheets. Treba im nekih 20 minuta da to urade.

JS: Koliko onda ukupno ljudi radi na podacima?

SR: Pa, recimo, to je u opisu mog posla. Srećom, imam nevjerovatno mnogo ljudi oko sebe koji pokazuju interesovanje za ovo i koje mogu kontaktirati i pitati za pomoć. Trenutno je to sve neformalno, ali nastojimo da to sve učinimo formalnijim. Radimo na cjelokupnoj strategiji za podatke, pa ćemo vidjeti kako će se to razvijati. Dakle, nadamo se da će sve ove saradnje postati malo formalnije. Za sada se moram uklapati u postojeću situaciju, ali imamo veoma dobar tim koji nam pomaže, što je zaista jedinstveno.

Evo, ja sam sada malo prošao kroz Data Blog da Vam pokažem kako to izgleda. Ovo je jedan tipičan, čudan dan u kojem dominiraju škole, jer je danas veliki dan za njih. Ovo je potpuni spisak zvaničnih podataka o projektima za izgradnju škola. Evo još jednog, ali ove podatke nije bilo tako lako dobiti od vlade. Ministarstvo obrazovanja je objavilo spisak svih školskih projekata koji su se trebali obustaviti kada vlada prekine finansiranje, a neki od tih projekata su bili uvod u stvaranje akademija i upravo zbog toga je ovo pitanje tako bitno za ovu državu. I htjeli smo da vidimo kako to funkcioniše kod različitih predstavnika vlasti. Htjeli smo da vidimo koji su to članovi parlamenta obustavili najviše projekata. Taj podatak nismo mogli dobiti od Ministarstva obrazovanja, ali je jedan član parlamenta te podatke dostavio biblioteci Donjeg doma skupštine. Tu smo ih i pronašli. Ali, opet, format nije bio odgovarajući, jer je dokument bio u PDF formatu, tako da nam je neko od tehničara morao pomoći da ih posložimo.

Ali sama činjenica da možemo uraditi nešto kao što je mapa projekata koje je vlast zaustavila je odlična. A većinu projekata su zaustavili laburisti. Kao što znate, laburisti trenutno ne drže vlast. Dakle, možemo napraviti ovakvu analizu, što je odlično. 418 projekata su zaustavili laburisti, a 268 konzervativci. Dakle, svaki od 40% članova laburista je zaustavio barem jedan projekat, u poređenju sa 27% konzervativaca i 24% demokrata koji su trenutno na vlasti.

JS: Šta je onda tačnije – ova priča je nastala na osnovu podataka, ili su podaci ukazali na priču, ili…?

SR: Podaci su ukazali na ovu priču, što je odlično. Međutim, nikada ne dobijete 100% sirovih podataka. Pretpostavka je da je više projekta među laburistima zbog toga što je prethodna vlada laburista projekte davala upravo područjima u kojima su prevladavali laburisti. Tako da to možete posmatrati i iz ove perspektive.

JS: I to ste naveli u priči?

SR: Da, to smo naveli, naravno. Uvijek nastojimo da ljudima omogućimo pregled. To je najaktuelnija tema, jer u Londonu trenutno traju ogromni protesti zbog toga. Došli ste nam na dan kada je pitanje obrazovanja u centru pažnje.

Ali, na blogu se nalaze i druge stvari. Ovo je prava britanska stvar. Ovo smo uradili jer nam se učinilo da bi taj projekat mogao biti veoma interesantan. Ljudi koji su ovdje proveli jednu sedmicu nisu imali baš puno toga da rade, pa sam im dao zadatak da naprave sisak svih negativaca iz serije Doctor Who.

JS: To su radili kao pripravnici?

SR: Da. Shvatili smo da bi nam to moglo malo povećati broj posjetilaca. I nikada ranije nije bilo toliko reakcija – 500 osoba je odgovorilo preko Tweetera. Uporedite to sa uobičajnim 30 ili 40. Ono što je super je činjenica da smo stvorili –

JS: Šta je ovo? Izgleda dobro.

SR: To je prilično lako – jako mnogo koristimo ManyEyes, zahvaljujući kojem možemo veoma brzo nacrtati male grafike. A ovdje su svi negativci iz serije Doctor Who od početka programa, te podatak koliko su se puta pojavili. Dakle, vidite da Daleks vodi.

JS: Da, apsolutno.

SR: Sljedeći su Cyberman i Masters. Ima tu i gomila drugih sitnica. Počeli smo sa nekih 106 negativaca i onda smo objavili taj spisak, najavili ljudima da taj spisak nije potpun i zamolili ih da nam pomognu da ga popunimo. I sada ih je 212. Tako da sam vikend proveo – pokazat ću Vam stranicu sa podacima, nevjerovatna je. Vidite i da su komentari nevjerovatni - ˝A šta je sa Sea Devils?, Zygons?, i tako dalje.

I pokazat ću vam grupu podataka, jer je zaista interesantna. Dakle, ovo je grupa podataka. Ponovo Google dokumenti. A s desne strane možete vidjeti kako ih više ljudi istovremeno pregleda. U ovom trenutku 11 ljudi pregleda ove podatke. Može biti i 40 do 50 ljudi istovremeno. Oni pregledaju i pomažu nam da ispravimo greške.

JS: Čekajte, ova grupa podataka se može uređivati?

SR: Ne, nismo ga kreirali tako da se može uređivati, jer smo imali loše iskustvo s ljudima koji su pristupali onima koji se mogu uređivali i i pravili probleme, postavljajući psovke i sl.

JS: Kako vam onda oni pomažu?

SR: Oni postave ono što žele u polje za komentare, a ja ću to postaviti na spreadsheet. To radim zato što želim sheet koji ljudi mogu skinuti. Sada ih imamo 203. Uduplali smo broj negativaca zahvaljujući našim čitaocima. To je Doktor Who. I to samo pokazuje da smo mi eklektični – mi smo rasprostranjena crkva na Data blogu. Sve može biti podatak. A to je podatak. Imamo i broj pojavljivanja po negativcu, i to je program do kojeg je ljudima stalo. I britanski je koliko je to moguće. Ali imamo mi i druge stvari.

JS: Želio bih vam postaviti nekoliko pitanja, i iskoristiti priliku da vam postavim i neka uopštenija pitanja. Jer, mi možemo ovo nastaviti cijeli dan, a ja imam vremena. Proveo sam sate na vašem Data blogu, jer sam opsjednut podacima. Ali, hajde da nekako postavimo uopštena pitanja.

SR: Ok, samo naprijed.

JS: Prije svega, ono što primjećujem je da imate Data blog, ali imate i indeks svjetskih podataka.

SR: Da. Ideja za to je bilo sljedeće, očogledno je da mnogo vlade širom svijeta svoje podatke otvaraju za javnost. I otprilike kada je to uradila i britanska vlada – mnogo softver developera prisutnih ovdje je bilo uključeno u taj projekat (http://data.gov.uk/) – počeli smo razmišljati o tome šta bismo mogli uraditi da pomognemo ljudima, jer odjednom postoji jako mnogo stranica na koje možemo naći podatke vlade. A onda smo razmislili o tome, šta ako bismo ih jednostavno sve skupili na jedno mjesto. I imate jedinstveno pretraživanje. Na taj način smo postavili pretraživanje podataka iz svijeta. Izvinjavam se što vas opet usmjeravam na ekran.

JS: Nije problem.

SR: U osnovi, evo šta smo uradili. Počeli smo sa Australijom, Novim Zelandom, Velikom Britanijom i Amerikom. I ono što ova stranica i radi je sljedeće, pretražuje stranice sa javnim podacima vlada tih zemalja. Sada je tu Australija, Toronto u Kanadi, Novi Zeland, Velika Britanija, London, Kalifornija, San Francisko i data.gov.

Recimo da pretražujete pod 'kriminal', to je ono što vas interesuje. Evo ovako. Vratite se ovamo, vidite rezultate iz Velike Britanije, London, imate podatke iz Amerike, San Franciska, s Novog Zelanda i iz Australije. Recimo da živite u San Francisku i zanimaju vas samo rezultati iz San Franciska. Imate tri rezultata. I evo vidite, kliknete ovdje.

I još uvijek ste u okviru Guardiana, jer ono što zamolimo ljude je da nam pomognu da rankiramo podatke, i prilože vizualizacije i aplikacije. Želimo da nam ljudi kažu šta su uradili s podacima.

Ali, u svakom slučaju, ako kliknete na to i pritisnete download, počet će skidati podatke za vas. Druga stvar koju može uraditi jeste da vas prebaci na uslove korištenja. Nećemo zaobići niti jedan T&C. T&C-ji idu uporedo. Ali, kliknite tu, složite se s tim i onda ćete dobiti podatke. Zaista pokušavamo i olakšavamo ljudima. Evo vidite. Ovo su podaci o učestalosti krimanala. Varijabilni. To je odlično jer su to KML fajlovi, i ako želite vizualizirati, dobit ćete zaista odlične informacije. To može biti svašta. Ponekad su to CSV-evi.

JS: Šta je KML fajl?

SR: Google Earth.

JR: U redu.

SR: Izvinjavam se. To je mapiranje, fajl za instantno mapiranje.

SR: U redu, znači jedna od stvari koju tražimo od ljudi je da prilože vizualizacije i aplikacije koje su proizveli. Tako npr, London sadrži neke zaista dobre javne podatke. Ako niste tražili u Data Store, zaista vrijedi pogledati. I jedna od stvari koje oni rade je ta da vam obezbijede informacije o svim kamerama na cestama u Londonu. Možete gledati uživo. A ovo je divna stvar, jer neko je ustvari napisao iPad aplikaciju. Na taj način možete uživo gledati TFL, londonski prevoz, kamere, a sve na vašem iPad-u.

I vidite da se set oscjenjuje. Nekoliko ljudi je pogledalo i ocijenilo. Imate i tipku za skidanje, skidanje je u XML-u. Dakle, mi pokušavamo pomoći ljudima da se snađu s ovim podacima. I to se sve više širi. Svaki put kada neko otvori stranicu sa podacima vlade, mi to stavimo ovdje, trenutno radimo na još nekoliko. Mi želimo da to bude stranica koju će ljudi posjećivati. Svaki put kada proguglate riječ 'world government data' stranica se pojavi na vrhu liste, a to je ono što želite. Vi želite ljudima, koji žele uporediti različite države, a ne znaju odakle početi, pomoći da se snađu u labirintu informacija.

JS: Dakle, vi namjeravate uraditi ovo za svaku državu u svijetu?

SR: Svaku državu u svijetu koja pokrene stranice sa javnim podacima vlade, mi ćemo je ubaciti ovdje. I mi radimo – trenutno postoji 20 dobrih stranica sa podacima vlada. Te sada ubacujemo. Za sada imamo ovdje, koliko ih imamo? Jedan, dva, tri, četiri, pet, šest, sedam, osam. Imat ćemo svih 20 u sljedećih nekoliko sedmica. Trenutno ih obrađujemo.
A ovo radi sljedeće, pročišćava ih. U osnovi mi to ne radimo – nama je lako baratati, jer ne moramo konstantno ažurirati ove setove podataka. To za nas obavlja kompjuter. Ali, mi ustvari ljudima omogućavamo kontekst i popratne informacije, jer ste i vi dio stranice.

JS: Samo da provjerim da li sam dobro shvatio. Znači vi ne skupljate podatke kao takve, vi sakupljate liste i opise dostupnih podataka?

SR: Apsolutno. Znači mi dostavljamo ljudima informacije, jer želimo da bude što je moguće bolje ažurirano. Mi ne želimo, ako samo postavimo podatke na našu stranicu, da to bude besmisleno, a to znači da su podaci zastarjeli. Na ovaj način, ako se nešto pojavi na Data Gov (zvanične vladine internet stranice) i ostane tu, mi ćemo to ubrzo imati ovdje. Pomoći ćemo ljudima da to nađu. Znači, naša misija je pomoći ljudima da dođu do određenih podataka. Nije to samo generiranje podataka, već pomaganje ljudima da dođu do istih, jer želimo da se ljudi 'obrate' nama kada traže određene podatke.

JS: U redu. Djeluje mi kako ste do sada govorili o dva različita projekta. Data blogu, gdje skupljate i pročišćavate i prezentirate informacije koje vi –

SR: To je ono što je nama zanimljivo. Mi smo selektivni.

JS: U procesu skupljanja novosti koje vrši Guardian.

SR: Da, i samo one stvare koje su zanimljive. Tako je post Doctor Whoa koji smo maloprije gledali, vrlo zanimljiv za obraditi. To nije nešto o čemu ćemo napisati priču. Često su to stvari koje se pojave na vijestima i ja pomislim: 'to je stvar dobra da se postavi na Data blog'. To mogu biti cifre koje se odnose na kriminal, ili može biti – i ponekad, nus pojava toga je odlična, jer završite tako da objave podatke u novinama ili na internetu. Ali često je Data blog jedino mjesto gdje možete doći do te informacije.

JS: I vi indeksirate svjetske stranice s podacima.

SR: Naravno.

JS: Da li Guardian radi još nešto s podacima?

SR: Da, mi radimo mnogo istraživanja Guardianom s podacima. Ono što želimo jeste da uputimo ljude u to. Tako, npr. radimo mnogo projekata zasnovanih na podacima. Npr. radimo istraživanje o platama direktora u svim najvećim kompanijama, istraživanje o platama šefova i izvršnih direktora. To je oduvijek nešto što se istraživalo da bi se objavile priče u novinama. Ono što ćemo mi uraditi je sljedeće, mi ćemo te podatke učiniti dostupnima ljudima. Tako da to nije novinarstvo zasnovano na neobrađenim podacima, već na starim podacima. To radimo već deset godina. Nekada smo to jednostavno zvali istraživanje. Sada je to novinarstvo zasnovano na podacima, jer dobijamo priče iz cifri. Mi ćemo raditi s tim i objaviti informacije da ljudi mogu vidjeti. Ove sedmice slijedi i nekoliko velikih projekata, o kojima vam ne mogu sada reći ništa, ali će sljedeće sedmice biti očigledno kakvi su to projekti.

JS: Vjerovatno ćemo mi, kada se to postavi, moći naći odgovarajuće linkove.

(Simon je govorio o Guardianovom novinarstvu zasnovanom na podacima vezanom za curenje u javnost dnevnika o ratu u Afganistanu, detaljno opisanih u jednom postu na Data blogu.)

SR: Da, poslat ću vam mail o tome. Ali sada imamo i područje za koje smo se specijalizirali. Sve češće mi ljudi dolaze u sklopu Guardiana, postavljajući pitanje tipa: 'Imam spreadheet, kako sada da odradim ovo?' Primjer su i škole koje smo maloprije pogledali; zaista nas je interesovalo da saznamo u kojem području ih je najviše bilo, da bismo to objavili. Naš dopisnik je želio to znati. S obzirom da smo se specijalizirali u području upravljanja podacima postajemo dio Guardiana koji trebaju obavezno posjetiti novinari, koji pišu priče za koje im trebaju neki podaci, ili trebaju doći do neke informacije, što je zamimljiva nus pojava. Jer, nekada su se novinari nekako bojali brojki i podataka. Zaista mislim da je bilo tako. Sada, pokušavaju to prihvatiti i počinju shvatati da se iz toga mogu stvoriti priče.

JS: To je zaista interesantno. Da se malo osvrnemo na to kako se to odnosi i na druga uredništva, jer, kako kažete, novinari su se uvijek bojali podataka.

SR: Apsolutno. Može se reći da su se ponosili time, bar u ovoj državi, da su se ponosili nedostatkom matematičke sposobnosti.

JS: Što nije osobita sreća u ovoj oblasti.

SR: Apsolutno. Naravno.

JS: Većina naših čitalaca pripada manjim redakcijama; kolika tehnološka sposobnost vam je potrebna da biste počeli pretragu podataka i objavili setove podataka?

SR: Mislim vrlo mala. Mi najčešće radimo sa najosnovnijim spreadsheet paketima; excel ili šta već. Excel je jednostavan za upotrebu, ali to može biti bilo koji paket. Mi koristimo Googlove spreadsheete, što je vrlo dostupno ljudima koje interesuju informacije. Koristimo i alate za vizualizaciju, ManyEyes i Timetric, koji su dostupni i jednostavni za upotrebu. Mislim da mi to sve samo spajamo.

Mislim da tradicionalno novinari nisu gledali na novinarstvo zasnovano na podacima kao na pravo novinarstvo. To se smatralo istraživanjem. Ili, objavljivanje podataka – da li je to novinarstvo? S obzirom na to šta se sada dešava, mislim da smo mi nekada bili čuvari informacija. Mi bismo ih čuvali za sebe. Nismo željeli da naši konkurenti dođu do istih, što bi im omogućilo stvaranje priče. Mi smo bili oni koji su davali priče. I nismo vjerovali da ljudi mogu doprinijeti na bilo kakav način. Sada se to sve promijenilo. Mislim da smo shvatili da nismo mi uvijek stručnjaci. Da li je to Doktor Who ili škole, uvijek postoji negdje neko ko zna mnogo više od nas, i da taj neko može doprinijeti. Na neki način, možemo priče dobiti od njih. Mnogo više dobijamo informacije.

JS: Znači, vi objavljujete podatke, i drugi ljudi iz toga grade priče. Da li to želite reći?

SR: To će nam ljudi pokazati – mi objavimo nešto kao, to je interesantna priča, ili ovo je odlična vizualizacija. Mi objavljujemo podatke da bi ljudi mogli vizualizirati. Mislili smo da je to prilično zanimljiva stvar da se iskoristi i kombinuje, mi bismo to trebali sami uraditi. Pored toga tu je i činjenica da ako objavite informacije, uvijek dobijete povratnu informaciju. Ljudi će se uvijek vraćati.

Npr, ono što smo danas pričali o školama; sada nam se ljudi ponovo javljaju sa pričama poput: 'Ja živim u Derbyshireu i znam da su te škole u bogatim sredinama.' I onda mi počinjemo razmišljati u stilu: 'Da li postoji trend da se škole u bogatijim sredinama više okreću ovome od škola u siromašnijim sredinama?'

To vam daje dodatne priče i stavove o kojima niste možda razmišljali. Mislim da je to dio ovoga. Mislim i da je tu djelomično i spoznaja da i samo objavljivanje podataka jer su interesantni, je novinarski posao; a mislim da je to zbog toga jer morati primijeniti novinarske tehnike kada se bavite tim podacima. Morate selektirati podatke kao što bi to uradio urednik. Morate ih obraditi na način da ih ljudi mogu jednostavno iskorititi i da su korisni ljudima.

JS: I posljednje pitanje, koje će biti na umu mnogih urednika i izdavača.

SR: Naravno.

JF: Pričajmo malo o prometu na stranici i novcu. Na koji način ovo doprinosi poslovanju Guardiana?

SR: Ok, još uvijek je to novina, eksperiment, za nas, ali što se tiče prometa prilično je dobar. ZA vrijeme izbora dobijali smo milione stranica s utiscima. Što nije loše. Na Data blogu. Sada, s obzirom na 36 miliona koji posjećuju Guardian, to se ne čini kao mnogo. Ali, u stvarnosti, pod nebeskim svodom internet stranice Guardiana to i nije loše. A to se postiglo nakon godina prisustva.

Na duže staze, mislim da ovdje postoji mogućnost da se na pametan način dođe do novca, za organizacije koje znaju upravljati i tumačiti podatke. Ovo područje ima mnogo potencijala. Postoje ljudi koji zaista ne znaju kako upravljati podacima i kako organizovati te podatke – i tada se mi uključujemo. Zaista to mislim.

Ja takođe mislim da, sa stanovišta novinarstva, ovaj posao je važan isto koliko i priča o sedmici mode ili bilo čemu drugom za šta se angažuju novinari. Ni neki način je i važniji, jer fokus Guardiana je otvorena informacija, i slobodu informacija i slobodan pristup istim smo zagovarali od samog osnivanja Guardiana, i ovo je konačan izraz toga.

Na stranici koristimo i frazu 'činjenice su svetinja'. A to je fraza poznatog C.P.Scotta, koji je rekao:' Komentar je slobodan', što je i naziv našeg dijela stranice predviđenog za komentare, ali 'činjenice su svetinja' je završetak te izreke. I nekako mislim da je to tako, možete to vidjeti na dijelu za kometare, evo ga: 'Komentar je slobodan, ali činjenice su svetinja.' I to je suština Guardiana. Mislim da to mnogo govori i o internetu. Mislim da se web tako mijenja, jer je do prije nekoliko godina služio samo za komentare. Ljudi su nekada samo iznosili svoje mišljenje. Mislim da ljude sada sve više interesuju činjenice.

JS: U redu. Hvala na ovako detaljnom uvodu u Guardianov rad sa podacima.

SR: Hvala i Vama.

-----------------------------------------------------------------------------------------------------------
Prevela: Lela Kadrić
-----------------------------------------------------------------------------------------------------------

Tekst je preuzet, preveden i objavljen na MC Online uz odobrenje bloga Nieman Journalism Lab, gdje je objavljen 05.08.2010. pod naslovom ‘How The Guardian is pioneering data journalism with free tools'.

Svako dalje korištenje i distribucija ovog teksta podliježe uvjetima korištenja sadržaja Nieman Journalism Lab-a koji su u cjelosti dostupni na sajtu www.niemanlab.org.

Oprema teksta: redakcija MC Online.