Automatizacija novinarstva - između fikcije i stvarnosti

12/07/2016

Dostupnost informacionih tehnologija i automatizacija je dio vizije, ali daleko važniji su novinari.

Foto: pixabay

Preplavljenost medijskog prostora pričama o automatizaciji poslova je posljedica sve sofisticiranijih pristupa matematičkom modeliranju svakodnevnih ljudskih djelatnosti. Neke od tih djelatnosti koje je najlakše automatizirati su mehanički poslovi. Sklapanje proizvoda, ubacivanje podataka na disk ili okopavanje zemljišnih masa je proces koji je moguće vizualno razumjeti gledajući mašinu ili čovjeka u radu upravo zbog prirode svoje repetitivnosti i predvidljivosti.

Drugi poslovi koji zahtijevaju originalnost u razmišljanju, odnosno povezivanje naizgled nepovezivog ili, jednostavno, koji se opiru konkretnom definisanju koraka do konačnog rješenja, su daleko teži za prenijeti u kompjuterski kod i simulirati matematikom. Tu, prije svega, govorimo o pisanju (kao aktu stvaranja), donošenju odluka, komunikaciji ili naučnom stvaralaštvu.

Ipak, pisanje i novinarstvo nisu isključeni iz raznih marketinških kampanja firmi koje koriste tehnike iz umjetne inteligencije (pod okriljem polja koje se zove “mašinsko učenje”) gdje se obećava kako ćete moći zamijeniti novinare u redakciji robotima (softverom) koji će njihov posao obavljati daleko efikasnije, brže i kvalitetnije. Do koje mjere je ovo tačno i uopšte moguće?

Kopija stvarnosti

U svojoj priči “The truth of fact, the truth of feeling”, Ted Chiang, pisac naučne fantastike i diplomirani naučnik u oblasti kompjuterskih nauka, uzima identitet novinara i oca djevojčice koja je nedavno diplomirala na odsjeku za historiju umjetnosti. Opisuje kako je u djetinjstvu bio zabrinut da će njegovo dijete imati poteškoća sa vještinom pisanja. Koristeći naočale sa retina displejom i fonetizaciju koju taj uređaj prepoznaje, ona nikad nije imala potrebu da slova ispisuje. Iteracijama bi, kao što danas koristimo pretraživače koji nam sugerišu pretrage, svoje misli sklapala u rečenice i na taj način imala interakciju sa (umreženim) svijetom.

Taj pristup je firma iza proizvoda Remem dovela do interesantne inovacije. Korisnici Remema bi zvukom i slikom snimali svaki trenutak svog života (tzv. lifelogging) i onda bi, umjesto da kopaju po svom prirodnom pamćenju, fonetizacijom (npr. “Onda kada mi je Ted rekao da…”) “prizvali” taj momenat, pogledali ga i bili svjesni svakog detalja. Odnos djevojčice i oca se pogoršao onda kada je mama i supruga odlučila da napusti porodicu. Djevojčica je, po priči oca, krivila njega za odlazak majke. Mnogo godina otac nije razumijevao ljutnju svoje kćeri na njega. Jedne noći, kada je dobio zadatak od urednika da piše o Rememu, odlučio je da koristi Remem kako bi se prisjetio svih detalja momenta kada ga je kćer optužila. Na njegovu zaprepaštenost, video je pokazao kako je on bio taj koji je odgovornost stavio na kćerku i verbalno je napao kada je majka napustila porodicu.

Priče o nama kao individuama su uglavnom priče o stvarima kojih se rado sjećamo, baš kao historije društava potkrijepljene činjenicama u skladu sa historijskom logikom i subjektu samog društva. Mi lako zaboravljamo naše osobne trenutke licemjerja i oholosti. Iz tog razloga, kako bi u potpunosti autentično iskomunicirao slučaj iz svog života, otac i pisac ove priče daje kopiju čitavog događaja na Rememu javnosti. Jer, kako uopšte vjerovati pisanoj riječi?

Automatizovani članci

Automatizacija pisane riječi i generalizovan pristup polju mašinskog učenja se sastoji od tri koraka. Prvi korak je skupljanje korpusa tekstova na osnovu kojih će se napraviti simulacija. Na primjer, ako bismo željeli napraviti softver koji će prepoznati tekstove koji se bave sportom, skupit ćemo mnogo članaka koji pišu o raznim temama uključujući sport.

U drugom koraku ćemo napisati softver koji će izgraditi matematičku predstavu članaka podijeljenih u kategorije koje smo sami unijeli. Najrasprostranjenija metoda jeste brojanje ključnih riječi u člancima. Tako ćemo za svaku kategoriju izgraditi listu najučestalijih riječi na osnovu korpusa koji imamo.

Zadnji korak je testiranje efektivnosti modela. To radimo dajući softveru tekstove gdje temu ne najavimo već tražimo da on sam analizira tekst koristeći model koji smo izgradili te nam predloži kategoriju. Ako se u tekstu daleko više pojavljuju riječi kao “lopta”, “pobjeda”, “poraz”, “ekipa”, u odnosu na druge tekstove u korpusu, naš model će sa određenim nivoom sigurnosti zaključiti da se radi o tekstu koji je povezan sa kategorijom sport.

Takav pristup donosi veoma dobre rezultate jer na samom početku imamo mnogo tekstova sa precizno označenim kategorijama na osnovu kojih možemo praviti model. Da su kojim slučajem kategorije pomiješane, tj. da su kategorije člancima nasumično dodijeljene gdje bi neki članak iz politike bio označen kao sport onda bi naš model bio bezvrijedan jer bi prepoznavao članke sa ključnim riječima “popis”, “bosna”, “hercegovina”, “dodik”, “nepriznavanje” kao sport a ne politika. Nema smisla, zar ne?

Dakle, važno je da su podaci struktuirani prije nego ćemo na osnovu njih praviti simulaciju koja treba da prepozna druge nestruktuirane stvari (poput teksta kojem ne znamo kategoriju). Problem je u tome što ne živimo svijet kroz podatke, pogotovo ne kroz jasno struktuirane označitelje.

Vremenska prognoza

Sektori novinarstva gdje je automatizacija već odmakla su oni koji rade sa jasnim, konciznim i predvidljivim podacima. Npr. vremenska prognoza je vrlo repetitivna. Svaki dan se od meteoroloških zavoda dobijaju informacije koje se ne razlikuju mnogo: imamo listu gradova, temperaturu u gradovima, određen broj mjerenja i predviđanja po danu i slično. Riječi kojima se komuniciraju ti podaci su također skoro uvijek iste jer je format samog izvještaja predvidljiv. To je jedna od stvari koje se automatiziraju jer je sav posao ubacivanje brojke u već postojeći tekst ili pravljenje odluke da li će u tekstu pisati “oblačno” ili “sunčano” na osnovu varijable koja je stigla iz zavoda.

Ono što ubrzava implementiranje ovakvih procedura automatizacije je sve veći broj uređaja koji su priključeni na mreže. Može se u potpunosti zamisliti neki program koji je programiran da svaki sat šalje upit kompjuteru u meteorološkom zavodu tražeći zadnje podatke kako bi ih prikazao na nekoj web stranici. Također se može zamisliti kako je svaki auto povezan na centralu koja prikuplja podatke o gustini saobraćaja, šalje podatke u studio gdje mašina koja je programirana da proizvodi zvukove koje mi prepoznajemo kao riječi i tako obavještava gledaoce o stanju na putevima. Te stvari su već oko nas.

Mnogobrojni servisni podaci koje su novinari ručno pisali, izgovarali ili komunicirali vizualno danas bivaju u potpunosti ukinuti i dati u ruke umreženih softvera. Međutim, pošto se algoritmi koji su neophodni za generisanje takvih vijesti oslanjaju na podatke i predvidljivost, svaka pogreška ili promjena strukture može dovesti do neočekivanih grešaka.

Tu se javljaju problemi odgovornosti za nesreće do kojih bi takve greške dovele. Zbog toga Evropska Unija, kao jedna od niza organizacija, razmatra davanje “elektronskog pasoša” i licence prije nego se takvi roboti mogu staviti u upotrebu.

Tehnologije ne mogu zamijeniti osjećanja

Algoritmi također nemaju kreativnost u pisanju kao ljudi. Iako su istraživanja u polju repliciranja ljudske komunikacije daleko dogurala i dobro plaćena, napredak je spor. Ono najvažnije je da nijedan algoritam ne može postavljati prava pitanja ili objasniti fenomene tako što će autonomno izvršiti istraživanje i utvrditi kauzalnost događaja oko nas.

“Na jednoj strani su istine činjenica, na drugoj istina piščevog osjećaja, a gdje se to dvoje podudara ne može biti delegirano unaprijed nekom stranom autoritetu.” Roy Pascal, Design and Truth in Autobiography

Kao u priči Ted Chianga, posjedovanje alata koji nam omogućavaju da sa više detalja i informacija sagledamo stvarnost oko nas je više nego dobrodošla. No ključna pouka priče je da nam ovakve tehnologije ne mogu zamijeniti našu ljudsku perspektivu zasnovanu na osjećajima ali nam mogu pokazati i dovesti nas do toga da priznamo kako smo pogriješili.

Narativi koje moramo graditi kao društvo ne mogu biti automatizirani ali mogu biti pravljeni sa puno više pažnje. Potraga za istinom kroz tačne historijske podatke, duboke arhive i pisanu riječ je samo od sebe tehnologija, ali živjeti toliku količinu informacija svaki dan jednostavno nije moguće. Utoliko je važno da su narativi koje živimo potkrijepljeni i bazirani na stvarima koje možemo provjeriti kako ne bismo živjeli u grandioznim iluzijama o sebi. Dostupnost informacionih tehnologija i automatizacija je dio vizije, ali daleko važniji su novinari koji njeguju ono što je uvijek krasilo kvalitetno novinarstvo: duboke analize, istraživanja, intervjui.