Pretvaranje PDF-a u tekst uz pomoć XPDF-a

05/10/2008

Besplatan program čuva preglednost podataka u tabelama pri pretvaranju PDF-a u tekstualni fajl zarad dalje analize podataka.

Evo jednog pitanja koje će zvučati poznato onima koji koriste metode computer assisted reporting-a (CAR): Kako da dobijem tekstualni dokument iz PDF dokumenta?

Ako je vaše iskustvo imalo slično mom, odgovor će najverovatnije biti „uz puno muke, ako uopšte uspete“.

Postojanje Adobe Portable Document fajlova je velika stvar za novinare jer vlasti, kao i mnoge institucije i organizacije, tako mogu da objavljuju dokumente na internetu. Nije teško zavoleti činjenicu da jedan dokument izgleda isto bez obzira na to kakav kompjuter imate.

Međutim, ako ste ikada pokušali da iz PDF dokumenta izvučete tabele – a svi smo to probali – rezultat obično nije bio vredan truda. Do sada.

Ako ste spremni da napustite mučno kopiranje i pejstiranje iz PDF dokumenata, besplatan program pod nazivom Xpdf će vam uštedeti vreme i poštedeti vas nervoze. U većini slučajeva će vam u nekoliku sekundi umesto minuta ili sati omogućiti da podatke prebacite iz PDF-a u Microsoft Excel. Pomenuo sam da je besplatan?

Iako je Xpdf dostupan uz mnoge verzije Unix i Linux operativnih sistema, korisnici Microsoft Windowsa će morati da preuzmu i instaliraju ovu malu aplikaciju da bi je koristili.

Xpdf se može preuzeti sa www.foolabs.com/xpdf/download.html , a dolazi uz pakete za Windows i Linux/Unix. Tražite verziju za vaš operativni sistem pod 'precompiled binaries'. Dostupna je i DOS verzija, ali bi trebalo da odaberete verziju za Windows (osim ako imate DOS kao primarni operativni sistem). Verzija za Windows nema sve opcije koje ima verzija za Linux/Unix, ali ima sve što će vam trebati za konvertovanje PDF-ova u tabele s tekstom.

Prvo, sačuvajte preuzeti fajl (zip fajl) na svom kompjuteru, a onda ga odzipujte u neki direktorij (na primer c:\xpdf). Sad je na redu malo tehničkiji deo: kada ste našli PDF iz kojeg hoćete da izvučete tabularni tekst, jednostavno stavite taj PDF u direktorij u kojem ste sačuvali Xpdf, otvorite Command Prompt, idite na c:\xpdf i ukucajte:

pdftotext -layout nazivpdffajla.pdf

U zavisnosti od veličine PDF dokumenta, vaš novodobijeni tekstualni fajl (koji će imati isti naziv kao i original) biće u istom direktoriju u par sekundi.

Da prođemo malo kroz sintaksu za komandne linije. Prvo, komanda pdftotext je obavezna za ovaj proces, a pdf2text neće funkcionisati. Tag –layout govori Xpdf-u da hoćete da sačuvate prvobitni izgled (layout) PDF fajla, čime će se tekst očuvati u lepim, preglednim tabelama. I morate imati puni naziv fajla (preporučujem naziv od jedne reči, iako Windows podržava nazive sa razmacima). I to je to. Logično je da pomislite da ne može biti tako jednostavno, ali zaista jeste.

Tekstualni fajl koji ćete dobiti kao rezultat biće ceo tekst PDF-a, što znači da ćete morati da prođete kroz stranice i stranice teksta da biste došli do svojih tabela. Pošto je layout PDF-a sačuvan, ako na nekoj stranici imamo dve tabele jednu pored druge, to znači da će se one tako prikazati i u tekstualnom fajlu.

Xpdf ne radi u svim slučajevima; na primer, nećete moći da konvertujete PDF-ove koje su njihovi tvorci zaključali. Ni ne trudite se da to tražite od programera Xpdf-a jer je na sajtu objavio da neće dodavati tu mogućnost ovom programu.

Xpdf može da uštedi veliku količinu kod većine vladinih dokumenata, i da vam omogući da zapravo analizirate podatke umesto da pokušavate da ih nekako 'oslobodite' iz PDF-a.

Zahvaljujemo se organizaciji National Institute for Computer Assisted Reporting (NICAR) na dozvoli da ovaj članak preuzmemo i prevedemo iz biltena UPLINK koji objavljuje tekstove o metodama computer assisted reporting-a.

Oprema teksta: MediacentarOnline