Как да конвертирате PDF файл в редактируем текст, като използвате командния ред в Linux
Има различни причини, поради които може да искате да конвертирате PDF файл в редактируем текст. Може би трябва да преразгледате стар документ и всичко, което имате, е PDF версията му. Конвертирането на PDF файлове в Windows е лесно, но ако използвате Linux?
Няма проблем. Ще ви покажем как лесно да конвертирате PDF файлове в редактируем текст, като използвате инструмента за командния ред pdftotext, който е част от пакета "poppler-utils". Този инструмент може вече да е инсталиран. За да проверите дали pdftotext е инсталиран на вашата система, натиснете „Ctrl + Alt + T“, за да отворите прозорец на терминала. Въведете следната команда в реда и натиснете „Enter“.
dpkg -s poppler-utils
ЗАБЕЛЕЖКА: Когато казваме да напишете нещо в тази статия и има цитати около текста, НЕ въведете кавичките, освен ако не посочите друго.
Ако pdftotext не е инсталиран, въведете следната команда в реда и натиснете „Enter“.
sudo apt-get install poppler-utils
Въведете паролата си, когато бъдете подканени, и натиснете „Enter“.
В пакета poppler-utils има няколко инструмента за конвертиране на PDF в различни формати, манипулиране на PDF файлове и извличане на информация от файлове..
Следното е основната команда за конвертиране на PDF файл в редактируем текстов файл. Натиснете „Ctrl + Alt + T“, за да отворите прозореца на терминала, въведете командата в реда и натиснете „Enter“.
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Променете пътя до всеки файл, за да съответства на местоположението и името на оригиналния PDF файл и къде искате да запишете получения текстов файл. Също така променете имената на файловете, за да съответстват на имената на вашите файлове.
Текстовият файл се създава и може да бъде отворен точно както бихте отворили друг текстов файл в Linux.
Преобразуваният текст може да има разделителни линии на места, които не искате. Прекъсванията на редовете се вмъкват след всеки ред от текста в PDF файла.
Можете да запазите оформлението на документа (заглавки, колонтитули, страници и т.н.) от оригиналния PDF файл в конвертирания текстов файл, като използвате флага „-layout“.
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Ако искате да конвертирате само няколко страници в PDF файл, използвайте флаговете „-f“ и „-l“ (малки букви „L“), за да укажете първата и последната страница в диапазона, който искате да конвертирате.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
За да конвертирате PDF файл, който е защитен и криптиран с парола на собственика, използвайте флага "-opw" (първият знак в знамето е малка буква "O", а не нула).
pdftotext -pw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Променете „парола“ до тази, използвана за защита на конвертирания оригинален PDF файл. Уверете се, че има единични кавички, а не двойни, около „парола“.
Ако PDF файлът е защитен и криптиран с потребителска парола, използвайте флага "-upw" вместо флага "-opw". Останалата част от командата е една и съща.
Можете също да укажете вида на символа за край на реда, който се прилага към преобразувания текст. Това е особено полезно, ако планирате достъп до файла на друга операционна система като Windows или Mac. За да направите това, използвайте флага „-eol“ (средният знак в знамето е малка буква „O“, а не нула), последван от интервал и типа на символа за край на реда, който искате да използвате („ unix ”,“ dos ”или“ mac ”).
ЗАБЕЛЕЖКА: Ако не укажете име на файл за текстовия файл, pdftotext автоматично използва основата на името на PDF файла и добавя разширение “.txt”. Например, “file.pdf” ще се преобразува в “file.txt”. Ако текстовият файл е определен като „-“, преобразуваният текст се изпраща на stdout, което означава, че текстът се показва в прозореца на терминала и не се записва във файл.
За да затворите прозореца на терминала, кликнете върху бутона „X“ в горния ляв ъгъл.
За повече информация за командата pdftotext напишете "man page pdftotext" в прозореца на терминалния прозорец.