Как мога да копирам текст от PDF файл при запазване на форматирането?

PDF, повсеместният формат на документа, е чудесен за споделяне на документи, като запазва шрифтовете, изображенията и общото оформление в различните платформи. Има ли обаче лесен начин да се запази това много форматиране при копиране и поставяне на текст от документа?

Днешната сесия за въпроси и отговори идва при нас с любезното съдействие на SuperUser - подразделение на Stack Exchange, групирано от общността уеб сайтове за въпроси и отговори.

Въпроса

Четецът на SuperUser Colen търси начин да извлече текст от PDF файлове, като запази форматирането:

Когато копирам текст от PDF файл и в текстов редактор, той свършва по различни начини. Форматирането като получер и курсив се губи; меките разделителни линии в рамките на абзаца от текст се преобразуват в твърди разделителни линии; тирета, които прекъсват една дума над две линии, се запазват дори когато не трябва да бъдат; и единични и двойни кавички се заменят с? знаци.

В идеалния случай бих искал да мога да копирам текст от PDF и да форматирам конвертирани в HTML кодове, „интелигентни кавички“, конвертирани в „и“, и прекъсвания на редовете направени правилно. Има ли някакъв начин да направите това?

Има ли бърз и лесен начин за Colen (и останалите от нас) да получи текст, без да жертва форматирането?

Отговорът

Сътрудникът SuperUser Frabjous предлага решение, комбинирано с голяма доза предпазливост:

Първо, трябва да разберете какво представлява PDF. PDF файловете са предназначени да имитират отпечатана страница и са предназначени само за изходен формат, а не за входен формат. PDF е основно карта, съдържаща точното местоположение на символите (отделни букви или пунктуация и т.н.) или изображения. В повечето случаи PDF дори не съхранява информация за това къде свършва една дума, а друга започва, много по-малко неща като меки паузи срещу твърди прекъсвания за краищата на абзаци.

(Няколко скорошни PDF файла съдържат информация за тези неща, но това е нова технология и ще имате късмет да намерите такива PDF файлове. Дори и да сте го направили, вашият PDF viewer може да не знае за него.)

Във всеки случай зависи от вашия софтуер, за да приложи някакъв вид "изкуствен интелект", за да извлече само от местоположенията на отделните символи, каква е думата, какво е абзац и т.н. Различният софтуер ще направи това по-добре от други и също ще зависи от това как е направен PDF. Във всеки случай никога не трябва да очаквате перфектни резултати. Наличието на изходния PDF не е същото като да имате изходния документ. Далеч по-добре да се опитаме да получим това, ако можете.

Стандартното решение на вашия проблем е да използвате Adobe Acrobat Professional (скъп, а не свободен четец), за да конвертирате PDF в HTML. Дори и това няма да доведе до перфектни резултати.

Има свободен софтуер, който може да се използва за извличане на текст от PDF файлове, като някои от форматирането са непокътнати, но отново не очаквайте перфектни резултати. Вижте например калибър (който може да конвертира във формат RTF), pdftohtml / pdfreflow или текстов редактор AbiWord (с включени всички плъгини за импорт / експорт). Има и приставка за внос на PDF за OpenOffice.

Но моля, не очаквайте съвършенство с нито един от тези резултати. Отиваш срещу зърното тук. PDF просто не е предназначен за редактиране на входен формат.

Ако имате проблеми с решението кой инструмент да започнете, Калибър е истински документ за швейцарски армейски нож. Можете също така да го използвате за конвертиране на PDF файлове за използване на вашия Ebook четец и организиране на вашата Ebook / библиотека документи.

Имате ли какво да добавите към обяснението? Звукът е изключен в коментарите. Искате ли да прочетете повече отговори от други технологични потребители на Stack Exchange? Вижте пълната тема за дискусия тук.