Извличане на текст от PDF и графични файлове
Имате PDF документ, от който искате да извлечете целия текст? Какво ще кажете за файлове с изображения на сканиран документ, който искате да конвертирате в текст за редактиране? Това са някои от най-често срещаните проблеми, които съм виждал на работното място при работа с файлове.
В тази статия ще говоря за няколко различни начина, по които можете да опитате да извлечете текст от PDF или от изображение. Вашите резултати от извличането ще варират в зависимост от вида и качеството на текста в PDF файла или изображението. Освен това резултатите ви ще се различават в зависимост от използвания от вас инструмент, така че най-добре е да изпробвате възможно най-много опции по-долу, за да получите най-добри резултати.
Извличане на текст от изображение или PDF
Най-простият и най-бързият начин да започнете е да изпробвате онлайн услугата за извличане на PDF текст. Те обикновено са безплатни и могат да ви дадат точно това, което търсите, без да е необходимо да инсталирате нищо на компютъра си. Ето две, които използвах с много добри до отлични резултати:
ExtractPDF
ExtractPDF е безплатен инструмент, за да вземете изображения, текст и шрифтове от PDF файл. Единственото ограничение е, че максималният размер на PDF файла е 10 MB. Това е малко малко; така че ако имате по-голям файл, опитайте някои от другите методи по-долу. Изберете файла си и след това щракнете върху Изпращане на файл бутон. Резултатите обикновено са много бързи и трябва да видите преглед на текста, когато кликнете върху раздела Текст.
Също така е хубаво допълнително предимство, че извлича изображения от PDF файла също, само в случай, че имате нужда от тях! Като цяло, онлайн инструмент работи чудесно, но аз съм се сблъскал с няколко PDF документа, които ми дават забавен изход. Текстът е извлечен добре, но по някаква причина ще има разделителна линия след всяка дума! Не е голям проблем за кратък PDF файл, но със сигурност проблем за файлове с много текст. Ако това ви се случи, опитайте следващия инструмент.
Онлайн OCR
Онлайн OCR обикновено има тенденция да работят за документите, които не се конвертират правилно с ExtractPDF, така че е добра идея да опитате и двете услуги, за да видите кои от тях ви дават по-добър изход. Онлайн OCR има и някои по-хубави функции, които могат да се окажат полезни за всеки, който има голям PDF файл, който само трябва да конвертира текст на няколко страници, а не на целия документ.
Първото нещо, което искате да направите, е да създадете безплатен акаунт. Това е малко досадно, но ако не създадете безплатния акаунт, той само частично ще преобразува вашия PDF документ, а не целия документ. Също така, вместо да можете да качвате само 5 MB документ, можете да качите до 100MB на файл с акаунт.
Първо изберете език и след това изберете вида на изходните формати, които искате за конвертирания файл. Имате няколко опции и можете да изберете повече от един, ако желаете. при Многостранен документ, можете да изберете Номера на страници и след това изберете само страниците, които искате да конвертирате. След това изберете файла и щракнете превръщам!
След преобразуването ще бъдете отнесени в секцията Документи (ако сте влезли), където можете да видите колко свободни свободни страници сте оставили и връзки за изтегляне на конвертираните файлове. Изглежда, че имате безплатно само 25 страници на ден, така че ако имате нужда от повече от това, ще трябва да изчакате малко или да закупите още страници.
Онлайн OCR свърши отлична работа за конвертиране на моите PDF файлове, тъй като успя да запази действителното оформление на текста. В теста си взех Word doc, който използваше куршуми, различни размери на шрифтове и т.н. и го преобразувах в PDF. След това използвах OCR, за да го конвертирам обратно във формат Word и беше около 95% същия като оригинала. Това е доста впечатляващо за мен.
Освен това, ако искате да конвертирате изображение в текст, тогава OCR може да го направи също толкова лесно, колкото и извличането на текст от PDF файлове.
Безплатно онлайн OCR
Тъй като се говори за изображение в текстово OCR, позволете ми да спомена още един добър сайт, който работи много добре на изображения. Безплатният онлайн OCR е много добър и много точен при извличането на текст от тестовите ми изображения. Направих няколко снимки от моя iPhone на страници от книги, брошури и т.н. и бях изненадан колко добре успя да преобразува текста.
Изберете файла си и след това кликнете върху бутона Качване. На следващия екран има няколко опции и преглед на изображението. Можете да го изрежете, ако не искате да OCR цялото нещо. След това просто кликнете върху бутона OCR и преобразуваният текст ще се появи под визуализацията на изображението. Той също така няма никакви ограничения, което е наистина хубаво.
В допълнение към онлайн услугите, има два безплатни конвертора за PDF файлове, които искам да спомена, в случай че се нуждаете от софтуер, работещ локално на вашия компютър, за да извършите преобразуванията. С онлайн услуги винаги ще имате нужда от интернет връзка и това може да не е възможно за всички. Въпреки това забелязах, че качеството на конвертирането от безплатните програми е значително по-лошо от това на уебсайтовете.
A-PDF Текстов екстрактор
A-PDF Text Extractor е безплатна програма, която прави доста добра работа по извличането на текст от PDF файлове. След като го изтеглите и инсталирате, кликнете върху бутона „Отвори“, за да изберете вашия PDF файл. След това щракнете върху Извличане на текст, за да стартирате процеса.
Ще ви поиска местоположение за съхраняване на изходния файл на текста и след това ще започне извличането. Можете също да кликнете върху опция бутон, който ви позволява да избирате само някои страници, които искате да извлечете, и вида на извличането. Втората опция е интересна, защото извлича текста в различни оформления и си струва да опитате и трите, за да видите кои от тях ви дават най-добрия изход.
PDF2Text Pilot
PDF2Text Pilot прави добре работата по извличането на текст. Няма опции; просто добавяте файлове или папки, конвертирате и се надявате на най-доброто. Той работеше добре за някои PDF файлове, но за повечето от тях имаше много проблеми.
Просто кликнете върху Добавяне на файлове и след това щракнете върху превръщам. След като приключите, кликнете върху Преглед, за да отворите файла. Пробегът ще варира с помощта на тази програма, така че не очаквайте много.
Също така си струва да се спомене, че ако сте в корпоративна среда или можете да си вземете копие от Adobe Acrobat от работа, тогава наистина можете да получите много по-добри резултати. Acrobat очевидно не е свободен, но има опции за конвертиране на PDF във формат Word, Excel и HTML. Той също така прави най-добрата работа за поддържане на структурата на оригиналния документ и конвертиране на сложен текст.