Tesseract.js превежда OCR за изображения в браузъри

OCR преводът все още не е перфектен, но се е подобрил драматично през последните няколко години. Водещ по пътя е Tesseract двигател за превод в момента е отворен в ° С++.

Въпреки че това е невероятна библиотека, тя обаче е ограничена до софтуер. За щастие някой направи порт Tesseract в JavaScript, който се нарича Tesseract.js. То поддържа до 60 езика и макар със сигурност да не е перфектен, той върши добре работата.

Инсталацията и настройката е лесна, където можете насочете всеки елемент на изображение на страницата и стартирайте Tesseract.recognize () функция. Това може да отнеме всякакъв вид изображение и то автоматично компресиране и превеждане в браузъра.

Можете да получите много по-сложно, но красотата е как можете да стартирате OCR с един ред код.

Разгледайте целевата страница на Tesseract.js, ако искате да видите демонстрация на живо. Това работи точно в браузъра, където можете плъзнете и пуснете всяко сканирано изображение на текст, за да получите автоматичен OCR превод.

Можете също да изтеглите този пример локално чрез страницата GitHub или да създадете собствено приложение, като включите скрипта Tesseract.js направо от CDN.

Най-простият пример за код изглежда по следния начин myImage е директна препратка към елемент на HTML изображение:

 Tesseract.recognize (myImage). Then (функция (резултат) console.log (резултат));

Така или иначе тази библиотека е толкова полезна, за да се движите с OCR в мрежата. Това е далеч от перфектно, но също така е най-добрият ресурс за уеб разработчици, които искат динамична функционалност за разпознаване на страници.

За да научите повече, посетете страницата на Tesseract.js GitHub, където можете да проверите демонстрация на живо и да прегледате онлайн документацията.