Como hacer OCR de una página web sin scrapper

La traducción OCR aún no es perfecta, pero ha mejorado drásticamente en los últimos años. Liderando el camino está el motor de traducción Tesseract actualmente de código abierto en C++.

Si bien esta es una biblioteca increíble, sin embargo, está restringida al software. Afortunadamente, alguien hizo un puerto de Tesseract en JavaScript que se llama Tesseract.js. Admite hasta 60 idiomas y, aunque ciertamente no es perfecto, hace bien su trabajo.

La instalación y la configuración son muy sencillas, ya que puede apuntar a cualquier elemento de imagen en la página y ejecutar la función Tesseract.recognize(). Esto puede tomar cualquier tipo de imagen y se comprimirá y traducirá automáticamente directamente en el navegador.

Puede volverse mucho más complicado, pero la belleza es cómo puede ejecutar OCR con una sola línea de código.

Consulte la página de inicio de Tesseract.js si desea ver una demostración en vivo. Esto funciona directamente en el navegador, donde puede arrastrar y soltar cualquier imagen escaneada de texto para obtener una traducción OCR automática.