El propio título de este artículo, “Cómo sacar texto de una imagen”, plantea un problema que surge con los textos en las imágenes. Muchos documentos en formato PDF, así como también los propios archivos JPG, incluyen imágenes con texto que no se puede copiar o seleccionar debido a que forma parte de una imagen. Es aquí donde entran al rescate los sistemas de OCR (Optical Character Recognition), que se encargan de escanear las imágenes de un documento para localizar en los caracteres de textos que se incluyen en estos dibujos.
Sacar un texto de una imagen es complicado, por ello hace falta recurrir a programas y herramientas externas que, más allá de por ejemplo convertir una imagen en PDF, lo que hacen es "leer" la imagen para traducirla a texto. No es la primera vez que te envían apuntes en PDF y no puedes sacar el texto que en ellos hay, pues con los sistemas OCR vas a poder sacar de una imagen el texto, y de un modo rápido.
En el mercado existe ya una buena variedad de este tipo de programas que permiten coger texto de una imagen, pero es cierto que no todos ofrecen los mismos resultados. Es por eso por lo que es bueno enterarse antes de usarlos cuáles son los más destacados, ya que ofrecen los mejores resultados, en cuanto a identificación de texto se refiere.
Por tanto, en este artículo os vamos a ofrecer algunos ejemplos de programas destinados a extraer texto de las imágenes de cualquier formato, que funcionan bastante bien. Ya serás tú quien decidas cuál es el que más te convence.
Índice de Contenidos
Cómo sacar texto de imagen
A partir de este momento vamos a ofrecerte algunos ejemplos de aplicaciones OCR destinadas a sacar de una imagen texto. Hemos seleccionado aplicaciones gratuitas, open source o de código abierto, para que puedas hacer uso de ellas en cualquier momento y sin que te cueste dinero.
Mira esto: Qué es OCR y para qué sirve
Se trata de herramientas que permiten sacar texto de una imagen con una calidad mínima, ofreciendo unos resultados satisfactorios. El propósito final es que consigas sacar todo el texto que incluyen las imágenes de un PDF o documento en otro formato con la menor cantidad de errores posible. Pasamos, por tanto, a mostraros aquellos ejemplos en los que hemos visto cumplidos los requisitos que te hemos comentado.
gImageReader haciendo uso de Tesseract OCR
Dentro del mundo del software libre, en lo que a sistemas OCR se refiere, Tesseract OCR es de los más conocidos y de los que mejor sacan texto de una imagen. Se trata de un motor que en su origen fue creado por la empresa HP, muy conocida por la fabricación de impresoras y ordenadores, entre otros productos.
La compañía donó el código a la Universidad de Nevada, para que posteriormente Google asumiera su patrocinio, convirtiéndose, de este modo, en un proyecto de código abierto. Una vez dicho esto, debes saber que unos de los principales inconvenientes de Tesseract es su dificultad de manejo.
El problema que surge en muchas ocasiones con este es que es necesario que te manejes bien con la línea de comandos. Si no es así, te va a costar sacar texto de las imágenes.
Pero a cada problema siempre hay una solución y, en este caso, tienes a tu disposición gImageReader que te proporciona una interfaz gráfica que te permite manejar fácilmente Tesseract OCR sin los temibles comandos. Por supuesto, se trata de un software gratuito y de licencia libre.
Permite trabajar con él de forma manual y automática. Simplemente, tienes que subir la imagen y seleccionar la opción que necesites dentro del menú de opciones. Entre sus múltiples ventajas está la de permitir procesar de una sola vez varias imágenes o documentos y la posibilidad de generar documentos PDF.
FreeOCR para Windows
Si eres usuario del sistema operativo de Windows, estás de enhorabuena, ya que vas a poder sacar texto de imágenes con FreeOCR. Se trata de uno de los mejores sistemas OCR de código abierto para el sistema operativo de Microsoft. A la hora de ejecutar el programa simplemente tienes que pulsar en el botón de OCR y a la derecha te aparecerá el texto sacado de la correspondiente imagen.
Se trata de un software muy fácil de usar y con la ventaja de que soporta varios idiomas, entre ellos el español. Tampoco tiene ninguna limitación de tamaño en cuanto a los documentos PDF con texto que puedes incluir. Es cierto que si las palabras no están del todo alineadas puede dar algún que otro error, pero por líneas generales el rendimiento que ofrece es bastante bueno.
Descárgalo entrando en www.freeocr.net.
Cuneiform como OCR comercial
Nos encontramos ante un ejemplo curioso, ya que en sus inicios se trataba de un OCR comercial y cuando terminó el proyecto pasó a convertirse en un software de código abierto. Esto hace que, Cuneiform, no sea el programa para sacar texto de imágenes más actualizado del momento, pero sí que obtendrás muy buenos resultados con él. Es muy sencillo de manejar dado que su interfaz es muy intuitiva.
Simplemente, tienes que subir el archivo PDF con la imagen de la que quieres sacar el texto, y pulsar el botón de ejecución. El programa se encarga de todo. En unos pocos segundos obtendrás el texto que necesitas en la ventana situada en la parte inferior.
Lo puedes descargar desde repositorios como cuneiform-pro-ocr.programas-gratis.net.
GOCR, más difícil de utilizar
Si en el caso anterior la interfaz hacía muy fácil la acción de sacar texto de una imagen, con GOCR es todo lo contrario. Nos encontramos ante un OCR de código abierto compatible con Linux, Windows y MacOS, pero con una interfaz poco intuitiva, que hace más complicada la tarea. Pero a pesar de ello el resultado suele ser muy bueno y su proceso tiene una gran precisión.
A esto hay que añadir que al ser de código abierto ofrece la posibilidad de poder expandirse, lo que abre la puerta a un sinfín de posibilidades, principalmente si se es programador o se tienen ciertos conocimientos de programación.
Tienes toda la información sobre este programa en jocr.sourceforge.net.
Qué debes saber sobre conseguir texto de una imagen
Una vez que te hemos facilitado el nombre de alguno de los OCR de código abiertos más destacados, queremos darte algunos consejos a la hora de sacar texto de una imagen en PDF. Estos te van a resultar muy útiles antes, durante y después de utilizar las herramientas que te hemos mostrado.
- Ten en cuenta que los programas para sacar de una imagen texto pueden tener problemas para reconocer ciertas letras. Es por eso por lo que es conveniente que revises bien el resultado por si alguna palabra o contenido está mal.
- Existen herramientas para PDF que te permiten escribir en este tipo de documentos, aunque esté compuesto de imágenes.
- Los programas OCR trabajan en determinados idiomas. Procura asegurarte de que la aplicación que utilizas incluye reconocimiento en tu propio idioma.
- Muchos softwares de código abierto tienen la desventaja de que disponen de interfaces difíciles de manejar, procura en caso de que no tengas muchas nociones de manejo de código informático, buscar programas que trabajen con estos softwares y faciliten el sacar texto de imágenes.
- Las OCR disponen de un software con Inteligencia Artificial (IA) y cuanto mejor sea esta, mejores serán los resultados. Procura, por tanto, emplear programas recomendados, ya que el producto obtenido será de mejor calidad.
- A la hora de crear un PDF existe la posibilidad de que un texto quede marcado como texto, en este caso no será necesario ningún sistema OCR para poder copiar o realizar otro tipo de acción con el contenido. Para eso es necesario habilitar como texto. Por ejemplo, muchos formularios en PDF pueden ser rellenados desde un ordenador por lo comentado.