Actualizado: 22 nov 2022
1. Aspectos básicos sobre OCR
OCR (Optical Character Recognition) es una tecnología que permite transformar el contenido de una imagen en texto plano. Normalmente, el contenido de una imagen que suele transformarse es aquel asociado a cadenas de texto, si bien algunas aplicaciones para OCR permiten transformar otro tipo de objetos gráficos contenidos en una imagen, como pueden ser, por ejemplo, códigos de barras.
Esta tecnología tiene especial aplicabilidad en sistemas informáticos de gestión documental, como puede intuirse. Muchas aplicaciones de gestión documental suelen manejar documentos escritos, almacenados en archivos con diversos formatos de imagen (pdf, jpg, tiff, etc). Esto es debido fundamentalmente a que la base documental de este tipo de aplicaciones suele obtenerse tras realizar un proceso de digitalización (escaneo, etc) de los documentos impresos en papel, a fin de poder ser manejados por dicha aplicación.
El uso de aplicaciones OCR permite extraer el contenido textual de documentos contenidos en formato de imagen, a fin de realizar diversas funciones de gestión documental, tales como:
-
Búsqueda de documentos con cierta información.
-
Extracción de la información concreta de un documento.
-
Pasar de un documento escrito contenido en un archivo de imagen, a un archivo con formato de texto plano.
2. Utilizando las librerías de Asprise
Las librerías de Asprise para utilizar tecnología OCR están disponibles en diversos lenguajes de programación tales como C/C++, Java, Delphi, Visual, etc.
Son capaces de realizar reconocimiento de caracteres sobre infinidad de formatos de imágenes, tales como: