¿Qué es el reconocimiento de texto?

El reconocimiento óptico de caracteres (OCR) convierte el texto analógico en texto digital editable. Por ejemplo, un formulario impreso se escanea y el software de reconocimiento óptico de caracteres lo convierte en un documento de texto en el ordenador, que luego se puede buscar, editar y guardar.

El moderno reconocimiento de texto OCR es capaz de reconocer correctamente más del 99 % de la información textual. Las palabras no reconocidas son marcadas por el programa y corregidas por el usuario.

Para mejorar aún más los resultados, el reconocimiento de texto OCR se complementa a menudo con métodos de análisis del contexto (reconocimiento inteligente de caracteres, ICR para abreviar). Por ejemplo, si el software de reconocimiento de texto ha reconocido "2room", el "2" se corrige a una "Z", lo que da como resultado la palabra "room", que tiene sentido en el contexto.

También existe el Reconocimiento Inteligente de Palabras (IWR), que supuestamente resuelve los problemas de reconocimiento de la escritura manuscrita fluida.

Algunos ejemplos de software de reconocimiento óptico de caracteres gratuito y de pago (por orden alfabético):

  • ABBYY FineReader PDF
  • ABBYY FlexiCapture
  • Adobe Acrobat Pro DC
  • Amazon Textract
  • Docparser
  • FineReader
  • Google Document AI
  • IBM Datacap
  • Klippa
  • Microsoft OneNote
  • Nanonets
  • OmniPage Ultimate
  • Lector de PDF
  • Readiris
  • Rossum
  • SimpleOCR
  • Softworks OCR
  • Soda PDF
  • Muyfi

Escriba usted mismo un reconocedor de texto OCR con Python o C#

Es posible trabajar con los lenguajes de programación Python o el propio C# para incluir el reconocimiento de texto en los scripts. Para ello se necesita la biblioteca OCR gratuita Tesseract, que funciona para Linux y Windows.

Este enfoque proporciona una solución de reconocimiento de texto personalizable tanto para escaneos como para fotos.

¿Cómo funciona el software de reconocimiento óptico de caracteres?

La base es el gráfico rasterizado (copia de imagen del texto), que se crea con la ayuda de un escáner o una cámara a partir del texto físicamente existente, por ejemplo la página de un libro. En este caso, el reconocimiento del texto de una foto suele ser más difícil que con un escáner, en el que la copia de la imagen ofrece condiciones muy similares. Con una foto, la exposición y el ángulo con el que se tomó el documento pueden causar problemas, pero éstos pueden corregirse mediante el uso de IA.

Después, el software de OCR funciona en 3 pasos:

1. reconocimiento de la estructura de la página y del esquema

En el gráfico escaneado se analizan las zonas oscuras y claras. Normalmente, las zonas oscuras se identifican como caracteres que hay que reconocer y las zonas claras como fondo.

2. reconocimiento de patrones o características

A continuación, se procesan las zonas oscuras para encontrar letras alfabéticas o dígitos numéricos. El enfoque de las distintas soluciones de OCR difiere en si sólo se reconoce un carácter, una palabra o un bloque de texto a la vez. Los caracteres se identifican mediante el reconocimiento de patrones o características:

Reconocimiento de patrones: el programa de OCR compara los caracteres que se van a comprobar con su base de datos de muestras de texto en distintos tipos de letra y formatos y reconoce patrones idénticos.

Reconocimiento de rasgos: el programa de OCR aplica reglas relativas a los rasgos de una letra o un número concretos. Las características pueden ser, por ejemplo, el número de líneas en ángulo, líneas cruzadas o curvas en un carácter.

Por ejemplo, la información de la letra "F" consta de una línea vertical larga y 2 líneas rectangulares cortas.

3. codificación en formato de salida y control de errores

Según el ámbito de aplicación y el software utilizado, el documento se guarda en distintos formatos. Por ejemplo, se edita como archivo Word o PDF, o se guarda directamente en una base de datos.

Además, el último paso también implica la comprobación de errores por parte del usuario para corregir manualmente las palabras o caracteres no reconocidos.

¿Cómo ayuda la IA al reconocimiento de textos?

Por un lado apoya Inteligencia Artificial (IA) en el reconocimiento de texto ya durante la optimización de los gráficos rasterizados, especialmente con fotos. Si el documento que se va a leer está doblado o arrugado, a veces el texto está demasiado sesgado o distorsionado, lo que causa problemas al software de OCR durante el procesamiento. En el caso de las fotos, una mala exposición y un ángulo de disparo inadecuado también pueden provocar malas condiciones para el software de OCR.

Con la ayuda de la IA, el documento puede "suavizarse" en su estructura, optimizarse la iluminación y corregirse el ángulo, con lo que vuelve a ofrecer buenas condiciones para el reconocimiento de texto..

Por otro lado, la IA mejora los resultados del propio reconocimiento de texto. La inteligencia artificial aprende con cada texto y cada error corregido. De este modo, los errores en el reconocimiento de texto se minimizan constantemente y el software de OCR ofrece cada vez mejores resultados.