Segmentación Automática de Textos, mediante Redes Neuronales Convolucionales en Imágenes Documentos Históricos


(Ascarza Mendoza, 2018) En su trabajo de investigación “Segmentación Automática de Textos, mediante Redes Neuronales Convolucionales en Imágenes Documentos Históricos” en la Pontificia Universidad Católica del Perú.
El investigador abordó el problema de la pérdida de documentos históricos que sufren desgaste por su antigüedad y las técnicas de procesamiento de imágenes aplicadas a la restauración de estos son demasiado laboriosas entre ellas es la segmentación de imágenes por regiones de interés y el reconocimiento de caracteres, dichas técnicas en este caso no son precisas y son complejas de aplicar debido a que las imágenes obtenidas para restaurar los documentos presentan problemas de contenido como es la degradación del papel del manuscrito en la imagen, el desvanecimiento de la tinta y estilo de la letra aplicado en su tiempo.
El investigador propuso como solución desarrollar un método general de segmentación automática en imágenes de documentos históricos para página, texto, decoración y comentarios. Se entrenó el modelo de red neuronal convolucional (CNN) Resnet, dicha red recibió parches de imágenes de características de página, texto, decoración y comentarios, en formato de super píxeles. Se utilizó el algoritmo IFT-SLIC para extraer los super píxeles de muestras de página, texto, decoración y comentarios. Se obtuvo un dataset de parches de super píxeles en un archivo XML. El investigador utilizo imágenes del dataset pública Parzival el cual contiene imágenes del siglo XIII. Se entrenó la CNN con el gradiente descendente estocástico (SGD), se aplicó la técnica de normalización de lotes (Batch Normalization) después de cada capa convolucional y se utilizó la técnica de regularización (Dropout). El investigador midió la calidad de la segmentación de las imágenes de documentos históricos, utilizando las métricas de precisión de píxeles (pixel accuracy), precisión media de píxeles (mean pixel  accuracy),  intersección sobre la unión promedio (mean UI) y frecuencia  ponderada  de  intersección  sobre  la  unión (frequency  weighted IU).

El investigador entrenó la CNN Resnet con un dataset de 3000 super píxeles, 6000, 9000 y 12000 super pixeles, al incrementar el número de super pixeles para entrenar la CNN las métricas utilizadas obtuvieron un mayor grado de puntaje, por ejemplo al entrenar la CNN Resnet con 12000 super pixeles obtuvo una precisión de pixeles de 97%, una media de píxeles de 67%, una media de unión promedio de 65% y una frecuencia ponderada de intersección sobre la unión de 94%, en cambio al entrenar la CNN con 3000 super pixeles se obtuvo 93%, 53%, 50% y 88% de frecuencia ponderada de intersección sobre la unión.

Se concluye en esta investigación que utilizando CNN se pueden segmentar documentos históricos utilizando como recurso de entrenamiento super píxeles de parches de imágenes el cual evita el uso de métodos tradicionales como la segmentación y extracción de características y luego entrenar la red neuronal. Al incrementar el número de super pixeles mejora la calidad y precisión de segmentación.  La técnica de regularización de aumento de datos no ayudo a mejorar la precisión del modelo en cambio solo mejoro la generalización de la CNN y en efecto ayudo a evitar el overfitting.

Comentarios