Segmentación Automática de Textos, mediante Redes Neuronales Convolucionales en Imágenes Documentos Históricos
(Ascarza Mendoza, 2018) En su trabajo de investigación “Segmentación Automática de Textos,
mediante Redes Neuronales Convolucionales en Imágenes Documentos Históricos” en
la Pontificia Universidad Católica del Perú.
El investigador abordó el problema de la pérdida
de documentos históricos que sufren desgaste por su antigüedad y las técnicas
de procesamiento de imágenes aplicadas a la restauración de estos son demasiado
laboriosas entre ellas es la segmentación de imágenes por regiones de interés y
el reconocimiento de caracteres, dichas técnicas en este caso no son precisas y
son complejas de aplicar debido a que las imágenes obtenidas para restaurar los
documentos presentan problemas de contenido como es la degradación del papel
del manuscrito en la imagen, el desvanecimiento de la tinta y estilo de la
letra aplicado en su tiempo.
El investigador propuso como solución
desarrollar un método general de segmentación automática en imágenes de
documentos históricos para página, texto, decoración y comentarios. Se entrenó
el modelo de red neuronal convolucional (CNN) Resnet, dicha red recibió parches
de imágenes de características de página, texto, decoración y comentarios, en
formato de super píxeles. Se utilizó el algoritmo IFT-SLIC para extraer los
super píxeles de muestras de página, texto, decoración y comentarios. Se obtuvo
un dataset de parches de super píxeles en un archivo XML. El investigador
utilizo imágenes del dataset pública Parzival el cual contiene imágenes del
siglo XIII. Se entrenó la CNN con el gradiente descendente estocástico (SGD),
se aplicó la técnica de normalización de lotes (Batch Normalization) después de
cada capa convolucional y se utilizó la técnica de regularización (Dropout). El
investigador midió la calidad de la segmentación de las imágenes de documentos
históricos, utilizando las métricas de precisión de píxeles (pixel accuracy), precisión
media de píxeles (mean pixel accuracy), intersección sobre la unión promedio (mean UI)
y frecuencia ponderada de
intersección sobre la
unión (frequency weighted IU).
El investigador entrenó la CNN Resnet con
un dataset de 3000 super píxeles, 6000, 9000 y 12000 super pixeles, al
incrementar el número de super pixeles para entrenar la CNN las métricas
utilizadas obtuvieron un mayor grado de puntaje, por ejemplo al entrenar la CNN
Resnet con 12000 super pixeles obtuvo una precisión de pixeles de 97%, una
media de píxeles de 67%, una media de unión promedio de 65% y una frecuencia
ponderada de intersección sobre la unión de 94%, en cambio al entrenar la CNN
con 3000 super pixeles se obtuvo 93%, 53%, 50% y 88% de frecuencia ponderada de
intersección sobre la unión.
Se concluye en esta investigación que utilizando
CNN se pueden segmentar documentos históricos utilizando como recurso de
entrenamiento super píxeles de parches de imágenes el cual evita el uso de
métodos tradicionales como la segmentación y extracción de características y
luego entrenar la red neuronal. Al incrementar el número de super pixeles
mejora la calidad y precisión de segmentación.
La técnica de regularización de aumento de datos no ayudo a mejorar la
precisión del modelo en cambio solo mejoro la generalización de la CNN y en
efecto ayudo a evitar el overfitting.
Comentarios
Publicar un comentario