Corrección automática de errores de OCR en documentos semi-estructurados

Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.

Bibliographic Details
Main Author: Paliza, Pablo Andrés
Other Authors: Estrella, Paula Susana
Format: bachelorThesis
Language:spa
Published: 2017
Subjects:
Online Access:http://hdl.handle.net/11086/5587
_version_ 1801215515725660160
author Paliza, Pablo Andrés
author2 Estrella, Paula Susana
author_facet Estrella, Paula Susana
Paliza, Pablo Andrés
author_sort Paliza, Pablo Andrés
collection Repositorio Digital Universitario
description Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
format bachelorThesis
id rdu-unc.5587
institution Universidad Nacional de Cordoba
language spa
publishDate 2017
record_format dspace
spelling rdu-unc.55872022-10-13T11:32:59Z Corrección automática de errores de OCR en documentos semi-estructurados Paliza, Pablo Andrés Estrella, Paula Susana Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016. En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores. This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved. 2017-11-21T16:26:10Z 2017-11-21T16:26:10Z 2016-12-07 bachelorThesis http://hdl.handle.net/11086/5587 spa Atribución 2.5 Argentina https://creativecommons.org/licenses/by/2.5/ar/
spellingShingle Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales
Paliza, Pablo Andrés
Corrección automática de errores de OCR en documentos semi-estructurados
title Corrección automática de errores de OCR en documentos semi-estructurados
title_full Corrección automática de errores de OCR en documentos semi-estructurados
title_fullStr Corrección automática de errores de OCR en documentos semi-estructurados
title_full_unstemmed Corrección automática de errores de OCR en documentos semi-estructurados
title_short Corrección automática de errores de OCR en documentos semi-estructurados
title_sort correccion automatica de errores de ocr en documentos semi estructurados
topic Computing Methodologies
Document and Text Processing
Optical Character Recognition
OCR
Construcción de diccionarios
Archivos digitales
url http://hdl.handle.net/11086/5587
work_keys_str_mv AT palizapabloandres correccionautomaticadeerroresdeocrendocumentossemiestructurados