Corrección automática de errores de OCR en documentos semi-estructurados
Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
Main Author: | |
---|---|
Other Authors: | |
Format: | bachelorThesis |
Language: | spa |
Published: |
2017
|
Subjects: | |
Online Access: | http://hdl.handle.net/11086/5587 |
_version_ | 1801215515725660160 |
---|---|
author | Paliza, Pablo Andrés |
author2 | Estrella, Paula Susana |
author_facet | Estrella, Paula Susana Paliza, Pablo Andrés |
author_sort | Paliza, Pablo Andrés |
collection | Repositorio Digital Universitario |
description | Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016. |
format | bachelorThesis |
id | rdu-unc.5587 |
institution | Universidad Nacional de Cordoba |
language | spa |
publishDate | 2017 |
record_format | dspace |
spelling | rdu-unc.55872022-10-13T11:32:59Z Corrección automática de errores de OCR en documentos semi-estructurados Paliza, Pablo Andrés Estrella, Paula Susana Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016. En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores. This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved. 2017-11-21T16:26:10Z 2017-11-21T16:26:10Z 2016-12-07 bachelorThesis http://hdl.handle.net/11086/5587 spa Atribución 2.5 Argentina https://creativecommons.org/licenses/by/2.5/ar/ |
spellingShingle | Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales Paliza, Pablo Andrés Corrección automática de errores de OCR en documentos semi-estructurados |
title | Corrección automática de errores de OCR en documentos semi-estructurados |
title_full | Corrección automática de errores de OCR en documentos semi-estructurados |
title_fullStr | Corrección automática de errores de OCR en documentos semi-estructurados |
title_full_unstemmed | Corrección automática de errores de OCR en documentos semi-estructurados |
title_short | Corrección automática de errores de OCR en documentos semi-estructurados |
title_sort | correccion automatica de errores de ocr en documentos semi estructurados |
topic | Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales |
url | http://hdl.handle.net/11086/5587 |
work_keys_str_mv | AT palizapabloandres correccionautomaticadeerroresdeocrendocumentossemiestructurados |