Corrección automática de errores de OCR en documentos semi-estructurados

Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.

Bibliographic Details
Main Author:	Paliza, Pablo Andrés
Other Authors:	Estrella, Paula Susana
Format:	bachelorThesis
Language:	spa
Published:	2017
Subjects:	Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales
Online Access:	http://hdl.handle.net/11086/5587

_version_	1801215515725660160
author	Paliza, Pablo Andrés
author2	Estrella, Paula Susana
author_facet	Estrella, Paula Susana Paliza, Pablo Andrés
author_sort	Paliza, Pablo Andrés
collection	Repositorio Digital Universitario
description	Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016.
format	bachelorThesis
id	rdu-unc.5587
institution	Universidad Nacional de Cordoba
language	spa
publishDate	2017
record_format	dspace
spelling	rdu-unc.55872022-10-13T11:32:59Z Corrección automática de errores de OCR en documentos semi-estructurados Paliza, Pablo Andrés Estrella, Paula Susana Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales Tesis (Lic. en Ciencias de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2016. En este trabajo se presenta la tarea realizada para corregir automáticamente texto generado por un OCR desde un archivo digital realizado para preservar documentos creados durante la dictadura militar en Argentina entre los años 1976 y 1983, también conocido como el Proceso de Reorganización Nacional. Estos documentos son bastantes únicos en su estructura, contenido y estado de conservación, haciéndolos una colección desafiante. Se adoptó un enfoque de post-procesamiento, en el que se creó un diccionario especifico y la corrección del texto de salida del OCR se basó en distancias de edición y características tipográficas. En un conjunto de test representativo se logró corregir aproximadamente el 30% de los errores. This paper presents the work done to automatically correct OCRed text from a digital archive setup to preserve documents created during Argentina’s 1976-1983 dictatorship, also known as the National Reorganization Process (Proceso de Reorganización Nacional). These documents are quite unique in their structure, content and state of preservation, making it a challenging corpus. A postprocessing approach was adopted, in which a specific dictionary was created and the correction of the OCRed text was based on edit distances and typographical characteristics of the text. On a representative test set the correction of about 30\% of the OCR errors was achieved. 2017-11-21T16:26:10Z 2017-11-21T16:26:10Z 2016-12-07 bachelorThesis http://hdl.handle.net/11086/5587 spa Atribución 2.5 Argentina https://creativecommons.org/licenses/by/2.5/ar/
spellingShingle	Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales Paliza, Pablo Andrés Corrección automática de errores de OCR en documentos semi-estructurados
title	Corrección automática de errores de OCR en documentos semi-estructurados
title_full	Corrección automática de errores de OCR en documentos semi-estructurados
title_fullStr	Corrección automática de errores de OCR en documentos semi-estructurados
title_full_unstemmed	Corrección automática de errores de OCR en documentos semi-estructurados
title_short	Corrección automática de errores de OCR en documentos semi-estructurados
title_sort	correccion automatica de errores de ocr en documentos semi estructurados
topic	Computing Methodologies Document and Text Processing Optical Character Recognition OCR Construcción de diccionarios Archivos digitales
url	http://hdl.handle.net/11086/5587
work_keys_str_mv	AT palizapabloandres correccionautomaticadeerroresdeocrendocumentossemiestructurados

Corrección automática de errores de OCR en documentos semi-estructurados

Similar Items