Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas
Fil: García, Gregorio. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina.
Main Authors: | , , , |
---|---|
Format: | video |
Language: | spa |
Published: |
2020
|
Subjects: | |
Online Access: | http://hdl.handle.net/11086/16872 |
_version_ | 1801212348582592512 |
---|---|
author | García, Gregorio Ciardullo, Emanuel Marí, Gonzalo Mitas, Gerardo |
author_facet | García, Gregorio Ciardullo, Emanuel Marí, Gonzalo Mitas, Gerardo |
author_sort | García, Gregorio |
collection | Repositorio Digital Universitario |
description | Fil: García, Gregorio. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina. |
format | video |
id | rdu-unc.16872 |
institution | Universidad Nacional de Cordoba |
language | spa |
publishDate | 2020 |
record_format | dspace |
spelling | rdu-unc.168722020-12-04T22:55:04Z Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas García, Gregorio Ciardullo, Emanuel Marí, Gonzalo Mitas, Gerardo Imputación Estadísticas oficiales Censo Datos categóricos Fil: García, Gregorio. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina. Fil: Ciardullo, Emanuel. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina. Fil: Mitas, Gerardo. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina. Fil: Marí, Gonzalo. Universidad Nacional de Rosario. Instituto de Investigaciones de la Escuela de Estadística; Argentina. El Instituto Nacional de Estadística y Censos (INDEC) es el encargado del planeamiento y organización del Censo Nacional de Población y Viviendas (CNPyV) que se lleva a cabo cada 10 años. El mismo es el operativo más importante en términos de costo, logística y procesamiento y se caracteriza por recolectar información a través de variables mayormente del tipo categórica; por ejemplo: sexo, estado civil, rama de actividad y nivel educativo, entre otras. Asegurar la consistencia y completitud de la información es uno de los objetivos claves que se plantea el INDEC a la hora de realizar los CNPyV. Una vez finalizada la recolección de los datos, el Instituto usualmente debe tratar con el problema de datos faltantes, tanto a nivel individual como al de hogar/vivienda para la mayoría de las preguntas del cuestionario. Esta falta de información puede ocurrir por incompletitud ocasionada en parte por los censistas, por el proceso de lectura, por el reconocimiento óptico e interpretación de las cédulas censales para conformar la base censal, o bien porque la información brindada por la población presenta valores inconsistentes en algunas de las variables que se indaga, entre otras fuentes de error. Una de las metodologías claves a la hora de afrontar estos problemas que se mencionan son los métodos de imputación de valores perdidos; y en particular los orientados a la imputación de variables categóricas. El INDEC, en preparación para el próximo CNPyV, se encuentra evaluando diferentes métodos de imputación y las posibles herramientas disponibles para aplicarlos; entre ellos se encuentra la del vecino más cercano, implementado, por ejemplo, en el software CANCEIS desarrollado por Statistics Canada y principal cadidato a la hora de elegir una herramienta. Una modificación de este método fue propuesta por Tutz y Faisal (2017), que considera una distancia ponderada por la asociación entre las distintas variables para definir la vecindad entre unidades. El objetivo de este trabajo es el de presentar la modificación de Tutz y Faisal, su aplicación en diferentes escenarios simulados y evaluar su desempeño contrastándolo contra la imputación por la mediana y MissForest (Pantanowitz y Marwala, 2009), cuyo método está basado en la técnica Random Forest. Además, se evalúa su performance, su implementación en grandes volúmenes de datos, y la facilidad de interactuar con todo el proceso censal. Los resultados preliminares sugieren que el método de Tutz y Faisal es una alternativa viable para la imputación del futuro censo. Fil: García, Gregorio. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina. Fil: Ciardullo, Emanuel. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina. Fil: Mitas, Gerardo. Instituto Nacional de Estadística y Censos. Direccion Nacional de Metodología Estadística; Argentina. Fil: Marí, Gonzalo. Universidad Nacional de Rosario. Instituto de Investigaciones de la Escuela de Estadística; Argentina. 2020-11-24T18:33:39Z 2020-11-24T18:33:39Z 2020-10 video http://hdl.handle.net/11086/16872 spa Atribución-NoComercial 4.0 Internacional http://creativecommons.org/licenses/by-nc/4.0/ |
spellingShingle | Imputación Estadísticas oficiales Censo Datos categóricos García, Gregorio Ciardullo, Emanuel Marí, Gonzalo Mitas, Gerardo Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas |
title | Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas |
title_full | Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas |
title_fullStr | Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas |
title_full_unstemmed | Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas |
title_short | Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas |
title_sort | propuesta metodologica para imputacion de datos categoricos para el proximo censo nacional de poblacion y viviendas |
topic | Imputación Estadísticas oficiales Censo Datos categóricos |
url | http://hdl.handle.net/11086/16872 |
work_keys_str_mv | AT garciagregorio propuestametodologicaparaimputaciondedatoscategoricosparaelproximocensonacionaldepoblacionyviviendas AT ciardulloemanuel propuestametodologicaparaimputaciondedatoscategoricosparaelproximocensonacionaldepoblacionyviviendas AT marigonzalo propuestametodologicaparaimputaciondedatoscategoricosparaelproximocensonacionaldepoblacionyviviendas AT mitasgerardo propuestametodologicaparaimputaciondedatoscategoricosparaelproximocensonacionaldepoblacionyviviendas |