Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares

Bussi, Javier; Hernández, Lucia Noelia; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Mitas, Gerardo

Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares

dc.citation.title	Vigésimoterceras Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística de la Universidad Nacional de Rosario	es
dc.contributor.organizer	Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario	es
dc.creator	Bussi, Javier
dc.creator	Hernández, Lucia Noelia
dc.creator	Marí, Gonzalo Pablo Domingo
dc.creator	Méndez, Fernanda
dc.creator	Mitas, Gerardo
dc.date.accessioned	2019-02-18T14:58:07Z
dc.date.available	2019-02-18T14:58:07Z
dc.date.issued	2018-12-11
dc.description.abstract	La presencia de no respuesta es una de las principales dificultades que se presentan en las encuestas. La no respuesta puede ser total o parcial, existiendo una variedad de soluciones dependiendo de la situación. Si la no respuesta es parcial, la imputación de los valores perdidos es una opción usualmente utilizada. En el año 2018, se propuso en el Instituto Nacional de Estadística y Censos (INDEC), una revisión de los métodos de imputación aplicados a la Encuesta Nacional de Gastos de los Hogares (ENGHo). El método missForest (Stekhoven y Bühlmann, 2012) es un método de imputación no paramétrico cuyo algoritmo consiste en un proceso iterativo que asigna valores iniciales a los datos perdidos, construye un Forest ajustado el cual permite predecir nuevos datos imputados para cada una de las variables involucradas, y repite este procedimiento hasta su convergencia. En este trabajo se compara este método de imputación con otros métodos sugeridos en la bibliografía aplicados a los datos obtenidos en la ENGHo 2017-2018. Los métodos incluidos en la comparación son: Random Hot Deck (RHD), Vecino más cercano (VMC), Algoritmo Expectation-Maximization (EM), Amelia y Mice. Se determinó que la pérdida podía ser considerada completamente al azar, siendo este patrón uno de los escenarios planteados. Por otra parte, se consideró otro esquema de pérdida en la variable de interés basado en la variable estrato de áreas. Bajo ambos patrones de pérdida, se consideraron distintos porcentajes de valores perdidos. En todos los escenarios planteados, el método iterativo missForest presentó valores de Error Cuadrático Medio Normalizado (NRMSE) inferiores a los competidores, siendo el método Mice el que obtuvo valores similares, si bien en todos los casos levemente superiores. Con respecto a los tiempos de procesamiento, este último método presentó tiempos promedios muy superiores al resto de los métodos, siendo el missForest claramente el segundo método con tiempos promedios de cómputo más altos, pero aun así notablemente inferiores a los del Mice.	es
dc.description.abstract	The Non-Response in surveys is one of their major issues. Non-Response could be total or partial, with a variety of solutions depending on each situation in particular. If the Non-Response is partial, imputation of missing data is a method widely used. In 2018, the National Institute of Statistics and Censuses (INDEC) proposed a revision of the methods applied to the Household Expenditure Survey (ENGHo). The missForest is a nonparametric method of imputation in which the algorithm used is an iterative process that assigns initial values to the missing data, fits a random forest for each variable based on the observed values predicting new imputed observations until convergence. In this work, this method is compared to other methods reccomended for imputation in the bibliography. These methods are applied to data from the ENGHo 2017-1018. The methods considered for the comparison were: Random Hot Deck (RHD), Nearest Neighbor (NN), Expectation-Maximization Algorithm (EM), Amelia and Mice. It was determined that the values could be missing completely at random, and this type of pattern was one of the two scenarios considered for the comparison. In the second scenario considered, the probability of missing data depends on the stratum where the unit belongs. In both scenarios the Normal Root Square Mean Error (NRSME) for the missForest method was lower in comparison to all the competitors, being the Mice method the one that produced similar values but always slightly higher. With respect to computational processing times, the Mice method presented much higher average values in comparison to the other methods, being the missForest the second method with higher average processing times, but nonetheless, notably lower than those of Mice.	es
dc.description.fil	Bussi, Javier; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario	es
dc.description.fil	Hernández, Lucía Noelia; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario	es
dc.description.fil	Fil: Marí, Gonzalo Pablo Domingo; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario	es
dc.description.fil	Méndez, Fernanda; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario	es
dc.description.fil	Mitas, Gerardo; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario	es
dc.format	application/pdf
dc.identifier.issn	1668-5008	es
dc.identifier.uri	http://hdl.handle.net/2133/14011
dc.language.iso	spa	es
dc.relation.publisherversion	https://www.fcecon.unr.edu.ar/web-nueva/investigacion/actas-de-las-jornadas-anuales	es
dc.rights	openAccess	es
dc.rights.holder	Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario	es
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/ar/	*
dc.subject	Encuesta de Gastos de los Hogares	es
dc.subject	imputación	es
dc.subject	MissForest	es
dc.title	Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares	es
dc.type	conferenceObject
dc.type	documento de conferencia
dc.type.collection	comunicaciones

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Bussi, Mari, Mendez_el desafio del Big Data.pdf
Tamaño:: 140.08 KB
Formato:: Adobe Portable Document Format
Descripción:

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.59 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

FCEyE 2018 - Actas Jornadas Anuales - Vigésimoterceras: 11 y 12-12-2018