SITIO DE TEST - SITIO DE TEST - SITIO DE TEST - SITIO DE TEST - SITIO DE TEST - SITIO DE TEST - SITIO DE TEST - SITIO DE TEST - SITIO DE TEST
 

Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares

dc.citation.titleVigésimoterceras Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística de la Universidad Nacional de Rosarioes
dc.contributor.organizerSecretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarioes
dc.creatorBussi, Javier
dc.creatorHernández, Lucia Noelia
dc.creatorMarí, Gonzalo Pablo Domingo
dc.creatorMéndez, Fernanda
dc.creatorMitas, Gerardo
dc.date.accessioned2019-02-18T14:58:07Z
dc.date.available2019-02-18T14:58:07Z
dc.date.issued2018-12-11
dc.description.abstractLa presencia de no respuesta es una de las principales dificultades que se presentan en las encuestas. La no respuesta puede ser total o parcial, existiendo una variedad de soluciones dependiendo de la situación. Si la no respuesta es parcial, la imputación de los valores perdidos es una opción usualmente utilizada. En el año 2018, se propuso en el Instituto Nacional de Estadística y Censos (INDEC), una revisión de los métodos de imputación aplicados a la Encuesta Nacional de Gastos de los Hogares (ENGHo). El método missForest (Stekhoven y Bühlmann, 2012) es un método de imputación no paramétrico cuyo algoritmo consiste en un proceso iterativo que asigna valores iniciales a los datos perdidos, construye un Forest ajustado el cual permite predecir nuevos datos imputados para cada una de las variables involucradas, y repite este procedimiento hasta su convergencia. En este trabajo se compara este método de imputación con otros métodos sugeridos en la bibliografía aplicados a los datos obtenidos en la ENGHo 2017-2018. Los métodos incluidos en la comparación son: Random Hot Deck (RHD), Vecino más cercano (VMC), Algoritmo Expectation-Maximization (EM), Amelia y Mice. Se determinó que la pérdida podía ser considerada completamente al azar, siendo este patrón uno de los escenarios planteados. Por otra parte, se consideró otro esquema de pérdida en la variable de interés basado en la variable estrato de áreas. Bajo ambos patrones de pérdida, se consideraron distintos porcentajes de valores perdidos. En todos los escenarios planteados, el método iterativo missForest presentó valores de Error Cuadrático Medio Normalizado (NRMSE) inferiores a los competidores, siendo el método Mice el que obtuvo valores similares, si bien en todos los casos levemente superiores. Con respecto a los tiempos de procesamiento, este último método presentó tiempos promedios muy superiores al resto de los métodos, siendo el missForest claramente el segundo método con tiempos promedios de cómputo más altos, pero aun así notablemente inferiores a los del Mice.es
dc.description.abstractThe Non-Response in surveys is one of their major issues. Non-Response could be total or partial, with a variety of solutions depending on each situation in particular. If the Non-Response is partial, imputation of missing data is a method widely used. In 2018, the National Institute of Statistics and Censuses (INDEC) proposed a revision of the methods applied to the Household Expenditure Survey (ENGHo). The missForest is a nonparametric method of imputation in which the algorithm used is an iterative process that assigns initial values to the missing data, fits a random forest for each variable based on the observed values predicting new imputed observations until convergence. In this work, this method is compared to other methods reccomended for imputation in the bibliography. These methods are applied to data from the ENGHo 2017-1018. The methods considered for the comparison were: Random Hot Deck (RHD), Nearest Neighbor (NN), Expectation-Maximization Algorithm (EM), Amelia and Mice. It was determined that the values could be missing completely at random, and this type of pattern was one of the two scenarios considered for the comparison. In the second scenario considered, the probability of missing data depends on the stratum where the unit belongs. In both scenarios the Normal Root Square Mean Error (NRSME) for the missForest method was lower in comparison to all the competitors, being the Mice method the one that produced similar values but always slightly higher. With respect to computational processing times, the Mice method presented much higher average values in comparison to the other methods, being the missForest the second method with higher average processing times, but nonetheless, notably lower than those of Mice.es
dc.description.filBussi, Javier; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosarioes
dc.description.filHernández, Lucía Noelia; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosarioes
dc.description.filFil: Marí, Gonzalo Pablo Domingo; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosarioes
dc.description.filMéndez, Fernanda; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosarioes
dc.description.filMitas, Gerardo; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosarioes
dc.formatapplication/pdf
dc.identifier.issn1668-5008es
dc.identifier.urihttp://hdl.handle.net/2133/14011
dc.language.isospaes
dc.relation.publisherversionhttps://www.fcecon.unr.edu.ar/web-nueva/investigacion/actas-de-las-jornadas-anualeses
dc.rightsopenAccesses
dc.rights.holderFacultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarioes
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/ar/*
dc.subjectEncuesta de Gastos de los Hogareses
dc.subjectimputaciónes
dc.subjectMissForestes
dc.titleVisualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogareses
dc.typeconferenceObject
dc.typedocumento de conferencia
dc.type.collectioncomunicaciones

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Bussi, Mari, Mendez_el desafio del Big Data.pdf
Tamaño:
140.08 KB
Formato:
Adobe Portable Document Format
Descripción:
Bloque de licencias
Mostrando 1 - 1 de 1
Nombre:
license.txt
Tamaño:
3.59 KB
Formato:
Item-specific license agreed upon to submission
Descripción: