Psicothema

Psicothema, 2012. Vol. Vol. 24 (nº 1). 167-175

Imputación de datos perdidos en las evaluaciones diagnósticas educativas

Rubén Fernández-Alonso¹, Javier Suárez-Álvarez² y José Muñiz²

¹ Consejería de Educación y Universidades del Gobierno del Principado de Asturias y 2 Universidad de Oviedo

En la evaluación diagnóstica de sistemas educativos se utilizan habitualmente autoinformes para recoger datos de carácter tanto cognitivo como oréctico. Es muy frecuente que por distintas razones en estos autoinformes falten algunos de los datos del alumnado. El objetivo del presente trabajo es comparar el funcionamiento de diferentes métodos de imputación de datos perdidos en el contexto de la evaluación de sistemas educativos. Sobre una base de datos de 5.000 sujetos se simularon 72 condiciones: tres tamaños de pérdida de datos, tres mecanismos de pérdida y ocho métodos de imputación de los datos perdidos. La cuantía de las pérdidas se establecieron en un 5, 10 y 20%. Los mecanismos de pérdida fijados fueron: aleatoria, moderadamente condicionada y fuertemente condicionada. Los ocho métodos de imputación utilizados fueron: eliminación, reemplazo por la media de la escala, por la media del ítem, por la media del sujeto, por la media del sujeto corregida, regresión múltiple e imputación por el algoritmo Esperanza-Maximización (EM) con y sin variables auxiliares. Los resultados indican que la recuperación de los datos es más precisa cuando se emplea una combinación adecuada de diferentes métodos de recuperación de los datos perdidos. Cuando se trata de un caso incompleto funciona muy bien la media del sujeto, mientras que para datos completamente perdidos es recomendable la imputación múltiple con el algoritmo EM. El uso de esta combinación resulta especialmente recomendable cuando la pérdida de datos es mayor y su mecanismo de pérdida está más condicionado. Finalmente, se discuten los resultados y se comentan algunas líneas futuras de investigación que se abren a partir de los resultados obtenidos.

Imputation methods for missing data in educational diagnostic evaluation. In the diagnostic evaluation of educational systems, self-reports are commonly used to collect data, both cognitive and orectic. For various reasons, in these self-reports, some of the students’ data are frequently missing. The main goal of this research is to compare the performance of different imputation methods for missing data in the context of the evaluation of educational systems. On an empirical database of 5,000 subjects, 72 conditions were simulated: three levels of missing data, three types of loss mechanisms, and eight methods of imputation. The levels of missing data were 5%, 10%, and 20%. The loss mechanisms were set at: Missing completely at random, moderately conditioned, and strongly conditioned. The eight imputation methods used were: listwise deletion, replacement by the mean of the scale, by the item mean, the subject mean, the corrected subject mean, multiple regression, and Expectation-Maximization (EM) algorithm, with and without auxiliary variables. The results indicate that the recovery of the data is more accurate when using an appropriate combination of different methods of recovering lost data. When a case is incomplete, the mean of the subject works very well, whereas for completely lost data, multiple imputation with the EM algorithm is recommended. The use of this combination is especially recommended when data loss is greater and its loss mechanism is more conditioned. Lastly, the results are discussed, and some future lines of research are analyzed.

INFORMATION

PSICOTHEMA

CONTACT US

Imputación de datos perdidos en las evaluaciones diagnósticas educativas