2021. Vol. 33, nº 3 , p. 456-465
doi: 10.7334/psicothema2021.62





Javier López-Zambrano1, Juan Alfonso Lara Torralbo2, and Cristóbal Romero3

1 Escuela Superior Politécnica Agropecuaria de Manabí, 2 Madrid Open University, and University of Córdoba3

Background: Early prediction of students’ learning performance using data mining techniques is an important topic these days. The purpose of this literature review is to provide an overview of the current state of research in that area. Method: We conducted a literature review following a two-step procedure, looking for papers using the major search engines and selection based on certain criteria. Results: The document search process yielded 133 results, 82 of which were selected in order to answer some essential research questions in the area. The selected papers were grouped and described by the type of educational systems, the data mining techniques applied, the variables or features used, and how early accurate prediction was possible. Conclusions: Most of the papers analyzed were about online learning systems and traditional face-to-face learning in secondary and tertiary education; the most commonly-used predictive algorithms were J48, Random Forest, SVM, and Naive Bayes (classification), and logistic and linear regression (regression). The most important factors in early prediction were related to student assessment and data obtained from student interaction with Learning Management Systems. Finally, how early it was possible to make predictions depended on the type of educational system.

Predicción Temprana del Rendimiento Académico con Minería de Datos: una Revisión Sistemática. Antecedentes: la predicción temprana del rendimiento académico mediante técnicas de minería de datos es un campo de estudio emergente, que se pretende analizar por medio de este artículo de revisión. Método: se ha revisado la literatura existente por medio de un proceso de búsqueda de artículos en los principales motores de búsqueda, y de selección de los mismos de acuerdo con ciertos criterios. Resultados: el proceso de búsqueda reportó 133 resultados, de los cuales 82 fueron seleccionados para dar respuesta a las preguntas de investigación planteadas. Se han agrupado los trabajos encontrados para poder dar respuesta a las preguntas por tipo de sistema educativo, técnicas de minería de datos aplicadas, variables empleadas y grado de anticipación con el que se puede predecir. Conclusiones: la mayor parte de los trabajos publicados corresponden a sistemas de aprendizaje en línea y presenciales-tradicionales en educación secundaria y terciaria; los algoritmos más utilizados el J48, Random Forest, SVM, Naive Bayes (clasificación), y la regresión logística y lineal (regresión); los datos de evaluación y los obtenidos de la interacción del estudiante con el entorno de aprendizaje son las variables más relevantes; finalmente, la anticipación en la predicción varía según el tipo de sistema educativo.



