INFORMACIÓN

La revista Psicothema fue fundada en Asturias en 1989 y está editada conjuntamente por la Facultad y el Departamento de Psicología de la Universidad de Oviedo y el Colegio Oficial de Psicología del Principado de Asturias. Publica cuatro números al año.
Se admiten trabajos tanto de investigación básica como aplicada, pertenecientes a cualquier ámbito de la Psicología, que previamente a su publicación son evaluados anónimamente por revisores externos.

PSICOTHEMA
  • Director: Laura E. Gómez Sánchez
  • Periodicidad:
         Febrero | Mayo | Agosto | Noviembre
  • ISSN Electrónico: 1886-144X
CONTACTO
  • Dirección: Ildelfonso Sánchez del Río, 4, 1º B
    33001 Oviedo (España)
  • Teléfono: 985 285 778
  • Fax:985 281 374
  • Email: psicothema@cop.es

Uso de la Inteligencia Artificial en la Construcción de Pruebas: Una Guía Práctica

Using Artificial Intelligence in Test Construction: A Practical Guide

Javier Suárez-Álvarez1 , Qiwei He2 , Nigel Guenole3 , Damiano D’Urso4


1 University of Massachusetts Amherst (USA) University of Massachusetts University of Massachusetts Amherst USA. 2 Georgetown University (USA) Georgetown University Georgetown University USA. 3 University of London (United Kingdom) University of London University of London United Kingdom. 4 Independent Researcher (Netherlands) Independent Researcher Netherlands.

Background: Artificial Intelligence (AI) is increasingly used to enhance traditional assessment practices by improving efficiency, reducing costs, and enabling greater scalability. However, its use has largely been confined to large corporations, with limited uptake by researchers and practitioners. This study aims to critically review current AI-based applications in test construction and propose practical guidelines to help maximize their benefits while addressing potential risks.

Method: A comprehensive literature review was conducted to examine recent advances in AI-based test construction, focusing on item development and calibration, with real-world examples to demonstrate practical implementation.

Results: Best practices for AI in test development are evolving, but responsible use requires ongoing human oversight. Effective AI-based item generation depends on quality training data, alignment with intended use, model comparison, and output validation. For calibration, essential steps include defining construct validity, applying prompt engineering, checking semantic alignment, conducting pseudo factor analysis, and evaluating model fit with exploratory methods.

Conclusions: We propose a practical guide for using generative AI in test development and calibration, targeting challenges related to validity, reliability, and fairness by linking each issue to specific guidelines that promote responsible, effective implementation.

Antecedentes: La inteligencia artificial (IA) se utiliza crecientemente para mejorar las prácticas tradicionales de evaluación, aumentando la eficiencia, reduciendo costos y facilitando la escalabilidad. Sin embargo, su uso se ha limitado a grandes corporaciones, con escasa adopción por parte de investigadores y profesionales. Este estudio revisa críticamente las aplicaciones de la IA en la construcción de pruebas y propone guias prácticas para maximizar sus beneficios y abordar posibles riesgos.

Método: Se realizó una revisión exhaustiva de la literatura para examinar los avances en aplicaciones basadas en IA en la construcción de pruebas, con énfasis en el desarrollo y calibración de ítems, y se incluyeron ejemplos del mundo real para mostrar su implementación práctica.

Resultados: Las mejores prácticas para el uso de IA en el desarrollo de pruebas están en evolución, pero requieren supervisión humana. Para generar ítems se necesitan datos de calidad, alineación con el uso previsto, comparación de modelos y validación. Para calibrar, hay que definir el constructo, optimizar las instrucciones (prompts), verificar la alineación semántica, realizar análisis factoriales pseudoexploratorios y evaluar el ajuste del modelo.

Conclusiones: Se propone una guía práctica que vincula los desafíos de validez, fiabilidad y equidad con recomendaciones para una implementación responsable y eficaz.

PDF English English PDF

Impact Factor JCR SSCI Clarivate 2024 = 3.5 (Q1) / CiteScore SCOPUS 2024 = 7.0 (Q1)