A comparison of discriminant logistic regression and Item Response Theory Likelihood-Ratio Tests for Differential Item Functioning(IRTLRDIF) in polytomous short tests

María Dolores Hidalgo1, María Dolores López-Martínez1, Juana Gómez-Benito2 and Georgina Guilera2

1 University of Murcia and
2 University of Barcelona

Background: Short scales are typically used in the social, behavioural and health sciences. This is relevant since test length can influence whether items showing DIF are correctly flagged. This paper compares the relative effectiveness of discriminant logistic regression (DLR) and IRTLRDIF for detecting DIF in polytomous short tests. Method: A simulation study was designed. Test length, sample size, DIF amount and item response categories number were manipulated. Type I error and power were evaluated. Results: IRTLRDIF and DLR yielded Type I error rates close to nominal level in no-DIF conditions. Under DIF conditions, Type I error rates were affected by test length DIF amount, degree of test contamination, sample size and number of item response categories. DLR showed a higher Type I error rate than did IRTLRDIF. Power rates were affected by DIF amount and sample size, but not by test length. DLR achieved higher power rates than did IRTLRDIF in very short tests, although the high Type I error rate involved means that this result cannot be taken into account. Conclusions: Test length had an important impact on the Type I error rate. IRTLRDIF and DLR showed a low power rate in short tests and with small sample sizes.

Funcionamiento diferencial del ítem en tests breves: comparación entre regresión logística discriminante e IRTLRDIF. Antecedentes: en ciencias sociales, del comportamiento y de salud es habitual usar tests breves. El tamaño del test puede afectar a la correcta identificación de ítems con DIF. Este trabajo compara la eficacia relativa de la Regresión Logística Discriminante (RLD) e IRTLRDIF en la detección del DIF en tests cortos politómicos. Método: se diseñó un estudio de simulación. Se manipuló tamaño del test, tamaño de la muestra, cantidad DIF y número de categorías de respuesta al ítem. Se evaluó el Error Tipo I y la potencia.Resultados: en las condiciones de no-DIF IRTLRDIF y RLD mostraron tasas de Error Tipo I cercanas al nivel nominal. En tests con DIF las tasas de Error Tipo I dependieron del tamaño del test, de la muestra, cantidad de DIF, contaminación del test y número de categorías del ítem. RLD presentó mayor tasa de Error Tipo I que IRTLRDIF. La potencia estuvo afectada por la cantidad de DIF y tamaño de la muestra. En tests muy cortos RLD mostró mayor potencia que IRTLRDIF. Conclusiones: en tests cortos y con DIF las tasas de Error Tipo I fueron elevadas. La potencia de IRTLRDIF y RLD fue relativamente baja en tests cortos y tamaños muestrales pequeños.


