INFORMATION

Psicothema was founded in Asturias (northern Spain) in 1989, and is published jointly by the Psychology Faculty of the University of Oviedo and the Psychological Association of the Principality of Asturias (Colegio Oficial de Psicólogos del Principado de Asturias).
We currently publish four issues per year, which accounts for some 100 articles annually. We admit work from both the basic and applied research fields, and from all areas of Psychology, all manuscripts being anonymously reviewed prior to publication.

PSICOTHEMA
  • Director: Laura E. Gómez Sánchez
  • Frequency:
         February | May | August | November
  • ISSN: 0214-9915
  • Digital Edition:: 1886-144X
CONTACT US
  • Address: Ildelfonso Sánchez del Río, 4, 1º B
    33001 Oviedo (Spain)
  • Phone: 985 285 778
  • Fax: 985 281 374
  • Email:psicothema@cop.es

Psicothema, 2000. Vol. Vol. 12 (Suplem.2). 335-339




FIABILIDAD ENTRE OBSERVADORES CON DATOS CATEGÓRICOS MEDIANTE EL ANOVA

José Luis Losada y Jaime Arnau

Universidad de Barcelona

El estudio de la conducta humana requiere, en la mayoría de los casos, instrumentos creados para la situación objeto de estudio (ad hoc). Una característica importante que deben cumplir estos instrumentos es tener alta fiabilidad. En la Metodología Observacional para estudiar la fiabilidad del observador se debe asumir que cada medida se divide en dos partes: una parte conocida o verdadera, y una parte desconocida o error. Cuando los datos son cuantitativos las pruebas sobre los sesgos entre observadores y las medidas de acuerdos entre ellos, se obtienen a partir del modelo ANOVA mixto estándar o a través de los modelos aleatorios. En estos casos la correlación intraclase es el índice de fiabilidad más utilizado. Por ejemplo cuando tenemos varios observadores y se quiere conocer su fiabilidad, generalmente se utiliza el coeficiente intraclase de Berck (1979), que detecta la concordancia y el error sistemático de unos observadores respecto a otros (ρ2). Existen numerosas versiones de la correlación intraclase, y para cada situación específica hay una forma apropiada, aunque conceptualmente todas se centran en el estudio de la fiabilidad. Cuando los datos son categóricos, o cuando la variable de respuesta se clasifica de acuerdo con una escala nominal o multinomial, una medida de acuerdo entre observadores, similar a la correlación intraclase, es el índice kappa de Cohen (1960). La presente comunicación plantea el estudio de la fiabilidad entre observadores mediante el índice de Kappa con el procedimiento del ANOVA. Si se verifica que no existe sesgo, la aplicación de un ANOVA unidimensional es suficiente para la estimación del coeficiente. Si, por el contrario, existiese sesgo entre los observadores, se deberán considerar como alternativas el ANOVA bidimensional de efectos aleatorios, o el modelo mixto de dos dimensiones.

Reliability among observers when the data are categorical. The study of the human behavior requires, in most of the cases, instruments created for the situation study object (ad hoc). In the Observational Methodology, to study the observer’s reliability it should be assumed that each measure is divided in two parts: a well-known or true part, and an unknown part or error. When the data are quantitative the tests on the biases between observers and the measures of agreements among them, are obtained starting from the pattern standard mixed ANOVA or through the aleatory models. In these cases the correlation intra is the used index of reliability. When the data are categorical, or when the answer variable is classified of agreement with a nominal scale or multinomial, an agreement measure among observers, similar to the correlation intra, it is the index Kappa of Cohen (1960). The present communication outlines the study of the reliability among observers by means of the index Kappa with the procedure of the ANOVA. If it is verified that bias, the application of an ANOVA unidimensional doesn’t exist it is enough for the estimate of the coefficient. If, on the contrary, exists bias among the observers, they will be considered as alternative the two-dimensional ANOVA of aleatory effects, or the mixed pattern of two dimensions.

PDF

El estudio de la conducta humana requiere, en la mayoría de los casos, instrumentos creados para la situación objeto de estudio (ad hoc). Una característica importante que deben cumplir estos instrumentos es tener alta fiabilidad.

El instrumento debe entenderse como aquel mecanismo representacional a través del cual se obtienen los registros, de tal forma que se puede considerar como instrumento un sistema de categorías, un observador, etc. En la Metodología Observacional, se utilizan términos como fiabilidad del observador, acuerdo entre observadores, que deben diferenciarse de términos como ‘estimadores estadísticos’, que hacen referencia a índices de grupo y a la exactitud de la precisión de las medidas. Para estudiar la fiabilidad del observador se debe asumir que cada medida se divide en dos partes: una parte conocida o verdadera, y una parte desconocida o error. Cuando los datos son cuantitativos las pruebas sobre los sesgos entre observadores y las medidas de acuerdos entre ellos, se obtienen a partir del modelo ANOVA mixto estándar o a través de los modelos aleatorios. En estos casos la correlación intraclase es el índice de fiabilidad más utilizado. Por ejemplo cuando tenemos varios observadores y se quiere conocer su fiabilidad, generalmente se utiliza el coeficiente intraclase de Berck (1979), que detecta la concordancia y el error sistemático de unos observadores respecto a otros (ρ2). Existen numerosas versiones de la correlación intraclase, y para cada situación específica hay una forma apropiada, aunque conceptualmente todas se centran en el estudio de la fiabilidad.

Cuando los datos son categóricos, o cuando la variable de respuesta se clasifica de acuerdo con una escala nominal o multinomial, una medida de acuerdo entre observadores, similar a la correlación intraclase, es el índice kappa de Cohen (1960). El índice kappa es un estadístico de concordancia que corrige el azar. Fleiss, Cohen y Everitt (1969) han descrito la distribución de muestreo de kappa.

La evaluación de esta concordancia entre observadores cumple más de una función. Cuando interesa demostrar que los observadores son precisos, se agrupan datos de diferentes tablas de concordancia en una sola tabla, calculando e interpretando un único valor de kappa. De esta forma se obtienen marginales más realistas. Sin embargo, cuando el objetivo es calibrar y entrenar observadores (competencia), el índice kappa debe calcularse individualmente para cada tabla de concordancia.

La matriz de confusión es la estructura más adecuada para controlar los acuerdos y desacuerdos entre dos observadores, pero cuando tenemos más de dos observadores, las posibles combinaciones dos a dos, dificultan este control. La fórmula para el cálculo del índice kappa es

Ecuación 1

siendo nii las casillas de la diagonal principal de la matriz de confusión, ni+ marginales de fila de la matriz de confusión, n+j marginales de columna de la matriz de confusión.

Fleiss (1981) caracteriza como regulares los valores de kappa que se hallan entre 0,40 y 0,60, buenos de 0,60 a 0,75, y excelentes por encima de 0,75.

La presente comunicación plantea el estudio de la fiabilidad entre observadores mediante del índice Kappa con el procedimiento del ANOVA. Si se verifica que no existe sesgo, la aplicación de un ANOVA unidimensional es suficiente para la estimación del coeficiente. Si, por el contrario, existiese sesgo entre los observadores, se deberán considerar como alternativas el ANOVA bidimensional de efectos aleatorios, o el modelo mixto de dos dimensiones.

Modelos para el estudio de la fiabilidad

Modelo de efectos aleatorios unidimensional

Una cuestión relevante en Metodología Observacional es sin duda el entrenamiento y competencia de los jueces u observadores que registran y el comportamiento de los sujetos. Supongamos a título de ejemplo, se ha solicitado a cuatro observadores que registren una situación utilizando el mismo sistema de categorías. Para este estudio de fiabilidad inter-observadores, seleccionamos una categoría que reviste cierta dificultad o complejidad para su registro. La codificación utilizada para este caso es la binaria, ocurrencias de la categoría (1) y no ocurrencias de la categoría (0). Además, la sesión se ha dividido en 20 intervalos, para facilitar el registro. Los datos se presentan en la tabla 1.

Un elemento cualquiera de esta tabla yij denota el registro del i-ésimo intervalo dado por el j-ésimo observador (i=1,2,... n; j=1,2,..... k). Por lo tanto se puede asumir que el modelo para la observación yij es

Ecuación 2

donde µ es la población global de las medidas, gi es el i-ésimo intervalo; y eij es el error residual que se asume con una distribución normal de media cero y variancia σe2. La variancia de yij viene dada por σ2 y= σ2 g + σ2 e.

Consecuentemente

Cov(yij,yi1)=σg2 i=1,2,.....n; j ≠1,2,... k

la correlación entre cualquier par de medidas en el mismo intervalo es

Este es el modelo de los componentes de variancia y el ANOVA que corresponde a la ecuación 2 se muestra en la tabla 2.

En la tabla 2, se tiene que

La estimación de σ2e y σ2g viene dada respectivamente por 2 e=MSi y 2 g = (MSe-MSi)/n0. Por lo tanto se puede definir el estimador del ANOVA de ρ por

Ecuación 3

Para conocer si existe sesgo o no entre los observadores, y en el caso de datos dicotómicos, resulta adecuado calcular el χ2de Cochran, teniendo en cuenta que bajo el supuesto de hipótesis nula de homogeneidad marginal, QA es equivalente y se distribuye como un χ2, con los mismos grados de libertad.

Ecuación 4

Aceptando la hipótesis nula, es decir, que los cuatro observadores tienen registros similares, asumiendo un error del 5% (α=0,05), el cálculo del índice Kappa se realiza como si los registros fuesen datos cuantitativos en lugar de categóricos (valores dicotómicos), donde los cuadrados medios proporcionan una buena estimación utilizando la expresión 3.

Se trata de desarrollar el procedimiento ANOVA que tiene como finalidad detectar hasta que punto los cuatro observadores son fiables. Para ello se ha utilizado el módulo de escalas -análisis de fiabilidad- del paquete estadístico SPSS versión 7.5, y los resultados obtenidos son los siguientes:

Relación e índices descriptivos de los observadores
****** Method 2 (covariance matrix) will be used for this analysis ******

R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
Mean
Std Dev
Cases
1.
OB1
,7500
,4443
20.0
2.
OB2
,5000
,5130
20.0
3.
OB3
,5500
,5104
20.0
4.
OB4
,5000
,5130
20.0

El valor medio más alto corresponde al observado uno (0,7500), en cambio la mayor variabilidad en las observaciones corresponde a los observadores dos y cuatro con 0,5130 en el total de los veinte intervalos.

A continuación se presentan las matrices de covariancia y correlación entre observadores. Evidentemente, cuanto mayor es el coeficiente de correlación y menor en grado de significación entre los observadores, son más fiables.

Matriz de Covariancia
OB1
OB2
OB3
OB4
OB1
,1974
OB2
,1316
,2632
OB3
,0395
,0789
,2605
OB4
,1316
,2105
,1316
,2632
Matriz de Correlación
OB1
OB2
OB3
OB4
OB1
1,0000
OB2
,5774
1,0000
OB3
,1741
,3015
1,0000
OB4
,5774
,8000
,5025
1,0000

Estadísticos de la escala total de los observadores

Se presentan los estadísticos de la media de los cuatro observadores. A continuación la media de los valores medios de los observadores, el valor mínimo de estas medias, el máximo, el rango, el cociente entre máximo y mínimo, y la variación de la distribución de medias. También se obtiene la misma información para las variancias de los observadores, para las covariancias y correlaciones entre observadores.

R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
N of Cases = 20,0
N of
Statistics for Scale
Mean 2,3000
Variance 2,4316
Std Dev 1,5594
Variables 4
Item Means
Mean ,5750
Minimum
,5000
Maximum
,7500
Range
,2500
Max/Min
1,5000
Variance
,0142
Item Variances ,2461
Mean ,1974
Minimum
,2632
Maximum
,0658
Range
1,3333
Max/Min
,0011
Variance
Inter-item Covariances
Mean ,1206
Minimum
,0395
Maximum
,2105
Range
,1711
Max/Min
5,3333
Variance
,0030
Inter-item Correlations
Mean ,4888
Minimum
,1741
Maximum
,8000
Range
,6259
Max/Min
4,5957
Variance
,0449

 

Resumen de estadisticos observador-total
Scale Mean if
Item Deleted
Scale Variance if Item
Deleted
Corrected Item
Total
Correlation
Squared
Multiple
Correlation

Alpha if
Item
Deleted

OB1
1,5500
1,6289
,5337
,3801
,7754
OB2
1,8000
1,3263
,7127
,6689
,6845
OB3
1,7500
1,6711
,3789
,2917
,8504
OB4
1,8000
1,2211
,8356
,7351
,6142

La primera columna presenta la media de las puntuaciones totales de los observadores donde en la suma de estas puntuaciones eliminamos el observador correspondiente. Es decir, 1,55 es la media de la variable suma del observador 2 más el observador 3 más el observador 4. La segunda columna son las variancias de esta variable suma así obtenida. La tercera columna presenta el coeficiente de correlación de Pearson entre cada observador y el total de observadores, restada de este total la puntuación del observador al que hace referencia el coeficiente. La cuarta columna son los cuadrados de los coeficientes de correlación múltiple entre cada observador y el resto, obtenidos a través de la regresión múltiple y que informa de la capacidad de predicción de la puntuación en un intervalo a partir del resto de observadores, por ejemplo, el 73,51% de la variabilidad de los registros del observador 4 puede ser explicada por el resto de observadores. Finalmente en la quinta y última columna tenemos un índice que informa de lo fiables que son los observadores. Se trata del coeficiente - de Cronbach, que es uno de los más utilizados para establecer la fiabilidad de una escala y está basado en la consistencia interna de la misma. Más concretamente, se obtiene como promedio de los coeficientes de correlación de Pearson entre todos los observadores si las puntuaciones de los mismos están estandarizadas, o como promedio de las covariancias si no lo están. Los valores de este coeficiente oscilan entre 0 y 1 y únicamente obtenemos valores negativos si la relación entre los observadores es negativa, en cuyo caso no procedería plantear la posibilidad de calcular un índice de fiabilidad entre observadores.

Análisis de la variancia

Source of Variation
Sum of Sq.
DF
Mean Square
Q
Prob.
Between People
11,5500
19
,6079
Within People
8,0000
60
,1333
Between Measures
,8500
3
,2833
6,3750
,0947
Residual
7,1500
57
,1254
Nonadditivity
,1864
1
,1864
1,4991
,2259
Balance
6,9636
56

,1243

Total
19,5500
79
,2475
Grand Mean
,5750
Hotelling’s
T-Squared= ,3124.
Degrees of Freedom:
F = 2,1809 ,
Numerator = 3
Prob.= ,1277,
Denominator = 17
Reliability Coefficients
4 items
Alpha = ,7937
Standardized item alpha = ,7927

En nuestro ejemplo, el α de Cronbach tanto no estandarizada como estandarizada da valores muy parecidos, esto es debido a que los observadores tienen variancias similares.

El test de Hotelling contrasta la hipótesis de si las medias de los observadores son estadísticamente iguales, como así sucede en este caso. La prueba de Tukey comprueba la hipótesis de la existencia o no de interacción multiplicativa entre los observadores.

El cálculo de la fiabilidad finaliza aplicando los valores proporcionados por el ANOVA a la ecuación 6 de tal forma que

Este resultado es el valor del índice kappa y siguiendo los criterios establecidos por Fleiss (1981), se considera a este valor como una fiabilidad regular entre estos observadores.

Los resultados de este ejemplo sólo se aplican a estimadores de fiabilidad obtenidos para un modelo de efectos aleatorios ONE-WAY.

Modelos alternativos

Modelo de efectos aleatorios bidimensionales

Un elemento cualquiera yijdenota el registro del i-ésimo intervalo dado por el j-ésimo observador (i=1,2,... n; j=1,2,..... k). Se puede asumir que el modelo para la observación yij en este caso es

Ecuación 5

donde µ es la población global de las medidas, gi es el i-ésimo intervalo, oj j-ésimo el observador y eij es el error residual que se asume con una distribución normal de media cero y variación σe2.

En este modelo se asume que el oj recoge el efecto aditivo de los observadores seleccionados normalmente con media cero y variancia σ2 e. Las tres variables g, o, y e son mutuamente independientes, y la variancia de yij viene definida por

La covariancia entre dos medidas en el mismo intervalo, tomado el intervalo i -ésima y el observador j -ésimo es

La correlación intraclase para calcular la fiabilidad es

Ecuación 6

Las estimaciones de los componentes variantes imparciales de σ2 g, σ2 o, y σ2 e, se calculan

Un estimador de la fiabilidad se formula de la siguiente forma

 

Ecuación 7

fórmula que fue propuesta por Bartko (1966).

Modelo de efectos mixtos bidimensionales

A diferencia del modelo anterior donde se pretendía generalizar los resultados de los observadores de la muestra a un grupo más amplio de observadores, en este modelo sólo nos interesa el grupo de observadores de la muestra.

Siguiente de Fleiss (1986), el yijse calcula de la siguiente forma

Ecuación 8

Aquí, o1, o2, .......ok, se asume que los efectos son constantes, y .

Los supuestos respecto a gi y ej son idénticos a los modelos anteriores. El ANOVA para este caso se presenta en la tabla 3.

En este modelo el índice de fiabilidad de Fleiss (1986) es

Ecuación 9

Fleiss (1986) describe el estimador r3, con las siguientes matizaciones en el procedimiento

1. Probar la variancias de los observadores si difieren significativamente entre si. Para probar esta hipótesis (H0: o1 = o2 ... = on = 0) se debe comparar la proporción F=MSe/MSi en la tabla la distribución de la de F (n-1) y (n-1)(k-1) grados de libertad. Aceptar la hipótesis nula implica la ausencia de error entre los observadores, y se puede estimar la fiabilidad aplicando la ecuación 11. Si F > F(n-1),(n-1)(k-1) entonces la hipótesis nula se rechaza y se asume que existen diferencias entre los observadores.

2. Cuando se rechaza la hipótesis nula debe determinarse qué observador u observadores son los responsables de las diferencias en los registros. Si no se incluyen los registros de estos observadores la estimación de la fiabilidad aumentará.

Si por ejemplo, los registros del j -ésimo observador son posiblemente los causantes de las diferencias entre observadores, para comprobarlo se plantea el siguiente contraste

con un error estándar

No se consideran los registros del j-ésimo observador si el valor L/SE(L) es mayor que |t(n-1)(k-1),α/ 2|. En este caso se debería volver a calcular el ANOVA sin el j-ésimo observador y el nuevo coeficiente de fiabilidad utilizando la ecuación 9.

Agresti, A. (1990). Categorical Data Analysis. New York, NY: Wiley Interscience.

Ato, M., y López, J. (1996). Análisis estadístico para datos categóricos. Madrid: Síntesis.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20, 37-46.

Demaris, A. (1992). Logit Modeling: Practical Applications. Newbury Park, CA: Sage

Fienberg, S.E. (1994). The analysis of cross-classified categorical data (2nd Ed.) Cambridge, Ma: MIT Press

Fleiss, J.L. , Cohen, J. & Everitt, B.S. (1969). Large sample satandard errors of kappa and wighted kappa. Psychologycal Bulletin, 72, 323-327.

Impact factor 2022:  JCR WOS 2022:  FI = 3.6 (Q2);  JCI = 1.21 (Q1) / SCOPUS 2022:  SJR = 1.097;  CiteScore = 6.4 (Q1)