El estudio de la conducta humana requiere, en la mayoría de los casos, instrumentos creados para la situación objeto de estudio (ad hoc). Una característica importante que deben cumplir estos instrumentos es tener alta fiabilidad.
El instrumento debe entenderse como aquel mecanismo representacional a través del cual se obtienen los registros, de tal forma que se puede considerar como instrumento un sistema de categorías, un observador, etc. En la Metodología Observacional, se utilizan términos como fiabilidad del observador, acuerdo entre observadores, que deben diferenciarse de términos como ‘estimadores estadísticos’, que hacen referencia a índices de grupo y a la exactitud de la precisión de las medidas. Para estudiar la fiabilidad del observador se debe asumir que cada medida se divide en dos partes: una parte conocida o verdadera, y una parte desconocida o error. Cuando los datos son cuantitativos las pruebas sobre los sesgos entre observadores y las medidas de acuerdos entre ellos, se obtienen a partir del modelo ANOVA mixto estándar o a través de los modelos aleatorios. En estos casos la correlación intraclase es el índice de fiabilidad más utilizado. Por ejemplo cuando tenemos varios observadores y se quiere conocer su fiabilidad, generalmente se utiliza el coeficiente intraclase de Berck (1979), que detecta la concordancia y el error sistemático de unos observadores respecto a otros (ρ2). Existen numerosas versiones de la correlación intraclase, y para cada situación específica hay una forma apropiada, aunque conceptualmente todas se centran en el estudio de la fiabilidad.
Cuando los datos son categóricos, o cuando la variable de respuesta se clasifica de acuerdo con una escala nominal o multinomial, una medida de acuerdo entre observadores, similar a la correlación intraclase, es el índice kappa de Cohen (1960). El índice kappa es un estadístico de concordancia que corrige el azar. Fleiss, Cohen y Everitt (1969) han descrito la distribución de muestreo de kappa.
La evaluación de esta concordancia entre observadores cumple más de una función. Cuando interesa demostrar que los observadores son precisos, se agrupan datos de diferentes tablas de concordancia en una sola tabla, calculando e interpretando un único valor de kappa. De esta forma se obtienen marginales más realistas. Sin embargo, cuando el objetivo es calibrar y entrenar observadores (competencia), el índice kappa debe calcularse individualmente para cada tabla de concordancia.
La matriz de confusión es la estructura más adecuada para controlar los acuerdos y desacuerdos entre dos observadores, pero cuando tenemos más de dos observadores, las posibles combinaciones dos a dos, dificultan este control. La fórmula para el cálculo del índice kappa es

Ecuación 1
siendo nii las casillas de la diagonal principal
de la matriz de confusión, ni+ marginales de fila de la matriz
de confusión, n+j marginales de columna de la matriz de confusión.
Fleiss (1981) caracteriza como regulares los valores de kappa que se hallan entre 0,40 y 0,60, buenos de 0,60 a 0,75, y excelentes por encima de 0,75.
La presente comunicación plantea el estudio de la fiabilidad entre observadores mediante del índice Kappa con el procedimiento del ANOVA. Si se verifica que no existe sesgo, la aplicación de un ANOVA unidimensional es suficiente para la estimación del coeficiente. Si, por el contrario, existiese sesgo entre los observadores, se deberán considerar como alternativas el ANOVA bidimensional de efectos aleatorios, o el modelo mixto de dos dimensiones.
Modelos para el estudio de la fiabilidad
Modelo de efectos aleatorios unidimensional
Una cuestión relevante en Metodología Observacional es sin duda el entrenamiento y competencia de los jueces u observadores que registran y el comportamiento de los sujetos. Supongamos a título de ejemplo, se ha solicitado a cuatro observadores que registren una situación utilizando el mismo sistema de categorías. Para este estudio de fiabilidad inter-observadores, seleccionamos una categoría que reviste cierta dificultad o complejidad para su registro. La codificación utilizada para este caso es la binaria, ocurrencias de la categoría (1) y no ocurrencias de la categoría (0). Además, la sesión se ha dividido en 20 intervalos, para facilitar el registro. Los datos se presentan en la tabla 1.
Un elemento cualquiera de esta tabla yij
denota el registro del i-ésimo intervalo dado por el j-ésimo observador
(i=1,2,... n; j=1,2,..... k). Por lo tanto se puede asumir que el modelo para la
observación yij es

Ecuación 2
donde µ es la población global de las medidas, gi es el i-ésimo intervalo; y eij es el error residual que se asume con una distribución normal de media cero y variancia σe2. La variancia de yij viene dada por σ2 y= σ2 g + σ2 e.
Consecuentemente
Cov(yij,yi1)=σg2 i=1,2,.....n; j ≠1,2,... k
la correlación entre cualquier par de medidas en el mismo intervalo es

Este es el modelo de los componentes de variancia y el ANOVA que corresponde a la ecuación 2 se muestra en la tabla 2.
En la tabla 2, se tiene que

La estimación de σ2e y σ2g
viene dada respectivamente por
2 e=MSi y
2 g = (MSe-MSi)/n0. Por lo tanto
se puede definir el estimador del ANOVA de ρ por

Ecuación 3
Para conocer si existe sesgo o no entre los observadores, y
en el caso de datos dicotómicos, resulta adecuado calcular el χ2de
Cochran, teniendo en cuenta que bajo el supuesto de hipótesis nula de
homogeneidad marginal, QA es equivalente y se distribuye como un χ2,
con los mismos grados de libertad.

Ecuación 4
Aceptando la hipótesis nula, es decir, que los cuatro
observadores tienen registros similares, asumiendo un error del 5% (α=0,05),
el cálculo del índice Kappa se realiza como si los registros fuesen
datos cuantitativos en lugar de categóricos (valores dicotómicos),
donde los cuadrados medios proporcionan una buena estimación utilizando
la expresión 3.
Se trata de desarrollar el procedimiento ANOVA que tiene como
finalidad detectar hasta que punto los cuatro observadores son fiables. Para
ello se ha utilizado el módulo de escalas -análisis de fiabilidad-
del paquete estadístico SPSS versión 7.5, y los resultados obtenidos
son los siguientes:
Relación e índices descriptivos de los
observadores
****** Method 2 (covariance matrix) will be used for this analysis ******
|
R E L I A B I L I T Y A N A L Y S I S - S C A L E (A
L P H A)
|
|
Mean
|
Std Dev
|
Cases
|
1.
|
OB1
|
,7500
|
,4443
|
20.0
|
2.
|
OB2
|
,5000
|
,5130
|
20.0
|
3.
|
OB3
|
,5500
|
,5104
|
20.0
|
4.
|
OB4
|
,5000
|
,5130
|
20.0
|
El valor medio más alto corresponde al observado uno
(0,7500), en cambio la mayor variabilidad en las observaciones corresponde a
los observadores dos y cuatro con 0,5130 en el total de los veinte intervalos.
A continuación se presentan las matrices de covariancia
y correlación entre observadores. Evidentemente, cuanto mayor es el coeficiente
de correlación y menor en grado de significación entre los observadores,
son más fiables.
Matriz de Covariancia
|
|
OB1
|
OB2
|
OB3
|
OB4
|
OB1
|
,1974
|
|
|
|
OB2
|
,1316
|
,2632
|
|
|
OB3
|
,0395
|
,0789
|
,2605
|
|
OB4
|
,1316
|
,2105
|
,1316
|
,2632
|
Matriz de Correlación
|
|
OB1
|
OB2
|
OB3
|
OB4
|
OB1
|
1,0000
|
|
|
|
OB2
|
,5774
|
1,0000
|
|
|
OB3
|
,1741
|
,3015
|
1,0000
|
|
OB4
|
,5774
|
,8000
|
,5025
|
1,0000
|
Estadísticos de la escala total de los observadores
Se presentan los estadísticos de la media de los cuatro observadores. A continuación la media de los valores medios de los observadores, el valor mínimo de estas medias, el máximo, el rango, el cociente entre máximo y mínimo, y la variación de la distribución de medias. También se obtiene la misma información para las variancias de los observadores, para las covariancias y correlaciones entre observadores.
R E L I A B I L I T Y A N A L Y S I S - S C A L E (A
L P H A)
|
N of Cases = 20,0
|
N of
|
Statistics for Scale |
Mean 2,3000
|
Variance 2,4316
|
Std Dev 1,5594
|
Variables 4
|
Item Means |
Mean ,5750
|
Minimum
,5000
|
Maximum
,7500
|
Range
,2500
|
Max/Min
1,5000
|
Variance
,0142
|
Item Variances ,2461 |
Mean ,1974
|
Minimum
,2632
|
Maximum
,0658
|
Range
1,3333
|
Max/Min
,0011
|
Variance
|
Inter-item Covariances |
Mean ,1206
|
Minimum
,0395
|
Maximum
,2105
|
Range
,1711
|
Max/Min
5,3333
|
Variance
,0030
|
Inter-item Correlations |
Mean ,4888
|
Minimum
,1741
|
Maximum
,8000
|
Range
,6259
|
Max/Min
4,5957
|
Variance
,0449
|
Resumen de estadisticos observador-total |
|
Scale Mean if
Item Deleted
|
Scale Variance if Item
Deleted
|
Corrected Item
Total
Correlation
|
Squared
Multiple
Correlation
|
|
OB1
|
1,5500
|
1,6289
|
,5337
|
,3801
|
,7754
|
OB2
|
1,8000
|
1,3263
|
,7127
|
,6689
|
,6845
|
OB3
|
1,7500
|
1,6711
|
,3789
|
,2917
|
,8504
|
OB4
|
1,8000
|
1,2211
|
,8356
|
,7351
|
,6142
|
La primera columna presenta la media de las puntuaciones totales
de los observadores donde en la suma de estas puntuaciones eliminamos el observador
correspondiente. Es decir, 1,55 es la media de la variable suma del observador
2 más el observador 3 más el observador 4. La segunda columna
son las variancias de esta variable suma así obtenida. La tercera
columna presenta el coeficiente de correlación de Pearson entre cada
observador y el total de observadores, restada de este total la puntuación
del observador al que hace referencia el coeficiente. La cuarta columna son
los cuadrados de los coeficientes de correlación múltiple entre
cada observador y el resto, obtenidos a través de la regresión
múltiple y que informa de la capacidad de predicción de la puntuación
en un intervalo a partir del resto de observadores, por ejemplo, el 73,51% de
la variabilidad de los registros del observador 4 puede ser explicada por el
resto de observadores. Finalmente en la quinta y última columna tenemos
un índice que informa de lo fiables que son los observadores. Se trata
del coeficiente - de Cronbach, que es uno de los más utilizados para
establecer la fiabilidad de una escala y está basado en la consistencia
interna de la misma. Más concretamente, se obtiene como promedio de los
coeficientes de correlación de Pearson entre todos los observadores si
las puntuaciones de los mismos están estandarizadas, o como promedio
de las covariancias si no lo están. Los valores de este coeficiente oscilan
entre 0 y 1 y únicamente obtenemos valores negativos si la relación
entre los observadores es negativa, en cuyo caso no procedería plantear
la posibilidad de calcular un índice de fiabilidad entre observadores.
Análisis de la variancia
|
Source of Variation
|
Sum of Sq.
|
DF
|
Mean Square
|
Q
|
Prob.
|
Between People
|
11,5500
|
19
|
,6079
|
|
|
Within People
|
8,0000
|
60
|
,1333
|
|
|
Between Measures
|
,8500
|
3
|
,2833
|
6,3750
|
,0947
|
Residual
|
7,1500
|
57
|
,1254
|
|
|
Nonadditivity
|
,1864
|
1
|
,1864
|
1,4991
|
,2259
|
Balance
|
6,9636
|
56
|
,1243
|
|
|
Total
|
19,5500
|
79
|
,2475
|
|
|
Grand Mean
|
,5750
|
|
|
|
|
Hotelling’s
T-Squared= ,3124.
Degrees of Freedom:
|
F = 2,1809 ,
Numerator = 3
|
Prob.= ,1277,
Denominator = 17
|
Reliability Coefficients
|
4 items
|
Alpha = ,7937
|
Standardized item alpha = ,7927
|
En nuestro ejemplo, el α de Cronbach tanto no estandarizada
como estandarizada da valores muy parecidos, esto es debido a que los observadores
tienen variancias similares.
El test de Hotelling contrasta la hipótesis de si las medias de los observadores
son estadísticamente iguales, como así sucede en este caso. La prueba
de Tukey comprueba la hipótesis de la existencia o no de interacción
multiplicativa entre los observadores.
El cálculo de la fiabilidad finaliza aplicando los valores proporcionados por el ANOVA a la ecuación 6 de tal forma que

Este resultado es el valor del índice kappa y siguiendo los criterios establecidos por Fleiss (1981), se considera a este valor como una fiabilidad regular entre estos observadores.
Los resultados de este ejemplo sólo se aplican a estimadores de fiabilidad obtenidos para un modelo de efectos aleatorios ONE-WAY.
Modelos alternativos
Modelo de efectos aleatorios bidimensionales
Un elemento cualquiera yijdenota el registro del
i-ésimo intervalo dado por el j-ésimo observador (i=1,2,... n;
j=1,2,..... k). Se puede asumir que el modelo para la observación yij
en este caso es

Ecuación 5
donde µ es la población global de las medidas, gi
es el i-ésimo intervalo, oj j-ésimo el observador y
eij es el error residual que se asume con una distribución
normal de media cero y variación σe2.
En este modelo se asume que el oj recoge el efecto aditivo
de los observadores seleccionados normalmente con media cero y variancia σ2
e. Las tres variables g, o, y e son mutuamente independientes, y
la variancia de yij viene definida por

La covariancia entre dos medidas en el mismo intervalo, tomado el intervalo i -ésima y el observador j -ésimo es

La correlación intraclase para calcular la fiabilidad es

Ecuación 6
Las estimaciones de los componentes variantes imparciales de
σ2 g, σ2 o, y σ2
e, se calculan

Un estimador de la fiabilidad se formula de la siguiente forma
Ecuación 7
fórmula que fue propuesta por Bartko (1966).
Modelo de efectos mixtos bidimensionales
A diferencia del modelo anterior donde se pretendía generalizar los resultados de los observadores de la muestra a un grupo más amplio de observadores, en este modelo sólo nos interesa el grupo de observadores de la muestra.
Siguiente de Fleiss (1986), el yijse calcula de
la siguiente forma

Ecuación 8
Aquí, o1, o2, .......ok,
se asume que los efectos son constantes, y .
Los supuestos respecto a gi y ej son idénticos
a los modelos anteriores. El ANOVA para este caso se presenta en la tabla 3.
En este modelo el índice de fiabilidad de Fleiss (1986) es

Ecuación 9
Fleiss (1986) describe el estimador r3, con las siguientes
matizaciones en el procedimiento
1. Probar la variancias de los observadores si difieren significativamente
entre si. Para probar esta hipótesis (H0: o1 =
o2 ... = on = 0) se debe comparar la proporción F=MSe/MSi en la tabla la distribución de la de F (n-1) y (n-1)(k-1) grados de libertad. Aceptar
la hipótesis nula implica la ausencia de error entre los observadores,
y se puede estimar la fiabilidad aplicando la ecuación 11. Si F >
F(n-1),(n-1)(k-1) entonces la hipótesis nula se rechaza y se asume que existen diferencias entre
los observadores.
2. Cuando se rechaza la hipótesis nula debe determinarse qué observador u observadores son los responsables de las diferencias en los registros. Si no se incluyen los registros de estos observadores la estimación de la fiabilidad aumentará.
Si por ejemplo, los registros del j -ésimo observador son posiblemente los causantes de las diferencias entre observadores, para comprobarlo se plantea el siguiente contraste

con un error estándar

No se consideran los registros del j-ésimo observador
si el valor L/SE(L) es mayor que |t(n-1)(k-1),α/ 2|. En este caso se debería
volver a calcular el ANOVA sin el j-ésimo observador y el nuevo coeficiente
de fiabilidad utilizando la ecuación 9. |