La revista Psicothema fue fundada en Asturias en 1989 y está editada conjuntamente por la Facultad y el Departamento de Psicología de la Universidad de Oviedo y el Colegio Oficial de Psicología del Principado de Asturias. Publica cuatro números al año.
Se admiten trabajos tanto de investigación básica como aplicada, pertenecientes a cualquier ámbito de la Psicología, que previamente a su publicación son evaluados anónimamente por revisores externos.
Psicothema, 1997. Vol. Vol. 9 (nº 2). 359-363
Alfonso Pitarque, Juan Carlos Ruiz, Inma Fuentes, María José Martínez y Marisa García-Merita
Universidad de Valencia
Se presenta un sistema experto basado en redes neurales que a partir de las respuestas de pacientes clínicos a un cuestionario de 169 ítems es capaz de llevar a cabo el diagnóstico de nuevos pacientes en relación a si pertenecen a una de las tres grandes patologías clínicas (depresión, esquizofrenia o neurosis), o bien pueden ser diagnosticados como personas mentalmente "sanas". Los análisis estadísticos muestran el poder predictivo de esta herramienta, lo que confirma que tales modelos podrán ser empleadas en un futuro próximo como herramientas de apoyo en la tarea profesional del psicólogo, tal y como ya ocurre en otras ciencias.
Clinical diagnosis by neural networks. Demonstrates the use of neural network expert systems for diagnostic purposes in the field of clinical psychology. Data from 68 patients (17 of them diagnosed as depressive by a clinical psychologists’ team, 17 neurotic, 17 squizofrenic and 17 "without pathologies" patients) were collected in a 169 ítems’ questionaire. Then a multilayer back-propagation neural network was trained with these data. A proportion of 0.917 new patients were correctly diagnosed by the net. These results show how neural netwoks can be applied as an useful tool in the clinical diagnostic.
Si bien desde la publicación de los tres volúmenes del libro Pararell Distributed Processing (Rumelhart, McClelland and the PDP Research Group, 1986) los modelos conexionistas han sido ampliamente aplicados en Psicología, sobre todo en las áreas de Psicología Básica y Psicobiología, su relación con la Psicología Clínica ha sido más bien escasa, incidiendo más las investigaciones en aportaciones teóricas que en aplicaciones concretas (ver p.e. Caspar, Rothenfluh y Segal, 1992; Stinson y Palmer, 1991; Tataryn, Nadel y Jacobs, 1989). Por contra, desde la óptica de los llamados modelos de representación simbólica (o también sistemas basados en el conocimiento) sí que existen aportaciones prácticas relevantes en el área de la Psicología Clínica, sobre todo en el desarrollo de sistemas expertos para la evaluación y diagnóstico clínico (ver p.e. Adarraga y Zaccagnini, 1992; Westmeyer y Hagebock, 1992).
El objetivo de este trabajo es desarrollar un sistema experto basado en redes neurales para el diagnóstico psicológico clínico. El por qué hemos decidido afrontar este objetivo desde la óptica de las redes neurales estriba en que, como señalan Adarraga y Zaccagnini (1992), los métodos envueltos en la diagnosis clínica muchas veces son vagos y mal estructurados, siendo precisamente en este tipo de problemas donde los modelos conexionistas muestran su mayor eficacia en relación a los modelos de representación simbólica (ver p.e. Steyaert, 1994).
Más en concreto, intentaremos desarrollar un sistema que a partir de las respuestas de un paciente clínico a un cuestionario sea capaz de llevar a cabo su diagnóstico en relación a si pertenece a una de las tres grandes patologías clínicas (depresión, esquizofrenia o neurosis), o si puede ser diagnosticado como una persona mentalmente "sana". Sistemas expertos de este tipo han sido aplicados con éxito en distintas áreas médicas (ver p.e. Baxt, 1990; Papa, Stone y Aldrich, 1994). Si funcionara adecuadamente, un sistema experto de estas características sería una herramienta de apoyo útil al psicólogo clínico en su trabajo cotidiano de evaluación y diagnosis.
Sin embargo, queremos remarcar que nuestro trabajo no pretende tanto dar con una herramienta definitiva de diagnóstico (evidentemente un diagnóstico basado tan sólo en tres grandes categorías clínicas es demasiado burdo y simplista) cuanto mostrar que las redes neurales pueden ser muy útiles para este tipo de tareas. Futuras investigaciones en este área deberían desarrollar redes para diagnósticos más específicos.
Método
Comenzamos construyendo un cuestionario de 226 ítems con el fin de determinar las características que definen las principales patologías clínicas (depresión, esquizofrenia y neurosis). Estos ítems se elaboraron a partir del modelo de Rojo Sierra (1983) sobre campo etiopatogénico, sensibilización psicobiográfica y desencadenantes de la enfermedad, y del Manual diagnóstico y estadístico de los Trastornos Mentales -DSM IV- (APA, 1995).
La naturaleza de estos ítems era variada: la mayoría eran variables cualitativas dicotómicas (p.e. ítems de respuestas tipo sí/no), pero había así mismo variables cualitativas de más de dos categorías (p.e. "estado civil"), así como ítems de naturaleza semicuantitativa (p.e. "lugar que ocupa en su familia en relación al número de hermanos") e ítems de naturaleza cuantitativa (p.e. "número de hijos", "número de hermanos/as", etc.).
Este cuestionario se pasó a una muestra de 60 pacientes clínicos, 20 de ellos diagnosticados previamente por un equipo de psicólogos clínicos como claramente "depresivos", 20 diagnosticados como "esquizofrénicos" y 20 como "neuróticos".
A partir de esta matriz de datos se llevó a cabo un análisis psicométrico convencional de los ítems (correlaciones ítem-total del test excluido el ítem, análisis de las cargas factoriales obtenidas en un análisis de componentes principales, análisis de los índices de validez) que nos permitió rechazar 57 ítems hasta reducir el cuestionario a 169 ítems. El coeficiente de fiabilidad alfa de Crombach fue de 0.936. Posteriormente el cuestionario se administró a 20 sujetos sin patologías clínicas (personas mentalmente "sanas"). De este modo conseguimos configurar una matriz de datos de 169 ítems por 80 sujetos que serviría para el entrenamiento y puesta a prueba de las distintas redes neurales, tal y como se describe abajo.
Creamos 10 redes neurales de acuerdo a las siguientes características: Todas tenían una estructura de tres capas de unidades (169 unidades de entrada; 75 unidades ocultas; y 4 unidades de salida). Las 169 unidades de entrada se correspondían con cada uno de los ítems que componían el anterior cuestionario. Las respuestas en cada uno de esos ítems se codificaban para presentarlos como valores de entrada a la red, transformándolos bien en valores binarios (con codificación -1 o +1), bien en valores continuos comprendidos en el rango [-1; +1] para los ítems no binarios. Los ítems no contestados (o valores faltantes -menos de un 1% de los datos-) fueron representados con un 0 (ver Pitarque y Ruiz, 1996). Cada unidad de la capa de entrada estaba conectada con todas las unidades ocultas, y éstas a su vez con cada una de las cuatro unidades de salida. Las redes empleaban el algoritmo de retropropagación (también llamada regla generalizada delta; ver Rumelhart et al, 1986, 1995 o López y Rubio, 1995) para modificar los pesos de las conexiones entre unidades, que se establecían al azar en el rango [-1; +1] antes de comenzar el entrenamiento. El porqué de haber optado por modelos de retro-propagación a la hora de implementar nuestro sistema estriba en que dentro del ámbito de las redes neurales tales modelos son los que sin duda mejores resultados obtienen en problemas de clasificación de patrones, hasta el punto que alrededor del 80% de proyectos conexionistas se basan en modelos de retro-propagación (Caudill y Butler, 1992).
Las unidades actualizaban sus activaciones utilizando la función de activación lineal para las unidades de entrada, la función sigmoidal en el caso de las unidades ocultas y la función tangencial en el caso de las de salida. Durante el entrenamiento el valor del parámetro momentum fue de 0.40 y las tasas de aprendizaje fueron de 0.30 (para las conexiones entre unidades de entrada y ocultas) y 0.15 (para las conexiones entre unidades ocultas y de salida). La justificación de utilizar estos valores, así como las funciones de activación y el número de unidades ocultas mencionados se debe a los resultados obtenidos en simulaciones previas que dieron lugar a resultados óptimos utilizando tales valores y funciones (ver también Pitarque y Ruiz, 1996; Pitarque et al, 1995).
A partir del fichero de datos original confeccionamos 10 ficheros de entrenamiento y 10 ficheros de test creados del siguiente modo: En cada caso seleccionamos al azar 3 sujetos de los 20 que pertenecían a cada categoría clínica, pasando a formar parte del fichero de test. Los 17 sujetos restantes pasaban a formar parte del fichero de entrenamiento de cada red. De este modo cada fichero de entrenamiento estaba formado por 68 filas de datos (por otros tantos sujetos) por 173 columnas (169 correspondientes a los ítems más 4 correspondientes a las patrones objetivo -target patterns-; ver Rumelhart et al, 1986, 1995). Los patrones objetivo que se suministraban a la red durante la fase de entrenamiento correspondían a las 4 categorías clínicas codificadas como 0001, 0010, 1000 o 0100 para representar, respectivamente, a los sujetos diagnosticados previamente por los psicólogos como esquizofrénicos, neuróticos, depresivos o ‘sanos’. Por su parte el fichero de test de cada red estaba formado por 12 filas de datos (por otros tantos sujetos) por 169 columnas o ítems de entrada, pues, lógicamente en este fichero los patrones objetivo no eran suministrados a la red.
Las redes eran entrenadas con los ficheros referidos durante 20000 ciclos de entrenamiento. El porqué haber utilizado este número de ciclos fue determinado por las similaciones previas referidas arriba, dado que se comprobó que a partir de aquí la red alcanzaba un nivel óptimo de aprendizaje sin caer en "mínimos locales" (ver p.e. Caudill y Butler, 1992; Chauvin y Rumelhart, 1995).
El aprendizaje de la redes se medía a través del cómputo del error RMS (ver Pitarque y Ruiz, 1996; Pitarque et al, 1995), que en una escala continua de entre 0 a 1 muestra el grado de ajuste entre los patrones de salida proporcionados por la red y los patrones objetivo. Por su parte, las redes respondían a los ficheros test asignando la probabilidad de pertenencia de cada sujeto a cada categoría clínica.
Resultados y Discusión
La proporción media de aciertos en los diagnósticos hechos por las 10 redes fue de 0.917. Un test z que comparaba tal proporción frente a la proporción media de aciertos que obtendrían dichas redes si respondieran al azar (0.25) mostró claramente el poder predictivo de tales modelos (z=16.87, p=0.0001). De otro lado un test ji-cuadrado para medir la bondad del ajuste entre la distribución de frecuencias teóricas por categoría que serían de esperar de acuerdo al diagnóstico de los psicólogos clínicos comparada con la distribución de frecuencias correspondientes a las respuestas reales de las redes no permitió rechazar la hipótesis nula (ji-cuadrado=1.867, 3 g.l.; p=.6005), lo que vuelve a hablar del buen rendimiento de tales modelos.
Estos resultados muestran claramente cómo los modelos de redes neurales pueden ser utilizados como sistemas expertos facilitadores del diagnóstico clínico, tal y como ocurre en otras ciencias. Los desarrollos futuros pasarían por entrenar redes que aprendiesen a discriminar entre subcategorías concretas pertenecientes a las tres grandes categorías clínicas utilizadas en nuestro trabajo. El continuo incremento de información aportado por la constante incorporación de nuevos pacientes, junto con el correspondiente reentrenamiento global de las redes (para evitar los denominados "olvidos catastróficos"; ver p.e. Caudill y Butler, 1992; Chauvin y Rumelhart, 1995), sería de esperar que diesen lugar a diagnosis cada vez más específicas y precisas. Trabajos futuros deberán abordar esta línea de desarrollo.
Agradecimientos
Los autores quieren agradecer la colaboración de Natalia Martínez, Marta Peinado y Mario Gómez por su ayuda en el desarrollo de esta investigación, así como a los revisores anónimos de este trabajo.
Esta investigación fue subvencionada por medio del Proyecto de Investigación PS94-0193 de la Subdirección General de Promoción de la Investigación del M.E.C.
Adarraga, P. y Zaccagnini, J.L. (1992). DAI: A knowledge-based system for diagnosing autism. A case study on the application of artificial intelligence to psychology. European Journal of Psychological Assessment, 8, 25-46.
American Psychiatry Association (1995). Manual diagnóstico y estadístico de loa trastornos mentales. Barcelona: Masson.
Baxt, W. (1990). Use of an artificial neural network for data analysis in clinical decision-making: The diagnosis of acute coronary occlusion. Neural Computation, 2, 480-489.
Caspar, F., Rothenfluh, T. y Segal, Z. (1992). The appeal of connectionism for clinical psychology. Clinical Psychology Review, 12, 719-762.
Caudill, M. y Butler, Ch. (1992). Understanding neural networks: Computer explorations. (2 vols.). A Bradford Book / MIT Press. Cambridge, Mass.
López, R. y Rubio, S. (1995). Principios formales del aprendizaje en los modelos de redes neurales: La asociación de patrones. Psicológica, 16, 203-223.
Papa, F.J., Stone, R. C. y Aldrich, D.G. (1994). A neural network-based differential diagnosis assessment instrument. Journal of Educational Computing Research,10, 277-290.
Pitarque, A. y Ruiz, J.C. (1996). Encoding missing data in back-propagation neural networks. Psicológica, 17, 83-92.
Pitarque, A., Ruiz, J.C. y Algarabel, S. (1995). Simulation of dissociative effects on explicit/implicit memory tasks from a connectionist model. Psicothema, 7, 339-350.
Rojo Sierra, M. (1983). Lecciones de Psiquiatría (Tomos I, II y III). Valencia: Promolibro.
Rumelhart, D.E., Hinton, G.E. y Willians, R.J. (1986). Learning internal representations by error propagation. En Rumelhart, D.E., McClelland, J.L. and the PDP Research Group (eds.) (1986). Pararell distributed processing: Explorations in the microstructure of cognition. Cambrigde, MA: MIT Press.
Rumelhart, D.E., McClelland, J.L. and the PDP Research Group (eds.) (1986). Pararell distributed processing: Explorations in the microstructure of cognition (vols. 1-3). Cambrigde, MA: MIT Press.
Rumelhart, D.E., Durbin, R., Golden, R. y Chauvin, Y. (1995). Backpropagation: The basic theory. En Y. Chauvin y D.E. Rumelhart (eds.), Backpropagation: Theory, architectures, and applications. LEA: Hillsdale, N.J.
Steyaert, J. (1994). Soft computing for soft technologies: Artificial neural networks and fuzzy set theory for human services. Computers in Human Services, 10, 55-67.
Stinson, C.H. y Palmer, S.E. (1991). Pararell distributed processing models of person schemas and pathologies. En M.J. Horowitz (ed.), Person schemas and maladaptive interpersonal patterns. Chicago: University of Chicago Press.
Tataryn, D.J., Nadel, L. y Jacobs, W.J. (1989). Cognitive therapy and cognitive science. In A. Freeman, K.M. Simon and L.E. Beutler (eds.), Comprehensive handbook of cognitive therapy. N.Y.: Plenum Press.
Westmeyer, H. y Hagebock, J. (1992). Computer-assisted assessment: A normative perspective. European Journal of Psychological Assessment, 8, 1-16.
Aceptado el 9 de octubre de 1996