Psicothema

Psicothema, 2005. Vol. Vol. 17 (nº 4). 569-574

MODELADO DEL NÚMERO DE DÍAS DE CONSUMO DE CANNABIS

Alfonso Palmer Pol, Noelia Llorens Aleixandre y Miguel J. Perelló del Río^*

Universitat de les Illes Balears y * Centro de Aplicaciones Psicológicas (Valencia)

Este artículo pretende mostrar, desde un punto de vista práctico, la manera adecuada de modelar una variable de respuesta de tipo recuento. Los resultados muestran que el modelo de regresión de Poisson es un modelo más adecuado que el de regresión lineal, ya que tiene en cuenta las características propias de los datos de recuento, aunque la presencia de sobredispersión indicará la corrección de los errores estándar de los parámetros del modelo de Poisson, y puede provocar el modelado mediante el modelo binomial negativa. El modelo de ceros aumentados será usado cuando haya un número excesivo de ceros. Para ello se modela el número de días de consumo de cannabis en función del consumo por parte del grupo de iguales y del consumo de cannabis del padre, de la madre y de los hermanos.

Modelling of the number of days of cannabis consumption. This article aims to show the appropriate way to model a count type response variable from a practical viewpoint. The results show that the Poisson regression model is more appropriate than the linear regression model, as it takes count data characteristics into consideration, although the presence of overdispersion indicates the correction of standard errors in the Poisson model parameters and may cause modelling through the negative binomial model. The Zero Inflated model shall be used whenever there is an excessive number of zeros. To do so, the number of days of cannabis consumption in accordance with peer group consumption and cannabis consumption by parents and siblings is modelled.

Innumerables teorías y modelos intentan explicar la conducta de consumo y el abuso de sustancias adictivas. En una revisión realizada por Lettieri, Seyers y Pearson (1980) se encontraron más de cuarenta perspectivas teóricas que intentan explicar los problemas y las conductas de consumo de sustancias adictivas. El paso de las drogas legales a las ilegales también ha sido muy estudiado, el modelo de Danise Kandel defiende la hipótesis de la escalada, donde se postulan la existencia de estadios secuenciales en el consumo de drogas (Kandel, 1975). Según esto, el consumo de cannabis es el paso intermedio entre el no consumo de drogas ilegales y el consumo de drogas potencialmente de riesgo como la cocaína y la heroína. Este modelo propone la existencia de una progresión secuencial en la conducta de consumo de drogas y distingue dos grandes tipos de variables predictoras en la conducta de consumo: la historia del consumo de drogas y las variables psicosociales del sujeto. Dentro de las variables psicosociales, la teoría del aprendizaje social de Bandura (1977) explica la conducta humana como un fenómeno de aprendizaje basándose en las leyes del condicionamiento clásico, operante y vicario, haciendo hincapié en el poder predictivo de las variables antecedentes familiares (Muñoz-Rivas y Graña, 2001; Martínez, Fuertes, Ramos y Hernández, 2003; Pérez y Delgado, 2003; Delgado y Pérez, 2004) e influencia del grupo de iguales (González, García-Señoran y González, 1996) en el consumo de drogas. Por su parte, Kandel y Davies (1992) encontraron que la influencia ejercida por los compañeros en el consumo de cannabis es muy importante, pero no tanto para el consumo de alcohol u otras drogas. Sin embargo, la influencia de los padres tenía un gran valor predictivo para el consumo de drogas ilegales diferentes al cannabis.

Toda conducta de consumo sigue un proceso, hay una serie de fases por las que se pasa del uso al abuso y a la posterior dependencia. El proceso es lento y complejo, pero predecible. Es importante detectar en qué punto de ese proceso se encuentra el sujeto, y también puede resultar útil saber qué variables de las señaladas por las diferentes teorías están afectando más, en la conducta de consumo de sustancias, en el punto concreto en el que se encuentra el sujeto. Para ello se ha analizado el número de días que han consumido cannabis en el último mes, tomada como variable de recuento.

Hay pocos estudios que realmente utilizan las técnicas estadísticas adecuadas para este tipo de variables. Concretamente, el problema que interesa resolver es cómo una o más variables pueden explicar o predecir el número de ocurrencias (recuento) que se dará de un hecho determinado. Hasta ahora se ha utilizado con frecuencia el modelo de regresión lineal, pero como señala Long (1997, p. 217), una variable de recuento tiene unas características que hacen que la utilización del modelo de regresión lineal para su modelado producirá estimaciones ineficientes, inconsistentes y sesgadas, mientras que el modelo de regresión de Poisson (MRP) es el modelo específico para analizar este tipo de datos.

El siguiente estudio pretende analizar, en una muestra de jóvenes adultos, el valor predictivo de las variables psicosociales en el consumo de sustancias. Dentro de las variables de historia de consumo se ha tenido en cuenta el consumo actual de cannabis, porque como señalan Martínez y Robles (2001), el cannabis es la droga ilegal más consumida en la actualidad, considerándose también la droga puente entre el consumo de drogas legales e ilegales. Dentro de las variables psicosociales hemos tenido en cuenta la influencia de la familia y la influencia del grupo de iguales.

Método

Participantes

Se utilizó un muestreo incidental llevado a cabo en varios edificios del campus universitario correspondientes a diferentes estudios, así como en zonas de marcha de la ciudad. La muestra estaba formada por 314 sujetos de edades comprendidas entre los 18 y los 30 años. La edad media de los sujetos fue de 22 años. Por sexos, el 53,9% eran hombres y el 46,1% eran mujeres.

Procedimiento

Se les administró un cuestionario anónimo desarrollado para medir la frecuencia de uso de diferentes sustancias adictivas, entre ellas el cannabis, así como el consumo del grupo de iguales y antecedentes familiares en el consumo. Los cuestionarios fueron administrados por un entrevistador, que preguntaba personalmente a los sujetos de forma individual y recogía las respuestas dadas por éstos.

El modelado utilizado para analizar los datos de recuento, número de días de consumo de cannabis durante el último mes, se enmarca dentro del modelo lineal generalizado. El análisis se realizó con el programa Stata 8.0.

Variables

La variable consumo de cannabis por parte del grupo de iguales era una variable categórica, representada en el modelo por las variables codificadas c1 (la mayoría), c2 (la mitad) y c3 (pocos) con categoría de referencia «ningún amigo consume». La variable antecedentes familiares se registró separando el consumo de cannabis del padre, de la madre y de los hermanos. Las tres variables antecedentes familiares se introdujeron en el modelo mediante las variables codificadas, pc1 (Sí), pc2 (No procede) para el padre, mc1 (Sí), mc2 (No procede) para la madre y hec1 (Sí), hec2 (No procede) para los hermanos, todas respecto a la categoría No consumo.

Resultados

Puesto que la variable número de días de consumo es una variable cuantitativa, tiende a ser modelada mediante el modelo de regresión lineal, lo que llevaría a los resultados mostrados en la parte izquierda de la tabla 1.

A partir de esta tabla puede verse que el modelo de regresión lineal nos dice que las variables c1, mc1 y hec1 son las variables explicativas significativas. Así pues, que todos los amigos consuman, que la madre consuma y que los hermanos consuman aumenta la probabilidad de que el sujeto consuma un mayor número de días. Sin embargo, si atendemos a las características de la variable respuesta utilizada, nos damos cuenta de que es una variable cuantitativa pero no continua, sino discreta, y que tan sólo puede tomar valores enteros y no negativos. Y además, cada dato indica el número de veces (días) que el suceso «tomar cannabis» ha sido repetido en cada sujeto, lo que define dicha variable respuesta como una variable de recuento.

Un hecho paradigmático de que el modelo de regresión lineal no es adecuado para datos de recuento es que hace predicciones negativas para una variable que, claramente, no admite valores negativos. En concreto, en este modelo se obtienen 32 valores predichos inferiores a cero.

En general, en estas situaciones se acostumbra a realizar una transformación logarítmica en la variable respuesta (logdias), ya que esto proporciona una distribución cercana a la normal, lo que posibilita su manejo mediante MCO (Mínimos Cuadrados Ordinarios). En la parte derecha de la Tabla 1 pueden verse los resultados del modelo de regresión lineal con la variable respuesta transformada en escala logarítmica.

El modelo de regresión con transformación logarítmica de la variable respuesta ajusta mejor que el modelo de regresión lineal ya que el índice AIC (Akaike Information Criterion) pasa de 6.519 a 3.022. Sin embargo, con la transformación logarítmica, existen por un lado, problemas de estimación, ya que un valor y= 0, frecuente en una variable de recuento, necesita ser transformado para poder ser utilizado, en general sumándole una pequeña cantidad, y por otra parte existen problemas de interpretación ya que, aunque se cumpla que exp[log(y)] sea igual a y, el valor predicho por la ecuación viene dado por exp[E(log(y))], el cual es diferente al valor de E(y).

Así pues, será necesario elegir el modelo adecuado a este tipo de variable. En la Tabla 2 se presenta el modelado de la variable número de días de consumo de cannabis por medio del modelo de regresión de Poisson (MRP). Los resultados señalan que el hecho de que los amigos consuman cannabis aumenta el número de días de consumo en un sujeto. El valor tan alto de los coeficientes será discutido posteriormente a partir de los datos de la Tabla 4. En cuanto a la influencia de los antecedentes familiares, vemos que el hecho de no tener padre, respecto a tenerlo y que éste no consuma, disminuye un 40% el número de días de consumo de cannabis. Por lo que respecta a la madre, si ésta consume el hijo consumirá cannabis el doble de días que si la madre no consume. El consumo de los hermanos aumenta en un 42% el número de días de consumo.

Los resultados dados hasta el momento parecen apoyar las teorías planteadas al inicio del artículo, no obstante cuando trabajamos con el MRP es importante comprobar el supuesto básico de equidispersión y en su defecto la aparición de sobredispersión que, como señalan McCullagh y Nelder (1989), es la norma en datos de recuento. El principal problema de la sobredispersión es que estando bien especificado el modelo, las estimaciones de los parámetros son correctas pero no sus errores estándar, lo que comporta una sobreestimación del valor de la prueba de conformidad del parámetro, así como de la amplitud de su intervalo de confianza. Un primer indicio de la existencia de sobredispersión se tiene a partir de los resultados del MRP, en los que se comprueba que el valor del cociente entre la discrepancia y sus grados de libertad, de valor 5.52, está alejado del valor 1 que indicaría equidispersión. Se ha comprobado la sobredispersión de los datos a través de la prueba basada en la regresión (Cameron y Trivedi, 1990), cuyo resultado t= 5.85 (p<0.01) indica que nos encontramos ante datos sobredispersos.

Ante la sobredispersión existen dos opciones, como señalan entre otros Hardin y Hilbe (2001): se puede realizar un ajuste post hoc de los errores estándar, utilizando para ello los diferentes índices que existen para tal fin, o, por otro lado, modelar con un modelo que sea más tolerante con la falta de equidispersión, como el modelo de regresión de la ninomial negativa (MRBN) (Lindsey, 1995).

Realizamos el ajuste de los errores estándar por medio de la raíz cuadrada del parámetro de dispersión, porque se ha señalado, entre otros, como un ajuste adecuado. Esto significa multiplicar, en este caso, los errores estándar obtenidos en el MRP por un factor de corrección de valor 2.35.

Los resultados de esta corrección se muestran en la parte central de la tabla 2. En ella se observa el aumento de los errores estándar respecto a los del MRP original, lo que produce una disminución del valor de la prueba z de conformidad de los coeficientes del modelo, así como de sus intervalos de confianza, y esto conlleva un menor número de variables consideradas predictoras en el MRP. Concretamente, podemos comprobar que ahora no son significativas las variables c2 y c3.

El modelo más ampliamente utilizado en situaciones de sobredispersión es el MRBN, ya que es capaz de recoger la sobredispersión causada por heterogeneidad no observada. En este modelo la variancia viene dada por V(y)= µ+aµ², por lo que se necesita una estimación de la constante alfa que, por máxima verosimilitud, en nuestro caso, vale 2.706.

Utilizando el MRBN se observa (parte derecha de la tabla 2) cómo ninguna de las variables indicadoras relacionadas con la familia aparecen como significativas, resultando significativa sólo la relación en función de los amigos. Se comprueba así, cómo varían los resultados en función del procedimiento estadístico aplicado.

MRP versus MRBN

La no-adecuación del MRP puede verse a través de los índices BIC y AIC, ya que en este modelo sus valores son de -68.12 y 6.95, siendo -1493.21 y 3.79 en el MRBN, lo que indica un mejor ajuste del MRBN.

Una manera de comparar la eficacia de ambos modelos es por medio de los residuales de discrepancia producidos en cada modelo. Las observaciones ajustadas correctamente por un modelo tendrán unos residuales que se moverán en el intervalo -2 a +2. En la figura 1 puede verse cómo prácticamente todos los residuales del MRBN se encuentran en el intervalo adecuado, mientras que muchos de los residuales del MRP caen fuera del intervalo adecuado. El gráfico ha sido dividido en 9 rectángulos para poder visualizar mejor dónde se producen las observaciones mal ajustadas. Así, se observa que todas las observaciones ajustadas por Poisson también son bien ajustadas por la binomial negativa, pero observaciones mal ajustadas por MRP son ajustadas correctamente por el MRBN.

Así pues, mientras en el MRP hasta 91 observaciones, un 28,86%, están mal ajustadas, sólo 4 observaciones, un 1,27%, están mal ajustadas en el MRBN, lo que significa que ésta consigue estimar correctamente el 91,6% de las observaciones mal ajustadas por el MRP. Todo ello implica que el modelo MRBN se adecúa muy bien a los datos, ya que ajusta correctamente el 98,73% de las observaciones.

Otra manera de evaluar la diferencia entre MRP y MRBN es por medio de las probabilidades predichas por cada modelo respecto a los valores observados. Ambos modelos proporcionan una tasa predicha de 1.39, lo que indica que las estimaciones del modelo de Poisson son consistentes, aun en presencia de sobredispersión. Sin embargo, las probabilidades predichas por cada modelo indican que el MRBN ajusta mucho mejor los ceros observados y su distribución es mucho más dispersa que la del MRP, ya que realiza predicciones en recuentos superiores a 8 cuando Poisson prácticamente los descarta. Por otra parte, la binomial negativa tampoco ajusta correctamente los recuentos inferiores a 5 aunque su ajuste, en todos los casos, es mejor que el realizado por Poisson.

Modelo de ceros aumentados

La existencia de un número excesivo de ceros, es decir, un número superior al predicho por el modelo, nos puede indicar la existencia de una mezcla de distribuciones. En nuestro caso es habitual encontrar esta situación, ya que en la muestra puede haber sujetos que no sean consumidores de cannabis, por lo que su consumo en el último mes será cero, aunque sean sujetos expuestos a la posibilidad de consumir. El modelo de ceros aumentados (se utilizará la notación ZIP [Zero-Inflated Poisson], por ser la notación estándar para este tipo de modelo) permite distinguir entre dos procesos conducentes a que un sujeto tenga valor cero: por un lado, los ceros estructurales (sujetos no consumidores) y, por otro, los ceros aleatorios (consumidores que no han consumido). Si se aplica el modelo ZIP se obtienen los resultados expuestos en la Tabla 3.

El test de Vuong (Vuong, 1989) permite comparar el modelo ZIP frente al modelo de Poisson, es decir, modelos no anidados, proporcionando un valor z= 6.97 (P<0.0001), según el cual el modelo ZIP proporciona un mejor ajuste que el modelo de Poisson.

En la figura 2 se comparan las diferencias entre lo observado y lo predicho en cada recuento para cada uno de los modelos: MRP, MRBN y ZIP.

En la figura 2 se comprueba que el número de ceros es predicho de forma perfecta por el ZIP. Asimismo, podemos ver que, en general, el ajuste del ZIP es mejor que el realizado por el MRBN, sobre todo en recuentos bajos.

En el modelado mediante el ZIP se obtiene que el grupo de amigos es fundamental a la hora de explicar el número de días de consumo de cannabis, observándose que los coeficientes asociados a estas variables son bastante altos. Para explicar esta relación podemos analizar los datos de la Tabla 4 en la que se especifican únicamente las frecuencias de los sujetos consumidores.

Podemos observar que prácticamente no hay ningún consumidor de cannabis que tenga un grupo de amigos en el que no haya ningún consumidor, ya que esto tan solo ocurre en un 0,8% de los casos. Cuando se tienen pocos amigos consumidores, lo que se da en un 8% de los casos, los sujetos mayoritariamente consumen de 1 a 7 días al mes, lo que ocurre en un 80% de estos casos, mientras que el 20% restante lo hacen de 8 a 14 días. Cuando la mitad de los amigos son consumidores, lo que ocurre en un 26% de los casos, un 9% de los sujetos ya consume entre 15 y 21 días al mes, un 30% lo hace entre 8 y 14 días, mientras que un 61% lo hace de 1 a 7 días. Cuando la mayoría del grupo de amigos son consumidores, lo que se da en un 65% de los casos, un 26% consume más allá de 22 días al mes incluyendo a los que consumen diariamente, casi un 10% fuma entre 14 y 21 días al mes, un 35% fuma entre 7 y 14 días y el 29% restante consume de 1 a 7 días. Así pues, a partir de la estructura triangular de la tabla de contingencia se deduce que a medida que aumenta el número de amigos que consumen aumenta también el número de días de consumo, tal como refleja la magnitud de los coeficientes de las variables c1, c2 y c3.

Asimismo, se obtiene que no tener padre respecto a tenerlo y que éste no consuma disminuye un 19% el número de días de consumo de cannabis. Por lo que respecta a la madre, si ésta consume aumenta un 71% el número de días de consumo del hijo, respecto a que la madre no consuma. Los hermanos también influyen, de manera que si éstos consumen aumenta un 29% el número de días de consumo, y el ser hijo único disminuye un 18% el número de días de consumo respecto a tener hermanos no consumidores.

Discusión

El consumo de cannabis ha ido aumentando e instaurándose en la sociedad con una gran aceptación en las últimas décadas. El papel de los amigos es fundamental en el número de días de consumo que se realizará del cannabis, así como los antecedentes familiares, tanto del padre, de la madre como de los hermanos.

En un primer análisis a través del MRP corregido, debido al incumplimiento de la equidispersión, y posteriormente con el modelo ZIP, hemos obtenido que el papel de la familia es fundamental en la frecuencia de consumo de cannabis. Estos mismos resultados los obtuvieron previamente Duncan, Duncan y Hops (1990), que mostraron que el papel de la familia era determinante en el inicio y mantenimiento de la conducta de consumo de diferentes sustancias de los menores. Sin embargo, realizando los análisis con el MRBN, en nuestro estudio no se confirma que la familia modele la conducta de consumo que hacen los jóvenes adultos del cannabis.

Elliot, Huizinga y Ageton (1982) señalaron que el consumo por parte del grupo de iguales predecía la presencia y cantidad del consumo de sustancias en adolescentes. En nuestro estudio se comprueba, a través del modelo de ceros aumentados ZIP, cómo el número de días que un sujeto va a consumir cannabis está parcialmente explicado por la cantidad de personas de su grupo que consumen la sustancia en cuestión y asimismo por los antecedentes familiares.

El presente estudio pretendía mostrar, utilizando las técnicas estadísticas adecuadas al tipo de datos a analizar, la capacidad explicativa de variables incluidas en el aprendizaje vicario. Parece demostrarse que un análisis estadístico no adecuado a los objetivos de las investigaciones, o un análisis no adecuado al tipo de datos a analizar, puede desembocar en resultados que no se ajusten tanto a la realidad. En Sturman (1999) se recogen algunos de los problemas que podemos encontrar al utilizar un procedimiento no adecuado a los datos con los que trabajamos.

La utilización de las técnicas estadísticas apropiadas en la investigación empírica puede considerarse un indicador de la madurez científica conseguida en ese ámbito, ya que estas técnicas son las que nos permitirán llegar a las mejores conclusiones basadas en nuestros datos.

Bandura, A. (1977). Social learning theory. Englewood Cliff, NJ: Prentice-Hall.

Bobes, J., Bascarán, M. T., González, M. P. y Sáiz, P. A. (2000) Epidemiología del uso/abuso de cannabis. Adicciones, 12(2), 31-40.

Cameron, A. C. y Trivedi, P. K. (1990). Regression-based tests for overdispersion in the Poisson model. Journal of Econometrics, 46(3), 347-364.

Cameron, A. C. y Trivedi, P. K. (1998). Regression analysis of count data. New York, NY: Cambridge University Press.

Duncan, S. C., Duncan, T. E. y Hops, H. (1998). Progressions of alcohol, cigarette and marijuana use in adolescence. Journal of Behavioral Medicine, 21(4), 375-388.

Elliot, D. S., Huizinga, D. y Ageton, S. S. (1982). Explaining delinquency and drug use. Boulder, CO: Behavioral Research Institute.

Golub, A. y Johnson, B. D. (1994). The shifting importance of alcohol and marijuana as gateway substances among serious drug abusers. Journal of Studies on Alcohol, 55(5), 607-614.

González, F., García-Señorán, M. M. y González, S. G. (1996). Consumo de drogas en la adolescencia. Psicothema, 8(2), 257-267.

Hardin, J. y Hilbe, J. (2001). Generalized Linear Models and Extensions. College Station, TX: Stata Press.

Hops, H. (1990). Parent-adolescent problem solving interactions and drug use. A Journal Drug Alcohol Abuse, 16(3-4), 151-164.

Kandel, D. (1975). Stages in adolescent involvement in drug use. Science, 190(4217), 912-914.

Kandel, D. B. y Davies, M. (1992). Progression to regular marijuana involvement: phenomenology and risk factors for near-daily use. En M. Glantz y R. Pickens (eds.): Vulnerability to drug abuse (pp. 211-253). Washington, DC: American Psychological Association.

Lettieri, D. J., Sayers, M. y Pearson, H. W. (1980). Theories on Drug Abuse: selected contemporary perspectives. NIDA Research Monograph 30. Rockville, MD: National Institute on Drug Abuse.

Lindsey, J. K. (1995). Modelling frequency and count data. Oxford: Clarendon Press.

Long, J. S. (1997). Regression models for categorical and limited dependent variables. Thousand Oaks, CA: Sage.

Long, J. S. y Freese, J. (2003). Regression models for categorical dependent variables using Stata. College Station, Texas: Stata Press.

Martínez, J. L., Fuertes, A., Ramos, M. y Hernández, A. (2003). Consumo de drogas en la adolescencia: importancia del afecto y la supervisión parental. Psicothema, 15(2), 161-166.

Martínez, J. M. y Robles, L. (2001). Variables de protección ante el consumo de alcohol y tabaco en adolescentes. Psicothema, 13(2), 222-228.

McCullagh, P. y Nelder, J. A. (1989). Generalized linear models (2.ª ed.). London: Chapman & Hall.

Muñoz-Rivas, M. J. y Graña, J. L. (2001). Factores familiares de riesgo y de protección para el consumo de drogas en adolescentes. Psicothema, 13(1), 87-94.

Pérez, A. y Delgado, D. (2003). La codependencia en familias de consumidores y no consumidores de drogas: estado del arte y construcción de un instrumento. Psicothema, 15(3), 381-387.

Pérez, A. y Delgado, D. (2004). La codependencia en familias de consumidores y no consumidores de sustancias psicoactivas. Psicothema, 16(4), 632-638.

Sturman, M. C. (1999). Multiple approaches to analyzing count data in studies of individual differences: the propensity for Type I errors, illustrated with the case of absenteeism prediction. Educational and Psychological Measurement, 59(3), 414-430.

Vuong, Q. (1989). Likelihood ratio tests for model selection and non-nested hypotheses. Econometrica, 57(2), 307-334.

INFORMATION

PSICOTHEMA

CONTACT US

MODELADO DEL NÚMERO DE DÍAS DE CONSUMO DE CANNABIS