corresponde con el riesgo relativo, o sea, es una medida de la influencia de la variable xi sobre el riesgo de que ocurra ese hecho y suponiendo que el resto de las variables del modelo permanezcan constantes. Un intervalo de confianza para el exponencial de β que contenga al 1 indica que la variable no tiene una influencia significativa en la ocurrencia del suceso y, por el contrario, valores más alejados de este indican una mayor influencia de la variable.
Una vez estimados los valores de α y β1, podemos determinar la probabilidad del suceso para distintos valores de los Xi. El valor de a se corresponde con la constante en la salida de la regresión logística.
2.1. Variables categóricas
Cuando algunas de las variables explicativas son de índole nominal, de más de 2 categorías (politómicas), para incluirlas en el modelo hay que darles un tratamiento especial.
Si estamos en presencia de una variable nominal con C categorías, debemos incluirla en el modelo de regresión logística como variable categórica, de manera que a partir de ella se crean C-1 variables dicotómicas llamadas dummy o ficticias. Al crear las variables dummy se debe precisar con cuál de las categorías de la variable original interesa comparar el resto y esa será la llamada categoría de referencia.
En general, el exponencial del coeficiente correspondiente a una de las variables dummy, estima la magnitud en que varía el riesgo de que ocurra el suceso, compara esa categoría con la de referencia.
2.2. Variables ordinales
En el caso de las variables ordinales se puede asumir que la escala funciona aproximadamente a un nivel cuantitativo, desde luego, tal maniobra presupone que se considere que la «distancia» entre categorías contiguas es la misma. En el caso contrario, las variables ordinales pueden manejarse del mismo modo que se ha explicado para las nominales, o sea como variables dummy.
2.3. Interacciones
En ocasiones se piensa que la influencia de una de las variables sobre la probabilidad de que ocurra el hecho se modifica en función del valor de otra de las variables y es necesario incluir en el modelo una tercera que sea el producto de las anteriores. Estos son los conocidos como términos de interacción que pueden incluir 2 o más variables.
Introducimos términos de interacción cuando tenemos razones para suponer que la influencia de una de las variables sobre p varía en función del valor que asume otra de las variables incluidas en el modelo; o sea, si la influencia de X1 sobre p varía en función del valor que toma X2, incluimos en el modelo un término que represente la interacción de X1 y X2.
2.4. Algunos aspectos a tener en cuenta para el uso de la regresión logística
- Tamaño de muestra y número de variables independientes. Una de las ventajas de la regresión logística es que permite el uso de múltiples variables con relativamente pocos casos, sin embargo, hay que tener en cuenta algunas precauciones. Se ha sugerido que el número de sujetos para poder usar esta técnica estadística sin problemas debe ser superior a 10 (k+1) donde k es el número de variables explicativas; por tanto, si se introducen interacciones o variables dummy, el número de elementos en la muestra debe aumentar. Además se ha sugerido que si una de las variables dicotómicas (en especial si es la de respuesta) no tiene al menos 10 casos en cada uno de sus 2 valores posibles, entonces las estimaciones no son confiables. (8) En cuanto al número de variables independientes, la inclusión de un gran número de ellas en el modelo (ej. K>15), puede indicar que no se ha reflexionado suficientemente sobre el problema.
- Es necesario tener en cuenta el efecto sobre el riesgo de que ocurra el evento, de los cambios de las variables explicativas cuando son cuantitativas (continuas), en ocasiones es necesario categorizarlas, ya que los cambios que se producen de una unidad a otra pueden resultar intrascendentes o no ser constantes a lo largo del rango de valores de la variable.
- Cuando algunas de las variables independientes analizadas están altamente correlacionadas, los resultados que se obtienen pueden no ser satisfactorios, por esta razón debe realizarse un análisis previo univariado entre las distintas variables explicativas.
Para que la regresión logística tenga un sentido claro, tiene que existir una relación monótona entre las variables explicativas y la de respuesta, esto significa que el aumento de las unas se acompañe del aumento o la disminución aproximadamente constante de la otra, para todo el rango de valores estudiados.
2.5. Descripción de una salida de resultados.
2.5.1. Bloque 0: Bloque inicial
En este bloque inicial se calcula la verosimilitud de un modelo que sólo tiene el término constante (α ó b0). El estadístico -2LL mide hasta qué punto un modelo se ajusta bien a los datos. El resultado de esta medición recibe también el nombre de «desviación». Cuanto más pequeño sea el valor, mejor será el ajuste. En este primer paso sólo se ha introducido el término constante en el modelo. La salida del ordenador nos muestra un resumen del proceso iterativo de estimación del primer parámetro (b0). También nos muestra el valor del parámetro calculado (b0)
Finalmente se presenta el parámetro estimado (B), su error estándar (E.T.) y su significación estadística con la prueba de Wald, que es un estadístico que sigue una ley Chi cuadrado con 1 grado de libertad. Y la estimación de la OR (Exp(B)).
2.5.2. Bloque 1: Método = Por pasos hacia adelante (Razón de verosimilitud)
2.5.2.1 Prueba Ómnibus
Nos ofrece tres entradas: Paso, Bloque y Modelo.
- La fila primera (PASO) es la correspondiente al cambio de verosimilitud (de -2LL) entre pasos sucesivos en la construcción del modelo, contrastando la H0 de que los coeficientes de las variables añadidas en el último paso son cero.
- La segunda fila (BLOQUE) es el cambio en -2LL entre bloques de entrada sucesivos durante la