lunes, 6 de noviembre de 2017

Criterio 6: El Comportamiento de los Datos

El sexto y último criterio para elegir un procedimiento estadístico para el análisis de datos es el comportamiento de los datos. Este criterio es el más desconocido de todos, la bibliografía habla muy poco, pero es un criterio real a tomar en cuenta. Pensemos en la prueba Chi cuadrado, que tiene una corrección que se llama la corrección de Yates, y se aplica cuando una de las casillas esperadas en la tabla de contingencia está por debajo de un valor esperado, sucede cuando se tiene muy pocos datos y la muestra es pequeña; entonces se hace una corrección, ya que no se sabía que esto iba a ocurrir desde el momento en que se planeó el estudio, en lugar de aplicar Chi Cuadrado, se aplica la corrección de Yates.

Otro ejemplo, cuando se comparar dos grupos y la variable aleatoria a comparar es numérica. Una variable aleatoria es aquella que cuando se realiza un estudio,  recién te enteras de su valor cuando la mides. Entonces en una comparación de dos grupos, se tiene dos variables, la variable de conformación de grupo (es fija) y la variable aleatoria que se va a medir, se aplica entonces t de Student para muestras independientes. Pero si la variable aleatoria no tiene distribución normal, entonces se decide aplicar la U de Mann-Whitney, que es su equivalente no paramétrico. A pesar de que el tipo, el nivel y diseño de investigación es el mismo, es la misma variable, el mismo atributo de la variable y el mismo objetivo del estudio; pero no cumple el criterio del comportamiento de los datos, ya que la variable aleatoria no presenta distribución de normalidad, se debe cambiar de prueba estadística, de la t de Student a la U de Mann-Whitney.

Las variables numéricas son continuas y discretas. El problema de la normalidad es para las variables continuas, ya que cuando se usa una variable continúa, se parte de la premisa de que tiene distribución normal.

Pero cuando se trabaja con variables discretas no se parte de esa premisa, porque la variable discreta es conteo, es número entero; por ejemplo, número de pacientes que llegan, número de clientes que se atiende, número de alumnos en un salón, el número de hijos en una familia.

Las variables discretas tienen distribución binomial o distribución Poisson, ¿Cuál es la diferencia?, la distribución binomial tiene un límite, mientras que la distribución de Poisson no tiene límite.

Entonces los procedimientos analíticos que se desarrollan para la distribución normal,  la distribución binomial y la distribución Poisson son distintos, muchas veces nos enfocados nada más en la distribución normal, pero la distribución normal es para las variables continuas y cuando de variables numéricas se trata, se tiene variables continuas y variables discretas y la diferencia entre las variables numéricas está precisamente ahí, no está en las escalas de medición: escala de intervalo y escala de razón, desde el punto de vista aleatorio se comportan de la misma manera.

En las variables categóricas, nos enfocamos en las escalas de medición nominal y ordinal porque los procedimientos estadísticos para una y otra escala, sí son distintos. Cuando se tiene una variable, no se conoce su distribución, hasta que no se realice una prueba de contraste, es decir la prueba de Kolmogórov-Smirnov, que pone a prueba o somete a contraste la distribución de una variable respecto de la distribución normal, pero Z de Kolmogórov-Smirnov es mucho más que eso; se puede someter a contraste la distribución de una variable a cualquier otra distribución y Kolmogórov-Smirnov es versátil frente a esa situación. Aspecto que no lo hace Shapiro-Wilks, ni Anderson-Darling, por eso es que esta prueba estadística es más difundida, porque es más versátil que los otros procedimientos, para demostrar no tanto la normalidad, sino el contraste con otros tipos de distribución.

Para estar seguros frente a qué distribución nos encontramos, se tiene que hacer una prueba de hipótesis, hacer un contraste, un procedimiento analítico; porque de eso va a depender el análisis estadístico más adelante.