lunes, 23 de octubre de 2017

Criterio 4: Los Atributos de la Variable de Investigación

El cuarto criterio para elegir un procedimiento estadístico para el análisis de datos son los atributos de la variable de estudio. Las propiedades que tienen los valores finales de una variable, son el orden, la distancia y el origen. Estas propiedades hace que se generen cuatro escalas de medición: nominal, ordinal, intervalo y razón.
La escala nominal, no tiene ningún atributo; no existe un orden en las categorías: masculino o femenino; sano o enfermo; soltero, casado, divorciado, viudo o conviviente.

La escala ordinal tiene la propiedad del orden, leve, moderado y severo; son niveles de jerarquía y orden. Eso es lo que lo diferencia de la variable nominal, el orden; por eso se llama ordinal, por el atributo orden que poseen los valores finales.

La escala de intervalo es característica de una variable numérica que tiene la propiedad de orden y distancia; la propiedad de distancia de una medición permite hacer métricas, razones y proporciones. Un billete de $100, se puede cambiar por dos de $50, es el equivalente. Esa propiedad no existe en la variable ordinal, no se puedo cambiar un profesional con grado de doctor por dos magísteres.

La escala de razón tiene orden, distancia y la última de las propiedades, el origen, el origen le da a esta variable un punto de partida. Las variables en escala de razón que tienen el cero, no existen. Por ejemplo, no existe un padre de familia que tenga 0 hijos. No existe persona que pese 0 kilogramos, porque no existe. Si no se acepta el cero, menos se va a aceptar el signo negativo. Esta propiedad no la tiene la variable en escala de intervalo, por ejemplo el saldo bancario puede ser negativo; la temperatura puede estar a menos 5 grados centígrados.

Estas escalas de medición tienen que ver con los procedimientos analíticos, desde un punto de vista amplio, se tiene pruebas estadísticas para datos numéricos y para datos no numéricos. Cuando se tiene datos numéricos, se piensa en procedimientos estadísticos paramétricos, las variables numéricas son más ricas en información que las variables categóricas, las variables numéricas son las escalas de intervalo y razón, las escalas categóricas son las escalas nominal y ordinal.

Las variables numéricas son más ricas en información que las variables categóricas, por los atributos que poseen sus valores finales, por eso hay más información en una variable numérica que en una variable categórica. Por eso es mejor que las variables numéricas no se categoricen para el análisis estadístico, ya que se pierde información.

Si se va realizar un procedimiento analítico con variable numérica, también se requiere que tenga distribución normal como primer requisito y luego dependiendo del procedimiento estadístico, se va a requerir otras características; por ejemplo, si se va a comparar dos grupos, se requiere homogeneidad de varianzas y si se van a tomar  medidas repetidas, se va a requerir esfericidad y si se va a hacer una regresión lineal van a aparecer cinco requisitos o supuestos que debe de cumplir una regresión lineal.

Entonces, si no se puede realizar un procedimiento paramétrico, existen procedimientos no paramétricos, estos procedimientos son ad-hoc para variables categóricas o para variables numéricas que no cumplen los requisitos que tenían que cumplir. Todos los procedimientos para variables categóricas son no paramétricos, la prueba Chi cuadrado es un procedimiento no paramétrico, pero nadie le llama así, porque Chi-cuadrado se usa cuando se tiene variables categóricas, no cuando se tiene una variable numérica sin distribución normal. Entonces si se tiene una variable numérica sin distribución normal, entonces se debe utilizar la U de Mann-Whitney o Chi cuadrado, esto es porque hay orden y jerarquía.

Si se tiene una variable numérica, se piensa en un procedimiento paramétrico, pero si la variable aleatoria no tiene distribución normal, no se debe bajar hasta una escala nominal, sino hasta una escala ordinal, se puede perdería un poco de información. Por eso a U de Mann-Whitney, Wilcoxon, el análisis de la varianza no paramétrico se utiliza nada más cuando no hay distribución normal en las variables numéricas o cuando nativamente tus variables son ordinales.

El cuarto criterio de la elección de un procedimiento estadístico es precisamente los atributos o la naturaleza de la variables, hay pruebas estadísticas para variables categóricas y hay pruebas estadísticas para variables numéricas ejemplo es Chi cuadrado y t de Student, ambos procedimientos responden a la misma intención; comparar. Por ejemplo, si se quiere comparar el rendimiento académico de dos salones de clases salón A y  B, se usa t de Student; si se compara el número de aprobados en cada salón se usa Chi cuadrado de homogeneidad; si se compara el promedio de notas en cada salón se usa t de Student para muestras independientes. Sin embargo la intención desde el punto de vista de la investigación es la misma.

¿Cuál de estos dos salones tiene mejor rendimiento académico?, se puede responder esta interrogante, con Chi cuadrado o con t de Student, se eligió t de Student porque se tiene datos numéricos, que tienen más atributos en sus valores finales, si se categoriza la variable, se está perdiendo información. Si se va a categorizar, no se debe llegar a lo dicotómico, se puede dejar en lo ordinal y eso va hacer que las conclusiones tengan mayor capacidad predictiva.

Por otro lado, las pruebas estadísticas dependen no tanto de la naturaleza de la variable, sino del comportamiento aleatorio; las variables en escala de intervalo y en escala de razón a pesar de esta diferencia de que las variables en escala de razón tienen un atributo denominado origen y las de intervalo no, el comportamiento aleatorio de estas dos variables es similar. Por eso las pruebas estadísticas para las escalas de intervalo y razón son las mismas, en cambio las pruebas estadísticas para variables nominales y ordinales, son distintas por el tipo de distribución. Entonces interesa el tipo de distribución, recordando que dentro de las variables numéricas, se tiene a las variables continuas y discretas; las variables continuas provienen de medir y las variables discretas provienen de contar. Las variables continuas son peso, talla, temperatura; las variables discretas son el número de hijos, de clientes, de pacientes y se trata de números enteros. La distribución de una variable discreta es distinta a la distribución de una variable continua. Las distribuciones más frecuentes en estadística son la distribución normal, distribución Z y la distribución t en cambio las variables discretas son la distribución Binomial y la distribución Poisson.