La prueba de independencia Chi-cuadrado tiene dos variables categóricas. Descubriremos si hay alguna relación entre esas variables.
Usaremos el marco de prueba de hipótesis. En caso de que no esté familiarizado con esto, consulte el libro Advancing Into Analytics . Esta es una técnica de análisis avanzada que utiliza Excel , R y Python.
Para nuestra demostración, usaremos un conjunto de datos de vivienda en Excel. Necesitamos obtener los valores reales usando la tabla dinámica y luego compararlos con los valores esperados usando fórmulas.
También comprobaremos el nivel de significación del 95% y si existe una relación entre el aire acondicionado y el área preferida.
Uso de la prueba de chi-cuadrado en Excel para comparar variables
Saltemos a Excel. Estos son los precios de la vivienda que provienen del Journal of Applied Econometrics.
Inserte una tabla dinámica y luego haga clic en Aceptar para usar una columna de índice para contar las observaciones.
Desde los campos de la tabla dinámica, arrastre ' id ' a la sección Valores. Seleccione Recuento en la Configuración del campo de valor, ya que todos estos son valores únicos.
Lo siguiente es arrastrar ' prefarea ' a Columnas y luego arrastrar ' airco ' a las secciones de Filas para ver los valores reales.
Tenemos un total de 546 observaciones. Las 298 no son ni climatización ni zona preferente, mientras que las 53 son ambas y así sucesivamente.
Vamos a crear dos tablas y etiquetarlas como Actual y Expected .
Para obtener los valores esperados para ni el aire acondicionado ni el área preferida, multiplique D5 por B7 y luego divídalo por D7 .
Lo siguiente es obtener el valor esperado del aire acondicionado o del área preferida, multiplicar D5 por C7 y luego dividirlo por D7 .
Ahora, para obtener el valor esperado del área preferida o del aire acondicionado, multiplique D6 por B7 y luego divídalo por D7 .
Por último, calculemos el valor esperado tanto del aire acondicionado como del área preferida. Multiplique D6 por C7 , luego divídalo por D7 .
Resalta el rango de los valores esperados para encontrar la suma, que debería ser 546.
Ahora encontraremos la relación entre los valores reales y esperados. Veamos si tienden a moverse juntos de alguna manera.
Para encontrar el significado, escriba =CHISQ.TEST . Resalte el rango de los valores reales, agregue una coma y luego resalte el rango de los valores esperados para obtener el valor p .
Basado en el resultado, esta es una ligera probabilidad aleatoria. Parece haber alguna relación entre la variable de área preferida y la variable de aire acondicionado.
La prueba de Chi-cuadrado es una técnica común que nos ayuda a saber la diferencia por categoría, y es un buen ejemplo de prueba A/B.
Otra cosa a recordar es que las observaciones deben ser independientes. Según nuestro ejemplo, estamos viendo dos variables binarias, un tipo específico de variable categórica.
Por último, seamos conscientes de que puede ser complicado cuando tenemos muchas categorías.
Espero que esto sea algo que pueda usar para las pruebas A/B, ya sea en Excel o Python.