Este tutorial analizará los factores y los niveles de los factores en R. Aprenderá cómo crear un factor y cómo ajustar los niveles de los factores.
Los factores se utilizan para almacenar y trabajar con variables en R.
En este tutorial, trabajará con variables categóricas y ordinales. Las variables categóricas son variables que involucran una o más categorías que no están ordenadas de ninguna manera específica. Un ejemplo serían los colores. Las variables ordinales , por otro lado, son similares a las variables categóricas con la diferencia de que las variables ordinales tienen un ordenamiento claro de las categorías. Esto podría ser como bajo, medio y alto.
Esta es una introducción a términos más estadísticos. Ahora está explorando lentamente las capacidades de R para datos y análisis estadístico.
Tabla de contenido
Niveles de factores categóricos en R
Si recuerda en otra lección sobre marcos de datos , usó el signo de dólar ( $ ) para imprimir la columna Especie del conjunto de datos del iris . Haga esto de nuevo en RStudio . En la parte más inferior, hay una línea que contiene Niveles compuestos por setosa , versicolor y virginica .

Esta es la forma en que R maneja las categorías en los datos.
Si usa la función única ( ) , R enumerará los valores únicos en la columna especificada. Por ejemplo, si ejecuta Unique (iris$Species) , la consola muestra los tres niveles de especies de iris.

No hay un orden inherente para estos niveles. No se puede decir que setosa es mayor que las otras dos categorías de color. R, por defecto, los organiza en orden alfabético.
Niveles de factores ordinales en R
Ahora intentemos explorar los factores con el orden inherente de la categoría.
Cree un vector y asígnele el nombre orders . Para este ejemplo, asigne ese vector con datos utilizando los nombres de tamaño de vaso de Starbucks: alto, venti y grande. Luego, imprímelo.

Estos deben ordenarse de menor a mayor; debe ser alto, venti y grande. Pero cuando ejecuta la función única ( ) para pedidos , no se organizan en ese orden.

He aquí cómo convertirlos en variables ordinales. Primero, necesitas crear un nuevo vector. En este caso, el vector se llama new_orders_factor . Asigne este vector con la función factor ( ) . Dentro de esta función, ingrese el vector con el que desea establecer los niveles. Luego, indica los niveles en el orden en que quieres que aparezcan.

Resalte toda esta línea de código y luego ejecútela. A continuación, se añade un nuevo Valor en Entorno.

Para comprobar si un vector se ha asignado correctamente como factor, utilice la función is.factor ( ) . Si marca los dos vectores, orders y new_orders_factor , puede ver que el primero devuelve FALSO mientras que el nuevo vector es de hecho un factor.

Un factor es una forma especial de almacenar una serie de textos. Y aunque es un vector de caracteres, se puede almacenar de una manera que le permite tener un número determinado de categorías que tienen un orden específico de valores o niveles.
Si verifica usando la función de niveles ( ) , puede ver que los niveles ahora están en el orden correcto.

Crear vectores en R: un tutorial paso a paso
Marcos de datos en R: aprender los conceptos básicos
Conclusión
Aunque esta lección puede parecer esotérica, verá cómo esto marca la diferencia cuando se trata de codificación R más avanzada. Es importante conocer los factores y los niveles, ya que suelen aparecer en muchos análisis estadísticos y de codificación de R.