Визуализация отсутствующих данных в RW/GGMICE

При анализе данных мы хотим знать, как найти недостающие значения, потому что большинство вещей в аналитике определяется разными факторами. Чтобы помочь вам в этом, мы займемся визуализацией отсутствующих данных в R с помощью пакета ggmice . Вы можете посмотреть полное видео этого урока внизу этого блога .

«Что мне делать с пропущенными значениями?» Это важный вопрос, который следует задавать при анализе данных. Мы все надеемся, что их легко найти, поскольку они закодированы как нули или NA.

Мы рассмотрим некоторые общие практические правила и следующие шаги. Мы узнаем, как отвечать на такие вопросы, как, например, сколько недостающих данных? Насколько велика проблема? Можем ли мы найти закономерности в данных?

Есть много способов сделать это, но мы собираемся использовать визуализацию отсутствующих данных в R в качестве первого исследовательского старта.

Оглавление

Когда удалять и когда находить пропущенные значения
Шаги по визуализации отсутствующих данных в R с GGMICE
Вменение недостающих данных
Заключение

Когда удалять и когда находить пропущенные значения

Если нет закономерности в том, как они отсутствуют, и это влияет менее чем на 5% наблюдений, независимо от того, находятся ли они в столбце или наборе данных, вы можете удалить эти пропущенные значения.

Однако, если выяснится, что это более распространено, и вы можете найти некоторые важные закономерности на основе визуализаций, вам может потребоваться что-то сделать с этими данными.

Таким образом, вместо того, чтобы отбрасывать их, мы можем их вменить, потому что, вероятно, есть история о том, почему эти значения отсутствуют в шаблоне в том виде, в каком они есть.