Wizualizacja brakujących danych w RW/GGMICE

Analizując dane, chcemy znać kolejne kroki, jak znaleźć brakujące wartości, ponieważ większość rzeczy w analityce zależy od różnych czynników. Aby Ci w tym pomóc, zajmiemy się wizualizacją brakujących danych w R za pomocą pakietu ggmice . Możesz obejrzeć pełny film tego samouczka na dole tego bloga .

„Co mam zrobić z brakującymi wartościami?” To podstawowe pytanie, które należy zadać podczas analizowania danych. Wszyscy mamy nadzieję, że są łatwe do znalezienia, ponieważ są zakodowane jako null lub NA.

Przyjrzymy się niektórym ogólnym zasadom i następnym krokom. Nauczymy się odpowiadać na pytania typu: ile jest brakujących danych? Jak duży jest problem? Czy możemy znaleźć jakieś wzorce w danych?

Można to zrobić na wiele sposobów, ale my wykorzystamy wizualizację brakujących danych w języku R jako pierwszy początek eksploracji.

Spis treści

Kiedy upuścić, a kiedy znaleźć brakujące wartości
Kroki w wizualizacji brakujących danych w R w / GGMICE
Impputowanie brakujących danych
Wniosek

Kiedy upuścić, a kiedy znaleźć brakujące wartości

Jeśli nie ma wzorca w tym, jak ich brakuje i wpływa to na mniej niż 5% obserwacji, niezależnie od tego, czy jest to w kolumnie, czy w zbiorze danych, możesz usunąć te brakujące wartości.

Jeśli jednak okaże się, że jest to bardziej rozpowszechnione i na podstawie wizualizacji można znaleźć pewne istotne wzorce, być może trzeba będzie coś zrobić z tymi danymi.

Więc zamiast je porzucać, możemy je przypisać, ponieważ prawdopodobnie istnieje historia o tym, dlaczego tych wartości brakuje we wzorcu, tak jak są.

Wizualizacja brakujących danych w RW/GGMICE

W tej demonstracji użyjemy pakietu, który przypisze brakujące wartości. Jest to nowy pakiet do wizualizacji brakujących danych w R i nazywa się ggmice .

Chodzi o to, aby znaleźć wzór i liczbę brakujących wartości, dlatego przyjrzymy się wzorowi wykresu , a następnie macierzy predyktorów wykresu .

MICE oznacza imputację wielowymiarową metodami łańcuchowymi . Nie zagłębiamy się w mechanikę, ale dowiemy się, w jaki sposób ten algorytm przypisze nasze dane, jeśli go użyjemy.

Inną rzeczą, którą warto wiedzieć o wizualizacji brakujących danych w R za pomocą ggmice, jest to, że tak naprawdę ma być kompatybilny z ggplot2 , więc jesteśmy w stanie zbudować kilka wizualizacji na podstawie ggplot2 , słynnego pakietu wizualizacji.

Wizualizacja brakujących danych w RW/GGMICE

Kroki w wizualizacji brakujących danych w R w / GGMICE

Przejdźmy dalej i uruchommy RStudio . Pierwszą rzeczą, którą musimy zrobić, to zaimportować wszystkie potrzebne pakiety, wpisując bibliotekę (ggmice) , bibliotekę (tidyverse) , która zawiera zestawy danych ggplot2 i bibliotekę (Ecdat) .

Pakiet biblioteki (Ecdat) zawiera wiele dobrych zestawów danych do ćwiczeń. Dlatego go używamy i importujemy.

Wizualizacja brakujących danych w RW/GGMICE

Jednym ze zbiorów danych jest help (MCAS) . Uruchommy w tym celu funkcję pomocy.

Jak widzimy, pochodzi to z Ecdat i jest to zestaw danych o wynikach testów. Ta dokumentacja pomocy opisuje każdą z kolumn i informuje nas o jej pochodzeniu.

Użyjemy tego, aby dowiedzieć się, czy brakuje danych i jaki wzór tworzą, jeśli taki istnieje.

Wizualizacja brakujących danych w RW/GGMICE

Użyjmy is.na (MCAS) i kliknij Uruchom . Jak widać, jest kilka PRAWDZIWYCH i FAŁSZYWYCH. To, co możemy zrobić, to zsumować je za pomocą funkcji colSums (is.na(MCAS)), ponieważ FAŁSZ i PRAWDA to zero i jedynka w przebraniu. To jest nasz sposób na sprawdzenie, czy brakuje wartości, czy nie.

Wizualizacja brakujących danych w RW/GGMICE

Jak pokazano poniżej, brakujące wartości znajdują się w trzech kolumnach, takich jak spc , totsc8 i avgsalary . Opis tych kolumn możemy zobaczyć w sekcji dokumentacji pomocy.

Wizualizacja brakujących danych w RW/GGMICE

Ponadto, używając colSums (is.na(MCAS)) / nrow (MCAS) liczba wierszy zamieni się w procenty. Jest to jeden ze sposobów patrzenia na to, ale nie najłatwiejszy.

Wizualizacja brakujących danych w RW/GGMICE

W takim przypadku spójrzmy, co ggmice może dla nas zrobić. Użyjemy funkcji BrowseVignettes (package = 'ggmice') , a następnie klikniemy Run .

Wizualizacja brakujących danych w RW/GGMICE

Znaleziono kilka winiet dla tej funkcji, więc wybierzmy ggmice i kliknij łącze HTML , aby zobaczyć przydatne samouczki, które mogą pomóc.

Wizualizacja brakujących danych w RW/GGMICE

Wizualizacja brakujących danych w RW/GGMICE

Wracając do skryptu, użyjmy funkcji plot_pattern (MCAS) , aby przekazać zestaw danych.

Wizualizacja brakujących danych w RW/GGMICE

Aby lepiej to zwizualizować, kliknij przycisk Zoom . Jak pokazano na ilustracji, ze 155 obserwacji spc ma 9 brakujących wartości, 25 dla avgsalary i 40 dla totsc8 .

Spróbujemy dowiedzieć się, czy któreś z nich pokrywają się, ile ich jest i czy mają tendencję do bycia w gromadzie.

Wizualizacja brakujących danych w RW/GGMICE

Aby to sprawdzić, możemy spróbować analogowego sposobu, używając funkcji widoku (MCAS) , a następnie klikając Uruchom .

Wizualizacja brakujących danych w RW/GGMICE

Jest to rodzaj przeglądarki arkuszy kalkulacyjnych, w której możemy zobaczyć wszystkie brakujące wartości. Możemy to również rozwinąć, klikając przycisk Source Editor .

Wizualizacja brakujących danych w RW/GGMICE

Podobnie jak w Power Query , możemy zobaczyć całkowitą liczbę wpisów, a NA to brakujące wartości. Warto zauważyć, że łączna liczba wpisów w widoku (MCAS) wynosi 220, a tylko 155 dla wzoru plot_pattern (MCAS), ponieważ prawdopodobnie istniały pełne wartości, które nie zostały wykreślone same w sobie.

Widzimy również, że mają tendencję do grupowania się w oparciu o zmienne i wiersze. Jednak w wielu przypadkach brakuje tylko jednego lub drugiego. Rzeczywistość jest taka, że trudno jest wykonać tę wizualizację rząd po rzędzie, więc tutaj pojawia się wizualizacja.

Wizualizacja brakujących danych w RW/GGMICE

Impputowanie brakujących danych

Następną rzeczą do zrobienia jest powrót do naszego skryptu, następnie wpisanie nrow (MCAS) a następnie sum(is.na(MCAS)$totsc8)) .

W tym przypadku wiemy, że 40 z 200 obserwacji to brakujące wartości. Użyjmy R jako kalkulatora, wstawiając 40/200. Mamy więc około 20% brakujących wartości, czyli dużo.

Najlepiej byłoby wiedzieć, dlaczego tak wielu brakuje. Może to po prostu sposób, w jaki dane zostały zebrane, dlatego możemy to przypisać.

Wizualizacja brakujących danych w RW/GGMICE

Aby to zrobić, zaimportujmy pakiet biblioteki (myszy) . Jest to jedna z metod imputacji.

Wizualizacja brakujących danych w RW/GGMICE

Następnie użyjmy funkcji MCAS_pred < –="" quickpred=""> i plot_pred(MCAS_pred) . Pamiętaj, aby je zapisać, kliknij Uruchom i kliknij przycisk Zoom .

Wizualizacja brakujących danych w RW/GGMICE

Jeśli mamy zastosować imputację wielowymiarową, ten algorytm znajdzie obserwacje i punkty danych podobne do brakujących, a następnie spróbuje je uzupełnić.

Na przykład kolumny spc . Będą one pomocne w przewidywaniu brakujących wartości tak samo z totsc8 i avgsalary . W tym momencie tego nie robimy, ale obserwujemy, jakie wartości i zmienne są ze sobą powiązane, co może być pomocne w utrudnianiu tych wartości.

Wizualizacja brakujących danych w RW/GGMICE

Spróbujmy jeszcze jednej rzeczy. Zamierzamy użyć ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , a następnie kliknąć Run .

To jest wykres punktowy , z wyjątkiem tego, że używamy ggmice. Zasadniczo chodzi o to, że możemy zobaczyć związek między tymi dwiema zmiennymi, które mają sporo brakujących wartości. Kiedy brakuje jednego z nich, a drugi jest dostępny, możemy zobaczyć, gdzie są te punkty.

W tej sytuacji oba te zjawiska są obserwowane w jednym z tych przypadków. Jednego brakuje, a drugiego nie. Jeśli zabraknie obu, nie będzie tego na fabule.

Wizualizacja brakujących danych w RW/GGMICE

Edytuj dane w języku R za pomocą pakietu DataEditR
Power Query Najlepsze praktyki dotyczące modelu danych
Jak zainstalować pakiety R w usłudze LuckyTemplates

Wniosek

Kiedy pracujemy z brakującymi wartościami, kuszące jest użycie algorytmu takiego jak MICE, ponieważ przypisywanie wartości jest bardzo wydajne. Jednak lepiej samemu zbadać dane i zrozumieć, o co chodzi.

Idealnie, jeśli mamy dużo brakujących danych, chcemy dowiedzieć się, dlaczego i być może możemy spróbować uzyskać więcej danych lub możemy je przypisać. Zawsze preferowane jest pójście prosto do źródła.

Jeśli w końcu zechcemy przypisać brakujące wartości, możemy zastosować kilka prostych metod imputacji za pomocą pakietu tidyverse, takich jak średnia lub mediana.

Bez wątpienia pakiet MICE jest potężny. Może to być przesada w przypadku rzeczy, które wymagają bardzo dużej mocy obliczeniowej, ale obecnie koncentrujemy się tylko na elemencie wizualizacji.

Mam nadzieję, że nauczysz się czegoś i będziesz mógł swobodnie korzystać z tego pakietu. Pamiętaj, aby go udostępnić i spróbować przekazać wiadomość, ponieważ jest to fajny pakiet do pracy z brakującymi wartościami, które są kompatybilne z ggplot2.

Wszystkiego najlepszego,

Jerzy

Zostaw komentarz

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.