Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
W tym samouczku dowiesz się, jak wykonać maskowanie danych poufnych informacji w usłudze LuckyTemplates przy użyciu dodatku Power Query . Możesz obejrzeć pełny film tego samouczka na dole tego bloga.
Maskowanie danych umożliwia ukrywanie lub usuwanie informacji poufnych lub umożliwiających identyfikację w modelach danych usługi LuckyTemplates.
Dyskusja będzie koncentrować się na następujących kwestiach:
I ten podstawowy model zostanie użyty jako przykład:
Anonimizując swoje dane, musisz najpierw określić, które informacje są, a które nie są niezbędnym rozwiązaniem.
Spis treści
Anonimizacja tabeli klientów
W tej tabeli klientów kolumny Państwo i Firma nie są podstawowymi rozwiązaniami.
Musisz więc przejść do Power Query i usunąć te dwie kolumny, pozostawiając tylko identyfikator klienta i nazwę.
W tym przykładzie musisz zanonimizować kolumnę Nazwa .
Aby rozpocząć, przejdź do Dodaj kolumnę, kliknij Kolumna indeksu, a następnie wybierz Od 1.
Z dodanej kolumny Indeks wybierz opcję Dodaj kolumnę z przykładów .
Następnie nazwij kolumnę Customer Name , a następnie wprowadź Customer 1 jako informację. Power Query automatycznie będzie kontynuować informacje.
Ponieważ masz kolumnę Nazwa klienta jako proxy dla rzeczywistej nazwy klienta, możesz teraz usunąć kolumny Nazwa i Indeks z tabeli.
Anonimizacja tabeli sprzedaży
W tej tabeli sprzedaży wszystkie 3 kolumny są niezbędnymi rozwiązaniami w Twoich danych. Kolumna Kwota zawiera jednak informacje, które należy zanonimizować.
Aby to zrobić, dodaj kolumnę Index, która zaczyna się od 1.
Następnie utwórz niestandardową kolumnę, nazwij ją Kwota sprzedaży, a następnie postępuj zgodnie z tą formułą:
Ta formuła losuje zakres od 0 do 5000.
Dzięki temu zobaczysz w tabeli kolumnę Kwota sprzedaży z losowymi liczbami.
Aby te liczby nie były resetowane do zwykłej liczby, dodaj kolejną kolumnę indeksu, a następnie zmień typ Kwota sprzedaży na Liczba całkowita .
Ta tabela faktów ma 5000 wierszy. Jednak nawet jeśli zostały one zrandomizowane i zanonimizowane, nadal musisz usunąć 90% danych.
Więc przejdź do karty Strona główna i wybierz Usuń wiersze . Następnie wybierz opcję Usuń alternatywne wiersze .
Wprowadź następujące informacje:
Spowoduje to usunięcie 9 z każdych 10 wierszy w tabeli. Więc od 5000 masz 500 wierszy.
Zerwanie łącza, aby zapobiec demaskowaniu danych
Kroki, które wykonałeś w tabeli, możesz cofnąć za pomocą dodatku Power Query. To jednak czyni go podatnym na manipulacje. Ktoś może cofnąć Twoją pracę w celu unienonimizowania Twoich danych.
Oto jak temu zapobiec:
Najpierw wybierz Zamknij i zastosuj .
Następnie w widoku danych kliknij tabelę Klient i wybierz opcję Kopiuj tabelę .
Wklej tabelę do odpowiedniego arkusza i zakładki w MS Excel. Zrób to samo z tabelą Sales i zapisz plik. W tym przykładzie nazwa pliku to „Anonimizowane dane”.
Wróć do widoku danych i usuń tabelę Klienci i Sprzedaż.
Po usunięciu tabeli Customer i Sales cofnij się i otwórz informacje z pliku Excel.
Następnie sprawdź tabele Klienci i Sprzedaż i kliknij Przekształć dane.
Tabela Sales zawiera teraz kolumny z prawidłową datą i polem liczbowym.
W przypadku tabeli Klienci kolumny znajdują się w polu liczbowym i tekstowym.
Aby sprawdzić, czy udało Ci się zapobiec zdemaskowaniu danych, wróć do źródła w sekcji Zastosowane kroki.
Na pasku formuły zobaczysz, że tabela pochodzi z pliku programu Excel.
Oznacza to, że maskowania danych nie można już cofnąć.
Po wykonaniu tych czynności kliknij Zamknij i zastosuj.
Tworzenie brakującego łącza w tabeli dat
Wróć do swojego modelu i odtwórz brakujące łącze do tabeli dat, przeciągając datę w tabeli dat do daty w tabeli sprzedaży.
Masz teraz w pełni anonimowy model bez obawy o ujawnienie jakichkolwiek poufnych danych.
Parametry zapytań usługi LuckyTemplates: Optymalizowanie tabel
Przekształcanie układu typu kalendarza w format tabelaryczny w usłudze LuckyTemplates przy użyciu Edytora zapytań
Tworzenie dynamicznej tabeli zapytań dotyczących dat w usłudze LuckyTemplates: Samouczek edytora zapytań
Wniosek
To ogólne podejście anonimizuje poufne dane, usuwając numery i nazwy oraz przerywając łącze przy użyciu zastosowanych kroków dodatku Power Query poprzez transformację programu Microsoft Excel.
Jednak takie podejście nie tylko maskuje Twoje dane, ale także sprawia, że są one niedostępne dla innych osób.
Pamiętaj, aby używać tej metody do ochrony i zabezpieczania poufnych informacji w modelu danych.
Wszystkiego najlepszego,
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.