Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
W tym samouczku nauczymy się, jak połączyć się z serwerem SQL. Omówimy również, jak działa zwijanie zapytań w Power Query i jak możemy uruchamiać polecenia SQL w LuckyTemplates. Wewnątrz Power Query możemy wyodrębniać i przetwarzać dane z różnych źródeł. Dzięki składaniu zapytań możemy przenosić transformacje danych do źródła zamiast wykonywać je w usłudze LuckyTemplates.
Składanie zapytań jest bardzo skuteczne w przypadku dużych baz danych i zapewnia poprawę wydajności raportów.
Spis treści
Łączenie z bazą danych programu SQL Server w celu składania zapytań
Ten samouczek wykonamy w edytorze dodatku Power Query. Najpierw kliknij SQL Server w obszarze Nowe źródło .
Jeśli masz już zainstalowaną maszynę z serwerem SQL i pracujesz niezależnie, nazwą serwera będzie localhost . Jeśli jednak pracujesz w organizacji, podadzą ci nazwę serwera i dostęp do swojej bazy danych. Musimy również podać nazwę bazy danych. W tym przykładzie użyję AdventureWorksDW2012 . Możesz dowiedzieć się, jak pobrać tę przykładową bazę danych z tego samouczka .
W przypadku trybu łączności danych wszystkie dane, które wybierzemy, zostaną załadowane do modelu, jeśli wybierzemy opcję Importuj . Ale jeśli wybierzemy DirectQuery , nic nie zostanie załadowane w modelu danych, ale wszystko będzie w bazie danych. Za każdym razem, gdy zastosujemy filtr, zapytanie zostanie odesłane z powrotem do SQL Server.
Ale to nie jest wydajne, ponieważ aktualizacja zajmie więcej czasu. Dlatego wybierzemy Importuj jako tryb połączenia danych .
Następnie, jeśli klikniemy Opcje zaawansowane , udostępni nam sekcję, w której możemy napisać instrukcję SQL. Później nauczymy się, jak to zrobić.
W tym przykładzie potrzebujemy tylko jednej tabeli naraz, więc nie będziemy wprowadzać kolumn ani tabel relacji. W takim przypadku musimy odznaczyć tę opcję.
Na koniec kliknij OK .
Następnie będziemy mogli zobaczyć dostępne stoły i stamtąd możemy uzyskać pewne informacje. Z tego przykładu musimy pobrać dane z faktycznej sprzedaży internetowej. Dlatego wyszukajmy i wybierzmy FactInternetSales , a następnie kliknij Ok .
W rezultacie będziemy mieć teraz dane w naszym edytorze dodatku Power Query.
Zrozumienie składania zapytań w dodatku Power Query
W panelu Źródło kliknij prawym przyciskiem Nawigacja, a następnie wybierz Wyświetl zapytanie natywne .
Dzięki temu będziemy mogli zobaczyć polecenie wykonane przez tę maszynę. Aparat Power Query utworzył to polecenie do uruchamiania w SQL Server. Kliknijmy teraz OK .
Jako przykład losowo utworzyłem filtr w tej tabeli, aby pokazać, że kiedy już go utworzymy, będziemy mogli zobaczyć go w panelu ZASTOSOWANE KROKI .
Gdy klikniemy prawym przyciskiem myszy jeden z filtrów, zobaczymy, że opcja Wyświetl zapytanie natywne jest nadal dostępna.
To zapytanie SQL z naszego filtra zostało uruchomione w SQL Server . Gdy nie zastosujemy filtra, otrzymamy 5 milionów wierszy. Teraz, gdy zastosowaliśmy filtr, otrzymujemy tylko 4 miliony wierszy.
Oznacza to, że usługa LuckyTemplates wyodrębnia teraz 4 miliony wierszy zamiast 5 milionów wierszy z SQL Server. Dzięki temu zmniejszyła się liczba rzędów, a także liczba ładunków z naszej sieci.
Pamiętaj, że tak długo, jak widzimy Native Query , oznacza to, że składanie zapytań działa. Dlatego całe przetwarzanie odbywa się w systemie źródłowym. Jest to najbardziej wydajny sposób przetwarzania danych, zwłaszcza jeśli masz dużą ilość danych.
Dodaliśmy kolejny krok, w którym usunęliśmy jedną kolumnę z naszej tabeli. Jeśli klikniemy go prawym przyciskiem myszy, zobaczymy opcję Wyświetl zapytanie natywne , co oznacza, że nadal działa.
Identyfikowanie i naprawianie zepsutego składania zapytania
W przypadku niektórych przekształceń, takich jak zmiana typu danych kolumny, składanie zapytań zostanie przerwane. Na przykład zmienimy typ danych kolumny TaxAmt na Whole Number .
Spowoduje to dodanie kroku Typ zmiany w sekcji ZASTOSOWANE KROKI . Jeśli klikniemy go prawym przyciskiem myszy, zobaczymy, że zapytanie View Native jest teraz wyłączone, co oznacza, że składanie zapytań jest zepsute.
Gdy składanie zapytań zostanie przerwane, wszelkie inne przekształcenia, które wykonamy, zostaną wykonane w Power Query usługi LuckyTemplates, ale nie w systemie źródłowym.
Na przykład, jeśli otrzymamy 3 miliony wierszy, wszystkie pojawią się w dodatku Power Query. Nadal możemy zmniejszyć te rekordy poprzez filtrowanie. Jednak te 3 miliony wierszy trafią teraz do sieci, która nie jest zbyt wydajna.
Dla innego przykładu, powiedzmy, że chcemy przefiltrować OrderDate , aby wyświetlić tylko daty po 1 stycznia 2012 r.
Jeśli wyświetlimy ten filtr w ZASTOSOWANYCH KROKACH , opcja Wyświetl zapytanie natywne nie będzie widoczna.
Ponownie, dzieje się tak dlatego, że zwijanie zapytań zostało przerwane z powodu poprzedniej transformacji, którą stworzyliśmy. To, co możemy zrobić, to przenieść wszystkie kroki filtrowania, które będziemy wykonywać, powyżej kroku transformacji, który przerwał zwijanie zapytań .
W tym przykładzie po prostu klikniemy prawym przyciskiem myszy ostatnio utworzony krok filtrowania i klikniemy Przenieś przed lub po prostu przeciągniemy go u góry transformacji typu zmiany .
Jeśli ponownie klikniemy ten filtr prawym przyciskiem myszy, zobaczymy, że opcja Wyświetl zapytanie natywne jest teraz widoczna, co oznacza, że składanie zapytań znów działa.
Korzyści z połączenia SQL Server i uruchamiania języka SQL
Załóżmy na przykład, że chcemy wyświetlić dane w formacie całkowitej sprzedaży według kraju, jak pokazano na obrazku.
W naszej tabeli FactInternetSales mamy kolumnę SalesAmount , ale nie mamy w niej informacji o kraju.
Nadal możemy uzyskać informacje o kraju, ponieważ mamy kolumnę SalesTerritoryKey .
To, co musimy zrobić, to przenieść tutaj tabelę DimSales , abyśmy mogli połączyć ją z naszą FactInternetSales . Następnie musimy przenieść kolumnę kraju i pogrupować je według kolumny kraju, co jest bardzo złożone i może zająć dużo czasu. Więc zamiast robić to wszystko w Power Query , co nie jest wydajne, powinniśmy zamiast tego zrobić to w SQL .
Aby to zrobić, po prostu kliknij Nowe źródło > SQL Server .
Połączmy się ponownie z naszym serwerem o nazwie localhost i AdventureWorksDW2012 jako naszą bazą danych.
Tym razem chcemy zrobić opcję zaawansowaną, ponieważ chcemy napisać polecenie pod polem instrukcji SQL . W tym przykładzie napisaliśmy już polecenie, które wprowadzimy w instrukcji SQL. Możesz dowiedzieć się o poleceniach SQL w naszych innych samouczkach.
Nie chcemy uwzględniać kolumn relacji, więc odznaczymy tę opcję tutaj. Następnie kliknij przycisk OK , aby uruchomić to polecenie.
Po wykonaniu polecenia zobaczymy to okno podglądu pokazujące łączną sprzedaż według regionu terytorium sprzedaży .
Tak więc udało nam się uzyskać podobny wynik tabeli SalesByCountry za pomocą prostego polecenia SQL zamiast manipulowania różnymi tabelami i kolumnami w naszym dodatku Power Query.
Kolejną korzyścią jest to, że możemy przekształcić wszystkie nasze dane w SQL i wprowadzić do naszego modelu danych tylko te dane, które są potrzebne lub wymagane. Dzięki temu możemy zbudować bardzo wydajny model danych zgodnie z naszym planem bez żadnych trudności i problemów.
Pobieranie i instalacja programu SQL Server
SQL dla użytkowników usługi LuckyTemplates — nowy kurs LuckyTemplates
Wyszukiwanie danych z wielu źródeł danych
Wniosek
W tym samouczku dowiedzieliśmy się, czym jest składanie zapytań i odkryliśmy jego zalety. Omówiliśmy również kroki, jak połączyć Power Query z SQL Server .
Ponadto rozmawialiśmy o korzyściach płynących z łączenia się z SQL Server i tworzenia transformacji na SQL Server zamiast wykonywania ich w Power Query .
Mamy nadzieję, że udało Ci się zobaczyć, w jaki sposób wykonywanie wszystkich przekształceń w SQL jest wydajniejsze i szybsze w porównaniu z wykonywaniem ich w dodatku Power Query .
Wszystkiego najlepszego,
Hafiz
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.