Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
W tym samouczku omówimy sposób tworzenia i przygotowywania zestawu danych i funkcji ciągu przy użyciu języka Python w usłudze LuckyTemplates . Przykład, którego użyję do wykonania procesu, jest dostępny na GitHub.
Usługa LuckyTemplates włączyła funkcjonalność języka Python, ułatwiając użytkownikom uruchamianie skryptów języka Python bezpośrednio w usłudze LuckyTemplates.
Spis treści
Łączenie ze źródłem danych za pomocą Pythona
Zanim zaczniemy, upewnij się, że otworzyłeś notatnik usługi LuckyTemplates. Najpierw musimy połączyć się ze źródłem danych. To da nam dostęp do pliku CSV, który możemy zaimportować do naszego notatnika LuckyTemplates. Przykładowy zestaw danych, nad którym będę pracować, to zestaw danych analizy klinicznej.
Możesz przejść do GitHub, aby przejść do swojego folderu i kliknąć plik CSV. Jeśli go nie masz, istnieje mnóstwo publicznych repozytoriów z przesłanymi plikami CSV, do których możesz uzyskać dostęp. Po utworzeniu zestawu danych kliknij główny folder, a zobaczysz dwa pliki. Kliknij plik CSV.
Następnie kliknij Wyświetl Raw.
Następnie przejdź do paska adresu i skopiuj adres CSV. Następnie wróć do notesu usługi LuckyTemplates.
Na karcie Strona główna kliknij Pobierz dane, a następnie Więcej , aby wyświetlić opcję Sieć i kliknij ją.
Następnie wklej adres CSV w polu URL i kliknij OK.
Następnie kliknij przycisk Przekształć dane .
Pomyślnie połączyliśmy nasze źródło danych w naszym LuckyTemplates.
Czyszczenie danych lub kłócenie się o dane za pomocą usługi LuckyTemplates
Teraz możemy swobodnie poruszać się po zbiorze danych. Dzięki temu możemy przeprowadzić procedury czyszczenia potrzebne do uzyskania danych w odpowiednim formacie do lepszej analizy.
W kolumnie Koszt laboratorium zobaczymy różne symbole dolara z kreską, które można przeliczyć.
Nie możemy bezpośrednio przekonwertować tych symboli.
To dlatego, że spowoduje to błąd, którego staramy się uniknąć.
Aby je zastąpić, kliknij Zastąp wartości , a następnie wprowadź symbol dolara w polu Wartość do znalezienia . Umieść 0 lub żądaną wartość w polu Zamień na .
Teraz możemy przekonwertować te symbole na pożądaną wartość. Pamiętaj, że możemy zobaczyć, jak nasze działania są dokumentowane w sekcji Zastosowane kroki .
Czyszczenie danych lub kłócenie się o dane przy użyciu języka Python w usłudze LuckyTemplates
Aby ten proces czyszczenia lub zadanie przetwarzania danych miało zastosowanie do wszystkich kolumn, użyjemy funkcji Pythona za pomocą Jupyter Notebook.
Najpierw otwórz notatnik Jupyter i załaduj swoją stronę główną.
Na karcie Pliki przejdź do prawego rogu i kliknij „ Nowy ”, aby wyświetlić opcję „Python 3” . Następnie kliknij go, aby utworzyć nowy notatnik Pythona.
Pierwszą rzeczą, którą musimy zrobić, to podać nazwę pliku. Możesz go nazwać, jak chcesz. W takim przypadku ustawię tytuł pliku na „ Analiza kliniczna ”.
Teraz, gdy nasz notatnik Pythona jest otwarty, możemy zobaczyć komórkę, która pozwoli nam przygotować lub wykonać kod. Musimy włączyć źródło internetowe, które zrobiliśmy w LuckyTemplates.
Możemy to zrobić, importując jedną z niezbędnych bibliotek, jaką jest Pandas , do naszego środowiska i uruchamiając ją.
Po połączeniu się z naszym źródłem internetowym i utworzeniu funkcji natywnej dla biblioteki Pandy, chcemy stworzyć coś, co może wskazywać, co zamierzamy zrobić.
Przeanalizujemy nasze dane i utworzymy nagłówek jako wskaźnik dla tego działania. Aby to zrobić, musimy zmienić to z kodu na przecenę.
Za pomocą znaku funta możemy kontrolować rozmiar czcionki. Jeśli chcemy, aby nasza czcionka była w małym rozmiarze, musimy wpisać różne znaki funta.
Z drugiej strony, jeśli chcemy mieć większy rozmiar czcionki, musimy użyć mniej znaków funta.
Dodatkowo, możemy chcieć zamieścić krótkie wyjaśnienie naszej działalności pod naszym nagłówkiem. Załóżmy, że zbadamy natywne funkcje i zestawy danych.
Jeśli go uruchomimy, automatycznie pojawi się pod naszym nagłówkiem.
Eksplorowanie zestawu danych w usłudze LuckyTemplates przy użyciu języka Python
W nowej komórce możemy eksplorować zestaw danych. Powiedzmy, że chcemy zbadać pierwsze pięć wierszy danych, które w rzeczywistości są domyślnym argumentem, i musimy utworzyć nową zmienną data.
To da ci dostęp do pierwszych pięciu rzędów. Pamiętaj jednak, że możesz umieścić w nawiasie dowolny argument wskazujący, do ilu wierszy danych chcesz uzyskać dostęp. W tym przykładzie chcę uzyskać dostęp do dziesięciu wierszy.
Jednak teraz mamy ten sam problem, który mieliśmy w naszym notatniku usługi LuckyTemplates, dotyczący symboli dolara ze znakiem kreski.
Aby to naprawić, musimy zbudować własną funkcję zdefiniowaną przez użytkownika, którą możemy zastosować do czyszczenia formatu naszych danych.
Proces czyszczenia możemy rozpocząć od uzyskania większej ilości informacji dotyczących naszych danych. Ułatwi nam to identyfikację problemów w naszym zbiorze danych.
Po uruchomieniu funkcji możemy teraz zobaczyć szczegółowe informacje o zbiorze danych — liczbę wpisów, kolumny i typ danych. Widzimy również, że mamy ciągi reprezentujące teksty w naszym środowisku Pythona.
Jeśli przyjrzymy się dokładnie kolumnie, jest kilka wcięć, które musimy naprawić. Pokażę ci dwa sposoby czyszczenia tego.
Dwa sposoby czyszczenia danych za pomocą Pythona
Pierwszym z nich jest ręczne naprawienie problemu. Najpierw zbierz informacje dotyczące kolumn danych. W tym celu wpisz data.columns w nowej komórce kodu.
W nowej komórce chcesz udokumentować czynność czyszczenia spacji w nagłówkach kolumn. Więc skopiuj i wklej informacje w komórce i bezpośrednio usuń białe spacje. Innym sposobem jest użycie funkcji łańcuchowej, która usuwa białe znaki.
Po uruchomieniu natychmiast usunie niepotrzebne białe spacje w naszych łańcuchach. Wykonanie tej metody zapewnia wygodę użytkownikom, zwłaszcza gdy mamy zbyt dużo danych lub ciągów znaków do naprawienia lub wyczyszczenia.
Następnie musimy zapisać i włączyć nasz poprzedni kod w tej komórce, zanim go uruchomimy.
W rezultacie naprawiliśmy problem i kolumny w naszym zbiorze danych mają odpowiedni format. Wszystko jest teraz odpowiednio wyrównane, w przeciwieństwie do wcześniejszych białych znaków.
Jak używać skryptu Pythona w LuckyTemplates
Python II dla użytkowników LuckyTemplates – nowy kurs na platformie On-Demand
LuckyTemplates ze skryptami w Pythonie do tworzenia tabel dat
Wniosek
Podsumowując, użycie funkcji dataset i string może ulepszyć sposób działania usługi LuckyTemplates i rozszerzyć normalne możliwości narzędzia.
Python jest popularnym językiem programowania wysokiego poziomu i ma ogromny potencjał, jeśli chodzi o pobieranie danych przy użyciu zaledwie kilku linii kodu. Mamy nadzieję, że ten samouczek pozwolił Ci zrozumieć język Python w usłudze LuckyTemplates.
Wszystkiego najlepszego,
gaelim
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.