Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Dzisiaj będziemy kontynuować temat komunikowania badań za pomocą R Notebook. Będziemy nadal pracować nad podstawowymi ramami, których możesz używać do przekazywania wyników badań za pomocą języka R. Pierwszą część tej serii na temat przekazywania powtarzalnych wyników badań znajdziesz tutaj .
Spis treści
Stawianie hipotezy
Kolejnym krokiem w naszym raporcie jest postawienie hipotezy . Utworzymy kolejną sekcję w okienku przeglądarki i zwiniemy pozostałe, abyśmy mogli zobaczyć raporty wysokiego poziomu.
Jako hipotezę napiszemy, że nie ma różnicy w cenie sprzedaży komputerów z CD-ROMem i bez.
Tworzenie metod w notatniku R
Przejdziemy do metod , które omówią rzeczywiste techniki, których użyjemy, aby odpowiedzieć na tę hipotezę. Być może nie będziemy musieli przeprowadzać żadnych statystyk wnioskowania. W zależności od odbiorców, w tym scenariuszu będziemy sporządzać raport z badań na wysokim poziomie.
Powiemy, że przeprowadzimy testy próbne na poziomie ufności 95% i wizualnie sprawdzimy rozkład cen. Jeśli są w przybliżeniu normalne, przeprowadzimy test.
Po zapisaniu hipotezy i metod możemy je wyrenderować jako plik HTML , dokument PDF lub dokument Word z zakładki Podgląd .
Gdy wyślemy to jako HTML, to właśnie zobaczymy w polu renderowania.
Tutaj jest napisane, że dane wyjściowe zostały utworzone, więc przejdźmy do naszego Eksploratora plików, aby to sprawdzić. Gdy otworzymy to w naszym pliku HTML, zobaczymy, że wygląda to bardzo podobnie do tego, co mieliśmy w przycisku Podgląd.
W tym momencie nie widzimy żadnych komunikatów o błędach i widzimy również miejsce na dostosowanie. Za pomocą tych narzędzi z R Markdown i R Notebooks możemy nawet napisać całą książkę lub stronę internetową .
Wróćmy do naszego skryptu i kontynuujmy. Zapiszemy metody, których użyjemy, a także nasze wyniki. Zasadniczo otwieramy nasz plan i wyjaśniamy, że nie rzucamy rzeczami o ścianę tylko po to, aby zobaczyć, co się przyklei. Nie improwizujemy, kiedy dochodzimy do danych; właściwie mamy plan.
Wypróbowanie wielu różnych rzeczy przynosi pewne korzyści, prawda? Ale w tym podejściu celowo mówimy: „To właśnie zrobimy, a potem to zrobimy”.
Praca nad statystykami opisowymi w notatniku R
Zróbmy nasze statystyki opisowe . Chcemy znaleźć cenę dla każdej grupy z CD-ROMem i bez. Możemy to zrobić na kilka sposobów. Nazwiemy tę grupę podsumowaniem i sprowadzimy tego operatora rury. Jeśli nie znasz operatora potoku, możesz sprawdzić zasoby, o których mówiłem wcześniej.
Następnie podsumujemy i policzymy rekordy , aby znaleźć średnią cenę = średnią cenę . Na koniec będziemy chcieli wydrukować to podsumowanie grupy, a następnie uruchomić to.
I oto idziemy. Mamy już swój stół.
Jak powiedziałem wcześniej, chcemy wiedzieć, ile obserwacji jest w każdej grupie i jaka jest średnia cena. Możemy uczynić to całkowicie dynamicznym za pomocą wbudowanego odniesienia.
Zrobimy podsumowanie grupy i użyjemy operacji tidyverse . Przefiltrujemy ten wiersz, a następnie weźmiemy jedną z tych wartości i przekształcimy ją w coś, co faktycznie będzie renderowane w naszym wewnętrznym odwołaniu tutaj.
Po zapisaniu przejdź do Notatnika podglądu , aby zobaczyć wynik.
Wizualizacje budynków w R Notebook
R jest bardzo dobrze znany ze swoich możliwości wizualizacji. Do naszej wizualizacji użyjemy ggplot . Umieścimy cenę na osi X, a następnie utworzymy histogram . Stworzymy również małe wielokrotności dla aspektu, co w rzeczywistości jest całkiem łatwe w ggplot .
Moglibyśmy tutaj zmienić wiele rzeczy, takich jak tytuł, tło, kolor i tak dalej. Gdy to zapiszemy, możemy zobaczyć fabułę. W tej chwili nie jest to interaktywne, ale istnieje wiele sposobów uczynienia go interaktywnym w R. W tym przykładzie robimy tylko wykres statyczny.
Nasze wyniki pokazują coś, co wygląda jak rozkład krzywej dzwonowej, co oznacza, że powinniśmy kontynuować naszą analizę.
Przeprowadzimy wyniki testu T i włączymy je do raportu. Dodamy kolejną porcję R i nazwiemy ją cd_test . Jeśli uruchomimy to teraz, wynik będzie zawierał bardzo dużo informacji i bardzo trudno będzie wyciągnąć z niego poszczególne elementy.
Użyjemy uporządkowanej funkcji , aby umieścić to w formacie tabelarycznym. Kiedy zrobimy porządny cd_test , wszystko zmieni się w ładną strukturę tabeli. Możemy to również wydrukować, aby faktycznie pokazać to w naszym raporcie.
Inną rzeczą, którą moglibyśmy zrobić, to znaleźć dolny i górny przedział ufności. Nie chcemy pokazywać tej części, bo to tylko inscenizacja.
Ogólnie rzecz biorąc, wygląda jak żywy i dynamiczny dokument i jest o wiele lepszy niż kopiowanie i wklejanie pojedynczych punktów danych i tabel do raportu. Możesz wysłać to do współpracownika, a najlepiej, aby po prostu kliknął Podgląd, aby dowiedzieć się, co zrobiłeś i móc na tym budować.
Kończący się konkluzją
Zbliżamy się do końca naszego raportu, więc będziemy pisać podsumowanie.
Moglibyśmy również dołączyć tutaj dodatek, aby pokazać nasze zasoby. Fajną rzeczą w posiadaniu wyrostka robaczkowego jest to, że jeśli w końcu zaprezentujesz to lub pokażesz to komuś, zapyta, kto jest twoim źródłem danych lub jak coś zostało zmierzone. To wszystko są ważne pytania, a posiadanie dodatku z zasobami jest naprawdę pomocne, ponieważ wtedy możesz po prostu wskazać dodatek.
Możemy również dołączyć obraz i użyć tekstu alternatywnego . Jest to dobra praktyka, aby zasadniczo opisać, co przedstawia obraz. Jeśli jesteś użytkownikiem HTML, możesz osadzić ten obraz za pomocą HTML.
Wniosek
W tym samouczku przeszliśmy przez cały raport. To bardzo wstępny szkic, ale udało nam się użyć R Markdown do stworzenia struktury naszego raportu badawczego.
Zaczęliśmy od rozmowy o odtwarzalności, gdzie wszystko jest udokumentowane. Możesz używać R Markdown i tego frameworka do tworzenia stron internetowych, książek i blogów. Prawie każdy rodzaj produktu, który musisz zbudować jako analityk, można utworzyć za pomocą RStudio.
Więcej informacji znajdziesz w mojej książce Advancing into Analytics . To dobre, podstawowe wprowadzenie do analityki danych i analizy statystycznej z wykorzystaniem Excela, Pythona i R. Prowadzę również kursy dotyczące R dla użytkowników LuckyTemplates . W pewnym momencie możesz zobaczyć również trzeci kurs z tej serii.
Mam nadzieję, że nauczyłeś się kilku rzeczy z tego samouczka R Notebook i chciałbym zobaczyć, jak skończysz używać tych narzędzi.
Jerzego Mounta
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.