Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
W dzisiejszym blogu omówimy proces wizualizacji korelacji w języku Python oraz sposób importowania tych wizualizacji do usługi LuckyTemplates. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.
Spis treści
Zrozumienie korelacji
Oto ładny obraz pokazujący różne rodzaje korelacji.
Zaczynając od lewej, mamy doskonałą dodatnią korelację , co oznacza, że ma wartość korelacji równą 1. Następnie następują dodatnie korelacje w porządku malejącym, prowadzące do 0.
Środkowy wykres nie pokazuje korelacji, co sugeruje wartość korelacji równą 0.
Wreszcie prawa strona przedstawia malejące wartości korelacji ujemnych od 0. Wykres najbardziej na prawo to doskonała korelacja ujemna , której wartość korelacji wynosi -1.
Pakiety do korelacji Pythona
W tym samouczku użyjemy czterech pakietów. Nasz pierwszy pakiet to Pandas do manipulacji danymi i zapisany jako zmienna pd .
Do wizualizacji użyjemy Matplotlib , zapisanego jako zmienna plt dla łatwiejszego korzystania z tych funkcji. Seaborn , nasza biblioteka wizualizacji statystycznych, zostanie zapisana jako sns . I na koniec, Numpy , który ma być zapisany jako np , będzie używany do algebry liniowej.
W przypadku danych użyjemy przykładowego zestawu danych w Seaborn. Następnie za pomocą zmiennej sns wprowadzimy zestaw danych diamentów , jak pokazano poniżej. .
Atrybuty danych
Atrybuty naszych danych możemy przeglądać za pomocą funkcji dataset.info . Ta funkcja pokazuje nam wszystkie różne typy danych, jak widać w ostatniej kolumnie poniżej.
Należy zauważyć, że korelacja działa tylko na zmienne numeryczne, dlatego przez większość czasu będziemy przyglądać się zmiennym numerycznym. Jednak nauczymy się również, jak wykorzystać niektóre zmienne kategoryczne do wizualizacji.
Zestaw danych korelacji Pythona
Używając nagłówka funkcji zapisanego jako dataset.head , możemy uzyskać pięć górnych wierszy naszych danych, które powinny wyglądać tak.
W pierwszej kolumnie mamy karaty , po których następują zmienne kategoryczne krój , kolor i klarowność , a następnie wartości liczbowe dla pozostałych danych.
Korelacja w Pythonie: tworzenie wykresu punktowego
Wizualizując korelacje i patrząc na dwie zmienne, zwykle patrzymy na wykresy punktowe .
W ten sposób, korzystając z biblioteki Seaborn, stworzyliśmy nasz wykres punktowy za pomocą funkcji wykresu punktowego, w której przekazaliśmy dane, które zapisaliśmy powyżej jako data=dataset . Następnie zidentyfikowaliśmy zmienne X i Y — odpowiednio karat i cena .
Oto nasz wykres punktowy wykonany przy użyciu biblioteki Seaborn.
Widać, że ten wykres punktowy jest dość gęsty. To dlatego, że mamy około 54 000 wierszy danych, a punkty niekoniecznie są reprezentowane w najlepszy sposób.
Możemy nacisnąć klawisze Shift + Tab, aby zobaczyć różne sposoby stylizowania wykresu punktowego. Pokaże nam listę różnych parametrów, które możemy dodać do naszego wykresu punktowego.
Przewijanie w dół da nam informacje o tym, co robi każdy z wymienionych parametrów.
Dodatkowe parametry wykresu punktowego
Zagłębmy się trochę. Możemy ustawić szerokość linii na 0 , ponieważ białe linie na naszym pierwszym wykresie punktowym, pokazanym poniżej, nieco zaciemniają rzeczy.
Chcemy również dostosować alfa, abyśmy mogli kontrolować krycie. W naszym przykładzie użyjmy alfa=0,2 . Ale oczywiście możesz to również zmienić na 0,1.
Jeśli dodamy te parametry i klikniemy Uruchom , zobaczysz, że nasz wykres punktowy staje się bardziej nieprzejrzysty bez białych linii.
Możesz bawić się parametrami, aby uzyskać najlepszy efekt wizualny, którego szukasz.
Korzystanie ze zmiennych kategorialnych
Możemy również wykorzystać niektóre z naszych zmiennych kategorycznych, aby poprawić nasze efekty wizualne. Na przykład wiemy, że nasze dane mają szlif dla naszego diamentu.
To, co możemy zrobić, to przekazać tę kategorię cięcia, używając parametru hue jako hue='cut'. To pozwoli nam zwizualizować te punkty poprzez zmianę kolorów.
Oczywiście możemy dodać więcej parametrów, na przykład alfa. Możemy dodać to ponownie, ustawić na 0,2 i zobaczyć, jak to zmieni wygląd. Kliknijmy Uruchom , a zobaczysz niewielką różnicę.
Możemy bawić się parametrami, aby uzyskać efekt wizualny, którego szukamy. Możemy również użyć różnych kategorii, takich jak przejrzystość, która daje nam kategorie przejrzystości, a także daje nam nieco inny pogląd na ten rozproszenie.
Korelacja z innymi zmiennymi
Możesz być również zainteresowany tym, jak skorelowane są inne wartości inne niż cena i karaty. Jeśli więc spojrzymy na wykres punktowy dla tabeli , który jest wymiarem liczbowym tego rombu i głębokości , zobaczymy, że nie ma liniowej zależności jeden do jednego.
Możemy również przyjrzeć się dwóm innym zmiennym, takim jak głębokość i cena . Na podstawie wykresu widzimy, że centra danych znajdują się wokół środkowego obszaru.
Korelacja w Pythonie: tworzenie wykresu regresji
Przejdźmy do tego, co nazywamy wykresem regresji, który pozwala nam oszacować liniową zależność między dwiema zmiennymi.
Więc zamiast funkcji wykresu punktowego tym razem użyjemy funkcji regplot . Przekażemy w tej samej strukturze — nasze dane, a następnie zmienne X i Y.
Wynik pokazuje linię, która mierzy liniową zależność między zmiennymi. Jest również oczywiste, jak nasze wartości krążą wokół tej linii regresji.
W tej chwili nie jest to zbyt piękna grafika, ale wciąż możemy ją zoptymalizować, aby uzyskać lepszą. Na przykład możemy przekazać styl za pomocą zmiennej Matplotlib. Możemy zmienić styl na ciemne tło za pomocą kodu plt.style.use('dark_background').
Weź ten sam wykres regresji i podaj kilka słów kluczowych dla naszego rozrzutu i linii. Użyjmy koloru czerwonego i linii o szerokości 1 dla naszej linii regresji. Jest to zapisane jako line_kws={„kolor” : „czerwony”, „szerokość linii” : 1).
Dla naszych rozproszonych słów kluczowych ustawmy kolor na biały, kolor krawędzi na szary, a krycie na 0,4, które zostanie zapisane jako scatter_kws={„kolor” : „biały”, „kolor krawędzi” : „szary”, „alfa” : 0,4 ).
Parametry te dają nam trochę inny widok pokazany poniżej.
Korelacja w Pythonie: tworzenie macierzy korelacji
Do tej pory przyglądaliśmy się wykresom punktowym z tylko dwiema zmiennymi, ale możemy również chcieć przyjrzeć się wszystkim korelacjom naszych zmiennych.
Jest to wykonywane przy użyciu naszego zestawu danych z funkcją ramki danych o nazwie korelacja reprezentowana jako dataset.corr. Otrzymamy macierz, która pokazuje nam korelacje dla każdej z tych zmiennych.
Liczby w powyższej tabeli reprezentują korelację Pearsona , która koncentruje się na liniowej zależności między wszystkimi tymi zmiennymi.
Ale jeśli nie jesteśmy pewni, czy nasze zmienne są w pełni skorelowane liniowo, możemy zastosować inny typ korelacji, który skupia się bardziej na wpływie niż część liniowa. Nazywa się to korelacją Spearmana .
Informacje o wszystkich tych rzeczach możemy zobaczyć, naciskając Shift + Tab. Jeśli przewiniesz w dół, zobaczymy korelację rang Spearmana, współczynnik korelacji Pearsona i całkiem sporo różnych sposobów mierzenia naszych danych.
Patrząc wstecz na naszą wcześniejszą macierz korelacji, wiemy, że cena i karat są dość dobrze skorelowane.
Pochodzą one z naszego wykresu, który pokazuje, że są dość liniowe przy 0,92.
Teraz, jeśli zamiast tego użyjemy korelacji Spearmana, wpływ lub ranga będzie nieco wyższa i wyniesie 0,96.
Te różne typy korelacji pozwalają nam wychwycić różne atrybuty korelacji między tymi zmiennymi.
Korelacja wielu x pojedynczych zmiennych
Czasami nie chcemy widzieć macierzy, ponieważ bardziej zależy nam na korelacji wszystkich zmiennych tylko z jedną zmienną (np. ceną).
To, co możemy wtedy zrobić, to wyizolować cenę za pomocą dataset.corr, po którym następuje 'price' .
Teraz widzimy, że cena jest skorelowana ze wszystkimi naszymi różnymi zmiennymi numerycznymi w tej tabeli. A powodem, dla którego możemy chcieć to zrobić, są wykresy wizualne.
Spójrzmy więc na wizualizację naszej macierzy korelacji z mapą cieplną.
Korelacja w Pythonie: tworzenie mapy cieplnej
Możemy przekazać tę zmienną korelacji do mapy cieplnej Seaborn za pomocą funkcji sns.heatmap.
To da nam mapę cieplną, która wygląda tak.
Ponownie możemy dodać parametry do naszych preferencji. Możemy przekazać parametr linewidths=1 i dodać adnotacje za pomocą annot=True .
I widać, że nasza mapa ciepła wygląda teraz zupełnie inaczej. W tej chwili mamy całkiem ładną mapę cieplną.
Widzimy przydatność dodawania linii i adnotacji. Ponownie, jeśli naciśniemy Shift + Tab, pojawią się wszystkie różne parametry, które można do tego wprowadzić.
Następnie spróbuj dodać do naszego kodu method='spearman ', aby wiedzieć, jak używać różnych typów korelacji w zależności od przypadku użycia.
Mapa ciepła z jedną zmienną
Następnie wyodrębniamy jedną zmienną i tworzymy mapę cieplną z korelacją przechodzącą od ujemnej do dodatniej.
To da nam poniższą mapę ciepła.
Stylizację też na pewno możemy zmienić. Na przykład możemy użyć parametru cmap jako cmap='coolwarm' . To zmieni kolory na chłodne i ciepłe, a także wyeliminuje nasze czarne tło.
Jeśli klikniemy Uruchom , otrzymamy tę mapę cieplną poniżej. Dla chłodu mamy niebieski, a dla ciepłego mamy czerwone paski.
Możemy również zmienić kierunek, aby wyrównać naszą mapę z paskiem kolorów. Odbywa się to poprzez edycję naszego parametru sort_values i dodanie ascending=False .
To przejdzie od najbardziej skorelowanego (czerwony słupek) do najmniej skorelowanego (niebieski słupek).
Korelacja w języku Python: tworzenie wizualizacji klatki schodowej
Jednym z zaawansowanych sposobów wizualizacji naszej korelacji jest użycie maski do zablokowania wszystkich korelacji, które już wykonaliśmy.
Możemy to zrobić za pomocą Numpy, używając niektórych funkcji PRAWDA i FAŁSZ, aby stworzyć wizualną klatkę schodową dla naszych korelacji.
Oto jak powinny wyglądać wyniki.
Zobaczmy, jak możemy przesłać to do usługi LuckyTemplates.
Wizualizacja klatki schodowej w usłudze LuckyTemplates
Najpierw otwórz usługę LuckyTemplates. Przyniosłem zestaw danych awokado, abyśmy mogli zobaczyć inny obraz. Ten zestaw danych można zobaczyć w okienku Pola. Zainicjuj wizualizację języka Python , klikając ikonę języka Python w okienku Wizualizacje.
Musimy utworzyć zestaw danych, dodając wszystkie zmienne numeryczne, które są oznaczone znakiem ? . Dodaj je, klikając pola wyboru obok tych zmiennych.
Teraz, gdy mamy zestaw danych, możemy przejść do naszego notatnika Jupyter i skopiować ten kod, który mieliśmy wcześniej.
Następnie skopiujemy kod do edytora skryptów Python w LuckyTemplates.
Następnie wybierzemy naszą wizualizację, która będzie wizualizacją klatki schodowej. Wrócimy do Jupytera, skopiujemy kod, którego użyliśmy do wizualizacji klatki schodowej.
Wklej kod do edytora skryptów Pythona.
Ostatnią rzeczą do zrobienia jest upewnienie się, że używamy plt.show , który jest wymagany w twoim skrypcie Pythona. Dodaj plt.show w ostatnim wierszu kodu i kliknij ikonę uruchamiania w prawym górnym rogu edytora skryptów.
Aby uzyskać większy efekt wizualny, rozciągnij nieco ramkę, abyśmy mogli zobaczyć skrypt działający w rogu. Mamy naszą wizualizację naszej mapy cieplnej, która wygląda całkiem nieźle.
A w usłudze LuckyTemplates zdecydowanie możemy zobaczyć, jak ta wizualizacja może się zmieniać w zależności od zestawu danych. Na przykład możemy kliknąć ikonę Slicer w okienku Wizualizacje i przejść do opcji Typ w okienku Pola.
Da nam to dwa typy w naszym zbiorze danych, konwencjonalny i organiczny . Jeśli klikniemy jeden typ, powiedzmy organiczny , zobaczysz, że mapa cieplna się zmienia.
Zmiany zaczną obowiązywać również, gdy klikniemy następny typ konwencjonalny .
Pamiętaj, że musimy mieć zmienną kategoryczną w zbiorze danych naszego skryptu Pythona , aby te filtry działały. Jak widać, utworzony przez nas zestaw danych zawierał type , co umożliwiło nam filtrowanie wizualizacji w ten sposób.
Budowanie relacji modelu danych w
analizie tekstu usługi LuckyTemplates w języku Python | Wprowadzenie
Tworzenie skryptów w języku Python w raportach danych usługi LuckyTemplates
Wniosek
Na tym blogu nauczyłeś się wizualizować korelacje w Pythonie i LuckyTemplates przy użyciu różnych metod, takich jak korelacja Pearsona i korelacja rang Spearmana.
Teraz możesz tworzyć wykresy punktowe, wykresy regresji, macierze korelacji, mapy cieplne i wizualizacje klatek schodowych, aby uzyskać najlepszą wizualizację dla swojego zestawu danych. Możesz także użyć różnych parametrów, aby ulepszyć style i efekty wizualne.
Wszystkiego najlepszego,
W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.
Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.
Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.
Czym jest self w Pythonie: przykłady z życia wzięte
Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.
Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.
W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.
W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.
Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.
Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.