Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

W dzisiejszym blogu omówimy proces wizualizacji korelacji w języku Python oraz sposób importowania tych wizualizacji do usługi LuckyTemplates. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.

Spis treści

Zrozumienie korelacji

Oto ładny obraz pokazujący różne rodzaje korelacji. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Zaczynając od lewej, mamy doskonałą dodatnią korelację , co oznacza, że ​​ma wartość korelacji równą 1. Następnie następują dodatnie korelacje w porządku malejącym, prowadzące do 0. 

Środkowy wykres nie pokazuje korelacji, co sugeruje wartość korelacji równą 0. 

Wreszcie prawa strona przedstawia malejące wartości korelacji ujemnych od 0. Wykres najbardziej na prawo to doskonała korelacja ujemna , której wartość korelacji wynosi -1.

Pakiety do korelacji Pythona

W tym samouczku użyjemy czterech pakietów. Nasz pierwszy pakiet to Pandas do manipulacji danymi i zapisany jako zmienna pd

Do wizualizacji użyjemy Matplotlib , zapisanego jako zmienna plt dla łatwiejszego korzystania z tych funkcji. Seaborn , nasza biblioteka wizualizacji statystycznych, zostanie zapisana jako sns . I na koniec, Numpy , który ma być zapisany jako np , będzie używany do algebry liniowej. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

W przypadku danych użyjemy przykładowego zestawu danych w Seaborn. Następnie za pomocą zmiennej sns wprowadzimy zestaw danych diamentów , jak pokazano poniżej. .

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Atrybuty danych

Atrybuty naszych danych możemy przeglądać za pomocą funkcji dataset.info . Ta funkcja pokazuje nam wszystkie różne typy danych, jak widać w ostatniej kolumnie poniżej.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Należy zauważyć, że korelacja działa tylko na zmienne numeryczne, dlatego przez większość czasu będziemy przyglądać się zmiennym numerycznym. Jednak nauczymy się również, jak wykorzystać niektóre zmienne kategoryczne do wizualizacji. 

Zestaw danych korelacji Pythona

Używając nagłówka funkcji zapisanego jako dataset.head , możemy uzyskać pięć górnych wierszy naszych danych, które powinny wyglądać tak.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

W pierwszej kolumnie mamy karaty , po których następują zmienne kategoryczne krój , kolor i klarowność , a następnie wartości liczbowe dla pozostałych danych. 

Korelacja w Pythonie: tworzenie wykresu punktowego

Wizualizując korelacje i patrząc na dwie zmienne, zwykle patrzymy na wykresy punktowe

W ten sposób, korzystając z biblioteki Seaborn, stworzyliśmy nasz wykres punktowy za pomocą funkcji wykresu punktowego, w której przekazaliśmy dane, które zapisaliśmy powyżej jako data=dataset . Następnie zidentyfikowaliśmy zmienne X i Y — odpowiednio karat i cena

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Oto nasz wykres punktowy wykonany przy użyciu biblioteki Seaborn. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Widać, że ten wykres punktowy jest dość gęsty. To dlatego, że mamy około 54 000 wierszy danych, a punkty niekoniecznie są reprezentowane w najlepszy sposób.

Możemy nacisnąć klawisze Shift + Tab, aby zobaczyć różne sposoby stylizowania wykresu punktowego. Pokaże nam listę różnych parametrów, które możemy dodać do naszego wykresu punktowego. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Przewijanie w dół da nam informacje o tym, co robi każdy z wymienionych parametrów. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Dodatkowe parametry wykresu punktowego

Zagłębmy się trochę. Możemy ustawić szerokość linii na 0 , ponieważ białe linie na naszym pierwszym wykresie punktowym, pokazanym poniżej, nieco zaciemniają rzeczy. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Chcemy również dostosować alfa, abyśmy mogli kontrolować krycie. W naszym przykładzie użyjmy alfa=0,2 . Ale oczywiście możesz to również zmienić na 0,1. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Jeśli dodamy te parametry i klikniemy Uruchom , zobaczysz, że nasz wykres punktowy staje się bardziej nieprzejrzysty bez białych linii. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Możesz bawić się parametrami, aby uzyskać najlepszy efekt wizualny, którego szukasz. 

Korzystanie ze zmiennych kategorialnych

Możemy również wykorzystać niektóre z naszych zmiennych kategorycznych, aby poprawić nasze efekty wizualne. Na przykład wiemy, że nasze dane mają szlif dla naszego diamentu. 

To, co możemy zrobić, to przekazać tę kategorię cięcia, używając parametru hue jako hue='cut'. To pozwoli nam zwizualizować te punkty poprzez zmianę kolorów. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Oczywiście możemy dodać więcej parametrów, na przykład alfa. Możemy dodać to ponownie, ustawić na 0,2 i zobaczyć, jak to zmieni wygląd. Kliknijmy Uruchom , a zobaczysz niewielką różnicę. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Możemy bawić się parametrami, aby uzyskać efekt wizualny, którego szukamy. Możemy również użyć różnych kategorii, takich jak przejrzystość, która daje nam kategorie przejrzystości, a także daje nam nieco inny pogląd na ten rozproszenie.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Korelacja z innymi zmiennymi

Możesz być również zainteresowany tym, jak skorelowane są inne wartości inne niż cena i karaty. Jeśli więc spojrzymy na wykres punktowy dla tabeli , który jest wymiarem liczbowym tego rombu i  głębokości , zobaczymy, że nie ma liniowej zależności jeden do jednego.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Możemy również przyjrzeć się dwóm innym zmiennym, takim jak głębokość i cena . Na podstawie wykresu widzimy, że centra danych znajdują się wokół środkowego obszaru.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Korelacja w Pythonie: tworzenie wykresu regresji

Przejdźmy do tego, co nazywamy wykresem regresji, który pozwala nam oszacować liniową zależność między dwiema zmiennymi. 

Więc zamiast funkcji wykresu punktowego tym razem użyjemy funkcji regplot . Przekażemy w tej samej strukturze — nasze dane, a następnie zmienne X i Y. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Wynik pokazuje linię, która mierzy liniową zależność między zmiennymi. Jest również oczywiste, jak nasze wartości krążą wokół tej linii regresji.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

W tej chwili nie jest to zbyt piękna grafika, ale wciąż możemy ją zoptymalizować, aby uzyskać lepszą. Na przykład możemy przekazać styl za pomocą zmiennej Matplotlib. Możemy zmienić styl na ciemne tło za pomocą kodu plt.style.use('dark_background'). 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Weź ten sam wykres regresji i podaj kilka słów kluczowych dla naszego rozrzutu i linii. Użyjmy koloru czerwonego i linii o szerokości 1 dla naszej linii regresji. Jest to zapisane jako line_kws={„kolor” : „czerwony”, „szerokość linii” : 1). 

Dla naszych rozproszonych słów kluczowych ustawmy kolor na biały, kolor krawędzi na szary, a krycie na 0,4, które zostanie zapisane jako scatter_kws={„kolor” : „biały”, „kolor krawędzi” : „szary”, „alfa” : 0,4 ). 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Parametry te dają nam trochę inny widok pokazany poniżej. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Korelacja w Pythonie: tworzenie macierzy korelacji

Do tej pory przyglądaliśmy się wykresom punktowym z tylko dwiema zmiennymi, ale możemy również chcieć przyjrzeć się wszystkim korelacjom naszych zmiennych.

Jest to wykonywane przy użyciu naszego zestawu danych z funkcją ramki danych o nazwie korelacja reprezentowana jako dataset.corr. Otrzymamy macierz, która pokazuje nam korelacje dla każdej z tych zmiennych. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Liczby w powyższej tabeli reprezentują korelację Pearsona , która koncentruje się na liniowej zależności między wszystkimi tymi zmiennymi. 

Ale jeśli nie jesteśmy pewni, czy nasze zmienne są w pełni skorelowane liniowo, możemy zastosować inny typ korelacji, który skupia się bardziej na wpływie niż część liniowa. Nazywa się to korelacją Spearmana

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Informacje o wszystkich tych rzeczach możemy zobaczyć, naciskając Shift + Tab. Jeśli przewiniesz w dół, zobaczymy korelację rang Spearmana, współczynnik korelacji Pearsona i całkiem sporo różnych sposobów mierzenia naszych danych. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Patrząc wstecz na naszą wcześniejszą macierz korelacji, wiemy, że cena i karat są dość dobrze skorelowane.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Pochodzą one z naszego wykresu, który pokazuje, że są dość liniowe przy 0,92. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Teraz, jeśli zamiast tego użyjemy korelacji Spearmana, wpływ lub ranga będzie nieco wyższa i wyniesie 0,96.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Te różne typy korelacji pozwalają nam wychwycić różne atrybuty korelacji między tymi zmiennymi. 

Korelacja wielu x pojedynczych zmiennych

Czasami nie chcemy widzieć macierzy, ponieważ bardziej zależy nam na korelacji wszystkich zmiennych tylko z jedną zmienną (np. ceną).

To, co możemy wtedy zrobić, to wyizolować cenę za pomocą dataset.corr, po którym następuje 'price'

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Teraz widzimy, że cena jest skorelowana ze wszystkimi naszymi różnymi zmiennymi numerycznymi w tej tabeli. A powodem, dla którego możemy chcieć to zrobić, są wykresy wizualne. 

Spójrzmy więc na wizualizację naszej macierzy korelacji z mapą cieplną.

Korelacja w Pythonie: tworzenie mapy cieplnej

Możemy przekazać tę zmienną korelacji do mapy cieplnej Seaborn za pomocą funkcji sns.heatmap.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

To da nam mapę cieplną, która wygląda tak.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Ponownie możemy dodać parametry do naszych preferencji. Możemy przekazać parametr linewidths=1 i dodać adnotacje za pomocą annot=True

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

I widać, że nasza mapa ciepła wygląda teraz zupełnie inaczej. W tej chwili mamy całkiem ładną mapę cieplną. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Widzimy przydatność dodawania linii i adnotacji. Ponownie, jeśli naciśniemy Shift + Tab, pojawią się wszystkie różne parametry, które można do tego wprowadzić. 

Następnie spróbuj dodać do naszego kodu method='spearman ', aby wiedzieć, jak używać różnych typów korelacji w zależności od przypadku użycia. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Mapa ciepła z jedną zmienną

Następnie wyodrębniamy jedną zmienną i tworzymy mapę cieplną z korelacją przechodzącą od ujemnej do dodatniej.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

To da nam poniższą mapę ciepła.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Stylizację też na pewno możemy zmienić. Na przykład możemy użyć parametru cmap jako cmap='coolwarm' . To zmieni kolory na chłodne i ciepłe, a także wyeliminuje nasze czarne tło. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Jeśli klikniemy Uruchom , otrzymamy tę mapę cieplną poniżej. Dla chłodu mamy niebieski, a dla ciepłego mamy czerwone paski. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Możemy również zmienić kierunek, aby wyrównać naszą mapę z paskiem kolorów. Odbywa się to poprzez edycję naszego parametru sort_values ​​i dodanie ascending=False

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

To przejdzie od najbardziej skorelowanego (czerwony słupek) do najmniej skorelowanego (niebieski słupek). 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Korelacja w języku Python: tworzenie wizualizacji klatki schodowej

Jednym z zaawansowanych sposobów wizualizacji naszej korelacji jest użycie maski do zablokowania wszystkich korelacji, które już wykonaliśmy. 

Możemy to zrobić za pomocą Numpy, używając niektórych funkcji PRAWDA i FAŁSZ, aby stworzyć wizualną klatkę schodową dla naszych korelacji. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Oto jak powinny wyglądać wyniki.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Zobaczmy, jak możemy przesłać to do usługi LuckyTemplates.

Wizualizacja klatki schodowej w usłudze LuckyTemplates

Najpierw otwórz usługę LuckyTemplates. Przyniosłem zestaw danych awokado, abyśmy mogli zobaczyć inny obraz. Ten zestaw danych można zobaczyć w okienku Pola. Zainicjuj wizualizację języka Python , klikając ikonę języka Python w okienku Wizualizacje. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Musimy utworzyć zestaw danych, dodając wszystkie zmienne numeryczne, które są oznaczone znakiem ? . Dodaj je, klikając pola wyboru obok tych zmiennych. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Teraz, gdy mamy zestaw danych, możemy przejść do naszego notatnika Jupyter i skopiować ten kod, który mieliśmy wcześniej.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Następnie skopiujemy kod do edytora skryptów Python w LuckyTemplates. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Następnie wybierzemy naszą wizualizację, która będzie wizualizacją klatki schodowej. Wrócimy do Jupytera, skopiujemy kod, którego użyliśmy do wizualizacji klatki schodowej.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Wklej kod do edytora skryptów Pythona.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Ostatnią rzeczą do zrobienia jest upewnienie się, że używamy plt.show , który jest wymagany w twoim skrypcie Pythona. Dodaj plt.show w ostatnim wierszu kodu i kliknij ikonę uruchamiania w prawym górnym rogu edytora skryptów.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Aby uzyskać większy efekt wizualny, rozciągnij nieco ramkę, abyśmy mogli zobaczyć skrypt działający w rogu. Mamy naszą wizualizację naszej mapy cieplnej, która wygląda całkiem nieźle.

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

A w usłudze LuckyTemplates zdecydowanie możemy zobaczyć, jak ta wizualizacja może się zmieniać w zależności od zestawu danych. Na przykład możemy kliknąć ikonę Slicer w okienku Wizualizacje i przejść do opcji Typ w okienku Pola. 

Da nam to dwa typy w naszym zbiorze danych, konwencjonalny i organiczny . Jeśli klikniemy jeden typ, powiedzmy organiczny , zobaczysz, że mapa cieplna się zmienia. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Zmiany zaczną obowiązywać również, gdy klikniemy następny typ konwencjonalny .

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji

Pamiętaj, że musimy mieć zmienną kategoryczną w zbiorze danych naszego skryptu Pythona , aby te filtry działały. Jak widać, utworzony przez nas zestaw danych zawierał type , co umożliwiło nam filtrowanie wizualizacji w ten sposób. 

Korelacja w Pythonie: przewodnik po tworzeniu wizualizacji


Budowanie relacji modelu danych w
analizie tekstu usługi LuckyTemplates w języku Python | Wprowadzenie
Tworzenie skryptów w języku Python w raportach danych usługi LuckyTemplates

Wniosek

Na tym blogu nauczyłeś się wizualizować korelacje w Pythonie i LuckyTemplates przy użyciu różnych metod, takich jak korelacja Pearsona i korelacja rang Spearmana. 

Teraz możesz tworzyć wykresy punktowe, wykresy regresji, macierze korelacji, mapy cieplne i wizualizacje klatek schodowych, aby uzyskać najlepszą wizualizację dla swojego zestawu danych. Możesz także użyć różnych parametrów, aby ulepszyć style i efekty wizualne. 

Wszystkiego najlepszego,

Leave a Comment

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.