Jak załadować przykładowe zestawy danych w Pythonie

Jak załadować przykładowe zestawy danych w Pythonie

W tym poście przyjrzymy się, jak załadować przykładowe zestawy danych w Pythonie. To może nie wydawać się najbardziej efektownym tematem, ale w rzeczywistości jest dość ważny. Idealnie byłoby, gdybyś miał kilka zestawów danych w Pythonie, na których możesz ćwiczyć, gdy uczysz się nowych pojęć. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.

Jeśli zamierzasz udostępnić swój kod , udokumentować to, co zrobiłeś lub potrzebujesz pomocy , dobrym pomysłem jest użycie ogólnie dostępnego zestawu danych do zbudowania czegoś, co nazywa się minimalnie odtwarzalnym przykładem .

Będziesz mieć gotowy kod lub skrypt, który ktoś inny w Internecie może uruchomić i pomóc ci z tym. Jeśli nie stworzysz tych minimalnie odtwarzalnych przykładów , zostaniesz podpalony w miejscach takich jak Stack Overflow, co może być lekkim szokiem, jeśli nie jesteś z tym zaznajomiony.

Jak załadować przykładowe zestawy danych w Pythonie

Przyjrzyjmy się kilku sposobom tworzenia tych minimalnie odtwarzalnych przykładów i uzyskiwania zestawów danych. Istnieje kilka pakietów, których można użyć do załadowania gotowego zestawu danych do Pythona i udostępniania tego kodu.

Przyjrzymy się trzem najpopularniejszym pakietom. Uruchommy pusty notatnik Jupyter i zacznijmy.

Jak załadować przykładowe zestawy danych w Pythonie

Spis treści

Załaduj zestawy danych w Pythonie ze Sklearn

Pierwszy, któremu się przyjrzymy, nazywa się Sklearn . Jeśli używasz Anacondy, nie musisz tego pobierać. Jeśli potrzebujesz dodatkowej pomocy z językiem Python, LuckyTemplates oferuje , na który możesz się zapisać.

Zakładam, że wiesz już o takich rzeczach jak pakiety i od tego momentu. Zamierzamy wprowadzić pandy i Sklearn, a konkretnie submoduł zestawu danych.

Jak załadować przykładowe zestawy danych w Pythonie

Zamierzamy przynieść kilka z tych zestawów danych. Scikit-learn – biblioteka danych uczenia maszynowego – nazywa je zestawami danych zabawek. Załadujemy Boston, który jest zbiorem danych o cenach mieszkań. Kiedy to wprowadzamy, musimy mieć to jako ramkę danych.

Musimy faktycznie określić, że dane i kolumny pochodzą z zestawu danych Scikit-learn i oddzielić zmienne funkcji od zmiennych docelowych.

Jak załadować przykładowe zestawy danych w Pythonie

Wprowadzimy to jako ramkę danych, abyśmy mogli operować i robić z nią różne rzeczy. Panda to świetny pakiet, który warto poznać jako użytkownik usługi LuckyTemplates.

Załaduj zestawy danych w Pythonie z zestawów danych Vega

Inną opcją, której możemy się nauczyć, jest pakiet zestawów danych Vega. Ten nie jest dostępny na Anacondzie, ale możemy go zainstalować przez PIP. To właśnie będziemy wpisywać w wierszu poleceń, aby zainstalować zestawy danych Vega oraz zainstalować lub zaimportować lokalny moduł danych.

Jak załadować przykładowe zestawy danych w Pythonie

Niektóre z nich możesz faktycznie uzyskać, ale będziesz potrzebować połączenia internetowego. Wprowadzimy te, które są zainstalowane lokalnie, importując lokalne dane i uruchamiając je.

Jak załadować przykładowe zestawy danych w Pythonie

Jak widać, jest całkiem sporo zestawów danych. Niektóre z nich to szeregi czasowe, podczas gdy inne mają zmienne jakościowe lub ciągłe. Wybierzmy zestaw danych samochodów w ramce danych, abyśmy mogli uruchomić na nim metodę head.

Jak załadować przykładowe zestawy danych w Pythonie

Teraz mamy inny przykładowy zestaw danych, którego możemy używać i udostępniać.

Jak załadować przykładowe zestawy danych w Pythonie

Załaduj zestawy danych w Pythonie z Seaborn

Seaborn to kolejny pakiet dostępny w dystrybucji Anaconda. Domyślnie Seaborn jest najbardziej znany z wizualizacji danych, ale ma też kilka świetnych przykładowych zestawów danych, których można użyć. To właśnie wpiszemy, aby uzyskać zestawy danych.

Jak załadować przykładowe zestawy danych w Pythonie

Jak widać, jest tu całkiem sporo zestawów danych. Pójdziemy dalej i użyjemy zestawu danych pingwinów i ponownie uzyskamy kilka pierwszych wierszy.

Jak załadować przykładowe zestawy danych w Pythonie

Rezultatem jest kolejny zestaw danych, na którym możemy ćwiczyć.

Jak załadować przykładowe zestawy danych w Pythonie

Chodzi o to, aby nie tylko mieć zestawy danych do ćwiczeń. Jeśli widzimy brakujące wartości, mamy problem z usunięciem zestawów danych, chcemy wypełnić zmienną kategoryczną lub pokazać przykład innym osobom bez podawania poufnych danych, możesz po prostu użyć jednego z tych publicznie dostępnych zestawów danych, które są naprawdę bardzo łatwe aby ludzie mogli z nich korzystać i dzielić się nimi. To idea minimalnie odtwarzalnego przykładu.

LuckyTemplates ze skryptami w języku Python do tworzenia tabel dat
Python w LuckyTemplates: jak zainstalować i skonfigurować
Pythona I dla użytkowników LuckyTemplates — nowy kurs na platformie edukacyjnej LuckyTemplates

Wniosek

Podsumowując, istnieją trzy miejsca, w których można szukać przykładowych zestawów danych. Scikit-learn to pakiet uczenia maszynowego. Konwersja jest trochę trudniejsza, ale jeśli robisz rzeczy związane z uczeniem maszynowym, to jest miejsce, do którego należy się udać. Zestawy danych Vega mają również całkiem niezłą liczbę zestawów danych, szczególnie jeśli używasz metody pobierania zestawów danych z sieci, ale jest to stosunkowo trudniejsze do załadowania, więc wystarczy użyć PIP zamiast preinstalowania go z Anacondą. Seaborn jest najlepszym rozwiązaniem, ponieważ ładuje ramkę danych i ma dużą wszechstronność, jeśli chodzi o używanie przykładowych zestawów danych i powtarzalnych przykładów.

Stack Overflow zawiera również samouczek, jak napisać dobry, minimalnie odtwarzalny przykład lub MRE, więc sprawdź go, jeśli chcesz opublikować coś online.

Wiedza o tym, skąd wziąć dobre zestawy danych i dzielenie się dobrym MRE, to naprawdę ważna umiejętność dla analityka.

Jeśli podobały Ci się treści omówione w tym samouczku, zasubskrybuj kanał telewizyjny LuckyTemplates. Cały czas publikujemy ogromną ilość treści ode mnie i wielu twórców treści — wszyscy zajmują się ulepszaniem sposobu, w jaki korzystasz z usługi LuckyTemplates i platformy Power Platform.


Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.

Pomysły na materializację pamięci podręcznych danych w DAX Studio

Pomysły na materializację pamięci podręcznych danych w DAX Studio

W tym samouczku omówiono idee materializacji pamięci podręcznych danych oraz ich wpływ na wydajność języka DAX w dostarczaniu wyników.

Raportowanie biznesowe przy użyciu usługi LuckyTemplates

Raportowanie biznesowe przy użyciu usługi LuckyTemplates

Jeśli do tej pory nadal korzystasz z programu Excel, jest to najlepszy moment, aby zacząć korzystać z usługi LuckyTemplates na potrzeby raportowania biznesowego.

Co to jest brama LuckyTemplates? Wszystko co musisz wiedzieć

Co to jest brama LuckyTemplates? Wszystko co musisz wiedzieć

Co to jest brama LuckyTemplates? Wszystko co musisz wiedzieć