Jak załadować przykładowe zestawy danych w Pythonie

W tym poście przyjrzymy się, jak załadować przykładowe zestawy danych w Pythonie. To może nie wydawać się najbardziej efektownym tematem, ale w rzeczywistości jest dość ważny. Idealnie byłoby, gdybyś miał kilka zestawów danych w Pythonie, na których możesz ćwiczyć, gdy uczysz się nowych pojęć. Możesz obejrzeć pełny film z tego samouczka na dole tego bloga.

Jeśli zamierzasz udostępnić swój kod , udokumentować to, co zrobiłeś lub potrzebujesz pomocy , dobrym pomysłem jest użycie ogólnie dostępnego zestawu danych do zbudowania czegoś, co nazywa się minimalnie odtwarzalnym przykładem .

Będziesz mieć gotowy kod lub skrypt, który ktoś inny w Internecie może uruchomić i pomóc ci z tym. Jeśli nie stworzysz tych minimalnie odtwarzalnych przykładów , zostaniesz podpalony w miejscach takich jak Stack Overflow, co może być lekkim szokiem, jeśli nie jesteś z tym zaznajomiony.

Jak załadować przykładowe zestawy danych w Pythonie

Przyjrzyjmy się kilku sposobom tworzenia tych minimalnie odtwarzalnych przykładów i uzyskiwania zestawów danych. Istnieje kilka pakietów, których można użyć do załadowania gotowego zestawu danych do Pythona i udostępniania tego kodu.

Przyjrzymy się trzem najpopularniejszym pakietom. Uruchommy pusty notatnik Jupyter i zacznijmy.

Jak załadować przykładowe zestawy danych w Pythonie

Spis treści

Załaduj zestawy danych w Pythonie ze Sklearn
Załaduj zestawy danych w Pythonie z zestawów danych Vega
Załaduj zestawy danych w Pythonie z Seaborn
Wniosek

Załaduj zestawy danych w Pythonie ze Sklearn

Pierwszy, któremu się przyjrzymy, nazywa się Sklearn . Jeśli używasz Anacondy, nie musisz tego pobierać. Jeśli potrzebujesz dodatkowej pomocy z językiem Python, LuckyTemplates oferuje , na który możesz się zapisać.

Zakładam, że wiesz już o takich rzeczach jak pakiety i od tego momentu. Zamierzamy wprowadzić pandy i Sklearn, a konkretnie submoduł zestawu danych.

Jak załadować przykładowe zestawy danych w Pythonie

Zamierzamy przynieść kilka z tych zestawów danych. Scikit-learn – biblioteka danych uczenia maszynowego – nazywa je zestawami danych zabawek. Załadujemy Boston, który jest zbiorem danych o cenach mieszkań. Kiedy to wprowadzamy, musimy mieć to jako ramkę danych.

Musimy faktycznie określić, że dane i kolumny pochodzą z zestawu danych Scikit-learn i oddzielić zmienne funkcji od zmiennych docelowych.

Jak załadować przykładowe zestawy danych w Pythonie

Wprowadzimy to jako ramkę danych, abyśmy mogli operować i robić z nią różne rzeczy. Panda to świetny pakiet, który warto poznać jako użytkownik usługi LuckyTemplates.

Załaduj zestawy danych w Pythonie z zestawów danych Vega

Inną opcją, której możemy się nauczyć, jest pakiet zestawów danych Vega. Ten nie jest dostępny na Anacondzie, ale możemy go zainstalować przez PIP. To właśnie będziemy wpisywać w wierszu poleceń, aby zainstalować zestawy danych Vega oraz zainstalować lub zaimportować lokalny moduł danych.

Jak załadować przykładowe zestawy danych w Pythonie

Niektóre z nich możesz faktycznie uzyskać, ale będziesz potrzebować połączenia internetowego. Wprowadzimy te, które są zainstalowane lokalnie, importując lokalne dane i uruchamiając je.

Jak załadować przykładowe zestawy danych w Pythonie

Jak widać, jest całkiem sporo zestawów danych. Niektóre z nich to szeregi czasowe, podczas gdy inne mają zmienne jakościowe lub ciągłe. Wybierzmy zestaw danych samochodów w ramce danych, abyśmy mogli uruchomić na nim metodę head.

Jak załadować przykładowe zestawy danych w Pythonie

Teraz mamy inny przykładowy zestaw danych, którego możemy używać i udostępniać.

Jak załadować przykładowe zestawy danych w Pythonie

Załaduj zestawy danych w Pythonie z Seaborn

Seaborn to kolejny pakiet dostępny w dystrybucji Anaconda. Domyślnie Seaborn jest najbardziej znany z wizualizacji danych, ale ma też kilka świetnych przykładowych zestawów danych, których można użyć. To właśnie wpiszemy, aby uzyskać zestawy danych.

Jak załadować przykładowe zestawy danych w Pythonie

Jak widać, jest tu całkiem sporo zestawów danych. Pójdziemy dalej i użyjemy zestawu danych pingwinów i ponownie uzyskamy kilka pierwszych wierszy.

Jak załadować przykładowe zestawy danych w Pythonie

Rezultatem jest kolejny zestaw danych, na którym możemy ćwiczyć.

Jak załadować przykładowe zestawy danych w Pythonie

Chodzi o to, aby nie tylko mieć zestawy danych do ćwiczeń. Jeśli widzimy brakujące wartości, mamy problem z usunięciem zestawów danych, chcemy wypełnić zmienną kategoryczną lub pokazać przykład innym osobom bez podawania poufnych danych, możesz po prostu użyć jednego z tych publicznie dostępnych zestawów danych, które są naprawdę bardzo łatwe aby ludzie mogli z nich korzystać i dzielić się nimi. To idea minimalnie odtwarzalnego przykładu.

LuckyTemplates ze skryptami w języku Python do tworzenia tabel dat
Python w LuckyTemplates: jak zainstalować i skonfigurować
Pythona I dla użytkowników LuckyTemplates — nowy kurs na platformie edukacyjnej LuckyTemplates

Wniosek

Podsumowując, istnieją trzy miejsca, w których można szukać przykładowych zestawów danych. Scikit-learn to pakiet uczenia maszynowego. Konwersja jest trochę trudniejsza, ale jeśli robisz rzeczy związane z uczeniem maszynowym, to jest miejsce, do którego należy się udać. Zestawy danych Vega mają również całkiem niezłą liczbę zestawów danych, szczególnie jeśli używasz metody pobierania zestawów danych z sieci, ale jest to stosunkowo trudniejsze do załadowania, więc wystarczy użyć PIP zamiast preinstalowania go z Anacondą. Seaborn jest najlepszym rozwiązaniem, ponieważ ładuje ramkę danych i ma dużą wszechstronność, jeśli chodzi o używanie przykładowych zestawów danych i powtarzalnych przykładów.

Stack Overflow zawiera również samouczek, jak napisać dobry, minimalnie odtwarzalny przykład lub MRE, więc sprawdź go, jeśli chcesz opublikować coś online.

Wiedza o tym, skąd wziąć dobre zestawy danych i dzielenie się dobrym MRE, to naprawdę ważna umiejętność dla analityka.

Jeśli podobały Ci się treści omówione w tym samouczku, zasubskrybuj kanał telewizyjny LuckyTemplates. Cały czas publikujemy ogromną ilość treści ode mnie i wielu twórców treści — wszyscy zajmują się ulepszaniem sposobu, w jaki korzystasz z usługi LuckyTemplates i platformy Power Platform.

Zostaw komentarz

Dodawaj, usuwaj i zmieniaj nazwy kolumn w R za pomocą Dplyr

W tym samouczku omówimy pakiet dplyr, który umożliwia sortowanie, filtrowanie, dodawanie i zmianę nazw kolumn w języku R.

Funkcje zbierania w Microsoft Power Automate

Odkryj różnorodne funkcje zbierania, które można wykorzystać w Power Automate. Zdobądź praktyczne informacje o funkcjach tablicowych i ich zastosowaniu.

Oceń wydajność kodu DAX w DAX Studio

Z tego samouczka dowiesz się, jak ocenić wydajność kodów DAX przy użyciu opcji Uruchom test porównawczy w DAX Studio.

Czym jest self w Pythonie: przykłady z życia wzięte

Jak zapisać i załadować plik RDS w R

Dowiesz się, jak zapisywać i ładować obiekty z pliku .rds w R. Ten blog będzie również omawiał sposób importowania obiektów z R do LuckyTemplates.

Powrót do pierwszych N dni roboczych — rozwiązanie języka kodowania DAX

Z tego samouczka języka kodowania DAX dowiesz się, jak używać funkcji GENERUJ i jak dynamicznie zmieniać tytuł miary.

Zaprezentuj spostrzeżenia przy użyciu wielowątkowej techniki dynamicznych wizualizacji w usłudze LuckyTemplates

W tym samouczku omówiono sposób korzystania z techniki wielowątkowych wizualizacji dynamicznych w celu tworzenia szczegółowych informacji na podstawie dynamicznych wizualizacji danych w raportach.

Najlepsze wskazówki dotyczące korzystania z aplikacji w usłudze online LuckyTemplates

Chcę pokazać, jak usługa online LuckyTemplates Apps może pomóc w zarządzaniu różnymi raportami i spostrzeżeniami generowanymi z różnych źródeł.

Wprowadzenie do filtrowania kontekstu w usłudze LuckyTemplates

W tym artykule omówię kontekst filtra. Kontekst filtrowania to jeden z głównych tematów, z którym każdy użytkownik usługi LuckyTemplates powinien zapoznać się na początku.

Analizuj zmiany marży zysku w godzinach nadliczbowych — Analizuj za pomocą LuckyTemplates i DAX

Dowiedz się, jak obliczyć zmiany marży zysku przy użyciu technik, takich jak rozgałęzianie miar i łączenie formuł języka DAX w usłudze LuckyTemplates.