Cum să încărcați mostre de seturi de date în Python

Cum să încărcați mostre de seturi de date în Python

În această postare, vom vedea cum să încărcăm seturi de date eșantion în Python. Acesta poate să nu pară cel mai plin de farmec subiect, dar de fapt este destul de important. În mod ideal, veți avea câteva seturi de date în Python pe care le puteți exersa atunci când învățați concepte noi. Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog.

Dacă aveți de gând să vă împărtășiți codul , să documentați ceea ce ați făcut sau dacă aveți nevoie de ajutor , este într-adevăr o idee bună să utilizați un set de date general disponibil pentru a construi ceva ce se numește un exemplu minim reproductibil .

Veți avea un cod sau un script pre-grupat pe care altcineva de pe internet îl poate rula și vă poate ajuta cu el. Dacă nu produceți aceste exemple minim reproductibile , veți fi aprins în locuri precum Stack Overflow, care poate fi un pic șocant dacă nu sunteți familiarizat cu el.

Cum să încărcați mostre de seturi de date în Python

Să ne uităm la câteva moduri de a construi aceste exemple minim reproductibile și de a obține seturile de date. Există câteva pachete pe care le puteți folosi pentru a încărca un set de date prefabricat în Python și a partaja acel cod.

Ne vom uita la trei pachete care sunt cele mai comune. Să pornim un caiet Jupyter gol și să începem.

Cum să încărcați mostre de seturi de date în Python

Cuprins

Încărcați seturi de date în Python din Sklearn

Primul pe care îl vom analiza se numește Sklearn . Dacă utilizați Anaconda, nu va trebui să descărcați acest lucru. Dacă doriți mai mult ajutor cu Python, LuckyTemplates are un la care vă puteți înscrie.

Voi presupune că știți deja despre lucruri precum pachete și voi merge de acolo. Vom aduce panda și Sklearn, în special submodulul setului de date.

Cum să încărcați mostre de seturi de date în Python

Vom aduce câteva dintre aceste seturi de date. Scikit-learn – o bibliotecă de date de învățare automată – le numește seturi de date de jucărie. Vom încărca Boston, care este un set de date privind prețurile locuințelor. Când aducem acest lucru, trebuie să îl avem ca un cadru de date.

Trebuie să specificăm de fapt că datele și coloanele provin din setul de date Scikit-learn și să separăm variabilele caracteristice și variabilele țintă.

Cum să încărcați mostre de seturi de date în Python

Vom introduce acest lucru ca un cadru de date, astfel încât să putem opera și să facem diferite lucruri cu el. Panda este un pachet atât de grozav de cunoscut ca utilizator LuckyTemplates.

Încărcați seturi de date în Python din seturi de date Vega

O altă opțiune pe care o putem afla este pachetul de seturi de date Vega. Acesta nu este disponibil pe Anaconda, dar îl putem instala prin PIP. Acesta este ceea ce vom tasta pe linia de comandă pentru a instala seturile de date Vega și pentru a instala sau importa modulul de date local.

Cum să încărcați mostre de seturi de date în Python

Unele dintre acestea le puteți obține de fapt, dar veți avea nevoie de o conexiune web. Le vom aduce pe cele care sunt instalate local, importând date locale și rulându-le.

Cum să încărcați mostre de seturi de date în Python

După cum puteți vedea, există destul de multe seturi de date. Unele dintre acestea sunt serii de timp, în timp ce unele dintre acestea au variabile categorice sau continue. Să alegem setul de date mașini într-un cadru de date, astfel încât să putem rula metoda capului pe el.

Cum să încărcați mostre de seturi de date în Python

Acum, avem un alt exemplu de set de date pe care îl putem folosi și partaja.

Cum să încărcați mostre de seturi de date în Python

Încărcați seturi de date în Python de la Seaborn

Seaborn este un alt pachet care este disponibil în distribuția Anaconda. În mod implicit, Seaborn este cel mai bine cunoscut pentru vizualizarea datelor, dar are și câteva exemple de seturi de date grozave pe care le puteți utiliza. Acesta este ceea ce vom introduce pentru a obține seturi de date.

Cum să încărcați mostre de seturi de date în Python

După cum puteți vedea, există destul de multe seturi de date aici. Vom merge mai departe și vom folosi setul de date despre pinguini și vom obține din nou primele rânduri.

Cum să încărcați mostre de seturi de date în Python

Rezultatul este un alt set de date pe care să ne exersăm.

Cum să încărcați mostre de seturi de date în Python

Ideea aici nu este doar să aveți seturi de date pe care să vă exersați. Dacă vedem niște valori lipsă, întâmpinăm probleme la eliminarea seturilor de date, dorim să completăm variabila categorială sau să arătăm un exemplu altor persoane fără a oferi niște date sensibile, puteți utiliza doar unul dintre aceste seturi de date accesibile public, care sunt cu adevărat, foarte ușor. pentru ca oamenii să le folosească și să le partajeze. Aceasta este ideea unui exemplu minim reproductibil.

LuckyTemplates cu scripturi Python pentru a crea tabele de date
Python în LuckyTemplates: Cum se instalează și se configurează
Python I pentru utilizatorii LuckyTemplates - Curs nou în platforma de educație LuckyTemplates

Concluzie

Pentru a recapitula, există trei locuri în care să căutați mostre de seturi de date. Scikit-learn este un pachet de învățare automată. Este puțin mai greu de convertit, dar dacă faci lucruri legate de învățarea automată, acesta este locul potrivit. Seturile de date Vega au, de asemenea, un număr destul de bun de seturi de date, mai ales dacă utilizați metoda pentru a obține seturi de date de pe web, dar este relativ mai greu de încărcat, așa că trebuie doar să utilizați PIP decât să îl aveți preinstalat cu Anaconda. Seaborn este punctul ideal pentru că încarcă cadrul de date și are multă versatilitate atunci când vine vorba de utilizarea seturilor de date eșantioane și a exemplelor reproductibile.

Stack Overflow are, de asemenea, un tutorial despre cum să scrieți un exemplu bun minim reproductibil sau MRE, așa că verificați-l dacă doriți să postați ceva online.

A ști de unde să obțineți seturi de date bune și a partaja un MRE bun este o abilitate foarte importantă pe care trebuie să o aveți ca analist.

Dacă v-a plăcut conținutul prezentat în acest tutorial special, vă rugăm să vă abonați la canalul TV LuckyTemplates. Avem o cantitate imensă de conținut care iese tot timpul de la mine și de la o gamă largă de creatori de conținut – toți dedicați îmbunătățirii modului în care utilizați LuckyTemplates și Power Platform.


Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Cum să salvați și să încărcați un fișier RDS în R

Cum să salvați și să încărcați un fișier RDS în R

Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.

Introducere la filtrarea contextului în LuckyTemplates

Introducere la filtrarea contextului în LuckyTemplates

În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.

Idei de materializare pentru cache-urile de date în DAX Studio

Idei de materializare pentru cache-urile de date în DAX Studio

Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.

Raportare de afaceri folosind LuckyTemplates

Raportare de afaceri folosind LuckyTemplates

Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți