Ce este Sinele în Python: Exemple din lumea reală
Ce este Sinele în Python: Exemple din lumea reală
În blogul de astăzi, vom parcurge procesul de vizualizare a corelației Python și cum să importam aceste elemente vizuale în LuckyTemplates. Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog.
Cuprins
Înțelegerea corelațiilor
Iată o imagine frumoasă care arată diferitele tipuri de corelații.
Pornind de la stânga, avem corelația pozitivă perfectă , ceea ce înseamnă că are o valoare de corelație de 1. Apoi, este urmată de corelații pozitive în ordine descrescătoare care duc la 0.
Graficul din mijloc nu arată nicio corelație sugerând o valoare de corelație egală cu 0.
În cele din urmă, partea dreaptă prezintă valori descrescătoare ale corelațiilor negative de la 0. Graficul din dreapta este corelația negativă perfectă care are o valoare de corelație de -1.
Pachete pentru corelarea Python
Vom folosi patru pachete pentru acest tutorial. Primul nostru pachet este Pandas pentru a fi folosit pentru manipularea datelor și salvat ca variabilă pd .
Pentru vizualizare, vom folosi Matplotlib , salvat ca variabilă plt pentru o utilizare mai ușoară a acestor funcții. Seaborn , biblioteca noastră de vizualizare statistică, va fi salvată ca sns . Și, în sfârșit, Numpy , care urmează să fie salvat ca np , va fi folosit pentru algebra liniară.
Pentru date, vom folosi un set de date eșantion în Seaborn. Apoi, folosind variabila sns, vom introduce setul de date diamante așa cum se arată mai jos. .
Atributele datelor
Putem vizualiza atributele datelor noastre folosind funcția dataset.info . Această funcție ne arată toate tipurile de date diferite, așa cum se vede în ultima coloană de mai jos.
Rețineți că corelația funcționează numai pe variabilele numerice, prin urmare, ne vom uita la variabilele numerice de cele mai multe ori. Cu toate acestea, vom învăța și cum să folosim unele dintre variabilele categoriale pentru vizualizare.
Setul de date de corelare Python
Folosind funcția head scrisă ca dataset.head , putem obține primele cinci rânduri ale datelor noastre care ar trebui să arate așa.
Avem carate în prima coloană, urmate de variabilele categorice cut , color , and clarity , iar apoi valori numerice pentru restul datelor.
Corelația Python: Crearea unui diagramă de dispersie
Când vizualizăm corelații și ne uităm la două variabile, de obicei ne uităm la diagramele de dispersie .
Astfel, folosind biblioteca Seaborn, ne-am creat graficul de dispersie folosind funcția de grafic de dispersie în care am transmis datele pe care le-am salvat mai sus ca data=dataset . Apoi, am identificat variabilele X și Y - caratul și respectiv prețul .
Iată diagrama noastră de dispersie realizată cu biblioteca Seaborn.
Puteți vedea că această diagramă de dispersie este destul de densă. Asta pentru că avem aproximativ 54.000 de rânduri de date și punctele nu sunt neapărat reprezentate în cel mai bun mod.
Putem apăsa tastele Shift + Tab pentru a vedea diferitele moduri de a stila graficul de dispersie. Ne va arăta o listă cu diferiți parametri pe care îi putem adăuga la graficul nostru de dispersie.
Derularea mai jos ne va oferi informații despre ceea ce face fiecare dintre parametrii enumerați.
Parametri suplimentari pentru diagrama de dispersie
Să ne scufundăm puțin. Putem face linewidth=0 , deoarece liniile albe din primul nostru grafic de dispersie, prezentat mai jos, ascund lucrurile oarecum.
De asemenea, vrem să ajustăm alfa, astfel încât să putem controla opacitatea. Să folosim alpha=0.2 pentru exemplul nostru. Dar, desigur, ai putea schimba și asta la 0,1.
Dacă adăugăm acești parametri și facem clic pe Run , puteți vedea graficul nostru de dispersie devine mai opac fără liniile albe.
Vă puteți juca cu parametrii pentru a obține cea mai bună imagine pe care o căutați.
Utilizarea variabilelor categoriale
De asemenea, putem folosi unele dintre variabilele noastre categorice pentru a ne îmbunătăți imaginile. De exemplu, știm că datele noastre au o tăietură pentru diamantul nostru.
Ceea ce putem face este să trecem în acea categorie de tăiere folosind parametrul hue ca hue='cut'. Acest lucru ne va permite să vizualizăm aceste puncte prin schimbarea culorilor.
Desigur, putem adăuga mai mulți parametri precum alfa, de exemplu. Putem adăuga asta din nou, setați la 0,2 și vedem cum modifică acest aspect vizual. Să facem clic pe Executare și puteți vedea o mică diferență.
Ne putem juca cu parametrii pentru a obține imaginea pe care o căutăm. Putem folosi, de asemenea, diferite categorii, cum ar fi claritatea, care ne oferă categoriile de claritate și, de asemenea, ne oferă o vedere ușor diferită asupra acelei împrăștie.
Corelația cu alte variabile
Ați putea fi, de asemenea, interesat de modul în care alte valori sunt corelate, altele decât prețul și caratele. Deci, dacă ne uităm la o diagramă de dispersie pentru tabel , care este dimensiunea numerică a acelui diamant și adâncimea , putem vedea că nu există o relație liniară unu-la-unu.
De asemenea, putem analiza alte două variabile, cum ar fi adâncimea și prețul . Pe baza graficului, putem vedea că centrele de date sunt în jurul zonei de mijloc.
Corelația Python: Crearea unui diagramă de regresie
Să avansăm la ceea ce numim o diagramă de regresie care ne permite să evaluăm relația liniară dintre două variabile.
Deci, în loc de funcția grafică de dispersie, vom folosi funcția regplot de data aceasta. Vom trece în aceeași structură - datele noastre apoi variabilele X și Y.
Rezultatul arată o linie care măsoară relația liniară dintre variabile. De asemenea, este evident modul în care valorile noastre se rotesc în jurul acelei linii de regresie.
Acesta nu este o imagine foarte frumoasă în acest moment, dar încă o putem optimiza pentru a obține una mai bună. De exemplu, putem trece într-un stil folosind variabila Matplotlib. Putem schimba stilul la fundal întunecat folosind codul plt.style.use('dark_background').
Luați aceeași diagramă de regresie și introduceți câteva cuvinte cheie pentru dispersia și linia noastră. Să folosim culoarea roșie și o lățime de linie de 1 pentru linia noastră de regresie. Acesta este scris ca line_kws={“culoare”: „roșu”, „lățime de linie”: 1).
Pentru cuvintele noastre cheie scatter, să setăm culoarea ca alb, culoarea marginii ca gri și opacitatea ca 0,4 să fie scrisă ca scatter_kws={“color” : „white”, „edgecolor” : „grey”, „alpha” : 0,4 ).
Acești parametri ne oferă o imagine puțin diferită, prezentată mai jos.
Corelația Python: Crearea unei matrice de corelație
Până acum, ceea ce ne-am uitat sunt diagrame de dispersie cu doar două variabile, dar este posibil să dorim să ne uităm și la toate corelațiile noastre de variabile.
Acest lucru este realizat folosind setul nostru de date cu o funcție de cadru de date numită corelație reprezentată ca dataset.corr. Și ceea ce vom obține este o matrice care ne arată corelații pe fiecare dintre aceste variabile.
Numerele din tabelul de mai sus reprezintă corelația Pearson , care se concentrează pe relația liniară dintre toate aceste variabile.
Dar dacă nu suntem siguri dacă variabilele noastre sunt pe deplin corelate liniar, putem folosi un alt tip de corelație care se concentrează mai mult pe impact decât pe partea liniară. Se numește corelație Spearman .
Și putem vedea informații despre toate aceste lucruri apăsând Shift + Tab. Dacă derulați în jos, putem vedea corelația rangului Spearman, coeficientul de corelație Pearson și destul de multe moduri diferite de a ne măsura datele.
Privind înapoi la matricea noastră de corelație de mai devreme, știm că prețul și caratele sunt destul de bine corelate.
Ele sunt din graficul nostru de aici care arată că sunt destul de liniare la 0,92.
Acum, dacă folosim în schimb corelația Spearman, impactul sau rangul va fi puțin mai mare la 0,96.
Aceste tipuri diferite de corelații ne permit să identificăm diferite atribute de corelație între acele variabile.
Corelație multiplă x o singură variabilă
Uneori, nu vrem să vedem o matrice , deoarece suntem mai preocupați de corelarea tuturor variabilelor cu o singură variabilă (de exemplu, prețul).
Ceea ce putem face atunci este să izolați prețul folosind dataset.corr urmat de „price” .
Acum, putem vedea că prețul este corelat cu toate variabilele noastre numerice diferite din acest tabel. Și motivul pentru care s-ar putea să dorim să facem acest lucru este pentru comploturi vizuale.
Deci, să ne uităm la vizualizarea matricei noastre de corelație cu o hartă termică.
Corelația Python: Crearea unei hărți termice
Putem trece această variabilă de corelare într-o hartă termică Seaborn folosind funcția sns.heatmap.
Acest lucru ne va oferi o hartă termică care arată astfel.
Din nou, putem adăuga parametri la preferințele noastre. Putem trece parametrul linewidths=1 și putem adăuga adnotări folosind annot=True .
Și puteți vedea că harta noastră termică arată acum destul de diferit. Acum avem o hartă termică destul de frumoasă.
Putem vedea utilitatea adăugării liniilor și adnotărilor. Din nou, dacă apăsăm Shift + Tab, toți parametrii diferiți care pot intra în asta vor apărea.
Apoi, încercați să adăugați method='spearman ' în codul nostru, astfel încât să știți cum să utilizați un alt tip de corelație în funcție de cazul dvs. de utilizare.
Harta termică cu o variabilă
Apoi, izolăm o variabilă și creăm o hartă termică cu corelația mergând de la negativ la pozitiv.
Acest lucru ne va oferi această hartă termică de mai jos.
Cu siguranță putem schimba și stilul. De exemplu, putem folosi parametrul cmap ca cmap='coolwarm' . Acest lucru schimbă culorile în reci și calde și va elimina și fundalul nostru negru.
Dacă facem clic pe Run , vom obține această hartă termică mai jos. Pentru rece avem albastrul și apoi pentru cald avem barele roșii.
De asemenea, putem schimba direcția pentru a ne alinia harta cu bara de culori. Acest lucru se face prin editarea parametrului sort_values și adăugând ascending=False .
Aceasta va merge de la cel mai corelat (bara roșie) la cel mai puțin corelat (bara albastră).
Corelația Python: Crearea unei scari vizuale
O modalitate avansată de a vizualiza corelația noastră este folosirea unei mască pentru a bloca toate corelațiile pe care le-am făcut deja.
Putem face acest lucru cu Numpy, folosind unele funcții TRUE și FALSE pentru a face o scară vizuală pentru corelațiile noastre.
Iată cum ar trebui să arate rezultatele.
Să vedem cum putem introduce acest lucru în LuckyTemplates.
Staircase Visual în LuckyTemplates
Mai întâi, deschideți LuckyTemplates. Am adus un set de date de avocado, astfel încât să putem vedea o imagine diferită. Puteți vedea acest set de date în panoul Câmpuri. Inițializați vizualul Python făcând clic pe pictograma Python din panoul Vizualizări.
Trebuie să creăm setul de date adăugând toate variabilele numerice care sunt indicate cu ? . Adăugați-le făcând clic pe casetele de selectare de lângă aceste variabile.
Acum că avem un set de date, putem merge la caietul nostru Jupyter și putem copia acest cod pe care l-am avut mai devreme.
Apoi, vom copia codul în editorul de script Python din LuckyTemplates.
În continuare, ne vom alege vizualul, care ar fi vizualul scării. Ne vom întoarce la Jupyter, vom copia codul pe care l-am folosit pentru imaginea scărilor.
Lipiți codul în editorul de script Python.
Ultimul lucru de făcut este să vă asigurați că folosim plt.show , care este necesar în scriptul dumneavoastră Python. Adăugați plt.show în ultima linie a codului și faceți clic pe pictograma Run din colțul din dreapta sus al editorului de script.
Pentru o imagine mai mare, întindeți puțin caseta, astfel încât să vedem scriptul rulând în colț. Avem vizualul nostru pentru harta noastră termică, care arată destul de bine.
Și în LuckyTemplates, putem vedea cu siguranță cum se poate schimba acel vizual în funcție de setul de date. De exemplu, putem face clic pe pictograma Slicer din panoul Vizualizări și mergem la Tastați în panoul Câmpuri.
Ne va oferi cele două tipuri din setul nostru de date, cel convențional și cel organic . Dacă facem clic pe un tip, să spunem organic , puteți vedea că harta termică se schimbă.
Modificările se vor aplica și atunci când facem clic pe tipul convențional următor.
Amintiți-vă că trebuie să avem o variabilă categorială în setul de date al scriptului nostru Python pentru ca aceste filtre să funcționeze. După cum putem vedea, setul de date pe care l-am creat includea tipul , permițându-ne să filtram vizualul în acest mod.
Construirea relațiilor cu modelul de date în
analiza textului LuckyTemplates în Python | O introducere
Python Scripting în rapoartele de date LuckyTemplates
Concluzie
În acest blog, ați învățat cum să vizualizați corelațiile în Python și LuckyTemplates folosind diferite metode, cum ar fi corelația Pearson și corelarea rangului Spearman.
Acum, puteți crea diagrame de împrăștiere, diagrame de regresie, matrice de corelație, hărți termice și imagini de scară pentru a obține cea mai bună imagine pentru setul dvs. de date. De asemenea, puteți utiliza o varietate de parametri pentru a îmbunătăți stilurile și imaginile.
Toate cele bune,
Ce este Sinele în Python: Exemple din lumea reală
Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.
În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.
Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.
În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.
Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.
Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.
Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.
Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.
Ce este LuckyTemplates Gateway? Tot ce trebuie să știți