Ce este Sinele în Python: Exemple din lumea reală
Ce este Sinele în Python: Exemple din lumea reală
Acest blog va demonstra cum să utilizați o diagramă de distribuție cumulativă , cunoscută și sub denumirea de Funcție de distribuție cumulativă empirică sau diagrame ECDF, și va prezenta avantajele utilizării acestei variații de diagramă față de alte tipuri de diagrame. Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog .
Majoritatea oamenilor preferă diagramele ECDF în detrimentul pentru a vizualiza datele pe măsură ce ei trasează direct fiecare punct de date, iar această caracteristică facilitează interacțiunea utilizatorului cu diagrama. Astăzi, veți învăța cum să utilizați un ECDF în Python și LuckyTemplates și să vă îmbunătățiți prezentările și rapoartele privind distribuția datelor.
Cuprins
Tipuri de parcele de distribuție
Voi începe prin a-mi filtra datele într-o anumită zi, sâmbătă, și putem vedea mai jos toate aceste diagrame Python utilizate pentru descrierea distribuțiilor. Avem aici graficul nostru ECDF, o histogramă, un diagramă KDE și un diagramă Box.
Toate aceste diagrame vor descrie modul în care datele sunt răspândite sau distribuite. De exemplu, dacă coborâm și ne uităm la histogramă, putem vedea că majoritatea acestor containere înalte vor fi acolo unde sunt situate datele noastre.
La aproximativ 3,50 USD, avem cel mai mare coș pentru datele noastre Sfaturi din setul nostru de date de mai jos.
De asemenea, putem folosi o diagramă KDE care ne oferă o măsurătoare diferită atunci când ne uităm la distribuție. Histograma se ocupă de numărul care va fi în aceste casete, în timp ce KDE se ocupă de densitate.
Cu o diagramă KDE, puteți spune unde se află majoritatea datelor noastre, observând cea mai mare densitate sau cea mai mare umflătură din diagramă, dacă doriți. Deci, în imaginea de mai sus, putem spune că este distribuit undeva între 2 USD și 4 USD.
Același lucru este valabil și într-un diagramă Box, care arată că distribuția este de la 2 la 4 USD și aici vor fi majoritatea datelor noastre. Folosește o mediană, linia orizontală care împarte caseta, pentru a ne da o idee despre unde este cea mai mare distribuție.
Și apoi, avem diagrama ECDF unde, în partea stângă a axei y, puteți vedea cuvântul Proporție , reprezentând percentilele noastre. Pe baza diagramei, la 3,50 USD, ne uităm la aproximativ 50% din datele noastre, iar la 5 USD și mai jos este locul unde sunt distribuite 80% din datele noastre.
Codul grafic al histogramei
Acum vă voi arăta codul pentru fiecare dintre aceste diagrame, începând cu histograma. Toate au coduri foarte asemănătoare și repetabile , așa că le puteți extrage rapid folosind un singur cod, ca un șablon.
Mai întâi trebuie să importăm Seaborn și să-l salvăm ca sb, urmat de matplotlib.pyplot ca plt. Vom folosi un stil de fundal numit ggplot și acea variabilă matplotlib pentru a trece în diferite stiluri.
De exemplu, în imaginea de mai jos, putem vedea că în a 11-a linie, adăugăm un titlu pentru histogramă și dimensiunile bifărilor în rândurile următoare. Yticks și xticks reprezintă dimensiunile x și y în mod corespunzător .
În a 14-a linie, folosim o variabilă Seaborn pentru a trece în funcția care aduce acea diagramă particulară, cum ar fi diagrama hist din exemplul de mai sus, care reprezintă o diagramă histogramă. Apoi trecem datele din a 4-a linie în funcție ca un set de date.
Orice aduceți în valori reprezintă setul dvs. de date și va elimina duplicatele. Apoi vom folosi x pentru sfaturi și o nuanță care , împreună cu seaborn, vă permite să vă separați datele pe categorii. Dacă ne întoarcem la vizualul nostru, putem că are categorii, inclusiv timp, sau fumător.
Complot KDE
Pentru complotul KDE, totul este aproape identic. Trebuie doar să trecem un nou parametru numit umbră pentru a avea acel aspect umbrit. În afară de asta, nuanța, datele și restul sunt aceleași.
Cu diagrama Box, este în mare parte similară cu alte parcele, cu excepția unor diferențe minore. Aici folosim funcția boxplot unde x este ziua și y este sfaturile. De asemenea, nu folosim nuanța pentru acest complot.
Deci, este aceeași structură ca și diagrama ECDF și singura diferență este în variabila Seaborn, unde trecem într-un diagramă ECDF și folosim nuanța ca zi. Dar putem schimba și această nuanță într-o altă categorie pe care o avem, cum ar fi fumătorul.
Dacă trecem această categorie, vom ajunge cu un complot ECDF care are două linii diferite. În aceste distribuții, putem vedea că fumătorii au mai multe în ceea ce privește lățimea noastră particulară a liniei.
Nefumătorii au o sută la sută din aceste date sub 6 USD, în timp ce fumătorii le au la 6 USD. Interesant este că fumătorii noștri ar putea lăsa un bacșiș mai mare într-o anumită zi.
Stilizarea parcelelor ECDF
Acum putem stila în continuare parcelele noastre ECDF pentru a le face mai prezentabile. În imaginea de mai jos sunt diferite diagrame ECDF. În primul complot, am făcut liniile mai mari și am folosit o paletă de culori diferită.
În primul grafic, am folosit diferiți parametri în interiorul funcției. După cum puteți vedea mai jos, am trecut în paletă ca vară și lățimea liniei ca 5.
Am comparat și sâmbăta și duminica, motiv pentru care există două linii verzi diferite. Aici putem vedea că bacșișul de 3 USD este la a 45-a percentila pentru duminica și la a 70-a percentila pentru joi, ceea ce ne spune că oamenii tind să lase bacșișuri mai mari duminica.
De asemenea, putem schimba axa X și Y, putem schimba proporția și vârful în interiorul graficului nostru și putem schimba paleta, la fel ca în imaginea de mai jos.
Aici putem vedea că bacșișul de 2 USD se află la a 20-a percentila pentru duminică, care este linia violetă din complot. Deci datele sunt aceleași cu graficul ECDF anterior și doar prezentarea este diferită.
Acum avem un alt grafic cu același set de date și păstrează pozițiile originale ale axei, așa cum se arată în imaginea de mai sus. Diferența de această dată este că direcția liniilor este inversată.
ECDF Plots Style
Dacă ne uităm la cod, tot ceea ce facem este să trecem parametrul complementar equals = true. Această acțiune ne va permite să spunem că la intervalul de 2 USD și mai sus este locul unde sunt distribuite 80% din datele noastre, în loc să spunem că sub intervalul de 2 USD este locul unde sunt distribuite 20% din datele noastre. Din nou, sunt aceleași date cu un aspect sau un mod diferit de a le prezenta.
Și în al patrulea și ultimul nostru complot ECDF, folosim Count în loc de proporție.
Această abordare este utilă atunci când avem mai mult de câteva parcele. Privind coloana de numărare din imaginea de mai jos, putem vedea că vineri nu sunt foarte multe observații, ceea ce ne spune că oamenii nu lasă prea multe bacșișuri în acea zi.
ECDF Plots Code Essentials
Dacă ne uităm la cod, veți găsi Seaborn , care este principalul lucru pentru crearea acestui complot special. Avem și matplotlib.pyplot pentru stil, pe care îl puteți salva ca variabilă numită plt .
Putem folosi apoi acea variabilă pentru a crea stiluri diferite pentru intriga noastră particulară, cum ar fi adăugarea de titluri și dimensiuni de font. Partea principală a codului dvs. va fi funcția de diagramă ECDF pe care o aducem împreună cu Seaborn.
Graficul de dispersie în scriptul R: Cum să creați și să importați
funcții Python definite de utilizator | O prezentare generală
GGPLOT2 în R: Vizualizări cu ESQUISSE
Concluzie
Acestea au fost modalitățile prin care puteți utiliza diferite diagrame de distribuție, inclusiv diagrame Histogramă, KDE, Box și ECDF. De asemenea, ați învățat patru moduri de a prezenta o diagramă ECDF folosind același set de date. Puteți folosi orice abordare în funcție de preferințele dvs.
Nu uitați întotdeauna să aduceți bibliotecile necesare pentru a vă crea parcela și să utilizați funcția potrivită. După aceea, este doar o chestiune de schimbare a aspectelor vizuale și stilistice ale intrării dvs., cum ar fi poziționarea axelor și nuanțe.
Toate cele bune,
Ce este Sinele în Python: Exemple din lumea reală
Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.
În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.
Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.
În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.
Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.
Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.
Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.
Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.
Ce este LuckyTemplates Gateway? Tot ce trebuie să știți