Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Când lucrați cu un set de date care constă din mai multe variabile, cel mai bine este să puteți înțelege modul în care acestea diferă și interacționează între ele. În acest tutorial, voi demonstra cum puteți utiliza funcția Seaborn în Python pentru a vizualiza alternative la distribuția unei variabile. Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog.

Cuprins

Utilizarea funcției Seaborn în Python

Voi demonstra acest lucru pe setul de date MPG, care este disponibil în Seaborn. Deci, să mergem mai departe și să importăm toate pachetele de care avem nevoie, precum și orice date de care avem nevoie. Ne vom uita la distribuția variabilei MPG aici și la modul în care acestea variază. Cele două moduri comune de a face acest lucru sunt histograma și boxplot .

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Deci voi folosi funcția displot (DIS pentru distribuție). Apoi, trebuie să specific ce set de date este și ce variabilă vom pune pe axa X. Și cu asta avem distribuția.

Acesta este destul de bun. Acest lucru este foarte ușor de văzut întreaga distribuție și forma. Câteva deficiențe cu această vizualizare a distribuției totuși. Unul este că numărul de coșuri pe care le folosim este, fără îndoială, arbitrar. Celălalt lucru este că nu putem ști neapărat instantaneu care este media variabilei.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Lucrul frumos cu Seaborn este că, odată ce am configurat ce variabilă vreau, unde și ce set de date folosesc, este foarte ușor de realizat o nouă vizualizare. Acum vom merge la boxplot. Boxplot nu folosește coșuri.

Ideea aici este că putem vedea foarte clar valoarea quartilei, în special mediana, și vedem celelalte valori quartile. Vedem că există o valoare anormală, iar acesta este un complot foarte precis. Problema boxplot este că este precis cu lucruri de care, în general, multor utilizatori de afaceri probabil nu le pasă.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Așadar, acest complot este puțin greu pentru cei care nu sunt statistici să obțină cu adevărat o mulțime de valoare. Și din nou, este agregarea datelor, așa că pierdem o mulțime de detalii. Este greu de știut exact cum arată asta. Putem vedea că există o valoare anormală. Putem vedea că majoritatea valorilor sunt aici. Histograma ne oferă o modalitate mai intuitivă de a privi asta.

Acestea sunt ambele comploturi bune. Ambii au scopurile lor. Să ne uităm la câteva alternative folosind Seaborn pentru a vizualiza. Vom rămâne cu MPG pentru distribuția acelei variabile.

Similar cu boxplot, puteți vedea aici că mediana este clar marcată. Vedem și intervalul de quartile și putem vedea mai bine care este distribuția generală. Și aceasta este un fel de histogramă. Se numește diagramă de estimare a densității nucleului sau diagramă KDE. Este o versiune netedă a histogramei. Nu folosim niciun binning arbitrar. Totul este netezit într-un interval continuu aici.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Acesta este un fel de hibrid al acestor două abordări și se ocupă cu adevărat de unele dintre deficiențe. Cu toate acestea, în funcție de publicul dvs., s-ar putea să se lupte cu adevărat să se uite la asta. S-ar putea să nu fie obișnuiți, dar are unele beneficii pentru abordările tradiționale.

În această abordare, nu mai cumulăm datele. Fiecare punct individual este trasat. Aceasta necesită elemente ale diagramei de dispersie, nu? Dacă vă gândiți la o diagramă de dispersie, graficăm fiecare punct individual pe coordonatele X și Y.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

În cele din urmă, avem stripplotul . Ceea ce facem aici este să luăm acea distribuție și ne împrăștiem aleatoriu. Acesta este un proces aleatoriu. Nu mai încercăm să modelăm distribuția. Problema cu aceasta este că avem toate aceste aglomerări care se întâlnesc unele cu altele, așa că s-ar putea să nu fie bine, în funcție de ceea ce încercați să faceți. Poate doriți să le colorați pe grupe sau așa ceva, așa că există o opțiune pentru asta.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Putem schimba fluctuația la .25 și vedem că, pe măsură ce creștem jitterul, aceste puncte sunt răspândite puțin mai mult.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Cu toate acestea, de fiecare dată când le rulez, vor arăta ușor diferit. Deci, dacă doriți să scăpați de asta și să faceți același lucru de fiecare dată, puteți importa numpy ca np . Ceea ce face aceasta este ceea ce se numește stabilirea unei sămânțe aleatorii.

De fiecare dată când rulez ceva care are de-a face cu numere aleatoare, va folosi aceleași numere aleatoare. Lucrurile nu se schimbă întâmplător când îl reluați. Acest lucru ar putea fi bun pentru orice tip de simulare pe care o faceți, ceea ce se întâmplă foarte mult în știința datelor și în analiză și cu această vizualizare. Așa că acum, de fiecare dată când rulez acest complot, vom avea același aspect.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile

Pot adăuga aici și originea Y și acum vedem că creăm o distribuție bivariantă. Luăm distribuția kilometrajului și o segmentăm după origine.

Funcția Seaborn în Python pentru a vizualiza distribuția unei variabile


Cum să utilizați scriptul Python în LuckyTemplates
Scriptul Python în rapoartele de date LuckyTemplates
seturi de date în Pandas cu ProfileReport() | Python în LuckyTemplates

Concluzie

Acestea sunt alternative la vizualizarea distribuțiilor unei variabile. Toți au avantajele și dezavantajele lor. Acest lucru nu înseamnă că nu utilizați niciodată boxplot sau histograma, ci doar spune, iată câteva alte opțiuni, în funcție de ceea ce încercați să afișați.

Toate sunt aproape la fel de ușor de făcut ca oricare dintre celelalte când folosim funcția Seaborn în Python. Dacă doriți să aflați mai multe despre Python , consultați linkurile de mai jos.

Toate cele bune!

Leave a Comment

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Cum să salvați și să încărcați un fișier RDS în R

Cum să salvați și să încărcați un fișier RDS în R

Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.

Introducere la filtrarea contextului în LuckyTemplates

Introducere la filtrarea contextului în LuckyTemplates

În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.

Idei de materializare pentru cache-urile de date în DAX Studio

Idei de materializare pentru cache-urile de date în DAX Studio

Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.

Raportare de afaceri folosind LuckyTemplates

Raportare de afaceri folosind LuckyTemplates

Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți