Vizualizarea datelor lipsă în RW/ GGMICE

Când analizăm datele, dorim să cunoaștem pașii următori despre cum să găsim valorile lipsă, deoarece majoritatea lucrurilor din analiză sunt determinate de diferiți factori. Pentru a vă ajuta cu acest lucru, ne vom ocupa de vizualizarea datelor lipsă în R folosind pachetul ggmice . Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog .

„Ce să fac cu valorile lipsă?” Aceasta este o întrebare esențială pe care trebuie să o puneți atunci când analizați datele. Cu toții sperăm că sunt ușor de găsit, deoarece sunt codificate ca nule sau NA.

Vom arunca o privire la câteva reguli generale și pașii următori. Vom învăța cum să răspundem la întrebări, cum ar fi câte date lipsesc? Cât de mare este problema? Putem găsi modele în date?

Există o mulțime de moduri de a face acest lucru, dar vom folosi vizualizarea datelor lipsă în R ca prim început de explorare.

Cuprins

Când să renunți și când să găsești valorile lipsă
Pași în vizualizarea datelor lipsă în R cu GGMICE
Imputarea datelor lipsă
Concluzie

Când să renunți și când să găsești valorile lipsă

Dacă nu există niciun model în modul în care acestea lipsesc și afectează mai puțin de 5% dintre observații, indiferent dacă este în coloană sau în setul de date, atunci puteți elimina acele valori lipsă.

Cu toate acestea, dacă se dovedește că este mai răspândit și puteți găsi câteva modele semnificative pe baza vizualizărilor, atunci poate fi necesar să faceți ceva cu acele date.

Deci, în loc să le renunțăm, le putem imputa, deoarece probabil există o poveste despre de ce acele valori lipsesc în model așa cum sunt.

Vizualizarea datelor lipsă în RW/ GGMICE

În această demonstrație, vom folosi un pachet care va imputa valorile lipsă. Acesta este un pachet nou pentru vizualizarea datelor lipsă în R și se numește ggmice .

Ideea este să găsim modelul și câte valori lipsă, prin urmare ne vom uita la modelul grafic și apoi la matricea de predicție a graficului .

MICE reprezintă imputarea multivariată prin metode înlănțuite . Nu intrăm în mecanică, dar vom afla cum acest algoritm ne va imputa datele dacă îl folosim.

Un alt lucru de știut despre vizualizarea datelor lipsă în R folosind ggmice este că este cu adevărat menit să fie compatibil cu ggplot2 , așa că putem construi câteva vizualizări pe spatele ggplot2 , celebrul pachet de vizualizare.

Vizualizarea datelor lipsă în RW/ GGMICE

Pași în vizualizarea datelor lipsă în R cu GGMICE

Să mergem mai departe și să pornim RStudio . Primul lucru pe care trebuie să-l facem este să importam toate pachetele de care avem nevoie, tastând bibliotecă (ggmice) , bibliotecă (tidyverse) care include seturile de date ggplot2 și bibliotecă (Ecdat) .

Pachetul de bibliotecă (Ecdat) are o mulțime de seturi de date bune pentru exersare. De aceea îl folosim și importăm.

Vizualizarea datelor lipsă în RW/ GGMICE

Unul dintre seturile de date este ajutorul (MCAS) . Să rulăm funcția de ajutor în acest sens.

După cum putem vedea, acesta este de la Ecdat și este un set de date privind scorul testului. Această documentație de ajutor descrie fiecare dintre coloane și ne spune de unde provine.

Vom folosi acest lucru pentru a afla dacă lipsesc date și ce model formează acestea dacă există.

Vizualizarea datelor lipsă în RW/ GGMICE

Să folosim is.na (MCAS) și să facem clic pe Run . După cum putem vedea, există o grămadă de adevărați și falși. Ceea ce putem face este să le însumăm folosind funcția colSums (is.na(MCAS)), deoarece FALSE și TRUE sunt zero și unu deghizat. Acesta este modul nostru de a verifica dacă valoarea lipsește sau nu.

Vizualizarea datelor lipsă în RW/ GGMICE

După cum se arată mai jos, valorile lipsă se găsesc în trei coloane, cum ar fi spc , totsc8 și avgsalary . Putem vedea descrierea acestor coloane în secțiunea de documentație de ajutor.

Vizualizarea datelor lipsă în RW/ GGMICE

De asemenea, prin utilizarea colSums (is.na(MCAS)) / nrow (MCAS) numărul de rânduri se va transforma în procente. Acesta este un mod de a privi, dar nu cel mai ușor lucru de făcut.

Vizualizarea datelor lipsă în RW/ GGMICE

În acest caz, să ne uităm la ce poate face ggmice pentru noi. Vom folosi funcția browseVignettes (pachet = 'ggmice') , apoi facem clic pe Run .

Vizualizarea datelor lipsă în RW/ GGMICE

S-au găsit câteva vignete pentru această funcție, așa că haideți să alegem ggmice și să facem clic pe linkul HTML pentru a vedea câteva tutoriale utile care ar putea ajuta.

Vizualizarea datelor lipsă în RW/ GGMICE

Vizualizarea datelor lipsă în RW/ GGMICE

Revenind la script, să folosim funcția plot_pattern (MCAS) pentru a transmite setul de date.

Vizualizarea datelor lipsă în RW/ GGMICE

Pentru a o vizualiza mai bine, faceți clic pe butonul Zoom . După cum este ilustrat, din 155 de observații, spc are 9 valori lipsă, 25 pentru salariul mediu și 40 pentru totsc8 .

Vom încerca să aflăm dacă oricare dintre acestea coincide, câte sunt acolo și dacă tind să fie într-un grup.

Vizualizarea datelor lipsă în RW/ GGMICE

Pentru a verifica acest lucru, putem încerca modul analogic utilizând funcția de vizualizare (MCAS) și apoi făcând clic pe Run .

Vizualizarea datelor lipsă în RW/ GGMICE

Acesta este un fel de vizualizator de foi de calcul unde putem vedea toate valorile lipsă. De asemenea, îl putem extinde făcând clic pe butonul Editor sursă .

Vizualizarea datelor lipsă în RW/ GGMICE

Similar cu Power Query , putem vedea totalul intrărilor, iar NA sunt valorile lipsă. În mod remarcabil, totalul intrărilor din vizualizare (MCAS) sunt 220 și doar 155 pentru plot_pattern (MCAS), deoarece probabil că au existat valori complete care nu au fost reprezentate în sine.

De asemenea, putem vedea că acestea tind să se grupeze pe baza variabilelor și rândurilor. Cu toate acestea, în multe cazuri, doar unul sau altul lipsește. Realitatea este că este greu să faci acest vizual rând cu rând, așa că aici intervine vizualizarea.

Vizualizarea datelor lipsă în RW/ GGMICE

Imputarea datelor lipsă

Următorul lucru de făcut este să revenim la scriptul nostru, apoi să tastați nrow (MCAS) și apoi sum(is.na(MCAS)$totsc8)) .

În acest caz, știm că 40 sunt valori lipsă din 200 de observații. Să folosim R ca calculator punând 40/200. Prin urmare, avem aproximativ 20% valori lipsă, ceea ce este mult.

În mod ideal, vrem să știm de ce lipsesc atât de multe. Poate tocmai așa au fost colectate datele, motiv pentru care putem imputa acest lucru.

Vizualizarea datelor lipsă în RW/ GGMICE

Pentru a face asta, să importăm pachetul bibliotecă (șoareci) . Aceasta este una dintre metodele de imputare.

Vizualizarea datelor lipsă în RW/ GGMICE

Apoi, să folosim funcțiile MCAS_pred < –="" quickpred=""> și plot_pred(MCAS_pred) . Asigurați-vă că le salvați, faceți clic pe Run și faceți clic pe butonul Zoom .

Vizualizarea datelor lipsă în RW/ GGMICE

Dacă trebuie să folosim imputarea multivariată, acest algoritm va găsi observații și puncte de date care sunt similare cu cele care lipsesc și apoi va încerca să le completeze.

De exemplu, coloanele spc . Acestea vor fi utile pentru prezicerea valorilor lipsă, la fel cu totsc8 și avgsalary . În acest moment, nu o facem, dar vedem ce valori și variabile sunt legate, care ar putea fi utile pentru a împiedica acele valori.

Vizualizarea datelor lipsă în RW/ GGMICE

Să mai încercăm ceva. Vom folosi ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , apoi faceți clic pe Run .

Acesta este un grafic de dispersie , cu excepția faptului că folosim ggmice. Practic, ideea este că putem vedea relația dintre aceste două variabile care au destul de multe valori lipsă. Când unul dintre ele lipsește și celălalt este disponibil, putem vedea unde sunt acele puncte.

În această situație, ambele sunt observate într-unul dintre aceste cazuri. Unul lipsește și celălalt nu. Dacă ambele lipsesc, nu va fi în complot.

Vizualizarea datelor lipsă în RW/ GGMICE

Editați datele în R folosind pachetul DataEditR
Cele mai bune practici de interogare de energie pentru modelul dvs. de date
Cum să instalați pachetele R în LuckyTemplates

Concluzie

Când lucrăm cu valori lipsă, este tentant să folosim un algoritm precum MICE, deoarece este foarte puternic să impuți valori. Cu toate acestea, este mai bine să explorați datele pentru dvs. și să înțelegeți ce se întâmplă.

În mod ideal, dacă avem multe date lipsă, vrem să ne dăm seama de ce și poate putem încerca să obținem mai multe date sau le putem imputa. Mersul direct la sursă este întotdeauna de preferat.

Dacă ajungem să dorim să imputam valorile lipsă, putem face câteva metode simple de imputare cu pachetul tidyverse, cum ar fi media sau mediana.

Fără îndoială, pachetul MICE este puternic. Poate fi exagerat pentru lucruri care necesită un calcul foarte intens, dar acum ne concentrăm doar pe elementul de vizualizare al acestuia.

Sper să înveți ceva și să te simți liber să folosești acest pachet. Asigurați-vă că îl distribuiți și încercați să faceți cuvântul, deoarece este un pachet frumos pentru a lucra cu valori lipsă care sunt compatibile cu ggplot2.

Toate cele bune,

George

Lasă un comentariu

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Ce este Sinele în Python: Exemple din lumea reală

Cum să salvați și să încărcați un fișier RDS în R

Cum să salvați și să încărcați un fișier RDS în R

Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

Primele N zile lucrătoare revizuite – O soluție de limbaj de codare DAX

În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Prezentați perspective utilizând tehnica vizuală dinamică cu mai multe fire în LuckyTemplates

Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Cele mai bune sfaturi pentru utilizarea aplicațiilor din serviciul online LuckyTemplates

Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.

Introducere la filtrarea contextului în LuckyTemplates

Introducere la filtrarea contextului în LuckyTemplates

În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Analizați modificările marjei de profit ore suplimentare – Analytics cu LuckyTemplates și DAX

Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.

Idei de materializare pentru cache-urile de date în DAX Studio

Idei de materializare pentru cache-urile de date în DAX Studio

Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.

Raportare de afaceri folosind LuckyTemplates

Raportare de afaceri folosind LuckyTemplates

Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți

Ce este LuckyTemplates Gateway? Tot ce trebuie să știți