Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Apabila menganalisis data, kami ingin mengetahui langkah seterusnya tentang cara mencari nilai yang hilang kerana kebanyakan perkara dalam analitik ditentukan oleh faktor yang berbeza. Untuk membantu anda dengan ini, kami akan menangani menggambarkan data yang hilang dalam R menggunakan pakej ggmice . Anda boleh menonton video penuh tutorial ini di bahagian bawah blog ini .

"Apa yang saya lakukan tentang kehilangan nilai?" Ini ialah soalan penting untuk ditanya apabila anda menganalisis data. Kita semua berharap ia mudah dicari kerana ia dikodkan sebagai batal atau NA.

Kami akan melihat beberapa peraturan am dan langkah seterusnya. Kami akan belajar cara menjawab soalan seperti berapa banyak data yang hilang? Seberapa besar masalahnya? Bolehkah kita mencari sebarang corak dalam data?

Terdapat banyak cara untuk melakukan ini tetapi kami akan menggunakan menggambarkan data yang hilang dalam R sebagai permulaan penerokaan pertama.

Isi kandungan

Bila Untuk Menggugurkan Dan Bila Untuk Mencari Nilai Yang Hilang

Jika tiada corak bagaimana ia hilang dan ia menjejaskan kurang daripada 5% pemerhatian, sama ada dalam lajur atau set data, maka anda boleh menggugurkan nilai yang hilang tersebut.

Walau bagaimanapun, jika ternyata ia lebih meluas dan anda boleh menemui beberapa corak penting berdasarkan visualisasi, maka anda mungkin perlu melakukan sesuatu dengan data tersebut.

Jadi, daripada menggugurkannya, kita boleh menganggap ini kerana mungkin ada cerita tentang sebab nilai tersebut tiada dalam corak sebagaimana adanya.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Dalam demo ini, kami akan menggunakan pakej yang akan mengaitkan nilai yang hilang. Ini ialah pakej baharu untuk menggambarkan data yang hilang dalam R dan ia dipanggil ggmice .

Ideanya adalah untuk mencari corak dan berapa banyak nilai yang hilang, oleh itu kita akan melihat corak plot dan kemudian matriks peramal plot .

MICE bermaksud imputasi multivariate dengan kaedah berantai . Kami tidak mempelajari mekanik tetapi kami akan mempelajari bagaimana algoritma ini akan mengaitkan data kami jika kami menggunakannya.

Perkara lain yang perlu diketahui tentang memvisualisasikan data yang hilang dalam R menggunakan ggmice ialah ia benar-benar bertujuan untuk serasi ggplot2 , jadi kami dapat membina beberapa visualisasi di belakang ggplot2 , pakej visualisasi yang terkenal. 

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Langkah-Langkah Dalam Memvisualisasikan Data Hilang Dalam R w/ GGMICE

Mari teruskan dan butkan RStudio . Perkara pertama yang perlu kita lakukan ialah mengimport semua pakej yang kita perlukan dengan menaip perpustakaan (ggmice) , perpustakaan (tidyverse) yang merangkumi set data ggplot2 dan perpustakaan (Ecdat) .

Pakej perpustakaan (Ecdat) mempunyai banyak set data yang baik untuk diamalkan. Itulah sebabnya kami menggunakan dan mengimportnya.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Salah satu set data ialah bantuan (MCAS) . Mari jalankan fungsi bantuan mengenai perkara ini.

Seperti yang kita dapat lihat, ini daripada Ecdat, dan ia adalah set data skor ujian. Dokumentasi bantuan ini menerangkan setiap lajur dan memberitahu kami tentang asalnya.

Kami akan menggunakan ini untuk mengetahui jika terdapat data yang hilang dan corak yang mereka bentuk jika ada.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Mari gunakan is.na (MCAS) dan klik Jalankan . Seperti yang kita dapat lihat, terdapat sekumpulan BETUL dan SALAH. Apa yang boleh kita lakukan ialah menjumlahkan ini dengan menggunakan fungsi colSums (is.na(MCAS)) kerana FALSE dan TRUE adalah sifar dan satu menyamar. Ini adalah cara kami untuk menyemak sama ada nilai itu hilang atau tidak.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Seperti yang ditunjukkan di bawah, nilai yang hilang ditemui dalam tiga lajur seperti spc , totsc8 dan avggaji . Kita boleh melihat perihalan lajur ini dalam bahagian dokumentasi bantuan.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Selain itu, dengan menggunakan colSums (is.na(MCAS)) / nrow (MCAS) bilangan baris akan bertukar menjadi peratusan. Ini adalah satu cara untuk melihatnya, tetapi bukan perkara yang paling mudah untuk dilakukan.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Dalam kes ini, mari kita lihat apa yang ggmice boleh lakukan untuk kita. Kami akan menggunakan fungsi browseVignettes (package = 'ggmice') , kemudian klik Run .

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Terdapat beberapa vignet ditemui untuk fungsi ini, jadi mari kita pilih ggmice dan klik pautan HTML untuk melihat beberapa tutorial berguna yang mungkin membantu.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Berbalik kepada skrip, mari gunakan fungsi plot_pattern (MCAS) untuk menghantar set data.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Untuk menggambarkannya dengan lebih baik, klik butang Zum . Seperti yang digambarkan, daripada 155 pemerhatian, spc mempunyai 9 nilai yang hilang, 25 untuk purata gaji dan 40 untuk totsc8 .

Kami akan cuba untuk mengetahui sama ada mana-mana daripada ini bertepatan, berapa banyak yang ada, dan jika mereka cenderung berada dalam kelompok.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Untuk menyemak silang ini, kita boleh mencuba cara analog dengan menggunakan fungsi paparan (MCAS) dan kemudian mengklik Jalankan .

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Ini adalah sejenis pemapar hamparan di mana kita boleh melihat semua nilai yang hilang. Kami juga boleh mengembangkannya dengan mengklik butang Editor Sumber .

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Sama seperti Power Query , kita boleh melihat jumlah entri dan NA ialah nilai yang tiada. Nyata, jumlah entri pada paparan (MCAS) ialah 220, dan hanya 155 untuk pola_plot (MCAS) kerana mungkin terdapat nilai lengkap yang tidak diplotkan.

Selain itu, kita dapat melihat bahawa mereka cenderung untuk berkumpul bersama berdasarkan pembolehubah dan baris. Walau bagaimanapun, dalam banyak kes, hanya satu atau yang lain yang hilang. Realitinya, sukar untuk melakukan baris demi baris visual ini, jadi di sinilah visualisasi muncul.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Mengira Data yang Hilang

Perkara seterusnya yang perlu dilakukan ialah kembali ke skrip kami, kemudian taip nrow (MCAS) dan kemudian sum(is.na(MCAS)$totsc8)) .

Dalam kes ini, kita tahu bahawa 40 tiada nilai daripada 200 pemerhatian. Mari kita gunakan R sebagai kalkulator dengan meletakkan 40/200. Oleh itu, kami mempunyai kira-kira 20% nilai yang hilang, iaitu banyak.

Sebaik-baiknya, kami ingin tahu mengapa begitu banyak yang hilang. Mungkin ia hanya bagaimana data dikumpul itulah sebabnya kita boleh menganggap ini.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Untuk melakukan itu, mari kita import pakej perpustakaan (tikus) . Ini adalah salah satu kaedah imputasi.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Kemudian, mari gunakan fungsi MCAS_pred < –="" quickpred=""> dan plot_pred(MCAS_pred) . Pastikan untuk menyimpannya, klik Jalankan, dan klik butang Zum .

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Jika kita menggunakan imputasi multivariate, algoritma ini akan mencari pemerhatian dan titik data yang serupa dengan yang hilang, dan kemudian cuba mengisinya.

Contohnya, lajur spc . Ini akan membantu untuk meramalkan nilai yang hilang sama dengan totsc8 dan avgsalary . Pada ketika ini, kami tidak melakukannya, tetapi kami melihat nilai dan pembolehubah yang berkaitan yang mungkin membantu untuk menghalang nilai tersebut.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE

Mari cuba satu perkara lagi. Kami akan menggunakan ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , kemudian klik Run .

Ini ialah plot taburan , kecuali kami menggunakan ggmice. Pada asasnya, ideanya ialah kita dapat melihat hubungan antara dua pembolehubah ini yang mempunyai beberapa nilai yang hilang. Apabila salah satu daripada mereka hilang dan satu lagi tersedia, kita boleh melihat di mana titik-titik itu.

Dalam keadaan ini, kedua-dua ini diperhatikan dalam salah satu kes ini. Satu hilang dan satu lagi tidak. Jika kedua-duanya hilang, ia tidak akan berada di plot.

Memvisualisasikan Data Hilang Dalam RW/ GGMICE


Edit Data Dalam R Menggunakan Pakej DataEditR
Power Query Amalan Terbaik Untuk Model Data Anda
Cara Memasang Pakej R Dalam LuckyTemplates

Kesimpulan

Apabila kita bekerja dengan nilai yang hilang, adalah menarik untuk menggunakan algoritma seperti MICE kerana ia sangat berkuasa untuk mengimput nilai. Walau bagaimanapun, adalah lebih baik untuk meneroka data sendiri dan memahami perkara yang berlaku.

Sebaik-baiknya, jika kami mempunyai banyak data yang hilang, kami ingin mengetahui sebabnya dan mungkin kami boleh cuba mendapatkan lebih banyak data atau kami boleh mengaitkannya. Pergi terus ke sumber sentiasa diutamakan.

Sekiranya kita akhirnya ingin mengaitkan nilai yang hilang, kita boleh melakukan beberapa kaedah imputasi mudah dengan pakej kemas seperti min atau median.

Tidak syak lagi, pakej MICE sangat berkuasa. Ia boleh menjadi berlebihan untuk perkara yang sangat intensif dari segi pengiraan, tetapi kami hanya memfokuskan pada elemen visualisasinya sahaja.

Saya harap anda belajar sesuatu dan berasa bebas untuk menggunakan pakej ini. Pastikan anda berkongsi dan cuba sampaikan berita itu kerana ia adalah pakej yang bagus untuk berfungsi dengan nilai yang tiada yang serasi dengan ggplot2.

Semua yang terbaik,

George


Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Anda akan belajar cara menyimpan dan memuatkan objek daripada fail .rds dalam R. Blog ini juga akan membincangkan cara mengimport objek dari R ke LuckyTemplates.

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

Dalam tutorial bahasa pengekodan DAX ini, pelajari cara menggunakan fungsi GENERATE dan cara menukar tajuk ukuran secara dinamik.

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Tutorial ini akan merangkumi cara menggunakan teknik Visual Dinamik Berbilang Thread untuk mencipta cerapan daripada visualisasi data dinamik dalam laporan anda.

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Dalam artikel ini, saya akan menjalankan konteks penapis. Konteks penapis ialah salah satu topik utama yang perlu dipelajari oleh mana-mana pengguna LuckyTemplates pada mulanya.

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Saya ingin menunjukkan cara perkhidmatan dalam talian LuckyTemplates Apps boleh membantu dalam mengurus laporan dan cerapan berbeza yang dijana daripada pelbagai sumber.

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Ketahui cara untuk menyelesaikan perubahan margin keuntungan anda menggunakan teknik seperti mengukur percabangan dan menggabungkan formula DAX dalam LuckyTemplates.

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Tutorial ini akan membincangkan tentang idea pewujudan cache data dan cara ia mempengaruhi prestasi DAX dalam memberikan hasil.

Pelaporan Perniagaan Menggunakan LuckyTemplates

Pelaporan Perniagaan Menggunakan LuckyTemplates

Jika anda masih menggunakan Excel sehingga sekarang, maka inilah masa terbaik untuk mula menggunakan LuckyTemplates untuk keperluan pelaporan perniagaan anda.

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu