Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Apabila menganalisis data, kami ingin mengetahui langkah seterusnya tentang cara mencari nilai yang hilang kerana kebanyakan perkara dalam analitik ditentukan oleh faktor yang berbeza. Untuk membantu anda dengan ini, kami akan menangani menggambarkan data yang hilang dalam R menggunakan pakej ggmice . Anda boleh menonton video penuh tutorial ini di bahagian bawah blog ini .
"Apa yang saya lakukan tentang kehilangan nilai?" Ini ialah soalan penting untuk ditanya apabila anda menganalisis data. Kita semua berharap ia mudah dicari kerana ia dikodkan sebagai batal atau NA.
Kami akan melihat beberapa peraturan am dan langkah seterusnya. Kami akan belajar cara menjawab soalan seperti berapa banyak data yang hilang? Seberapa besar masalahnya? Bolehkah kita mencari sebarang corak dalam data?
Terdapat banyak cara untuk melakukan ini tetapi kami akan menggunakan menggambarkan data yang hilang dalam R sebagai permulaan penerokaan pertama.
Isi kandungan
Bila Untuk Menggugurkan Dan Bila Untuk Mencari Nilai Yang Hilang
Jika tiada corak bagaimana ia hilang dan ia menjejaskan kurang daripada 5% pemerhatian, sama ada dalam lajur atau set data, maka anda boleh menggugurkan nilai yang hilang tersebut.
Walau bagaimanapun, jika ternyata ia lebih meluas dan anda boleh menemui beberapa corak penting berdasarkan visualisasi, maka anda mungkin perlu melakukan sesuatu dengan data tersebut.
Jadi, daripada menggugurkannya, kita boleh menganggap ini kerana mungkin ada cerita tentang sebab nilai tersebut tiada dalam corak sebagaimana adanya.
Dalam demo ini, kami akan menggunakan pakej yang akan mengaitkan nilai yang hilang. Ini ialah pakej baharu untuk menggambarkan data yang hilang dalam R dan ia dipanggil ggmice .
Ideanya adalah untuk mencari corak dan berapa banyak nilai yang hilang, oleh itu kita akan melihat corak plot dan kemudian matriks peramal plot .
MICE bermaksud imputasi multivariate dengan kaedah berantai . Kami tidak mempelajari mekanik tetapi kami akan mempelajari bagaimana algoritma ini akan mengaitkan data kami jika kami menggunakannya.
Perkara lain yang perlu diketahui tentang memvisualisasikan data yang hilang dalam R menggunakan ggmice ialah ia benar-benar bertujuan untuk serasi ggplot2 , jadi kami dapat membina beberapa visualisasi di belakang ggplot2 , pakej visualisasi yang terkenal.
Langkah-Langkah Dalam Memvisualisasikan Data Hilang Dalam R w/ GGMICE
Mari teruskan dan butkan RStudio . Perkara pertama yang perlu kita lakukan ialah mengimport semua pakej yang kita perlukan dengan menaip perpustakaan (ggmice) , perpustakaan (tidyverse) yang merangkumi set data ggplot2 dan perpustakaan (Ecdat) .
Pakej perpustakaan (Ecdat) mempunyai banyak set data yang baik untuk diamalkan. Itulah sebabnya kami menggunakan dan mengimportnya.
Salah satu set data ialah bantuan (MCAS) . Mari jalankan fungsi bantuan mengenai perkara ini.
Seperti yang kita dapat lihat, ini daripada Ecdat, dan ia adalah set data skor ujian. Dokumentasi bantuan ini menerangkan setiap lajur dan memberitahu kami tentang asalnya.
Kami akan menggunakan ini untuk mengetahui jika terdapat data yang hilang dan corak yang mereka bentuk jika ada.
Mari gunakan is.na (MCAS) dan klik Jalankan . Seperti yang kita dapat lihat, terdapat sekumpulan BETUL dan SALAH. Apa yang boleh kita lakukan ialah menjumlahkan ini dengan menggunakan fungsi colSums (is.na(MCAS)) kerana FALSE dan TRUE adalah sifar dan satu menyamar. Ini adalah cara kami untuk menyemak sama ada nilai itu hilang atau tidak.
Seperti yang ditunjukkan di bawah, nilai yang hilang ditemui dalam tiga lajur seperti spc , totsc8 dan avggaji . Kita boleh melihat perihalan lajur ini dalam bahagian dokumentasi bantuan.
Selain itu, dengan menggunakan colSums (is.na(MCAS)) / nrow (MCAS) bilangan baris akan bertukar menjadi peratusan. Ini adalah satu cara untuk melihatnya, tetapi bukan perkara yang paling mudah untuk dilakukan.
Dalam kes ini, mari kita lihat apa yang ggmice boleh lakukan untuk kita. Kami akan menggunakan fungsi browseVignettes (package = 'ggmice') , kemudian klik Run .
Terdapat beberapa vignet ditemui untuk fungsi ini, jadi mari kita pilih ggmice dan klik pautan HTML untuk melihat beberapa tutorial berguna yang mungkin membantu.
Berbalik kepada skrip, mari gunakan fungsi plot_pattern (MCAS) untuk menghantar set data.
Untuk menggambarkannya dengan lebih baik, klik butang Zum . Seperti yang digambarkan, daripada 155 pemerhatian, spc mempunyai 9 nilai yang hilang, 25 untuk purata gaji dan 40 untuk totsc8 .
Kami akan cuba untuk mengetahui sama ada mana-mana daripada ini bertepatan, berapa banyak yang ada, dan jika mereka cenderung berada dalam kelompok.
Untuk menyemak silang ini, kita boleh mencuba cara analog dengan menggunakan fungsi paparan (MCAS) dan kemudian mengklik Jalankan .
Ini adalah sejenis pemapar hamparan di mana kita boleh melihat semua nilai yang hilang. Kami juga boleh mengembangkannya dengan mengklik butang Editor Sumber .
Sama seperti Power Query , kita boleh melihat jumlah entri dan NA ialah nilai yang tiada. Nyata, jumlah entri pada paparan (MCAS) ialah 220, dan hanya 155 untuk pola_plot (MCAS) kerana mungkin terdapat nilai lengkap yang tidak diplotkan.
Selain itu, kita dapat melihat bahawa mereka cenderung untuk berkumpul bersama berdasarkan pembolehubah dan baris. Walau bagaimanapun, dalam banyak kes, hanya satu atau yang lain yang hilang. Realitinya, sukar untuk melakukan baris demi baris visual ini, jadi di sinilah visualisasi muncul.
Mengira Data yang Hilang
Perkara seterusnya yang perlu dilakukan ialah kembali ke skrip kami, kemudian taip nrow (MCAS) dan kemudian sum(is.na(MCAS)$totsc8)) .
Dalam kes ini, kita tahu bahawa 40 tiada nilai daripada 200 pemerhatian. Mari kita gunakan R sebagai kalkulator dengan meletakkan 40/200. Oleh itu, kami mempunyai kira-kira 20% nilai yang hilang, iaitu banyak.
Sebaik-baiknya, kami ingin tahu mengapa begitu banyak yang hilang. Mungkin ia hanya bagaimana data dikumpul itulah sebabnya kita boleh menganggap ini.
Untuk melakukan itu, mari kita import pakej perpustakaan (tikus) . Ini adalah salah satu kaedah imputasi.
Kemudian, mari gunakan fungsi MCAS_pred < –="" quickpred=""> dan plot_pred(MCAS_pred) . Pastikan untuk menyimpannya, klik Jalankan, dan klik butang Zum .
Jika kita menggunakan imputasi multivariate, algoritma ini akan mencari pemerhatian dan titik data yang serupa dengan yang hilang, dan kemudian cuba mengisinya.
Contohnya, lajur spc . Ini akan membantu untuk meramalkan nilai yang hilang sama dengan totsc8 dan avgsalary . Pada ketika ini, kami tidak melakukannya, tetapi kami melihat nilai dan pembolehubah yang berkaitan yang mungkin membantu untuk menghalang nilai tersebut.
Mari cuba satu perkara lagi. Kami akan menggunakan ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) , kemudian klik Run .
Ini ialah plot taburan , kecuali kami menggunakan ggmice. Pada asasnya, ideanya ialah kita dapat melihat hubungan antara dua pembolehubah ini yang mempunyai beberapa nilai yang hilang. Apabila salah satu daripada mereka hilang dan satu lagi tersedia, kita boleh melihat di mana titik-titik itu.
Dalam keadaan ini, kedua-dua ini diperhatikan dalam salah satu kes ini. Satu hilang dan satu lagi tidak. Jika kedua-duanya hilang, ia tidak akan berada di plot.
Edit Data Dalam R Menggunakan Pakej DataEditR
Power Query Amalan Terbaik Untuk Model Data Anda
Cara Memasang Pakej R Dalam LuckyTemplates
Kesimpulan
Apabila kita bekerja dengan nilai yang hilang, adalah menarik untuk menggunakan algoritma seperti MICE kerana ia sangat berkuasa untuk mengimput nilai. Walau bagaimanapun, adalah lebih baik untuk meneroka data sendiri dan memahami perkara yang berlaku.
Sebaik-baiknya, jika kami mempunyai banyak data yang hilang, kami ingin mengetahui sebabnya dan mungkin kami boleh cuba mendapatkan lebih banyak data atau kami boleh mengaitkannya. Pergi terus ke sumber sentiasa diutamakan.
Sekiranya kita akhirnya ingin mengaitkan nilai yang hilang, kita boleh melakukan beberapa kaedah imputasi mudah dengan pakej kemas seperti min atau median.
Tidak syak lagi, pakej MICE sangat berkuasa. Ia boleh menjadi berlebihan untuk perkara yang sangat intensif dari segi pengiraan, tetapi kami hanya memfokuskan pada elemen visualisasinya sahaja.
Saya harap anda belajar sesuatu dan berasa bebas untuk menggunakan pakej ini. Pastikan anda berkongsi dan cuba sampaikan berita itu kerana ia adalah pakej yang bagus untuk berfungsi dengan nilai yang tiada yang serasi dengan ggplot2.
Semua yang terbaik,
George
Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Anda akan belajar cara menyimpan dan memuatkan objek daripada fail .rds dalam R. Blog ini juga akan membincangkan cara mengimport objek dari R ke LuckyTemplates.
Dalam tutorial bahasa pengekodan DAX ini, pelajari cara menggunakan fungsi GENERATE dan cara menukar tajuk ukuran secara dinamik.
Tutorial ini akan merangkumi cara menggunakan teknik Visual Dinamik Berbilang Thread untuk mencipta cerapan daripada visualisasi data dinamik dalam laporan anda.
Dalam artikel ini, saya akan menjalankan konteks penapis. Konteks penapis ialah salah satu topik utama yang perlu dipelajari oleh mana-mana pengguna LuckyTemplates pada mulanya.
Saya ingin menunjukkan cara perkhidmatan dalam talian LuckyTemplates Apps boleh membantu dalam mengurus laporan dan cerapan berbeza yang dijana daripada pelbagai sumber.
Ketahui cara untuk menyelesaikan perubahan margin keuntungan anda menggunakan teknik seperti mengukur percabangan dan menggabungkan formula DAX dalam LuckyTemplates.
Tutorial ini akan membincangkan tentang idea pewujudan cache data dan cara ia mempengaruhi prestasi DAX dalam memberikan hasil.
Jika anda masih menggunakan Excel sehingga sekarang, maka inilah masa terbaik untuk mula menggunakan LuckyTemplates untuk keperluan pelaporan perniagaan anda.
Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu