RW/ GGMICEta Eksik Verileri Görselleştirme

Verileri analiz ederken, kayıp değerlerin nasıl bulunacağına ilişkin sonraki adımları bilmek isteriz çünkü analitikteki çoğu şey farklı faktörler tarafından belirlenir. Bu konuda size yardımcı olmak için, ggmice paketini kullanarak R'deki eksik verileri görselleştirmeyi ele alacağız . Bu eğitimin tam videosunu bu blogun alt kısmında izleyebilirsiniz .

"Kaybolan değerler konusunda ne yapmalıyım?" Bu, verileri analiz ederken sormanız gereken önemli bir sorudur. Boş değerler veya NA'lar olarak kodlandıklarından hepimiz bulmanın kolay olduğunu umuyoruz.

Bazı genel pratik kurallara ve sonraki adımlara göz atacağız. Kaç tane eksik veri var gibi sorulara nasıl cevap vereceğimizi öğreneceğiz. Problem ne kadar büyük? Verilerde herhangi bir kalıp bulabilir miyiz?

Bunu yapmanın pek çok yolu var ama ilk keşif başlangıcı olarak R'deki eksik verileri görselleştirmeyi kullanacağız.

İçindekiler

Ne Zaman Bırakılır ve Eksik Değerler Ne Zaman Bulunur?

Nasıl eksik olduklarına dair bir model yoksa ve ister sütunda ister veri kümesinde olsun, gözlemlerin %5'inden azını etkiliyorsa, o zaman bu eksik değerleri bırakabilirsiniz.

Ancak, daha yaygın olduğu ortaya çıkarsa ve görselleştirmelere dayanarak bazı önemli kalıplar bulabilirseniz, o zaman bu verilerle bir şeyler yapmanız gerekebilir.

Yani, onları bırakmak yerine, bunları atfedebiliriz çünkü muhtemelen bu değerlerin neden oldukları gibi modelde eksik olduğuna dair bir hikaye vardır.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Bu demoda, eksik değerleri yükleyecek bir paket kullanacağız. Bu, R'deki eksik verileri görselleştirmek için yeni bir pakettir ve adı ggmice'dir .

Fikir, modeli ve kaç tane eksik değer olduğunu bulmaktır, bu nedenle çizim modeline ve ardından çizim tahmin matrisine bakacağız .

MICE, zincirleme yöntemlerle çok değişkenli atama anlamına gelir . Mekaniğe girmiyoruz, ancak bu algoritmayı kullanırsak verilerimizi nasıl etkileyeceğini öğreneceğiz.

R'de eksik verileri ggmice kullanarak görselleştirme hakkında bilinmesi gereken başka bir şey de, bunun gerçekten ggplot2 uyumlu olması gerektiğidir, bu nedenle ünlü görselleştirme paketi olan  ggplot2'nin arkasında bazı görselleştirmeler oluşturabiliyoruz .

RW/ GGMICE'ta Eksik Verileri Görselleştirme

R w/ GGMICE'ta Eksik Verileri Görselleştirme Adımları

Devam edelim ve RStudio'yu başlatalım . İlk yapmamız gereken library (ggmice) , ggplot2'yi içeren library (tidyverse) ve library (Ecdat) veri setlerini yazarak ihtiyacımız olan tüm paketleri import etmek.

Kütüphane (Ecdat) paketi, üzerinde pratik yapmak için pek çok iyi veri setine sahiptir. Bu yüzden kullanıyoruz ve ithal ediyoruz.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Veri kümelerinden biri yardımdır (MCAS) . Bunun üzerinde yardım fonksiyonunu çalıştıralım.

Gördüğümüz gibi bu Ecdat'tan ve bir test puanı veri seti. Bu yardım belgesi, sütunların her birini açıklar ve bize bunların nereden geldiğini anlatır.

Bunu, eksik veri olup olmadığını ve varsa hangi modeli oluşturduklarını öğrenmek için kullanacağız.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

is.na'yı (MCAS) kullanalım ve Çalıştır'a tıklayalım . Gördüğümüz gibi, bir sürü DOĞRU ve YANLIŞ var. Yapabileceğimiz şey , colSums (is.na(MCAS)) işlevini kullanarak bunları özetlemektir çünkü YANLIŞ ve DOĞRU sıfır ve birdir. Bu, değerin eksik olup olmadığını kontrol etme yöntemimizdir.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Aşağıda gösterildiği gibi, eksik değerler spc , totsc8 ve avgsalary gibi üç sütunda bulunur . Bu sütunların açıklamasını yardım belgeleri bölümünde görebiliriz.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Ayrıca colSums (is.na(MCAS)) / nrow (MCAS) kullanılarak satır sayısı yüzdeye dönüşecektir. Bu, ona bakmanın bir yolu, ancak yapılacak en kolay şey değil.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Bu durumda, ggmice'ın bizim için neler yapabileceğine bakalım. BrowseVignettes (package = 'ggmice') işlevini kullanacağız , ardından Çalıştır'a tıklayın .

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Bu işlev için bazı vinyetler bulundu, bu yüzden ggmice'i seçelim ve yardımcı olabilecek bazı yararlı eğitimleri görmek için HTML bağlantısını tıklayalım.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Komut dosyasına geri dönersek, veri setini geçirmek için plot_pattern (MCAS) işlevini kullanalım .

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Daha iyi görselleştirmek için Yakınlaştır düğmesine tıklayın. Gösterildiği gibi, 155 gözlemden spc'nin 25'i ortalama için ve 40'ı totsc8 için olmak üzere 9 eksik değeri vardır .

Bunlardan herhangi birinin çakışıp çakışmadığını, kaç tane olduğunu ve bir kümede olma eğiliminde olup olmadıklarını bulmaya çalışacağız.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Bunu çapraz kontrol etmek için, görünüm (MCAS) işlevini kullanarak ve ardından Çalıştır'a tıklayarak analog yolu deneyebiliriz .

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Bu, tüm eksik değerleri görebildiğimiz bir tür elektronik tablo görüntüleyicisidir. Source Editor butonuna tıklayarak da bunu genişletebiliriz .

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Power Query'ye benzer şekilde , toplam girişleri görebiliriz ve NA'lar eksik değerlerdir. Dikkat çekici bir şekilde, görünümdeki (MCAS) toplam giriş sayısı 220'dir ve plot_pattern (MCAS) için yalnızca 155'tir çünkü muhtemelen kendi başına çizilmemiş tam değerler vardır.

Ayrıca, değişkenlere ve satırlara dayalı olarak birlikte kümelenme eğiliminde olduklarını görebiliriz. Bununla birlikte, birçok durumda yalnızca biri veya diğeri eksiktir. Gerçek şu ki, bu görseli sıra sıra yapmak zor, bu yüzden görselleştirme burada devreye giriyor.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Eksik Verileri Yükleme

Yapılacak bir sonraki şey betiğimize geri dönmek, ardından nrow (MCAS) ve ardından sum(is.na(MCAS)$totsc8)) yazmak .

Bu durumda, 200 gözlemden 40 tanesinin kayıp değer olduğunu biliyoruz. Hesap makinesi olarak R'yi 40/200 koyarak kullanalım. Bu nedenle, yaklaşık %20 eksik değerlerimiz var ki bu çok fazla.

İdeal olarak, neden bu kadar çok kişinin kayıp olduğunu bilmek istiyoruz. Belki de verilerin toplanma şekli budur, bu yüzden bunu ima edebiliriz.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Bunun için kütüphane (fare) paketini import edelim . Bu, isnat yöntemlerinden biridir.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Ardından MCAS_pred < –="" quickpred=""> ve plot_pred(MCAS_pred) fonksiyonlarını kullanalım . Bunları kaydettiğinizden emin olun, Çalıştır'a tıklayın ve Yakınlaştır düğmesine tıklayın.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Çok değişkenli atama kullanacaksak, bu algoritma eksik olanlara benzer gözlemler ve veri noktaları bulacak ve ardından bunları doldurmaya çalışacaktır.

Örneğin, spc sütunları. Bunlar, totsc8 ve avgsalary ile aynı eksik değerleri tahmin etmede yardımcı olacaktır . Bu noktada, bunu yapmıyoruz, ancak bu değerleri engellemeye yardımcı olabilecek hangi değerlerin ve değişkenlerin ilişkili olduğunu görüyoruz.

RW/ GGMICE'ta Eksik Verileri Görselleştirme

Bir şey daha deneyelim. ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) kullanacağız , ardından Çalıştır'a tıklayın .

Bu bir dağılım grafiğidir , ancak bizim ggmice kullanmamız dışında. Temel olarak, fikir şu ki, epeyce eksik değeri olan bu iki değişken arasındaki ilişkiyi görebiliriz. Biri eksik diğeri mevcut olduğunda o noktaların nerede olduğunu görebiliriz.

Bu durumda, bu vakalardan birinde bunların her ikisi de görülmektedir. Biri eksik, diğeri yok. İkisi de eksikse, olay örgüsünde olmayacak.

RW/ GGMICE'ta Eksik Verileri Görselleştirme


DataEditR Paketini Kullanarak R'de Verileri Düzenleyin
Veri Modeliniz İçin Power Query En İyi Uygulamaları
LuckyTemplates'da R Paketlerini Yükleme

Çözüm

Eksik değerlerle çalışırken MICE gibi bir algoritma kullanmak cazip gelebilir çünkü değerleri yüklemek çok güçlüdür. Ancak, verileri kendiniz keşfetmek ve neler olduğunu anlamak daha iyidir.

İdeal olarak, çok fazla eksik verimiz varsa, nedenini bulmak isteriz ve belki biraz daha fazla veri elde etmeyi deneyebiliriz ya da onu atfedebiliriz. Doğrudan kaynağa gitmek her zaman tercih edilir.

Sonunda eksik değerleri yüklemek istersek, drideverse paketi ile ortalama veya medyan gibi bazı basit hesaplama yöntemleri yapabiliriz .

MICE paketi şüphesiz güçlüdür. Hesaplama açısından çok yoğun olan şeyler için aşırıya kaçabilir, ancak şu anda bunun yalnızca görselleştirme unsuruna odaklanmış durumdayız.

Umarım bir şeyler öğrenirsiniz ve bu paketi kullanmaktan çekinmeyin. Mutlaka paylaşın ve duyurmaya çalışın çünkü ggplot2 uyumlu eksik değerlerle çalışmak için güzel bir paket.

Herşey gönlünce olsun,

George

Leave a Comment

Excel Hücrelerini Metne Sığdırma: 4 Kolay Çözüm

Excel Hücrelerini Metne Sığdırma: 4 Kolay Çözüm

Excel hücrelerini metne sığdırmak için güncel bilgileri ve 4 kolay çözümü keşfedin.

Bir Excel Dosyasının Boyutu Nasıl Küçültülür – 6 Etkili Yöntem

Bir Excel Dosyasının Boyutu Nasıl Küçültülür – 6 Etkili Yöntem

Bir Excel Dosyasının Boyutunu Küçültmek için 6 Etkili Yöntem. Hızlı ve kolay yöntemler ile verilerinizi kaybetmeden yer açın.

Pythonda Self Nedir: Gerçek Dünyadan Örnekler

Pythonda Self Nedir: Gerçek Dünyadan Örnekler

Python'da Self Nedir: Gerçek Dünyadan Örnekler

Rde Bir RDS Dosyası Nasıl Kaydedilir ve Yüklenir

Rde Bir RDS Dosyası Nasıl Kaydedilir ve Yüklenir

R'de bir .rds dosyasındaki nesneleri nasıl kaydedeceğinizi ve yükleyeceğinizi öğreneceksiniz. Bu blog aynı zamanda R'den LuckyTemplates'a nesnelerin nasıl içe aktarılacağını da ele alacaktır.

İlk N İş Günü Tekrar Ziyaret Edildi – Bir DAX Kodlama Dili Çözümü

İlk N İş Günü Tekrar Ziyaret Edildi – Bir DAX Kodlama Dili Çözümü

Bu DAX kodlama dili eğitiminde, GENERATE işlevinin nasıl kullanılacağını ve bir ölçü başlığının dinamik olarak nasıl değiştirileceğini öğrenin.

LuckyTemplatesda Çok İş Parçacıklı Dinamik Görsel Tekniği Kullanarak Öngörüleri Sergileyin

LuckyTemplatesda Çok İş Parçacıklı Dinamik Görsel Tekniği Kullanarak Öngörüleri Sergileyin

Bu eğitici, raporlarınızdaki dinamik veri görselleştirmelerinden içgörüler oluşturmak için Çok Kanallı Dinamik Görseller tekniğinin nasıl kullanılacağını kapsayacaktır.

LuckyTemplatesda İçeriği Filtrelemeye Giriş

LuckyTemplatesda İçeriği Filtrelemeye Giriş

Bu yazıda, filtre bağlamından geçeceğim. Filtre bağlamı, herhangi bir LuckyTemplates kullanıcısının başlangıçta öğrenmesi gereken en önemli konulardan biridir.

LuckyTemplates Çevrimiçi Hizmetindeki Uygulamaları Kullanmak İçin En İyi İpuçları

LuckyTemplates Çevrimiçi Hizmetindeki Uygulamaları Kullanmak İçin En İyi İpuçları

LuckyTemplates Apps çevrimiçi hizmetinin çeşitli kaynaklardan oluşturulan farklı raporların ve içgörülerin yönetilmesine nasıl yardımcı olabileceğini göstermek istiyorum.

Fazla Mesai Kâr Marjı Değişikliklerini Analiz Edin - LuckyTemplates ve DAX ile Analitik

Fazla Mesai Kâr Marjı Değişikliklerini Analiz Edin - LuckyTemplates ve DAX ile Analitik

LuckyTemplates'da ölçü dallandırma ve DAX formüllerini birleştirme gibi teknikleri kullanarak kâr marjı değişikliklerinizi nasıl hesaplayacağınızı öğrenin.

DAX Studioda Veri Önbellekleri İçin Materyalleştirme Fikirleri

DAX Studioda Veri Önbellekleri İçin Materyalleştirme Fikirleri

Bu öğreticide, veri önbelleklerini gerçekleştirme fikirleri ve bunların DAX'ın sonuç sağlama performansını nasıl etkilediği tartışılacaktır.