Wat is zelf in Python: voorbeelden uit de echte wereld
Wat is zelf in Python: voorbeelden uit de echte wereld
Bij het analyseren van gegevens willen we weten wat de volgende stappen zijn om de ontbrekende waarden te vinden, omdat de meeste dingen in analyses worden bepaald door verschillende factoren. Om je hierbij te helpen, pakken we het visualiseren van ontbrekende gegevens in R aan met behulp van het ggmice- pakket. Je kunt de volledige video van deze tutorial onderaan deze blog bekijken .
"Wat moet ik doen aan ontbrekende waarden?" Dit is een essentiële vraag die u zich moet stellen wanneer u gegevens analyseert. We hopen allemaal dat ze gemakkelijk te vinden zijn, aangezien ze zijn gecodeerd als nulls of NA's.
We zullen enkele algemene vuistregels en volgende stappen bekijken. We leren hoe we vragen kunnen beantwoorden zoals hoeveel ontbrekende gegevens zijn er? Hoe groot is het probleem? Kunnen we patronen ontdekken in de data?
Er zijn veel manieren om dit te doen, maar we gaan het visualiseren van ontbrekende gegevens in R gebruiken als eerste verkennende start.
Inhoudsopgave
Wanneer te laten vallen en wanneer ontbrekende waarden te vinden
Als er geen patroon is in hoe ze ontbreken en het beïnvloedt minder dan 5% van de waarnemingen, of het nu in de kolom of de dataset is, dan zou je die ontbrekende waarden kunnen verwijderen.
Als blijkt dat het echter wijdverspreider is en u op basis van de visualisaties een aantal significante patronen kunt vinden, moet u misschien iets met die gegevens doen.
Dus in plaats van ze te laten vallen, kunnen we ze toerekenen omdat er waarschijnlijk een verhaal is over waarom die waarden ontbreken in het patroon zoals ze zijn.
In deze demo gebruiken we een pakket dat de ontbrekende waarden toerekent. Dit is een nieuw pakket voor het visualiseren van ontbrekende gegevens in R en heet ggmice .
Het idee is om het patroon te vinden en hoeveel ontbrekende waarden er zijn, daarom zullen we kijken naar het plotpatroon en vervolgens naar de plotvoorspellingsmatrix .
MICE staat voor multivariate imputation by chained methods . We gaan niet in op de mechanica, maar we zullen leren hoe dit algoritme onze gegevens zal toerekenen als we het gebruiken.
Een ander ding om te weten over het visualiseren van ontbrekende gegevens in R met behulp van ggmice is dat het echt bedoeld is om ggplot2-compatibel te zijn , dus we kunnen enkele visualisaties bouwen op de achterkant van ggplot2 , het beroemde visualisatiepakket.
Stappen voor het visualiseren van ontbrekende gegevens in R w/ GGMICE
Laten we doorgaan en RStudio opstarten . Het eerste dat we moeten doen, is alle pakketten importeren die we nodig hebben door bibliotheek (ggmice) , bibliotheek (tidyverse) inclusief ggplot2 en bibliotheek (Ecdat) datasets in te typen.
Het bibliotheekpakket (Ecdat) heeft veel goede datasets om op te oefenen. Daarom gebruiken en importeren we het.
Een van de datasets is help (MCAS) . Laten we de helpfunctie hierop uitvoeren.
Zoals we kunnen zien, is dit van Ecdat, en het is een dataset met testscores. Deze helpdocumentatie beschrijft elk van de kolommen en vertelt ons waar het vandaan komt.
We gaan dit gebruiken om te leren of er ontbrekende gegevens zijn en welk patroon ze vormen als die er zijn.
Laten we is.na (MCAS) gebruiken en op Uitvoeren klikken . Zoals we kunnen zien, zijn er een aantal WAAR en ONWAAR. Wat we kunnen doen, is deze optellen door de functie colSums (is.na(MCAS)) te gebruiken , omdat ONWAAR en WAAR nul en één vermomd zijn. Dit is onze manier om te controleren of de waarde ontbreekt of niet.
Zoals hieronder getoond, zijn de ontbrekende waarden te vinden in drie kolommen, zoals spc , totsc8 en avgsalary . We kunnen de beschrijving van deze kolommen zien in de sectie Help-documentatie.
Ook door gebruik te maken van colSums (is.na(MCAS)) / nrow (MCAS) zal het aantal rijen veranderen in percentages. Dit is een manier om ernaar te kijken, maar niet de gemakkelijkste om te doen.
Laten we in dit geval eens kijken wat ggmice voor ons kan doen. We gebruiken de functie browseVignettes (pakket = 'ggmice') en klikken vervolgens op Uitvoeren .
Er zijn enkele vignetten gevonden voor deze functie, dus laten we ggmice kiezen en op de HTML- link klikken om enkele nuttige tutorials te zien die kunnen helpen.
Laten we teruggaan naar het script en de functie plot_pattern (MCAS) gebruiken om de dataset door te geven.
Klik op de zoomknop om het beter te visualiseren . Zoals geïllustreerd, heeft spc van de 155 waarnemingen 9 ontbrekende waarden, 25 voor gemiddeld salaris en 40 voor totsc8 .
We zullen proberen erachter te komen of een van deze samenvalt, hoeveel er zijn en of ze de neiging hebben om in een cluster te zitten.
Om dit te controleren, kunnen we de analoge manier proberen door de weergavefunctie (MCAS) te gebruiken en vervolgens op Uitvoeren te klikken .
Dit is een soort spreadsheet-viewer waar we alle ontbrekende waarden kunnen zien. We kunnen dit ook uitbreiden door op de knop Broneditor te klikken .
Net als bij Power Query kunnen we het totale aantal vermeldingen zien en de NA's zijn de ontbrekende waarden. Het is opmerkelijk dat het totale aantal vermeldingen op de weergave (MCAS) 220 is, en slechts 155 voor het plot_patroon (MCAS) omdat er waarschijnlijk volledige waarden waren die niet per se waren geplot.
We kunnen ook zien dat ze de neiging hebben om samen te clusteren op basis van de variabelen en rijen. In veel gevallen ontbreekt echter het een of het ander. De realiteit is dat het moeilijk is om deze visuele rij voor rij te doen, dus hier komt de visualisatie om de hoek kijken.
De ontbrekende gegevens toerekenen
Het volgende dat u moet doen, is teruggaan naar ons script, typ nrow (MCAS) en vervolgens sum(is.na(MCAS)$totsc8)) .
In dit geval weten we dat er 40 ontbrekende waarden zijn van de 200 waarnemingen. Laten we R als rekenmachine gebruiken door 40/200 in te voeren. Daarom hebben we ongeveer 20% ontbrekende waarden, wat veel is.
Idealiter willen we weten waarom er zo veel ontbreken. Misschien is het gewoon hoe de gegevens zijn verzameld en daarom kunnen we dit toerekenen.
Om dat te doen, importeren we het bibliotheekpakket (muizen) . Dit is een van de toerekeningsmethoden.
Laten we dan MCAS_pred < –="" quickpred=""> en plot_pred(MCAS_pred) functies gebruiken. Zorg ervoor dat u deze opslaat, klik op Uitvoeren en klik op de knop Zoomen .
Als we multivariate imputatie gaan gebruiken, zal dit algoritme observaties en datapunten vinden die vergelijkbaar zijn met degene die ontbreken, en die vervolgens proberen in te vullen.
Bijvoorbeeld de spc- kolommen. Deze zullen nuttig zijn voor het voorspellen van de ontbrekende waarden, hetzelfde met totsc8 en avgsalary . Op dit moment doen we het niet, maar we zien welke waarden en variabelen gerelateerd zijn die nuttig kunnen zijn om die waarden te belemmeren.
Laten we nog één ding proberen. We gaan ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) gebruiken en klik vervolgens op Uitvoeren .
Dit is een scatterplot , behalve dat we ggmice gebruiken. In wezen is het idee dat we de relatie kunnen zien tussen deze twee variabelen die nogal wat ontbrekende waarden hebben. Wanneer een van hen ontbreekt en de andere beschikbaar is, kunnen we zien waar die punten zijn.
In deze situatie worden beide waargenomen in een van deze gevallen. De ene ontbreekt en de andere niet. Als beide ontbreken, komt het niet op de plot te staan.
Gegevens bewerken in R met behulp van het DataEditR-pakket
Power Query Best Practices voor uw gegevensmodel
R-pakketten installeren in LuckyTemplates
Conclusie
Wanneer we met ontbrekende waarden werken, is het verleidelijk om een algoritme als MICE te gebruiken, omdat het erg krachtig is om waarden toe te rekenen. Het is echter beter om de gegevens zelf te verkennen en te begrijpen wat er aan de hand is.
Idealiter, als we veel ontbrekende gegevens hebben, willen we erachter komen waarom en misschien kunnen we proberen wat meer gegevens te krijgen of kunnen we het toerekenen. Rechtstreeks naar de bron gaan heeft altijd de voorkeur.
Als we uiteindelijk de ontbrekende waarden willen imputeren, kunnen we enkele eenvoudige imputatiemethoden gebruiken met het geordende pakket , zoals het gemiddelde of de mediaan.
Het MICE-pakket is ongetwijfeld krachtig. Het kan overdreven zijn voor dingen die erg rekenintensief zijn, maar we zijn nu alleen gefocust op het visualisatie-element ervan.
Ik hoop dat je er iets van leert en voel je vrij om dit pakket te gebruiken. Zorg ervoor dat je het deelt en probeer het bekend te maken, want het is een leuk pakket om te werken met ontbrekende waarden die compatibel zijn met ggplot2.
Al het beste,
George
Wat is zelf in Python: voorbeelden uit de echte wereld
Je leert hoe je objecten uit een .rds-bestand in R opslaat en laadt. In deze blog wordt ook besproken hoe je objecten uit R naar LuckyTemplates importeert.
In deze tutorial over DAX-coderingstaal leert u hoe u de functie GENERATE gebruikt en hoe u de titel van een maat dynamisch wijzigt.
Deze zelfstudie behandelt hoe u de Multi Threaded Dynamic Visuals-techniek kunt gebruiken om inzichten te creëren op basis van dynamische gegevensvisualisaties in uw rapporten.
In dit artikel zal ik de filtercontext doornemen. Filtercontext is een van de belangrijkste onderwerpen waarover elke LuckyTemplates-gebruiker in eerste instantie zou moeten leren.
Ik wil laten zien hoe de online service LuckyTemplates Apps kan helpen bij het beheren van verschillende rapporten en inzichten die uit verschillende bronnen zijn gegenereerd.
Leer hoe u wijzigingen in uw winstmarge kunt berekenen met behulp van technieken zoals vertakking van metingen en het combineren van DAX-formules in LuckyTemplates.
Deze tutorial bespreekt de ideeën van materialisatie van datacaches en hoe deze de prestaties van DAX beïnvloeden bij het leveren van resultaten.
Als u tot nu toe nog steeds Excel gebruikt, is dit het beste moment om LuckyTemplates te gaan gebruiken voor uw zakelijke rapportagebehoeften.
Wat is LuckyTemplates Gateway? Alles wat u moet weten