RW/ GGMICE에서 누락된 데이터 시각화

RW/ GGMICE에서 누락된 데이터 시각화

분석에서 대부분의 항목은 다양한 요인에 의해 결정되기 때문에 데이터를 분석할 때 누락된 값을 찾는 방법에 대한 다음 단계를 알고 싶습니다. 이를 돕기 위해 ggmice 패키지를 사용하여 R에서 누락된 데이터를 시각화 할 것입니다 . 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다 .

"결측값에 대해 어떻게 해야 합니까?" 이것은 데이터를 분석할 때 묻는 필수 질문입니다. null 또는 NA로 코딩되어 있기 때문에 쉽게 찾을 수 있기를 바랍니다.

몇 가지 일반적인 경험 법칙과 다음 단계를 살펴보겠습니다. 누락된 데이터가 몇 개인가와 같은 질문에 답하는 방법을 알아봅니다. 문제가 얼마나 큽니까? 데이터에서 패턴을 찾을 수 있습니까?

이를 수행하는 많은 방법이 있지만 첫 번째 탐색 시작으로 R에서 누락된 데이터 시각화를 사용할 것입니다.

목차

누락된 값을 찾을 때와 누락된 값을 찾을 때

누락된 방식에 패턴이 없고 그것이 열에 있든 데이터 세트에 있든 관계없이 관측치의 5% 미만에 영향을 미치는 경우 해당 누락된 값을 삭제할 수 있습니다.

그러나 더 널리 퍼져 있고 시각화를 기반으로 몇 가지 중요한 패턴을 찾을 수 있는 경우 해당 데이터로 작업을 수행해야 할 수 있습니다.

그래서 그것들을 떨어뜨리는 대신에, 우리는 그것들을 있는 그대로의 패턴에서 누락된 이유에 대한 이야기가 있기 때문에 이것들을 귀속시킬 수 있습니다.

RW/ GGMICE에서 누락된 데이터 시각화

이 데모에서는 누락된 값을 대치할 패키지를 사용합니다. 이것은 R에서 누락된 데이터를 시각화하기 위한 새로운 패키지이며 ggmice 라고 합니다 .

아이디어는 패턴과 누락된 값의 수를 찾는 것이므로 플롯 패턴을 살펴본 다음 플롯 예측자 행렬을 볼 것입니다 .

MICE는 연쇄 방법에 의한 다변량 전가를 나타냅니다 . 우리는 역학에 들어가지는 않지만 이 알고리즘을 사용할 경우 데이터를 귀속시키는 방법을 배울 것입니다.

ggmice를 사용하여 R에서 누락된 데이터를 시각화하는 것에 대해 알아야 할 또 다른 사항은 이것이 실제로 ggplot2와 호환 되도록 의도되었기 때문에 유명한 시각화 패키지인  ggplot2 의 뒷면에서 일부 시각화를 구축할 수 있다는 것 입니다.

RW/ GGMICE에서 누락된 데이터 시각화

R w/ GGMICE에서 누락된 데이터를 시각화하는 단계

계속해서 RStudio를 부팅해 보겠습니다 . 가장 먼저 해야 할 일은 라이브러리(ggmice) , ggplot2가 포함된 라이브러리(tidyverse) 및 라이브러리(Ecdat) 데이터 세트 를 입력하여 필요한 모든 패키지를 가져오는 것입니다 .

라이브러리(Ecdat) 패키지에는 연습하기에 좋은 데이터 세트가 많이 있습니다. 그래서 우리는 그것을 사용하고 수입하고 있습니다.

RW/ GGMICE에서 누락된 데이터 시각화

데이터 세트 중 하나는 help(MCAS) 입니다 . 이것에 대한 도움말 기능을 실행해 봅시다.

보시다시피 이것은 Ecdat에서 온 것이며 테스트 점수 데이터 세트입니다. 이 도움말 문서는 각 열에 대해 설명하고 해당 열의 출처를 알려줍니다.

이를 사용하여 누락된 데이터가 있는지, 데이터가 있는 경우 어떤 패턴을 형성하는지 알아볼 것입니다.

RW/ GGMICE에서 누락된 데이터 시각화

is.na(MCAS)를 사용 하고 실행을 클릭합니다 . 보시다시피 TRUE와 FALSE가 많이 있습니다. 우리가 할 수 있는 것은 FALSE와 TRUE가 0과 1이기 때문에 colSums(is.na(MCAS)) 함수를 사용하여 이들을 합산하는 것입니다 . 이것이 값이 누락되었는지 여부를 확인하는 방법입니다.

RW/ GGMICE에서 누락된 데이터 시각화

아래와 같이 spc , totsc8avgsalary 와 같은 세 개의 열에서 누락된 값을 찾을 수 있습니다 . 도움말 문서 섹션에서 이러한 열에 대한 설명을 볼 수 있습니다.

RW/ GGMICE에서 누락된 데이터 시각화

또한 colSums (is.na(MCAS)) / nrow (MCAS)를 사용하면 행 수가 백분율로 바뀝니다. 이것은 그것을 보는 한 가지 방법이지만 가장 쉬운 방법은 아닙니다.

RW/ GGMICE에서 누락된 데이터 시각화

이 경우 ggmice가 우리를 위해 무엇을 할 수 있는지 살펴보겠습니다. 우리는 browseVignettes(package = 'ggmice') 함수를 사용한 다음 Run 을 클릭합니다 .

RW/ GGMICE에서 누락된 데이터 시각화

이 기능에 대한 일부 비네트가 있으므로 ggmice를 선택 하고 HTML 링크를 클릭하여 도움이 될 수 있는 몇 가지 유용한 자습서를 살펴보겠습니다.

RW/ GGMICE에서 누락된 데이터 시각화

RW/ GGMICE에서 누락된 데이터 시각화

스크립트로 돌아가서 plot_pattern(MCAS) 함수를 사용하여 데이터 세트를 전달해 보겠습니다.

RW/ GGMICE에서 누락된 데이터 시각화

더 잘 시각화하려면 확대/축소 버튼을 클릭하십시오. 그림과 같이 155개의 관측치 중 spc 에는 avgsalary 에 대해 25개, totsc8 에 대해 40개 등 총 9개의 누락된 값이 있습니다 .

우리는 이들 중 일치하는 것이 있는지, 얼마나 많이 있는지, 클러스터에 있는 경향이 있는지 알아내려고 노력할 것입니다.

RW/ GGMICE에서 누락된 데이터 시각화

이를 교차 확인하기 위해 보기(MCAS) 기능을 사용한 다음 실행을 클릭하여 아날로그 방식을 시도할 수 있습니다 .

RW/ GGMICE에서 누락된 데이터 시각화

누락된 모든 값을 볼 수 있는 일종의 스프레드시트 뷰어입니다. 소스 편집기 버튼을 클릭하여 확장할 수도 있습니다 .

RW/ GGMICE에서 누락된 데이터 시각화

파워 쿼리 와 유사하게 전체 항목을 볼 수 있으며 NA는 누락된 값입니다. 눈에 띄게, 보기(MCAS)의 총 항목은 220이고 plot_pattern(MCAS)의 경우 155개에 불과합니다. 왜냐하면 그 자체로 플롯되지 않은 완전한 값이 있을 수 있기 때문입니다.

또한 변수와 행을 기반으로 함께 클러스터링되는 경향이 있음을 알 수 있습니다. 그러나 많은 경우에 하나만 누락됩니다. 현실은 이 시각적 행을 행별로 수행하기가 어렵기 때문에 여기에서 시각화가 필요합니다.

RW/ GGMICE에서 누락된 데이터 시각화

누락된 데이터 대치

다음으로 할 일은 스크립트로 돌아가서 nrow (MCAS) 를 입력 한 다음 sum(is.na(MCAS)$totsc8)) 을 입력하는 것입니다 .

이 경우 200개의 관측치 중 40개가 누락된 값임을 알고 있습니다. 40/200을 넣어 R을 계산기로 사용하자. 따라서 약 20%의 누락된 값이 있습니다. 이는 많은 양입니다.

이상적으로는 왜 그렇게 많이 누락되었는지 알고 싶습니다. 아마도 그것은 데이터가 수집된 방식일 뿐이며 이것이 우리가 이것을 귀속시킬 수 있는 이유일 것입니다.

RW/ GGMICE에서 누락된 데이터 시각화

그러기 위해 라이브러리(마우스) 패키지를 임포트하자 . 이것은 전가 방법 중 하나입니다.

RW/ GGMICE에서 누락된 데이터 시각화

그런 다음 MCAS_pred < –="" quickpred="">plot_pred(MCAS_pred) 함수를 사용하겠습니다 . 저장했는지 확인하고 실행을 클릭한 다음 확대/축소 버튼을 클릭합니다 .

RW/ GGMICE에서 누락된 데이터 시각화

다변량 전가를 사용하는 경우 이 알고리즘은 누락된 것과 유사한 관찰 및 데이터 포인트를 찾은 다음 이를 채우려고 시도합니다.

예를 들어 spc 열입니다. 이는 totsc8avgsalary 와 동일한 결측값을 예측하는 데 도움이 됩니다 . 이 시점에서 우리는 그것을 하고 있지 않지만 어떤 값과 변수가 관련되어 이러한 값을 방해하는 데 도움이 될 수 있는지 확인하고 있습니다.

RW/ GGMICE에서 누락된 데이터 시각화

한 가지 더 시도해 봅시다. ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) 를 사용한 다음 Run 을 클릭합니다 .

이것은 우리가 ggmice를 사용하고 있다는 점을 제외하면 산점도 입니다 . 기본적으로 아이디어는 누락된 값이 상당히 많은 이 두 변수 사이의 관계를 볼 수 있다는 것입니다. 그 중 하나가 누락되고 다른 하나를 사용할 수 있는 경우 해당 지점이 어디에 있는지 확인할 수 있습니다.

이 상황에서 이러한 경우 중 하나에서 두 가지가 모두 관찰됩니다. 하나는 빠졌고 다른 하나는 없습니다. 둘 다 없으면 줄거리에 포함되지 않습니다.

RW/ GGMICE에서 누락된 데이터 시각화


DataEditR 패키지를 사용하여 R에서
데이터 편집 데이터 모델에 대한 파워 쿼리 모범 사례
LuckyTemplates에서 R 패키지를 설치하는 방법

결론

누락된 값으로 작업할 때 값을 대치하는 데 매우 강력하기 때문에 MICE와 같은 알고리즘을 사용하고 싶어집니다. 그러나 데이터를 직접 탐색하고 진행 상황을 이해하는 것이 좋습니다.

이상적으로는 누락된 데이터가 많은 경우 이유를 파악하고 더 많은 데이터를 얻거나 이를 귀속시킬 수 있습니다. 소스로 바로 이동하는 것이 항상 선호됩니다.

누락된 값을 대치하려는 경우 평균 또는 중앙값과 같은 tidyverse 패키지를 사용하여 몇 가지 간단한 대치 방법을 수행할 수 있습니다.

의심할 여지 없이 MICE 패키지는 강력합니다. 계산 집약적인 작업에는 과도할 수 있지만 지금은 시각화 요소에만 집중하고 있습니다.

나는 당신이 무언가를 배우고 이 패키지를 자유롭게 사용하기를 바랍니다. ggplot2와 호환되는 누락된 값으로 작업하기에 좋은 패키지이므로 공유하고 소문을 내십시오.

모두 제일 좋다,

성 조지


파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

R에서 RDS 파일을 저장하고 로드하는 방법

R에서 RDS 파일을 저장하고 로드하는 방법

R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.

LuckyTemplates의 컨텍스트 필터링 소개

LuckyTemplates의 컨텍스트 필터링 소개

이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.

LuckyTemplates를 사용한 비즈니스 보고

LuckyTemplates를 사용한 비즈니스 보고

지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것