파이썬에서 자기란 무엇인가: 실제 사례
파이썬에서 자기란 무엇인가: 실제 사례
분석에서 대부분의 항목은 다양한 요인에 의해 결정되기 때문에 데이터를 분석할 때 누락된 값을 찾는 방법에 대한 다음 단계를 알고 싶습니다. 이를 돕기 위해 ggmice 패키지를 사용하여 R에서 누락된 데이터를 시각화 할 것입니다 . 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다 .
"결측값에 대해 어떻게 해야 합니까?" 이것은 데이터를 분석할 때 묻는 필수 질문입니다. null 또는 NA로 코딩되어 있기 때문에 쉽게 찾을 수 있기를 바랍니다.
몇 가지 일반적인 경험 법칙과 다음 단계를 살펴보겠습니다. 누락된 데이터가 몇 개인가와 같은 질문에 답하는 방법을 알아봅니다. 문제가 얼마나 큽니까? 데이터에서 패턴을 찾을 수 있습니까?
이를 수행하는 많은 방법이 있지만 첫 번째 탐색 시작으로 R에서 누락된 데이터 시각화를 사용할 것입니다.
목차
누락된 값을 찾을 때와 누락된 값을 찾을 때
누락된 방식에 패턴이 없고 그것이 열에 있든 데이터 세트에 있든 관계없이 관측치의 5% 미만에 영향을 미치는 경우 해당 누락된 값을 삭제할 수 있습니다.
그러나 더 널리 퍼져 있고 시각화를 기반으로 몇 가지 중요한 패턴을 찾을 수 있는 경우 해당 데이터로 작업을 수행해야 할 수 있습니다.
그래서 그것들을 떨어뜨리는 대신에, 우리는 그것들을 있는 그대로의 패턴에서 누락된 이유에 대한 이야기가 있기 때문에 이것들을 귀속시킬 수 있습니다.
이 데모에서는 누락된 값을 대치할 패키지를 사용합니다. 이것은 R에서 누락된 데이터를 시각화하기 위한 새로운 패키지이며 ggmice 라고 합니다 .
아이디어는 패턴과 누락된 값의 수를 찾는 것이므로 플롯 패턴을 살펴본 다음 플롯 예측자 행렬을 볼 것입니다 .
MICE는 연쇄 방법에 의한 다변량 전가를 나타냅니다 . 우리는 역학에 들어가지는 않지만 이 알고리즘을 사용할 경우 데이터를 귀속시키는 방법을 배울 것입니다.
ggmice를 사용하여 R에서 누락된 데이터를 시각화하는 것에 대해 알아야 할 또 다른 사항은 이것이 실제로 ggplot2와 호환 되도록 의도되었기 때문에 유명한 시각화 패키지인 ggplot2 의 뒷면에서 일부 시각화를 구축할 수 있다는 것 입니다.
R w/ GGMICE에서 누락된 데이터를 시각화하는 단계
계속해서 RStudio를 부팅해 보겠습니다 . 가장 먼저 해야 할 일은 라이브러리(ggmice) , ggplot2가 포함된 라이브러리(tidyverse) 및 라이브러리(Ecdat) 데이터 세트 를 입력하여 필요한 모든 패키지를 가져오는 것입니다 .
라이브러리(Ecdat) 패키지에는 연습하기에 좋은 데이터 세트가 많이 있습니다. 그래서 우리는 그것을 사용하고 수입하고 있습니다.
데이터 세트 중 하나는 help(MCAS) 입니다 . 이것에 대한 도움말 기능을 실행해 봅시다.
보시다시피 이것은 Ecdat에서 온 것이며 테스트 점수 데이터 세트입니다. 이 도움말 문서는 각 열에 대해 설명하고 해당 열의 출처를 알려줍니다.
이를 사용하여 누락된 데이터가 있는지, 데이터가 있는 경우 어떤 패턴을 형성하는지 알아볼 것입니다.
is.na(MCAS)를 사용 하고 실행을 클릭합니다 . 보시다시피 TRUE와 FALSE가 많이 있습니다. 우리가 할 수 있는 것은 FALSE와 TRUE가 0과 1이기 때문에 colSums(is.na(MCAS)) 함수를 사용하여 이들을 합산하는 것입니다 . 이것이 값이 누락되었는지 여부를 확인하는 방법입니다.
아래와 같이 spc , totsc8 및 avgsalary 와 같은 세 개의 열에서 누락된 값을 찾을 수 있습니다 . 도움말 문서 섹션에서 이러한 열에 대한 설명을 볼 수 있습니다.
또한 colSums (is.na(MCAS)) / nrow (MCAS)를 사용하면 행 수가 백분율로 바뀝니다. 이것은 그것을 보는 한 가지 방법이지만 가장 쉬운 방법은 아닙니다.
이 경우 ggmice가 우리를 위해 무엇을 할 수 있는지 살펴보겠습니다. 우리는 browseVignettes(package = 'ggmice') 함수를 사용한 다음 Run 을 클릭합니다 .
이 기능에 대한 일부 비네트가 있으므로 ggmice를 선택 하고 HTML 링크를 클릭하여 도움이 될 수 있는 몇 가지 유용한 자습서를 살펴보겠습니다.
스크립트로 돌아가서 plot_pattern(MCAS) 함수를 사용하여 데이터 세트를 전달해 보겠습니다.
더 잘 시각화하려면 확대/축소 버튼을 클릭하십시오. 그림과 같이 155개의 관측치 중 spc 에는 avgsalary 에 대해 25개, totsc8 에 대해 40개 등 총 9개의 누락된 값이 있습니다 .
우리는 이들 중 일치하는 것이 있는지, 얼마나 많이 있는지, 클러스터에 있는 경향이 있는지 알아내려고 노력할 것입니다.
이를 교차 확인하기 위해 보기(MCAS) 기능을 사용한 다음 실행을 클릭하여 아날로그 방식을 시도할 수 있습니다 .
누락된 모든 값을 볼 수 있는 일종의 스프레드시트 뷰어입니다. 소스 편집기 버튼을 클릭하여 확장할 수도 있습니다 .
파워 쿼리 와 유사하게 전체 항목을 볼 수 있으며 NA는 누락된 값입니다. 눈에 띄게, 보기(MCAS)의 총 항목은 220이고 plot_pattern(MCAS)의 경우 155개에 불과합니다. 왜냐하면 그 자체로 플롯되지 않은 완전한 값이 있을 수 있기 때문입니다.
또한 변수와 행을 기반으로 함께 클러스터링되는 경향이 있음을 알 수 있습니다. 그러나 많은 경우에 하나만 누락됩니다. 현실은 이 시각적 행을 행별로 수행하기가 어렵기 때문에 여기에서 시각화가 필요합니다.
누락된 데이터 대치
다음으로 할 일은 스크립트로 돌아가서 nrow (MCAS) 를 입력 한 다음 sum(is.na(MCAS)$totsc8)) 을 입력하는 것입니다 .
이 경우 200개의 관측치 중 40개가 누락된 값임을 알고 있습니다. 40/200을 넣어 R을 계산기로 사용하자. 따라서 약 20%의 누락된 값이 있습니다. 이는 많은 양입니다.
이상적으로는 왜 그렇게 많이 누락되었는지 알고 싶습니다. 아마도 그것은 데이터가 수집된 방식일 뿐이며 이것이 우리가 이것을 귀속시킬 수 있는 이유일 것입니다.
그러기 위해 라이브러리(마우스) 패키지를 임포트하자 . 이것은 전가 방법 중 하나입니다.
그런 다음 MCAS_pred < –="" quickpred=""> 및 plot_pred(MCAS_pred) 함수를 사용하겠습니다 . 저장했는지 확인하고 실행을 클릭한 다음 확대/축소 버튼을 클릭합니다 .
다변량 전가를 사용하는 경우 이 알고리즘은 누락된 것과 유사한 관찰 및 데이터 포인트를 찾은 다음 이를 채우려고 시도합니다.
예를 들어 spc 열입니다. 이는 totsc8 및 avgsalary 와 동일한 결측값을 예측하는 데 도움이 됩니다 . 이 시점에서 우리는 그것을 하고 있지 않지만 어떤 값과 변수가 관련되어 이러한 값을 방해하는 데 도움이 될 수 있는지 확인하고 있습니다.
한 가지 더 시도해 봅시다. ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( ) 를 사용한 다음 Run 을 클릭합니다 .
이것은 우리가 ggmice를 사용하고 있다는 점을 제외하면 산점도 입니다 . 기본적으로 아이디어는 누락된 값이 상당히 많은 이 두 변수 사이의 관계를 볼 수 있다는 것입니다. 그 중 하나가 누락되고 다른 하나를 사용할 수 있는 경우 해당 지점이 어디에 있는지 확인할 수 있습니다.
이 상황에서 이러한 경우 중 하나에서 두 가지가 모두 관찰됩니다. 하나는 빠졌고 다른 하나는 없습니다. 둘 다 없으면 줄거리에 포함되지 않습니다.
DataEditR 패키지를 사용하여 R에서
데이터 편집 데이터 모델에 대한 파워 쿼리 모범 사례
LuckyTemplates에서 R 패키지를 설치하는 방법
결론
누락된 값으로 작업할 때 값을 대치하는 데 매우 강력하기 때문에 MICE와 같은 알고리즘을 사용하고 싶어집니다. 그러나 데이터를 직접 탐색하고 진행 상황을 이해하는 것이 좋습니다.
이상적으로는 누락된 데이터가 많은 경우 이유를 파악하고 더 많은 데이터를 얻거나 이를 귀속시킬 수 있습니다. 소스로 바로 이동하는 것이 항상 선호됩니다.
누락된 값을 대치하려는 경우 평균 또는 중앙값과 같은 tidyverse 패키지를 사용하여 몇 가지 간단한 대치 방법을 수행할 수 있습니다.
의심할 여지 없이 MICE 패키지는 강력합니다. 계산 집약적인 작업에는 과도할 수 있지만 지금은 시각화 요소에만 집중하고 있습니다.
나는 당신이 무언가를 배우고 이 패키지를 자유롭게 사용하기를 바랍니다. ggplot2와 호환되는 누락된 값으로 작업하기에 좋은 패키지이므로 공유하고 소문을 내십시오.
모두 제일 좋다,
성 조지
파이썬에서 자기란 무엇인가: 실제 사례
R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.
이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.
이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.
이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.
LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.
LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.
이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.
지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.
LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것