보간 방법을 사용하여 Python에서 누락된 데이터 처리

보간 방법을 사용하여 Python에서 누락된 데이터 처리

보간은 주어진 점 사이에 점을 생성하는 방법입니다. 이 튜토리얼에서는 Python에서 누락된 데이터를 처리하는 데 Interpolation을 사용하는 방법을 보여드리겠습니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.

Python에서 Interpolation은 데이터를 사전 처리하는 동안 데이터 프레임 또는 계열에서 누락된 값을 대치하는 데 주로 사용되는 기술입니다. 이 방법을 사용하여 LuckyTemplates에서 Python을 사용하여 데이터에서 누락된 데이터 요소를 추정하는 방법을 보여 드리겠습니다 .

맨 위 그래프에 표시된 아래의 원래 데이터를 보면 아무것도 없기 때문에 그래프로 표시할 수 없는 많은 구멍이나 누락된 데이터가 있음을 알 수 있습니다. 그러나 아래쪽 그래프에서 데이터가 어떻게 생겼는지 파악하기 위해 몇 가지 추정을 수행했음을 볼 수 있습니다. 실제 데이터는 하늘색으로 표시되고 보간 데이터는 진한 파란색으로 표시됩니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

우리가 할 몇 가지 다른 유형의 추정이 있습니다. 우리는 Linear Interpolation, Nearest Interpolation, 그리고 Weighted Time Interpolation을 할 것입니다. 그것들 각각은 우리에게 약간 다른 결과를 줄 것입니다.

위의 예는 가중 시간 보간을 사용하는 것으로, 날짜를 기준으로 가중된다는 점을 제외하면 선형 보간과 거의 동일해 보입니다. 선형은 이 두 데이터 포인트 사이의 기울기를 기반으로 데이터를 추정했습니다. Nearest Interpolation은 아래에서 볼 수 있듯이 가장 가까운 값을 보고 이 둘 사이에 존재하는 값을 추정할 수 있는 더 평평한 유형의 추정을 합니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

이제 Jupyter 노트북으로 이동하여 가져오겠습니다.

목차

Python에서 누락된 데이터를 처리할 때 보간법을 사용하는 방법

스크립트 편집기를 사용하여 모든 것을 스크립팅할 수 있지만 더 쉽습니다. Jupyter 노트북에서 더 많은 피드백을 받습니다. 자, 우리가 하고 있는 일을 문서화합시다. 이것을 복사하여 Python 스크립트 편집기에 붙여 넣으면 매우 깨끗하고 명확해집니다.

원하는 라이브러리를 가져오고 Pandas를 가져 와서 변수 PD로 저장하겠습니다. Numpy를 가져와 변수 NP로 저장합니다. Pandas는 데이터 조작 라이브러리인 반면 Numpy는 데이터 조작도 가능하게 하고 일부 선형 대수학을 제공합니다.

데이터 세트를 가져오고 변수 df 로 저장할 것입니다 . 그리고 우리는 Pandas 변수( pd )를 사용하고 read.csv 함수를 사용할 것입니다. 그런 다음 해당 파일이 있는 PC의 위치를 ​​복사하여 붙여넣습니다. 내 파일은 내 작업 디렉터리에 있으므로 machines.csv를 작성 하고 괄호 안에 캡슐화하기만 하면 됩니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

변수 df를 사용하여 데이터 세트를 살펴보겠습니다. 2022년 1일부터 25일까지 계속되는 것을 볼 수 있습니다. 15일까지 연속일이고, 19일에 4일, 22일에 이르면 3일, 25일에 2일이 있습니다.

건너뛴 날짜는 누락된 데이터가 아닙니다. 그것은 우리 데이터 세트의 데이터가 아닙니다. 우리가 처리할 것은 이러한 NaN 또는 값이 없는 것으로 표시되는 누락된 데이터입니다.

이제 데이터 세트가 있으므로 다양한 유형의 해석을 사용하고 이를 다른 열로 저장해 보겠습니다. 텍스트로 표현되는 object 가 있고 float 도 있음 을 알 수 있습니다 .

보간 방법을 사용하여 Python에서 누락된 데이터 처리

대괄호 표기법을 사용하여 Date 열을 분리하겠습니다 . 그런 다음 등호를 사용하여 이것을 할당하겠습니다. 저는 pd 변수를 사용할 것이고 , 그 다음에는 to_datetime 함수를 사용할 것입니다. 그런 다음 해당 함수를 괄호로 닫고 날짜 열에 추가합니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

이제 적절한 데이터 유형으로 날짜가 있음을 알 수 있습니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

여기에는 1에서 18까지의 숫자로 표시되는 인덱스가 있습니다. 선형을 수행할 때 이 숫자를 사용하여 기존 데이터 포인트 간에 선형 연결을 만듭니다. 그러나 우리는 또한 시간을 보고 실제 날짜를 기반으로 결과를 제공하는 시간 가중 보간을 사용할 수 있기를 원합니다. Date 컬럼을 인덱스로 설정하여 활용할 수 있도록 하겠습니다.

내 데이터 프레임(df) 변수를 사용하고 set_index를 수행합니다. 영구적으로 전달되도록 inplace 라는 매개변수를 전달해야 합니다 . 따라서 inplace equals true를 사용한 다음 Shift 키를 누르고 Enter를 누릅니다. 이를 통해 숫자 인덱스가 사라지고 날짜/시간 인덱스가 있음을 알 수 있습니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

이제 원하는 기둥을 만들 수 있습니다. 누락된 값을 가장 가까운 값으로 채울 가장 가까운 데이터 포인트를 보간하는 열을 작성해 보겠습니다. users_nearest 라는 열을 만들고 이를 사용자 열에 할당하려고 합니다 .

우리는 user_nearest 라는 열을 생성 하고 이를 사용자 열에 할당하려고 합니다. 이제 해당 열이 분리되었으므로 보간 함수를 사용할 수 있고 shift-tab을 눌러 이 함수가 사용하는 매개변수를 확인할 수 있습니다. 다양한 유형의 방법이 있습니다.

기본값이 선형임을 알 수 있으며 모든 다른 방법을 보려면 여기에 정보가 있습니다. 이것을 끝까지 열 수 있으며 여기에는 많은 통찰력을 제공할 많은 정보가 있습니다. 그러나 Pandas 사이트로 이동하여 다양한 유형의 보간이 무엇인지 확인하는 것이 항상 더 좋습니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

이제 원하는 방법을 전달하고 Nearest Interpolation 방법을 사용할 것입니다. 이것을 실행하기만 하면 열이 생성되는 것을 확인할 수 있습니다. 특정 줄을 보면 결측값으로 볼 수 있습니다. 가장 가까운 값을 가져와 여기에 추가한 위치에 보간된 것을 볼 수 있습니다. 보시다시피 특정 행에 대해 더 이상 누락된 값이 없습니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

이제 이것을 두 번 복사하고 이 열의 이름을 user_linearuser_time 으로 변경하겠습니다 . 제목과 일치하도록 방법도 변경할 것입니다. 이동 및 입력이 가능하며 서로 다른 유형의 보간 방법을 기반으로 세 개의 열을 생성한 것을 볼 수 있습니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

다음으로 데이터의 플래그처럼 비어 있는 열을 표시할 수 있는 특정 열을 하나 더 만들고 싶습니다. 이를 위해 Numpy를 사용할 것입니다.

따라서 우리는 df 라는 새 열을 만들고 플래그라고 부를 것입니다. 우리는 그것을 등호로 할당할 것입니다. 그런 다음 Numpy 변수인 np 를 사용할 것입니다 . 그런 다음 조건 함수인 where 함수를 사용하겠습니다 . 조건을 설정한 다음 참과 거짓에 대한 예를 얻습니다. 우리는 이중 등호를 사용하는데, 이는 파이썬에서 동일합니다. 그것이 사실이라면 Missing Data 라고 말하고 싶습니다 . 다른 옵션은 Data 입니다 .

보간 방법을 사용하여 Python에서 누락된 데이터 처리

시각적 개체에서 해당 플래그를 사용할 수 있습니다. 노트북에 있으면 변환으로 이동하여 Python 스크립트 실행을 누르십시오. 이제 몇 가지 다른 단계가 있습니다. LuckyTemplates 환경 내에서 작동하려면 이것이 필요합니다 .

여기에 모든 코드가 있으며 몇 가지 단계를 더 추가해야 합니다. 첫째, 날짜-시간을 처리할 때 오류가 있으면 강제로 변경하거나 변경할 수 있다는 오류 매개변수를 추가해야 합니다. 그래서 저는 여기에 errors equal 을 넣은 다음 괄호 coerce 를 넣을 것입니다 . 다음으로 dataset 변수를 df로 재할당해야 합니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

OKAY를 클릭하면 또 다른 오류가 발생하며 이를 해결하기 위해 해야 할 일입니다. 단계를 진행하면 날짜 형식을 지정하지 않아도 됩니다. 날짜는 각 플랫폼마다 고유하기 때문에 Python이 날짜를 사용하도록 할 것입니다. 가장 먼저 해야 할 일은 Changed Type 을 제거하는 것입니다 .

보간 방법을 사용하여 Python에서 누락된 데이터 처리

날짜가 인덱스이기 때문에 날짜 열이 없습니다. 따라서 Python 스크립트로 돌아가서 인덱스 df.reset_index 를 재설정합니다 . 해당 괄호 안의 Date 열 우회로 재설정하고 싶다고 말한 다음 inplace = true 를 수행하려고 합니다 .

보간 방법을 사용하여 Python에서 누락된 데이터 처리

이제 날짜가 있고 다른 모든 데이터 유형이 완성되었습니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리

비주얼에 넣으면 Python에서 누락된 데이터를 처리할 때 세 가지 다른 보간 방법에서 보이는 방식입니다.

보간 방법을 사용하여 Python에서 누락된 데이터 처리


LuckyTemplates의 환율: 누락된 데이터 처리
LuckyTemplates 데이터 보고서의 Python 스크립팅
Python에서 샘플 데이터 세트를 로드하는 방법

결론

이 자습서에서는 Python 에서 누락된 데이터를 처리하는 세 가지 보간 방법을 배웠습니다 . Linear, Nearest 및 Weighted Time Interpolation 방법에 대해 논의했습니다.

이 내용이 유용하다고 생각하고 자신의 작업에 적용하기를 바랍니다. 자세한 내용은 아래의 전체 비디오 자습서를 시청하고 Python에서 누락된 데이터를 처리하는 방법에 대한 자세한 내용은 아래 링크를 확인하십시오.

모두 제일 좋다!

개림


파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

R에서 RDS 파일을 저장하고 로드하는 방법

R에서 RDS 파일을 저장하고 로드하는 방법

R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.

LuckyTemplates의 컨텍스트 필터링 소개

LuckyTemplates의 컨텍스트 필터링 소개

이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.

LuckyTemplates를 사용한 비즈니스 보고

LuckyTemplates를 사용한 비즈니스 보고

지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것