다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

Pandas의 MultiIndex는 인덱스에서 둘 이상의 행과 열을 선택할 수 있는 다중 수준 또는 계층적 개체입니다. 또한 특히 고차원 데이터 작업을 위해 정교한 데이터 분석 및 조작을 생성할 수 있습니다. 이 튜토리얼에서는 Pandas의 MultiIndex 기능을 살펴보겠습니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.

여기서 아이디어는 계층 구조도 포함하는 인덱스가 있다는 것입니다. 이전에 Pandas를 사용해 본 적이 있다면 Pandas의 데이터 프레임에 인덱스가 포함되어 있다는 것을 알고 있으므로 여기에 추가 레이어를 추가할 것입니다. 이렇게 하면 데이터에 대한 계층 구조가 실제로 있는지 여부에 따라 데이터 인덱싱 및 재구성이 더 쉬워집니다.

예를 들어 유명한 Gapminder 데이터 세트를 사용할 것입니다. 이것은 실제로 MultiIndex입니다. 계층 구조가 있으므로 대륙은 국가로 드릴하고 모든 국가는 여러 해로 드릴할 수 있습니다. 그래서 우리는 이 색인을 조작할 수 있고 이 MultiIndex를 사용할 때 코딩이 훨씬 쉬워질 것입니다. Gapminder 데이터 세트를 슬라이싱하고 재구성하는 방법을 살펴보겠습니다.

목차

Pandas에서 MultiIndex를 사용하는 방법
결론

Pandas에서 MultiIndex를 사용하는 방법

Gapminder 데이터 세트를 사용할 것입니다. 이것을 설치하지 않은 경우 PIP 설치 Gapminder를 수행하려고 합니다. Pandas도 가져올 예정입니다. Python의 Anaconda 배포판을 사용하고 있습니다. 이 경우 해당 Pandas는 이미 설치됩니다. Gapminder 가져오기를 수행한 다음 이 데이터를 살펴보겠습니다.

다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

여기에서 볼 수 있듯이 다시 인덱스 또는 계층 구조가 있습니다. 대륙, 국가, 그리고 1년이 있다고 해야 할까요. 현재 인덱스는 이와 같이 숫자일 뿐이며, 지금 바로 자체 인덱스를 설정할 예정입니다. 우리가 할 방법은 Gapminder를 사용하는 것입니다. 인덱스를 설정하겠습니다. 우리 는 그것을 대륙 , 국가, 그리고 연도에 설정할 것 입니다 .

다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

이것은 결과를 저장하는 것이므로 변수를 두 번 호출할 필요가 없으며 조금 더 효율적입니다. 이제 여기에 색인(콘텐츠, 국가, 연도)이 있고 이것이 다중 색인임을 알 수 있습니다.

우리가 여기서 할 수 있는 몇 가지. 예를 들어 유럽 대륙의 모든 것을 원했다고 합시다. 이 데이터 프레임을 필터링하거나 슬라이스하고 싶습니다. gapminder.loc 을 사용한 다음 Europe을 입력 할 수 있습니다 . 당신은 loc에 익숙 할 것입니다. Pandas의 다른 상황에서 인덱스로 수행할 때 훨씬 더 쉽게 작동합니다.

다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

이제 이것은 계층 구조에 존재합니다. 영국의 데이터만 원한다고 가정해 보겠습니다. 우리가 이것을 슬라이스할 수 있을 것 같지만 이것은 문제가 될 것입니다. 왜냐하면 우리가 이것을 인덱싱할 때 우리는 계층 구조를 사용하도록 고착되어 있기 때문입니다. 첫 번째 수준에서 시작한 다음 두 번째, 세 번째 등으로 드릴해야 합니다.

여러 수준을 포함하고 싶다면 여기에 전달하면 됩니다. 저는 유럽과 영국을 할 것입니다. 한 단계 더 나아가 1997을 입력할 수도 있습니다. 이제 해당 행의 결과를 볼 수 있습니다.

다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

Pandas의 MultiIndex의 또 다른 좋은 점은 데이터를 재구성하기가 훨씬 쉽다는 것입니다. 나는 gapminder_pivot 과 gapminder.unstack 을 할 수 있습니다 . 어떤 이유로 이 데이터 세트를 재구성해야 하는 경우 이 데이터 세트를 인쇄하면 이제 대륙, 국가, 연도가 열과 함께 표시되는 것을 볼 수 있습니다.

다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

이제 반대 방향으로 하고 싶다고 가정해 보겠습니다. 내가 해야 할 일은 unpivot 이고 gapminder_pivot 을 할 것입니다 . 그것이 언스태킹이라면 이것은 gapminder_unpivot을 스태킹하는 것입니다.

다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

이제 이 인덱스를 제거하고 재설정하고 다른 것으로 변경하려면 어떻게 해야 합니까? 이 경우 해야 할 일은 gapminder_unpivot뿐입니다. 우리는 reset_index 로 갈 것입니다 . 우리는 그 자리를 다시 만들 것입니다 . 우리는 그 자체를 저장할 필요가 없습니다. 조금 더 효율적일 뿐입니다. 그런 다음 gapminder_unpivot.

그것을 인쇄하면 원래 데이터로 돌아가고 인덱스가 있습니다. Python은 0부터 시작하는 인덱싱이기 때문에 숫자 시작은 0입니다.

다단계 또는 계층적 데이터를 위한 Pandas의 MultiIndex

LuckyTemplates의 Python: LuckyTemplates 데이터 보고서에서 Python 스크립팅을 설치하고 설정하는 방법
Python 스크립팅을 사용하여 날짜 테이블을 만드는 LuckyTemplates 보고서

결론

Pandas는 처음에 패널 데이터의 이름을 따서 명명되었습니다. 이는 실제로 여러 범주가 있는 특정 유형의 시계열 데이터인 패널 데이터로 작업하기 위한 것입니다. 이 경우 계층 구조를 갖는 것이 정말 의미가 있습니다.

이것은 고유한 행으로 작업하고 여러 열을 찾으려고 할 때 정말 잘 작동합니다.

성능에 관한 한 병합하는 경우 인덱스가 필요하지 않을 수 있지만 여기에서는 병합하지 않았습니다. 우리는 단지 운영하고, 접근하고, 인덱싱하고, 재구성하는 등의 작업을 했을 뿐입니다. 그러나 코딩 효율성은 확실히 큰 이점입니다.

이것이 Pandas의 MultiIndex에 대한 모든 것입니다. 이것이 당신이 사용할 수있는 것이기를 바랍니다. 오늘 Pandas에 대해 조금 새로운 것을 배웠습니다.

모두 제일 좋다!

댓글 남기기

SharePoint의 계산된 열 | 개요

SharePoint의 계산된 열 | 개요

SharePoint에서 계산된 열의 중요성과 목록에서 자동 계산 및 데이터 수집을 수행하는 방법을 알아보세요.

Power Apps에서 변수 만들기: 컬렉션 작업

Power Apps에서 변수 만들기: 컬렉션 작업

컬렉션 변수를 사용하여 Power Apps에서 변수 만드는 방법 및 유용한 팁에 대해 알아보세요.

Microsoft Flow HTTP 트리거 | Power Automate 자습서

Microsoft Flow HTTP 트리거 | Power Automate 자습서

Microsoft Flow HTTP 트리거가 수행할 수 있는 작업과 Microsoft Power Automate의 예를 사용하여 이를 사용하는 방법을 알아보고 이해하십시오!

Power Automate 흐름: 사용법 및 유형 설명

Power Automate 흐름: 사용법 및 유형 설명

Power Automate 흐름 및 용도에 대해 자세히 알아보세요. 다양한 작업 및 시나리오에 사용할 수 있는 다양한 유형의 흐름에 대해 설명합니다.

흐름에서 Power Automate 종료 작업 제어

흐름에서 Power Automate 종료 작업 제어

조건이 충족되지 않는 경우 흐름에서 작업을 종료하는 Power Automate 종료 작업 컨트롤을 올바르게 사용하는 방법을 알아봅니다.

PowerApps 시작 기능: 앱에서 다른 서비스를 시작하는 방법

PowerApps 시작 기능: 앱에서 다른 서비스를 시작하는 방법

PowerApps 실행 기능에 대해 자세히 알아보고 자신의 앱에서 바로 웹사이트, 전화, 이메일 및 기타 앱과 같은 기타 서비스를 실행하십시오.

Power Automate의 HTTP 요청 – 소개

Power Automate의 HTTP 요청 – 소개

타사 애플리케이션 통합과 관련하여 Power Automate의 HTTP 요청이 작동하는 방식을 배우고 이해합니다.

Power Automate Desktop: 마우스 클릭 보내기 기능을 사용하는 방법

Power Automate Desktop: 마우스 클릭 보내기 기능을 사용하는 방법

Power Automate Desktop에서 Send Mouse Click을 사용하는 방법을 알아보고 이것이 어떤 이점을 제공하고 흐름 성능을 개선하는지 알아보십시오.

PowerApps 변수: 컨텍스트 및 전역 변수 식별

PowerApps 변수: 컨텍스트 및 전역 변수 식별

PowerApps 변수의 작동 방식, 다양한 종류, 각 변수가 앱에 기여할 수 있는 사항을 알아보세요.

Power Automate에서 실행할 데스크톱 흐름 예약

Power Automate에서 실행할 데스크톱 흐름 예약

이 자습서에서는 Power Automate를 사용하여 웹 또는 데스크톱에서 작업을 자동화하는 방법을 알려줍니다. 데스크톱 흐름 예약에 대한 포괄적인 가이드를 제공합니다.