변수의 분포를 시각화하는 Python의 Seaborn 함수

변수의 분포를 시각화하는 Python의 Seaborn 함수

여러 변수로 구성된 데이터 세트로 작업할 때 이러한 변수가 서로 어떻게 다르고 상호 작용하는지 이해할 수 있는 것이 가장 좋습니다. 이 튜토리얼에서는 Python에서 Seaborn 함수를 사용하여 변수 분포에 대한 대안을 시각화하는 방법을 보여드리겠습니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.

목차

Python에서 Seaborn 함수 사용

Seaborn 내에서 사용할 수 있는 MPG 데이터 세트에서 이를 시연하겠습니다. 이제 필요한 모든 패키지와 필요한 데이터를 가져오겠습니다. 여기에서 MPG 변수의 분포와 변수가 어떻게 다른지 살펴보겠습니다. 이를 수행하는 두 가지 일반적인 방법은 히스토그램상자 그림 입니다 .

변수의 분포를 시각화하는 Python의 Seaborn 함수

그래서 displot 기능(배포용 DIS)을 사용하겠습니다 . 그런 다음 데이터 세트가 무엇인지, X축에 놓을 변수는 무엇인지 지정해야 합니다. 그리고 그것으로 우리는 분포를 가지고 있습니다.

이것은 꽤 좋습니다. 이것은 전체 분포와 모양을 매우 쉽게 볼 수 있습니다. 하지만 이러한 배포 시각화에는 몇 가지 단점이 있습니다. 하나는 우리가 사용하고 있는 빈의 수가 거의 임의적이라는 것입니다. 또 다른 것은 변수의 평균이 무엇인지 즉시 알 수는 없다는 것입니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수

Seaborn의 좋은 점은 내가 원하는 변수, 위치, 사용 중인 데이터 세트를 설정하면 새로운 시각화를 만드는 데 정말 플러그 앤 처그가 된다는 것입니다. 이제 우리는 boxplot으로 갈 것입니다. Boxplot은 빈을 사용하지 않습니다.

여기서 아이디어는 사분위수 값, 구체적으로 중앙값을 명확하게 볼 수 있고 다른 사분위수 값도 볼 수 있다는 것입니다. 이상치(outlier)가 있고 이것은 매우 정확한 도표입니다. 문제 상자 그림은 일반적으로 많은 비즈니스 사용자가 신경 쓰지 않는 항목이 정확하다는 것입니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수

따라서 이 플롯은 통계가 아닌 사람들이 실제로 많은 가치를 얻기에는 약간 어렵습니다. 그리고 다시 데이터를 집계하므로 많은 세부 정보가 손실됩니다. 이것이 어떻게 생겼는지 정확히 알기는 어렵습니다. 이상값이 있음을 알 수 있습니다. 대부분의 값이 여기에 있음을 알 수 있습니다. 히스토그램은 이를 보다 직관적으로 볼 수 있는 방법을 제공합니다.

둘 다 좋은 플롯입니다. 둘 다 목적이 있습니다. Seaborn을 사용하여 시각화하는 몇 가지 대안을 살펴보겠습니다. 우리는 해당 변수의 분포를 위해 MPG를 고수할 것입니다.

boxplot과 유사하게 여기에서 중앙값이 명확하게 표시된 것을 볼 수 있습니다. 사분위수 범위도 볼 수 있으며 전체 분포가 무엇인지 더 잘 볼 수 있습니다. 이것은 히스토그램과도 비슷합니다. 커널 밀도 추정 플롯 또는 KDE 플롯이라고 합니다. 히스토그램의 부드러운 버전입니다. 임의의 비닝을 사용하지 않습니다. 여기에서는 모든 것이 연속 범위로 평활화됩니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수

이것은 이 두 가지 접근 방식의 일종의 하이브리드이며 실제로 일부 단점을 처리합니다. 그러나 청중에 따라 이것을 보는 데 정말 어려움을 겪을 수 있습니다. 그들은 그것에 익숙하지 않을 수 있지만 전통적인 접근 방식에 몇 가지 이점이 있습니다.

이 접근 방식에서는 더 이상 데이터를 집계하지 않습니다. 모든 개별 포인트가 플롯됩니다. 이것은 산점도의 요소를 취합니다. 맞습니까? 산점도에 대해 생각해 보면 X 및 Y 좌표에 모든 개별 지점을 표시합니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수

마지막으로 stripplot 이 있습니다 . 여기서 우리가 하고 있는 것은 그 분포를 취하고 무작위로 분산시키는 것입니다. 이것은 무작위 과정입니다. 우리는 더 이상 그러한 분포 형태를 만들려고 하지 않습니다. 이것의 문제는 이 모든 덩어리가 서로 부딪히게 되므로 수행하려는 작업에 따라 좋지 않을 수 있다는 것입니다. 어쩌면 그룹별로 색상을 지정하고 싶을 수도 있으므로 이에 대한 옵션이 있습니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수

지터를 .25로 변경하고 지터를 높이면 이 지점이 조금 더 퍼지는 것을 볼 수 있습니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수

그러나 실행할 때마다 조금씩 다르게 보일 것입니다. 따라서 이를 제거하고 매번 동일하게 만들고 싶다면 numpy를 np로 가져올 수 있습니다 . 이것이 하는 일은 랜덤 시드를 설정하는 것입니다.

난수와 관련된 것을 실행할 때마다 동일한 난수를 사용하게 됩니다. 다시 실행할 때 상황이 임의로 변경되지 않습니다. 이것은 여러분이 하고 있는 모든 종류의 시뮬레이션에 유용할 수 있습니다. 이러한 시각화는 데이터 과학 및 분석에서도 많이 발생합니다. 이제 이 플롯을 실행할 때마다 동일한 모양을 얻게 됩니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수

여기에 Y 원점을 추가할 수도 있습니다. 이제 우리는 이중 변형 분포를 만들고 있음을 알 수 있습니다. 우리는 마일리지 분배를 취하여 원산지별로 분류하고 있습니다.

변수의 분포를 시각화하는 Python의 Seaborn 함수


LuckyTemplates에서 Python 스크립트를 사용하는 방법
LuckyTemplates 데이터에서 Python 스크립팅
ProfileReport()를 사용하여 Pandas의 데이터 세트 보고 | LuckyTemplates의 파이썬

결론

이들은 한 변수의 분포를 시각화하는 대안입니다. 그들은 모두 장단점이 있습니다. boxplot이나 히스토그램을 사용하지 말라는 말이 아니라 표시하려는 내용에 따라 다른 옵션이 있다는 뜻입니다.

Python에서 Seaborn 함수를 사용할 때 다른 것만큼 쉽게 만들 수 있습니다. Python 에 대해 더 알고 싶다면 아래 링크를 확인하십시오.

모두 제일 좋다!


파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

R에서 RDS 파일을 저장하고 로드하는 방법

R에서 RDS 파일을 저장하고 로드하는 방법

R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.

LuckyTemplates의 컨텍스트 필터링 소개

LuckyTemplates의 컨텍스트 필터링 소개

이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.

LuckyTemplates를 사용한 비즈니스 보고

LuckyTemplates를 사용한 비즈니스 보고

지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것