파이썬에서 자기란 무엇인가: 실제 사례
파이썬에서 자기란 무엇인가: 실제 사례
여러 변수로 구성된 데이터 세트로 작업할 때 이러한 변수가 서로 어떻게 다르고 상호 작용하는지 이해할 수 있는 것이 가장 좋습니다. 이 튜토리얼에서는 Python에서 Seaborn 함수를 사용하여 변수 분포에 대한 대안을 시각화하는 방법을 보여드리겠습니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.
목차
Python에서 Seaborn 함수 사용
Seaborn 내에서 사용할 수 있는 MPG 데이터 세트에서 이를 시연하겠습니다. 이제 필요한 모든 패키지와 필요한 데이터를 가져오겠습니다. 여기에서 MPG 변수의 분포와 변수가 어떻게 다른지 살펴보겠습니다. 이를 수행하는 두 가지 일반적인 방법은 히스토그램 과 상자 그림 입니다 .
그래서 displot 기능(배포용 DIS)을 사용하겠습니다 . 그런 다음 데이터 세트가 무엇인지, X축에 놓을 변수는 무엇인지 지정해야 합니다. 그리고 그것으로 우리는 분포를 가지고 있습니다.
이것은 꽤 좋습니다. 이것은 전체 분포와 모양을 매우 쉽게 볼 수 있습니다. 하지만 이러한 배포 시각화에는 몇 가지 단점이 있습니다. 하나는 우리가 사용하고 있는 빈의 수가 거의 임의적이라는 것입니다. 또 다른 것은 변수의 평균이 무엇인지 즉시 알 수는 없다는 것입니다.
Seaborn의 좋은 점은 내가 원하는 변수, 위치, 사용 중인 데이터 세트를 설정하면 새로운 시각화를 만드는 데 정말 플러그 앤 처그가 된다는 것입니다. 이제 우리는 boxplot으로 갈 것입니다. Boxplot은 빈을 사용하지 않습니다.
여기서 아이디어는 사분위수 값, 구체적으로 중앙값을 명확하게 볼 수 있고 다른 사분위수 값도 볼 수 있다는 것입니다. 이상치(outlier)가 있고 이것은 매우 정확한 도표입니다. 문제 상자 그림은 일반적으로 많은 비즈니스 사용자가 신경 쓰지 않는 항목이 정확하다는 것입니다.
따라서 이 플롯은 통계가 아닌 사람들이 실제로 많은 가치를 얻기에는 약간 어렵습니다. 그리고 다시 데이터를 집계하므로 많은 세부 정보가 손실됩니다. 이것이 어떻게 생겼는지 정확히 알기는 어렵습니다. 이상값이 있음을 알 수 있습니다. 대부분의 값이 여기에 있음을 알 수 있습니다. 히스토그램은 이를 보다 직관적으로 볼 수 있는 방법을 제공합니다.
둘 다 좋은 플롯입니다. 둘 다 목적이 있습니다. Seaborn을 사용하여 시각화하는 몇 가지 대안을 살펴보겠습니다. 우리는 해당 변수의 분포를 위해 MPG를 고수할 것입니다.
boxplot과 유사하게 여기에서 중앙값이 명확하게 표시된 것을 볼 수 있습니다. 사분위수 범위도 볼 수 있으며 전체 분포가 무엇인지 더 잘 볼 수 있습니다. 이것은 히스토그램과도 비슷합니다. 커널 밀도 추정 플롯 또는 KDE 플롯이라고 합니다. 히스토그램의 부드러운 버전입니다. 임의의 비닝을 사용하지 않습니다. 여기에서는 모든 것이 연속 범위로 평활화됩니다.
이것은 이 두 가지 접근 방식의 일종의 하이브리드이며 실제로 일부 단점을 처리합니다. 그러나 청중에 따라 이것을 보는 데 정말 어려움을 겪을 수 있습니다. 그들은 그것에 익숙하지 않을 수 있지만 전통적인 접근 방식에 몇 가지 이점이 있습니다.
이 접근 방식에서는 더 이상 데이터를 집계하지 않습니다. 모든 개별 포인트가 플롯됩니다. 이것은 산점도의 요소를 취합니다. 맞습니까? 산점도에 대해 생각해 보면 X 및 Y 좌표에 모든 개별 지점을 표시합니다.
마지막으로 stripplot 이 있습니다 . 여기서 우리가 하고 있는 것은 그 분포를 취하고 무작위로 분산시키는 것입니다. 이것은 무작위 과정입니다. 우리는 더 이상 그러한 분포 형태를 만들려고 하지 않습니다. 이것의 문제는 이 모든 덩어리가 서로 부딪히게 되므로 수행하려는 작업에 따라 좋지 않을 수 있다는 것입니다. 어쩌면 그룹별로 색상을 지정하고 싶을 수도 있으므로 이에 대한 옵션이 있습니다.
지터를 .25로 변경하고 지터를 높이면 이 지점이 조금 더 퍼지는 것을 볼 수 있습니다.
그러나 실행할 때마다 조금씩 다르게 보일 것입니다. 따라서 이를 제거하고 매번 동일하게 만들고 싶다면 numpy를 np로 가져올 수 있습니다 . 이것이 하는 일은 랜덤 시드를 설정하는 것입니다.
난수와 관련된 것을 실행할 때마다 동일한 난수를 사용하게 됩니다. 다시 실행할 때 상황이 임의로 변경되지 않습니다. 이것은 여러분이 하고 있는 모든 종류의 시뮬레이션에 유용할 수 있습니다. 이러한 시각화는 데이터 과학 및 분석에서도 많이 발생합니다. 이제 이 플롯을 실행할 때마다 동일한 모양을 얻게 됩니다.
여기에 Y 원점을 추가할 수도 있습니다. 이제 우리는 이중 변형 분포를 만들고 있음을 알 수 있습니다. 우리는 마일리지 분배를 취하여 원산지별로 분류하고 있습니다.
LuckyTemplates에서 Python 스크립트를 사용하는 방법
LuckyTemplates 데이터에서 Python 스크립팅
ProfileReport()를 사용하여 Pandas의 데이터 세트 보고 | LuckyTemplates의 파이썬
결론
이들은 한 변수의 분포를 시각화하는 대안입니다. 그들은 모두 장단점이 있습니다. boxplot이나 히스토그램을 사용하지 말라는 말이 아니라 표시하려는 내용에 따라 다른 옵션이 있다는 뜻입니다.
Python에서 Seaborn 함수를 사용할 때 다른 것만큼 쉽게 만들 수 있습니다. Python 에 대해 더 알고 싶다면 아래 링크를 확인하십시오.
모두 제일 좋다!
파이썬에서 자기란 무엇인가: 실제 사례
R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.
이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.
이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.
이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.
LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.
LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.
이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.
지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.
LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것