파이썬에서 자기란 무엇인가: 실제 사례
파이썬에서 자기란 무엇인가: 실제 사례
이 블로그에서는 경험적 누적 분포 함수 또는 ECDF 플롯이라고도 하는 누적 분포도를 사용하는 방법을 보여주고 다른 플롯 유형에 비해 이 플롯 변형을 사용하는 이점을 보여줍니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다 .
대부분의 사람들은 모든 데이터 포인트를 직접 플로팅할 때 데이터를 시각화하기 위해 보다 ECDF 플롯을 선호하며 , 이 기능을 사용하면 사용자가 플롯과 쉽게 상호 작용할 수 있습니다. 오늘은 Python 및 LuckyTemplates에서 ECDF를 사용하는 방법과 데이터 배포에 대한 프레젠테이션 및 보고서를 개선하는 방법을 배웁니다.
목차
분포도의 종류
특정 날짜인 토요일에 내 데이터를 필터링하는 것으로 시작하겠습니다. 분포를 설명하는 데 사용되는 모든 Python 플롯을 아래에서 볼 수 있습니다. 여기에 ECDF 플롯, 히스토그램, KDE 플롯 및 상자 플롯이 있습니다.
이 모든 플롯은 데이터가 분산되거나 분산되는 방식을 설명합니다. 예를 들어 아래로 내려가 히스토그램을 보면 이러한 높은 빈의 대부분이 데이터가 있는 위치에 있음을 알 수 있습니다.
약 $3.50에 아래 데이터 세트에서 팁 데이터 에 대한 가장 높은 저장소가 있습니다 .
분포를 볼 때 다른 메트릭을 제공하는 KDE 플롯을 사용할 수도 있습니다. KDE가 밀도를 처리하는 동안 히스토그램은 이러한 저장소에 있을 개수를 처리합니다.
KDE 플롯을 사용하면 원하는 경우 플롯에서 가장 큰 밀도 또는 가장 높은 팽창을 발견하여 대부분의 데이터가 어디에 있는지 알 수 있습니다. 따라서 위의 이미지에서 $2에서 $4 사이 어딘가에 분포되어 있다고 말할 수 있습니다.
분포가 $2에서 $4임을 보여주는 박스 플롯에서도 마찬가지이며 여기에 대부분의 데이터가 있습니다. 상자를 나누는 수평선인 중앙값을 사용하여 가장 큰 분포가 어디에 있는지 알 수 있습니다.
그런 다음 y축 왼쪽에 있는 ECDF 플롯에서 백분위수를 나타내는 Proportion 이라는 단어를 볼 수 있습니다. 플롯을 기반으로 $3.50에서 우리는 데이터의 약 50%를 보고 있고 $5 이하에서는 데이터의 80%가 분포되어 있습니다.
히스토그램 플롯 코드
이제 히스토그램부터 시작하여 각 플롯에 대한 코드를 보여드리겠습니다. 그들은 모두 매우 유사하고 반복 가능한 코딩을 가지고 있으므로 템플릿과 같은 하나의 코드를 사용하여 신속하게 가져올 수 있습니다.
먼저 Seaborn을 가져와서 sb 로 저장 한 다음 matplotlib.pyplot을 plt 로 저장 해야 합니다 . ggplot 이라는 배경 스타일 과 해당 matplotlib 변수를 사용하여 다양한 스타일을 전달할 것입니다.
예를 들어 아래 이미지에서 11번째 줄에 다음 줄에 히스토그램 및 눈금 크기에 대한 제목을 추가하고 있음을 알 수 있습니다. yticks 및 xticks는 그에 따라 x 및 y 크기를 나타냅니다.
14번째 줄에서 Seaborn 변수를 사용하여 히스토그램 플롯을 나타내는 위 예의 histplot 과 같은 특정 플롯을 가져오는 함수를 전달합니다 . 그런 다음 네 번째 줄의 데이터를 데이터 세트로 함수에 전달합니다.
값으로 가져오는 모든 항목은 데이터 세트를 나타내며 중복 항목을 삭제합니다. 그런 다음 팁에 x를 사용 하고 seaborn과 함께 데이터를 범주별로 구분할 수 있는 색조 를 사용 합니다. 시각적 개체로 돌아가면 the, time 또는 smoker를 포함한 범주가 있음을 알 수 있습니다.
KDE 플롯
KDE 플롯의 경우 모든 것이 거의 동일합니다. 음영 처리된 모양을 갖기 위해 shade라는 새 매개변수를 전달하기만 하면 됩니다. 그 외에 색상, 데이터, 나머지는 동일합니다.
박스 플롯을 사용하면 몇 가지 사소한 차이점을 제외하고는 대부분 다른 플롯과 유사합니다. 여기서 x 는 날짜이고 y 는 팁인 boxplot 함수를 사용합니다 . 또한 이 플롯에는 색조를 사용하지 않습니다 .
따라서 이것은 ECDF 플롯과 동일한 구조이며 유일한 차이점은 Seaborn 변수에 있습니다. 여기서 ECDF 플롯을 전달하고 색조를 요일로 사용합니다. 하지만 그 색조를 흡연자와 같은 다른 범주로 변경할 수도 있습니다.
이 범주를 전달하면 두 개의 다른 선이 있는 ECDF 플롯으로 끝납니다. 이 분포에서 우리는 흡연자들이 우리의 특정 라인 너비에 대해 더 많은 것을 가지고 있음을 볼 수 있습니다.
비흡연자는 100%의 데이터가 6달러 미만인 반면 흡연자는 6달러입니다. 흥미롭게도 우리 흡연자들은 특정일에 더 많은 팁을 남길 수 있습니다.
ECDF 플롯 스타일 지정
이제 ECDF 플롯의 스타일을 추가로 지정하여 더 보기 쉽게 만들 수 있습니다. 아래 이미지에는 다양한 ECDF 플롯이 있습니다. 첫 번째 플롯에서는 선을 더 크게 만들고 다른 색상 팔레트를 사용했습니다.
첫 번째 플롯에서는 함수 내부에 다른 매개변수를 사용했습니다. 아래에서 볼 수 있듯이 팔레트에서 여름 으로 , 선 너비를 5로 전달했습니다.
나는 또한 토요일과 일요일을 비교했는데, 이것이 두 개의 다른 녹색 선이 있는 이유입니다. 여기서 우리는 $3 팁이 일요일에 45번째 백분위수에 있고 목요일에 70번째 백분위수에 있음을 알 수 있습니다. 이는 사람들이 일요일에 더 높은 팁을 남기는 경향이 있음을 알려줍니다.
또한 아래 이미지와 같이 X축과 Y축을 전환하고, 플롯 내에서 비율과 팁을 바꾸고, 팔레트를 변경할 수 있습니다.
여기에서 $2 팁이 일요일의 20번째 백분위수에 있음을 볼 수 있습니다. 플롯의 보라색 선입니다. 따라서 데이터는 이전 ECDF 플롯과 동일하며 프레젠테이션만 다릅니다.
이제 동일한 데이터 세트가 있는 또 다른 플롯이 있으며 위 이미지에 표시된 대로 원래 축 위치를 유지합니다. 이번에 차이점은 선의 방향이 반전된다는 것입니다.
ECDF 플롯 스타일
코드를 보면 보완적인 equals = true 매개변수를 전달하기만 하면 됩니다. 이 작업을 통해 $2 범위 아래에 데이터의 20%가 분산되어 있다고 말하는 대신 $2 범위 이상이 데이터의 80%가 분산되어 있다고 말할 수 있습니다. 다시 말하지만, 모양이나 표시 방식이 다른 동일한 데이터입니다.
네 번째이자 마지막 ECDF 플롯에서는 비율 대신 개수를 사용하고 있습니다 .
이 접근 방식은 플롯이 몇 개 이상일 때 유용합니다. 아래 이미지의 카운트 열을 보면 금요일에 관찰이 많지 않다는 것을 알 수 있습니다. 이는 사람들이 그날 팁을 많이 남기지 않는다는 것을 알려줍니다.
ECDF 플롯 코드 필수 사항
코드를 보면 이 특정 플롯을 생성하는 데 중요한 Seaborn을 찾을 수 있습니다. 스타일 지정을 위한 matplotlib.pyplot 도 있으며 plt 라는 변수로 저장할 수 있습니다 .
그런 다음 해당 변수를 사용하여 제목 및 글꼴 크기 추가와 같은 특정 플롯에 대한 다양한 스타일을 만들 수 있습니다. 코드의 주요 부분은 Seaborn과 함께 제공되는 ECDF 플롯 기능입니다.
R 스크립트의 산점도:
Python 사용자 정의 함수를 만들고 가져오는 방법 | R의 GGPLOT2 개요 : ESQUISSE를 사용한 시각화
결론
히스토그램, KDE, Box 및 ECDF 플롯을 포함하여 다양한 분포도를 사용할 수 있는 방법이었습니다. 또한 동일한 데이터 세트를 사용하여 ECDF 플롯을 표시하는 네 가지 방법을 배웠습니다. 선호도에 따라 모든 접근 방식을 사용할 수 있습니다.
플롯을 생성하고 올바른 기능을 사용하는 데 필요한 라이브러리를 가져오는 것을 항상 기억하십시오. 그 후에는 축 위치 및 색상과 같은 플롯의 시각적 및 문체 측면을 변경하기만 하면 됩니다.
모두 제일 좋다,
파이썬에서 자기란 무엇인가: 실제 사례
R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.
이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.
이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.
이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.
LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.
LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.
이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.
지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.
LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것