SharePoint의 계산된 열 | 개요
SharePoint에서 계산된 열의 중요성과 목록에서 자동 계산 및 데이터 수집을 수행하는 방법을 알아보세요.
이 블로그에서는 경험적 누적 분포 함수 또는 ECDF 플롯이라고도 하는 누적 분포도를 사용하는 방법을 보여주고 다른 플롯 유형에 비해 이 플롯 변형을 사용하는 이점을 보여줍니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다 .
대부분의 사람들은 모든 데이터 포인트를 직접 플로팅할 때 데이터를 시각화하기 위해 보다 ECDF 플롯을 선호하며 , 이 기능을 사용하면 사용자가 플롯과 쉽게 상호 작용할 수 있습니다. 오늘은 Python 및 LuckyTemplates에서 ECDF를 사용하는 방법과 데이터 배포에 대한 프레젠테이션 및 보고서를 개선하는 방법을 배웁니다.
목차
분포도의 종류
특정 날짜인 토요일에 내 데이터를 필터링하는 것으로 시작하겠습니다. 분포를 설명하는 데 사용되는 모든 Python 플롯을 아래에서 볼 수 있습니다. 여기에 ECDF 플롯, 히스토그램, KDE 플롯 및 상자 플롯이 있습니다.
이 모든 플롯은 데이터가 분산되거나 분산되는 방식을 설명합니다. 예를 들어 아래로 내려가 히스토그램을 보면 이러한 높은 빈의 대부분이 데이터가 있는 위치에 있음을 알 수 있습니다.
약 $3.50에 아래 데이터 세트에서 팁 데이터 에 대한 가장 높은 저장소가 있습니다 .
분포를 볼 때 다른 메트릭을 제공하는 KDE 플롯을 사용할 수도 있습니다. KDE가 밀도를 처리하는 동안 히스토그램은 이러한 저장소에 있을 개수를 처리합니다.
KDE 플롯을 사용하면 원하는 경우 플롯에서 가장 큰 밀도 또는 가장 높은 팽창을 발견하여 대부분의 데이터가 어디에 있는지 알 수 있습니다. 따라서 위의 이미지에서 $2에서 $4 사이 어딘가에 분포되어 있다고 말할 수 있습니다.
분포가 $2에서 $4임을 보여주는 박스 플롯에서도 마찬가지이며 여기에 대부분의 데이터가 있습니다. 상자를 나누는 수평선인 중앙값을 사용하여 가장 큰 분포가 어디에 있는지 알 수 있습니다.
그런 다음 y축 왼쪽에 있는 ECDF 플롯에서 백분위수를 나타내는 Proportion 이라는 단어를 볼 수 있습니다. 플롯을 기반으로 $3.50에서 우리는 데이터의 약 50%를 보고 있고 $5 이하에서는 데이터의 80%가 분포되어 있습니다.
히스토그램 플롯 코드
이제 히스토그램부터 시작하여 각 플롯에 대한 코드를 보여드리겠습니다. 그들은 모두 매우 유사하고 반복 가능한 코딩을 가지고 있으므로 템플릿과 같은 하나의 코드를 사용하여 신속하게 가져올 수 있습니다.
먼저 Seaborn을 가져와서 sb 로 저장 한 다음 matplotlib.pyplot을 plt 로 저장 해야 합니다 . ggplot 이라는 배경 스타일 과 해당 matplotlib 변수를 사용하여 다양한 스타일을 전달할 것입니다.
예를 들어 아래 이미지에서 11번째 줄에 다음 줄에 히스토그램 및 눈금 크기에 대한 제목을 추가하고 있음을 알 수 있습니다. yticks 및 xticks는 그에 따라 x 및 y 크기를 나타냅니다.
14번째 줄에서 Seaborn 변수를 사용하여 히스토그램 플롯을 나타내는 위 예의 histplot 과 같은 특정 플롯을 가져오는 함수를 전달합니다 . 그런 다음 네 번째 줄의 데이터를 데이터 세트로 함수에 전달합니다.
값으로 가져오는 모든 항목은 데이터 세트를 나타내며 중복 항목을 삭제합니다. 그런 다음 팁에 x를 사용 하고 seaborn과 함께 데이터를 범주별로 구분할 수 있는 색조 를 사용 합니다. 시각적 개체로 돌아가면 the, time 또는 smoker를 포함한 범주가 있음을 알 수 있습니다.
KDE 플롯
KDE 플롯의 경우 모든 것이 거의 동일합니다. 음영 처리된 모양을 갖기 위해 shade라는 새 매개변수를 전달하기만 하면 됩니다. 그 외에 색상, 데이터, 나머지는 동일합니다.
박스 플롯을 사용하면 몇 가지 사소한 차이점을 제외하고는 대부분 다른 플롯과 유사합니다. 여기서 x 는 날짜이고 y 는 팁인 boxplot 함수를 사용합니다 . 또한 이 플롯에는 색조를 사용하지 않습니다 .
따라서 이것은 ECDF 플롯과 동일한 구조이며 유일한 차이점은 Seaborn 변수에 있습니다. 여기서 ECDF 플롯을 전달하고 색조를 요일로 사용합니다. 하지만 그 색조를 흡연자와 같은 다른 범주로 변경할 수도 있습니다.
이 범주를 전달하면 두 개의 다른 선이 있는 ECDF 플롯으로 끝납니다. 이 분포에서 우리는 흡연자들이 우리의 특정 라인 너비에 대해 더 많은 것을 가지고 있음을 볼 수 있습니다.
비흡연자는 100%의 데이터가 6달러 미만인 반면 흡연자는 6달러입니다. 흥미롭게도 우리 흡연자들은 특정일에 더 많은 팁을 남길 수 있습니다.
ECDF 플롯 스타일 지정
이제 ECDF 플롯의 스타일을 추가로 지정하여 더 보기 쉽게 만들 수 있습니다. 아래 이미지에는 다양한 ECDF 플롯이 있습니다. 첫 번째 플롯에서는 선을 더 크게 만들고 다른 색상 팔레트를 사용했습니다.
첫 번째 플롯에서는 함수 내부에 다른 매개변수를 사용했습니다. 아래에서 볼 수 있듯이 팔레트에서 여름 으로 , 선 너비를 5로 전달했습니다.
나는 또한 토요일과 일요일을 비교했는데, 이것이 두 개의 다른 녹색 선이 있는 이유입니다. 여기서 우리는 $3 팁이 일요일에 45번째 백분위수에 있고 목요일에 70번째 백분위수에 있음을 알 수 있습니다. 이는 사람들이 일요일에 더 높은 팁을 남기는 경향이 있음을 알려줍니다.
또한 아래 이미지와 같이 X축과 Y축을 전환하고, 플롯 내에서 비율과 팁을 바꾸고, 팔레트를 변경할 수 있습니다.
여기에서 $2 팁이 일요일의 20번째 백분위수에 있음을 볼 수 있습니다. 플롯의 보라색 선입니다. 따라서 데이터는 이전 ECDF 플롯과 동일하며 프레젠테이션만 다릅니다.
이제 동일한 데이터 세트가 있는 또 다른 플롯이 있으며 위 이미지에 표시된 대로 원래 축 위치를 유지합니다. 이번에 차이점은 선의 방향이 반전된다는 것입니다.
ECDF 플롯 스타일
코드를 보면 보완적인 equals = true 매개변수를 전달하기만 하면 됩니다. 이 작업을 통해 $2 범위 아래에 데이터의 20%가 분산되어 있다고 말하는 대신 $2 범위 이상이 데이터의 80%가 분산되어 있다고 말할 수 있습니다. 다시 말하지만, 모양이나 표시 방식이 다른 동일한 데이터입니다.
네 번째이자 마지막 ECDF 플롯에서는 비율 대신 개수를 사용하고 있습니다 .
이 접근 방식은 플롯이 몇 개 이상일 때 유용합니다. 아래 이미지의 카운트 열을 보면 금요일에 관찰이 많지 않다는 것을 알 수 있습니다. 이는 사람들이 그날 팁을 많이 남기지 않는다는 것을 알려줍니다.
ECDF 플롯 코드 필수 사항
코드를 보면 이 특정 플롯을 생성하는 데 중요한 Seaborn을 찾을 수 있습니다. 스타일 지정을 위한 matplotlib.pyplot 도 있으며 plt 라는 변수로 저장할 수 있습니다 .
그런 다음 해당 변수를 사용하여 제목 및 글꼴 크기 추가와 같은 특정 플롯에 대한 다양한 스타일을 만들 수 있습니다. 코드의 주요 부분은 Seaborn과 함께 제공되는 ECDF 플롯 기능입니다.
R 스크립트의 산점도:
Python 사용자 정의 함수를 만들고 가져오는 방법 | R의 GGPLOT2 개요 : ESQUISSE를 사용한 시각화
결론
히스토그램, KDE, Box 및 ECDF 플롯을 포함하여 다양한 분포도를 사용할 수 있는 방법이었습니다. 또한 동일한 데이터 세트를 사용하여 ECDF 플롯을 표시하는 네 가지 방법을 배웠습니다. 선호도에 따라 모든 접근 방식을 사용할 수 있습니다.
플롯을 생성하고 올바른 기능을 사용하는 데 필요한 라이브러리를 가져오는 것을 항상 기억하십시오. 그 후에는 축 위치 및 색상과 같은 플롯의 시각적 및 문체 측면을 변경하기만 하면 됩니다.
모두 제일 좋다,
SharePoint에서 계산된 열의 중요성과 목록에서 자동 계산 및 데이터 수집을 수행하는 방법을 알아보세요.
컬렉션 변수를 사용하여 Power Apps에서 변수 만드는 방법 및 유용한 팁에 대해 알아보세요.
Microsoft Flow HTTP 트리거가 수행할 수 있는 작업과 Microsoft Power Automate의 예를 사용하여 이를 사용하는 방법을 알아보고 이해하십시오!
Power Automate 흐름 및 용도에 대해 자세히 알아보세요. 다양한 작업 및 시나리오에 사용할 수 있는 다양한 유형의 흐름에 대해 설명합니다.
조건이 충족되지 않는 경우 흐름에서 작업을 종료하는 Power Automate 종료 작업 컨트롤을 올바르게 사용하는 방법을 알아봅니다.
PowerApps 실행 기능에 대해 자세히 알아보고 자신의 앱에서 바로 웹사이트, 전화, 이메일 및 기타 앱과 같은 기타 서비스를 실행하십시오.
타사 애플리케이션 통합과 관련하여 Power Automate의 HTTP 요청이 작동하는 방식을 배우고 이해합니다.
Power Automate Desktop에서 Send Mouse Click을 사용하는 방법을 알아보고 이것이 어떤 이점을 제공하고 흐름 성능을 개선하는지 알아보십시오.
PowerApps 변수의 작동 방식, 다양한 종류, 각 변수가 앱에 기여할 수 있는 사항을 알아보세요.
이 자습서에서는 Power Automate를 사용하여 웹 또는 데스크톱에서 작업을 자동화하는 방법을 알려줍니다. 데스크톱 흐름 예약에 대한 포괄적인 가이드를 제공합니다.