Python Correlation: 비주얼 생성 가이드

Python Correlation: 비주얼 생성 가이드

오늘의 블로그에서는 Python 상관 관계를 시각화하는 과정 과 이러한 시각적 개체를 LuckyTemplates로 가져오는 방법을 살펴보겠습니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.

목차

상관 관계 이해

다음은 서로 다른 유형의 상관 관계를 보여주는 멋진 이미지입니다. 

Python Correlation: 비주얼 생성 가이드

왼쪽부터 시작하여 상관관계 값이 1이라는 것을 의미하는 완벽한 양의 상관관계가 있습니다 . 그런 다음 내림차순으로 0이 되는 양의 상관관계가 이어집니다. 

중간 그래프는 상관관계 값이 0임을 시사하는  상관관계가 없음을 보여줍니다.

마지막으로 오른쪽은 음의 상관 관계 값이 0에서 감소하는 것을 나타냅니다. 가장 오른쪽 그래프는 상관 값이 -1인 완벽한 음의 상관 관계 입니다.

Python 상관관계를 위한 패키지

이 자습서에서는 4개의 패키지를 사용할 것입니다. 첫 번째 패키지는 데이터 조작에 사용되는 Pandas 이며 변수 pd 로 저장됩니다 . 

시각화를 위해 이러한 기능을 더 쉽게 사용할 수 있도록 plt 변수 로 저장된 Matplotlib를 사용합니다 . 통계 시각화 라이브러리인 Seaborn은 sns 로 저장됩니다 . 그리고 마지막으로 np 로 저장되는 Numpy는 선형 대수에 사용됩니다. 

Python Correlation: 비주얼 생성 가이드

데이터의 경우 Seaborn의 샘플 데이터 세트를 사용합니다. 그런 다음 sns 변수를 사용하여 아래와 같이 다이아몬드 데이터셋을 가져옵니다 . .

Python Correlation: 비주얼 생성 가이드

데이터의 속성

dataset.info 함수를 사용하여 데이터의 속성을 볼 수 있습니다 . 이 함수는 아래 마지막 열에서 볼 수 있는 다양한 데이터 유형을 모두 보여줍니다.

Python Correlation: 비주얼 생성 가이드

상관관계는 숫자 변수에서만 작동하므로 대부분의 경우 숫자 변수를 살펴볼 것입니다. 그러나 시각화를 위해 일부 범주형 변수를 활용하는 방법도 배웁니다. 

Python 상관 데이터 세트

dataset.head 로 작성된 함수 head를 사용하여 다음과 같은 데이터의 상위 5개 행을 가져올 수 있습니다.

Python Correlation: 비주얼 생성 가이드

첫 번째 열에는 캐럿이 있고 그 뒤에 범주형 변수 cut , color선명도 , 나머지 데이터에 대한 숫자 값이 있습니다. 

Python 상관관계: 산점도 만들기

상관 관계를 시각화하고 두 변수를 볼 때 일반적으로 산점도를 봅니다 . 

따라서 Seaborn 라이브러리를 사용하여 위에서 data=dataset 로 저장한 데이터를 전달한 산점도 기능을 사용하여 산점도를 만들었습니다 . 그런 다음 X 및 Y 변수인 캐럿가격을 각각 확인했습니다. 

Python Correlation: 비주얼 생성 가이드

다음은 Seaborn 라이브러리로 만든 산점도입니다. 

Python Correlation: 비주얼 생성 가이드

이 산점도가 매우 조밀하다는 것을 알 수 있습니다. 약 54,000개의 데이터 행이 있고 포인트가 반드시 최상의 방식으로 표현되지는 않기 때문입니다.

Shift + Tab 키를 눌러 산점도의 스타일을 지정하는 다양한 방법을 볼 수 있습니다. 산점도에 추가할 수 있는 다양한 매개변수 목록이 표시됩니다. 

Python Correlation: 비주얼 생성 가이드

더 아래로 스크롤하면 나열된 각 매개변수가 수행하는 작업에 대한 정보를 얻을 수 있습니다. 

Python Correlation: 비주얼 생성 가이드

추가 산점도 매개변수

조금 더 다이빙합시다. 아래에 표시된 첫 번째 산점도의 흰색 선이 다소 모호하기 때문에  linewidth=0 으로 만들 수 있습니다 .

Python Correlation: 비주얼 생성 가이드

또한 불투명도를 제어할 수 있도록 알파를 조정하려고 합니다. 이 예에서는 alpha=0.2를 사용하겠습니다 . 하지만 물론 0.1로 변경할 수도 있습니다. 

Python Correlation: 비주얼 생성 가이드

이 매개변수를 추가하고 실행을 클릭하면 산점도가 흰색 선 없이 더 불투명해지는 것을 볼 수 있습니다. 

Python Correlation: 비주얼 생성 가이드

원하는 최상의 비주얼을 얻기 위해 매개변수를 가지고 놀 수 있습니다. 

범주형 변수 사용

또한 범주형 변수 중 일부를 활용하여 시각적 개체를 개선할 수 있습니다. 예를 들어 데이터에 다이아몬드  컷이 있다는 것을 알고 있습니다.

우리가 할 수 있는 것은 hue='cut' 과 같은 색조 매개변수를 사용하여 해당 컷 카테고리를 전달하는 것입니다 . 이렇게 하면 색상을 변경하여 이러한 점을 시각화할 수 있습니다. 

Python Correlation: 비주얼 생성 가이드

물론 예를 들어 알파와 같은 더 많은 매개변수를 추가할 수 있습니다. 다시 추가하고 0.2로 설정한 다음 시각적으로 어떻게 변경되는지 확인할 수 있습니다. 실행을 클릭하면 약간의 차이를 볼 수 있습니다. 

Python Correlation: 비주얼 생성 가이드

매개변수를 가지고 놀면서 원하는 비주얼을 얻을 수 있습니다. 또한 선명도와 같은 다른 범주를 사용할 수 있습니다. 이는 선명도 범주를 제공하고 해당 분산에 대해 약간 다른 보기를 제공합니다.

Python Correlation: 비주얼 생성 가이드

다른 변수와의 상관관계

가격과 캐럿 이외의 다른 값이 어떻게 연관되어 있는지에 대해서도 관심이 있을 수 있습니다. 따라서 다이아몬드와 깊이 의 수치 차원인  테이블 에 대한 산점도를 보면 일대일 선형 관계가 없음을 알 수 있습니다.

Python Correlation: 비주얼 생성 가이드

깊이가격 과 같은 두 가지 다른 변수도 살펴볼 수 있습니다 . 그래프를 기준으로 중앙 영역을 중심으로 데이터가 집중되어 있음을 알 수 있습니다.

Python Correlation: 비주얼 생성 가이드

파이썬 상관 관계: 회귀 도표 만들기

두 변수 사이의 선형 관계를 평가할 수 있는 회귀 도표라고 하는 것으로 진행하겠습니다. 

그래서 이번에는 산점도 기능 대신 regplot 기능을 사용하겠습니다. 동일한 구조, 즉 데이터를 전달한 다음 X 및 Y 변수를 전달합니다. 

Python Correlation: 비주얼 생성 가이드

결과는 변수 간의 선형 관계를 측정하는 선을 보여줍니다. 또한 우리의 가치가 회귀선 주위를 어떻게 돌고 있는지도 분명합니다.

Python Correlation: 비주얼 생성 가이드

이것은 현재 매우 아름다운 비주얼은 아니지만 더 나은 비주얼을 얻기 위해 여전히 최적화할 수 있습니다. 예를 들어 Matplotlib 변수를 사용하여 스타일을 전달할 수 있습니다. plt.style.use('dark_background') 코드를 사용하여 스타일을 어두운 배경으로 변경할 수 있습니다 . 

Python Correlation: 비주얼 생성 가이드

동일한 회귀 도표를 사용하여 산란 및 선에 대한 몇 가지 키워드를 전달하십시오. 회귀선에 빨간색과 선 너비 1을 사용하겠습니다. 이는 line_kws={“color” : “red”, 'linewidth' : 1)로 작성됩니다. 

산란 키워드의 경우 색상을 흰색으로, 가장자리 색상을 회색으로, 불투명도를 0.4로 설정하여 scatter_kws={“color” : “white”, 'edgecolor' : 'grey', 'alpha' : 0.4로 작성하겠습니다. ). 

Python Correlation: 비주얼 생성 가이드

이러한 매개변수는 아래와 같이 약간 다른 보기를 제공합니다. 

Python Correlation: 비주얼 생성 가이드

파이썬 상관관계: 상관관계 매트릭스 만들기

지금까지 살펴본 것은 변수가 두 개뿐인 산점도이지만 모든 변수 상관관계도 살펴보고자 할 수 있습니다.

이는 dataset.corr로 표시되는 상관관계라는 데이터 프레임 함수가 있는 데이터세트를 사용하여 수행됩니다. 그리고 우리가 얻게 될 것은 각 변수에 대한 상관 관계를 보여주는 행렬입니다. 

Python Correlation: 비주얼 생성 가이드

위 표의 숫자는 이러한 모든 변수 간의 선형 관계에 초점을 맞춘  Pearson 상관 관계를 나타냅니다.

그러나 변수가 완전히 선형적으로 상관되어 있는지 확실하지 않은 경우 선형 부분보다 영향에 더 중점을 둔 다른 유형의 상관 관계를 사용할 수 있습니다. 이를 Spearman 상관관계 라고 합니다 . 

Python Correlation: 비주얼 생성 가이드

Shift + Tab을 누르면 이러한 모든 정보를 볼 수 있습니다. 아래로 스크롤하면 Spearman 순위 상관 관계, Pearson 상관 계수 및 데이터를 측정하는 다양한 방법을 볼 수 있습니다. 

Python Correlation: 비주얼 생성 가이드

이전의 상관 관계 매트릭스를 다시 살펴보면 가격과 캐럿이 꽤 잘 연관되어 있음을 알 수 있습니다.

Python Correlation: 비주얼 생성 가이드

그것들은 0.92에서 상당히 선형임을 보여주는 우리의 플롯에서 나온 것입니다. 

Python Correlation: 비주얼 생성 가이드

이제 Spearman 상관 관계를 대신 사용하면 영향 또는 순위가 0.96으로 조금 더 높아질 것입니다.

Python Correlation: 비주얼 생성 가이드

이러한 서로 다른 유형의 상관 관계를 통해 해당 변수 간의 서로 다른 상관 관계 속성을 선택할 수 있습니다. 

다중 x 단일 변수 상관관계

때때로 우리 는 모든 변수와 하나의 변수(예: 가격)의 상관관계에 더 관심이 있기 때문에 행렬을 보고 싶지 않습니다 .

그러면 우리가 할 수 있는 것은 dataset.corr 다음에 'price' 를 사용하여 가격을 분리하는 것입니다 . 

Python Correlation: 비주얼 생성 가이드

이제 가격이 이 표의 모든 다른 수치 변수와 상관관계가 있음을 알 수 있습니다. 그리고 우리가 이것을 하기를 원하는 이유는 시각적 플롯 때문입니다. 

히트맵으로 상관관계 매트릭스를 시각화하는 방법을 살펴보겠습니다.

Python 상관 관계: 열 지도 만들기

이 상관관계 변수를 sns.heatmap 함수를 사용하여 Seaborn 열 지도 에 전달할 수 있습니다 .

Python Correlation: 비주얼 생성 가이드

이렇게 하면 다음과 같은 열 지도가 표시됩니다.

Python Correlation: 비주얼 생성 가이드

다시 한 번 기본 설정에 매개변수를 추가할 수 있습니다. linewidths=1 매개변수를 전달 하고 annot=True 를 사용하여 주석을 추가 할 수 있습니다 . 

Python Correlation: 비주얼 생성 가이드

이제 히트맵이 상당히 달라진 것을 볼 수 있습니다. 지금 우리는 꽤 멋진 히트 맵을 가지고 있습니다. 

Python Correlation: 비주얼 생성 가이드

행과 주석을 추가하는 것이 유용하다는 것을 알 수 있습니다. 다시 Shift + Tab을 누르면 들어갈 수 있는 모든 다른 매개변수가 표시됩니다. 

다음으로 코드에  method='spearman '을 추가해 보십시오 . 그러면 사용 사례에 따라 다른 유형의 상관 관계를 사용하는 방법을 알 수 있습니다.

Python Correlation: 비주얼 생성 가이드

하나의 변수가 있는 열 지도

다음으로, 하나의 변수를 분리하고 상관관계가 음수에서 양수로 바뀌는 히트 맵을 만듭니다.

Python Correlation: 비주얼 생성 가이드

그러면 아래의 히트 맵이 제공됩니다.

Python Correlation: 비주얼 생성 가이드

스타일도 확실히 바꿀 수 있습니다. 예를 들어 cmap 매개변수를 cmap='coolwarm' 으로 사용할 수 있습니다 . 이렇게 하면 색상이 차갑고 따뜻해지며 검정색 배경도 제거됩니다. 

Python Correlation: 비주얼 생성 가이드

Run 을 클릭하면 아래와 같은 히트 맵이 표시됩니다. 시원함을 위해 파란색 막대가 있고 따뜻함을 위해 빨간색 막대가 있습니다. 

Python Correlation: 비주얼 생성 가이드

지도를 색상 막대에 맞추기 위해 방향을 변경할 수도 있습니다. 이는 sort_values ​​매개변수를 편집하고 ascending=False 를 추가하여 수행됩니다 . 

Python Correlation: 비주얼 생성 가이드

이것은 가장 상관관계가 높은 것(빨간색 막대)에서 가장 낮은 상관관계가 있는 것(파란색 막대)으로 이동합니다. 

Python Correlation: 비주얼 생성 가이드

Python 상관관계: 계단 비주얼 만들기

상관 관계를 시각화하는 고급 방법 중 하나는 마스크를 사용하여 이미 수행한 모든 상관 관계를 차단하는 것입니다. 

Numpy로 이 작업을 수행할 수 있습니다. 몇 가지 TRUE 및 FALSE 함수를 사용하여 상관 관계에 대한 계단을 시각적으로 표시할 수 있습니다. 

Python Correlation: 비주얼 생성 가이드

결과는 다음과 같습니다.

Python Correlation: 비주얼 생성 가이드

이를 LuckyTemplates로 파이프하는 방법을 살펴보겠습니다.

LuckyTemplates의 계단 시각적 개체

먼저 LuckyTemplates를 엽니다. 다른 비주얼을 볼 수 있도록 아보카도 데이터 세트를 가져왔습니다. 필드 창에서 이 데이터 세트를 볼 수 있습니다. 시각화 창에서  Python 아이콘을 클릭하여 Python 시각적 개체 를 초기화합니다 .

Python Correlation: 비주얼 생성 가이드

? 로 표시된 모든 숫자 변수를 추가하여 데이터 세트를 생성해야 합니다. . 이러한 변수 옆에 있는 확인란을 클릭하여 추가합니다. 

Python Correlation: 비주얼 생성 가이드

이제 데이터 세트가 있으므로 Jupyter 노트북으로 이동하여 이전에 있던 이 코드를 복사할 수 있습니다.

Python Correlation: 비주얼 생성 가이드

그런 다음 코드를 LuckyTemplates의 Python 스크립트 편집기에 복사합니다. 

Python Correlation: 비주얼 생성 가이드

다음으로 계단 비주얼이 될 비주얼을 선택합니다. Jupyter로 돌아가 계단 비주얼에 사용한 코드를 복사합니다.

Python Correlation: 비주얼 생성 가이드

코드를 Python 스크립트 편집기에 붙여넣습니다.

Python Correlation: 비주얼 생성 가이드

마지막으로 할 일은 Python 스크립트에 필요한 plt.show 를 사용하고 있는지 확인하는 것입니다. 코드의 마지막 줄에 plt.show를 추가하고 스크립트 편집기의 오른쪽 상단 모서리에 있는 실행 아이콘을 클릭합니다.

Python Correlation: 비주얼 생성 가이드

더 큰 시각 효과를 위해 상자를 약간 늘려 모서리에서 실행 중인 스크립트를 볼 수 있습니다. 우리는 열 지도에 대한 시각 자료를 가지고 있는데 꽤 멋져 보입니다.

Python Correlation: 비주얼 생성 가이드

그리고 LuckyTemplates에서는 데이터 세트에 따라 시각적 개체가 어떻게 변경될 수 있는지 확실히 확인할 수 있습니다. 예를 들어 시각화 창에서 슬라이서 아이콘을 클릭하고 필드 창에서  유형 으로 이동할 수 있습니다.

데이터 세트에서 일반유기의 두 가지 유형을 제공합니다 . 한 유형, 예를 들어 organic 을 클릭하면 히트맵이 변경되는 것을 볼 수 있습니다. 

Python Correlation: 비주얼 생성 가이드

다음에 기존 유형을 클릭해도 변경 사항이 적용됩니다 .

Python Correlation: 비주얼 생성 가이드

이러한 필터를 작동시키려면 Python 스크립트 의 데이터 세트에 범주형 변수가 있어야 한다는 점을 기억하십시오 . 보시다시피 우리가 생성한 데이터 세트에는 유형이 포함되어 있어 해당 방식으로 시각적 개체를 필터링할 수 있습니다. 

Python Correlation: 비주얼 생성 가이드


LuckyTemplates에서 데이터 모델 관계 구축
Python의 텍스트 분석 | LuckyTemplates 데이터 보고서의 Python 스크립팅 소개

결론

이 블로그에서는 Pearson 상관 관계 및 Spearman 순위 상관 관계와 같은 다양한 방법을 사용하여 Python 및 LuckyTemplates에서 상관 관계를 시각화하는 방법을 배웠습니다. 

이제 산점도, 회귀 도표, 상관관계 매트릭스, 히트 맵 및 계단형 시각적 개체를 생성하여 데이터 세트에 대한 최상의 시각적 개체를 얻을 수 있습니다. 또한 다양한 매개변수를 사용하여 스타일과 시각적 요소를 개선할 수 있습니다. 

모두 제일 좋다,


파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

파이썬에서 자기란 무엇인가: 실제 사례

R에서 RDS 파일을 저장하고 로드하는 방법

R에서 RDS 파일을 저장하고 로드하는 방법

R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

첫 N 영업일 재방문 – DAX 코딩 언어 솔루션

이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

LuckyTemplates에서 다중 스레드 동적 시각적 개체 기술을 사용한 인사이트 쇼케이스

이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.

LuckyTemplates의 컨텍스트 필터링 소개

LuckyTemplates의 컨텍스트 필터링 소개

이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates 온라인 서비스에서 앱을 사용하기 위한 최고의 팁

LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

시간 경과에 따른 이익 마진 변화 분석 - LuckyTemplates 및 DAX를 사용한 분석

LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

DAX Studio의 데이터 캐시에 대한 구체화 아이디어

이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.

LuckyTemplates를 사용한 비즈니스 보고

LuckyTemplates를 사용한 비즈니스 보고

지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것

LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것