파이썬에서 자기란 무엇인가: 실제 사례
파이썬에서 자기란 무엇인가: 실제 사례
오늘의 블로그에서는 Python 상관 관계를 시각화하는 과정 과 이러한 시각적 개체를 LuckyTemplates로 가져오는 방법을 살펴보겠습니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다.
목차
상관 관계 이해
다음은 서로 다른 유형의 상관 관계를 보여주는 멋진 이미지입니다.
왼쪽부터 시작하여 상관관계 값이 1이라는 것을 의미하는 완벽한 양의 상관관계가 있습니다 . 그런 다음 내림차순으로 0이 되는 양의 상관관계가 이어집니다.
중간 그래프는 상관관계 값이 0임을 시사하는 상관관계가 없음을 보여줍니다.
마지막으로 오른쪽은 음의 상관 관계 값이 0에서 감소하는 것을 나타냅니다. 가장 오른쪽 그래프는 상관 값이 -1인 완벽한 음의 상관 관계 입니다.
Python 상관관계를 위한 패키지
이 자습서에서는 4개의 패키지를 사용할 것입니다. 첫 번째 패키지는 데이터 조작에 사용되는 Pandas 이며 변수 pd 로 저장됩니다 .
시각화를 위해 이러한 기능을 더 쉽게 사용할 수 있도록 plt 변수 로 저장된 Matplotlib를 사용합니다 . 통계 시각화 라이브러리인 Seaborn은 sns 로 저장됩니다 . 그리고 마지막으로 np 로 저장되는 Numpy는 선형 대수에 사용됩니다.
데이터의 경우 Seaborn의 샘플 데이터 세트를 사용합니다. 그런 다음 sns 변수를 사용하여 아래와 같이 다이아몬드 데이터셋을 가져옵니다 . .
데이터의 속성
dataset.info 함수를 사용하여 데이터의 속성을 볼 수 있습니다 . 이 함수는 아래 마지막 열에서 볼 수 있는 다양한 데이터 유형을 모두 보여줍니다.
상관관계는 숫자 변수에서만 작동하므로 대부분의 경우 숫자 변수를 살펴볼 것입니다. 그러나 시각화를 위해 일부 범주형 변수를 활용하는 방법도 배웁니다.
Python 상관 데이터 세트
dataset.head 로 작성된 함수 head를 사용하여 다음과 같은 데이터의 상위 5개 행을 가져올 수 있습니다.
첫 번째 열에는 캐럿이 있고 그 뒤에 범주형 변수 cut , color 및 선명도 , 나머지 데이터에 대한 숫자 값이 있습니다.
Python 상관관계: 산점도 만들기
상관 관계를 시각화하고 두 변수를 볼 때 일반적으로 산점도를 봅니다 .
따라서 Seaborn 라이브러리를 사용하여 위에서 data=dataset 로 저장한 데이터를 전달한 산점도 기능을 사용하여 산점도를 만들었습니다 . 그런 다음 X 및 Y 변수인 캐럿 및 가격을 각각 확인했습니다.
다음은 Seaborn 라이브러리로 만든 산점도입니다.
이 산점도가 매우 조밀하다는 것을 알 수 있습니다. 약 54,000개의 데이터 행이 있고 포인트가 반드시 최상의 방식으로 표현되지는 않기 때문입니다.
Shift + Tab 키를 눌러 산점도의 스타일을 지정하는 다양한 방법을 볼 수 있습니다. 산점도에 추가할 수 있는 다양한 매개변수 목록이 표시됩니다.
더 아래로 스크롤하면 나열된 각 매개변수가 수행하는 작업에 대한 정보를 얻을 수 있습니다.
추가 산점도 매개변수
조금 더 다이빙합시다. 아래에 표시된 첫 번째 산점도의 흰색 선이 다소 모호하기 때문에 linewidth=0 으로 만들 수 있습니다 .
또한 불투명도를 제어할 수 있도록 알파를 조정하려고 합니다. 이 예에서는 alpha=0.2를 사용하겠습니다 . 하지만 물론 0.1로 변경할 수도 있습니다.
이 매개변수를 추가하고 실행을 클릭하면 산점도가 흰색 선 없이 더 불투명해지는 것을 볼 수 있습니다.
원하는 최상의 비주얼을 얻기 위해 매개변수를 가지고 놀 수 있습니다.
범주형 변수 사용
또한 범주형 변수 중 일부를 활용하여 시각적 개체를 개선할 수 있습니다. 예를 들어 데이터에 다이아몬드 컷이 있다는 것을 알고 있습니다.
우리가 할 수 있는 것은 hue='cut' 과 같은 색조 매개변수를 사용하여 해당 컷 카테고리를 전달하는 것입니다 . 이렇게 하면 색상을 변경하여 이러한 점을 시각화할 수 있습니다.
물론 예를 들어 알파와 같은 더 많은 매개변수를 추가할 수 있습니다. 다시 추가하고 0.2로 설정한 다음 시각적으로 어떻게 변경되는지 확인할 수 있습니다. 실행을 클릭하면 약간의 차이를 볼 수 있습니다.
매개변수를 가지고 놀면서 원하는 비주얼을 얻을 수 있습니다. 또한 선명도와 같은 다른 범주를 사용할 수 있습니다. 이는 선명도 범주를 제공하고 해당 분산에 대해 약간 다른 보기를 제공합니다.
다른 변수와의 상관관계
가격과 캐럿 이외의 다른 값이 어떻게 연관되어 있는지에 대해서도 관심이 있을 수 있습니다. 따라서 다이아몬드와 깊이 의 수치 차원인 테이블 에 대한 산점도를 보면 일대일 선형 관계가 없음을 알 수 있습니다.
깊이 및 가격 과 같은 두 가지 다른 변수도 살펴볼 수 있습니다 . 그래프를 기준으로 중앙 영역을 중심으로 데이터가 집중되어 있음을 알 수 있습니다.
파이썬 상관 관계: 회귀 도표 만들기
두 변수 사이의 선형 관계를 평가할 수 있는 회귀 도표라고 하는 것으로 진행하겠습니다.
그래서 이번에는 산점도 기능 대신 regplot 기능을 사용하겠습니다. 동일한 구조, 즉 데이터를 전달한 다음 X 및 Y 변수를 전달합니다.
결과는 변수 간의 선형 관계를 측정하는 선을 보여줍니다. 또한 우리의 가치가 회귀선 주위를 어떻게 돌고 있는지도 분명합니다.
이것은 현재 매우 아름다운 비주얼은 아니지만 더 나은 비주얼을 얻기 위해 여전히 최적화할 수 있습니다. 예를 들어 Matplotlib 변수를 사용하여 스타일을 전달할 수 있습니다. plt.style.use('dark_background') 코드를 사용하여 스타일을 어두운 배경으로 변경할 수 있습니다 .
동일한 회귀 도표를 사용하여 산란 및 선에 대한 몇 가지 키워드를 전달하십시오. 회귀선에 빨간색과 선 너비 1을 사용하겠습니다. 이는 line_kws={“color” : “red”, 'linewidth' : 1)로 작성됩니다.
산란 키워드의 경우 색상을 흰색으로, 가장자리 색상을 회색으로, 불투명도를 0.4로 설정하여 scatter_kws={“color” : “white”, 'edgecolor' : 'grey', 'alpha' : 0.4로 작성하겠습니다. ).
이러한 매개변수는 아래와 같이 약간 다른 보기를 제공합니다.
파이썬 상관관계: 상관관계 매트릭스 만들기
지금까지 살펴본 것은 변수가 두 개뿐인 산점도이지만 모든 변수 상관관계도 살펴보고자 할 수 있습니다.
이는 dataset.corr로 표시되는 상관관계라는 데이터 프레임 함수가 있는 데이터세트를 사용하여 수행됩니다. 그리고 우리가 얻게 될 것은 각 변수에 대한 상관 관계를 보여주는 행렬입니다.
위 표의 숫자는 이러한 모든 변수 간의 선형 관계에 초점을 맞춘 Pearson 상관 관계를 나타냅니다.
그러나 변수가 완전히 선형적으로 상관되어 있는지 확실하지 않은 경우 선형 부분보다 영향에 더 중점을 둔 다른 유형의 상관 관계를 사용할 수 있습니다. 이를 Spearman 상관관계 라고 합니다 .
Shift + Tab을 누르면 이러한 모든 정보를 볼 수 있습니다. 아래로 스크롤하면 Spearman 순위 상관 관계, Pearson 상관 계수 및 데이터를 측정하는 다양한 방법을 볼 수 있습니다.
이전의 상관 관계 매트릭스를 다시 살펴보면 가격과 캐럿이 꽤 잘 연관되어 있음을 알 수 있습니다.
그것들은 0.92에서 상당히 선형임을 보여주는 우리의 플롯에서 나온 것입니다.
이제 Spearman 상관 관계를 대신 사용하면 영향 또는 순위가 0.96으로 조금 더 높아질 것입니다.
이러한 서로 다른 유형의 상관 관계를 통해 해당 변수 간의 서로 다른 상관 관계 속성을 선택할 수 있습니다.
다중 x 단일 변수 상관관계
때때로 우리 는 모든 변수와 하나의 변수(예: 가격)의 상관관계에 더 관심이 있기 때문에 행렬을 보고 싶지 않습니다 .
그러면 우리가 할 수 있는 것은 dataset.corr 다음에 'price' 를 사용하여 가격을 분리하는 것입니다 .
이제 가격이 이 표의 모든 다른 수치 변수와 상관관계가 있음을 알 수 있습니다. 그리고 우리가 이것을 하기를 원하는 이유는 시각적 플롯 때문입니다.
히트맵으로 상관관계 매트릭스를 시각화하는 방법을 살펴보겠습니다.
Python 상관 관계: 열 지도 만들기
이 상관관계 변수를 sns.heatmap 함수를 사용하여 Seaborn 열 지도 에 전달할 수 있습니다 .
이렇게 하면 다음과 같은 열 지도가 표시됩니다.
다시 한 번 기본 설정에 매개변수를 추가할 수 있습니다. linewidths=1 매개변수를 전달 하고 annot=True 를 사용하여 주석을 추가 할 수 있습니다 .
이제 히트맵이 상당히 달라진 것을 볼 수 있습니다. 지금 우리는 꽤 멋진 히트 맵을 가지고 있습니다.
행과 주석을 추가하는 것이 유용하다는 것을 알 수 있습니다. 다시 Shift + Tab을 누르면 들어갈 수 있는 모든 다른 매개변수가 표시됩니다.
다음으로 코드에 method='spearman '을 추가해 보십시오 . 그러면 사용 사례에 따라 다른 유형의 상관 관계를 사용하는 방법을 알 수 있습니다.
하나의 변수가 있는 열 지도
다음으로, 하나의 변수를 분리하고 상관관계가 음수에서 양수로 바뀌는 히트 맵을 만듭니다.
그러면 아래의 히트 맵이 제공됩니다.
스타일도 확실히 바꿀 수 있습니다. 예를 들어 cmap 매개변수를 cmap='coolwarm' 으로 사용할 수 있습니다 . 이렇게 하면 색상이 차갑고 따뜻해지며 검정색 배경도 제거됩니다.
Run 을 클릭하면 아래와 같은 히트 맵이 표시됩니다. 시원함을 위해 파란색 막대가 있고 따뜻함을 위해 빨간색 막대가 있습니다.
지도를 색상 막대에 맞추기 위해 방향을 변경할 수도 있습니다. 이는 sort_values 매개변수를 편집하고 ascending=False 를 추가하여 수행됩니다 .
이것은 가장 상관관계가 높은 것(빨간색 막대)에서 가장 낮은 상관관계가 있는 것(파란색 막대)으로 이동합니다.
Python 상관관계: 계단 비주얼 만들기
상관 관계를 시각화하는 고급 방법 중 하나는 마스크를 사용하여 이미 수행한 모든 상관 관계를 차단하는 것입니다.
Numpy로 이 작업을 수행할 수 있습니다. 몇 가지 TRUE 및 FALSE 함수를 사용하여 상관 관계에 대한 계단을 시각적으로 표시할 수 있습니다.
결과는 다음과 같습니다.
이를 LuckyTemplates로 파이프하는 방법을 살펴보겠습니다.
LuckyTemplates의 계단 시각적 개체
먼저 LuckyTemplates를 엽니다. 다른 비주얼을 볼 수 있도록 아보카도 데이터 세트를 가져왔습니다. 필드 창에서 이 데이터 세트를 볼 수 있습니다. 시각화 창에서 Python 아이콘을 클릭하여 Python 시각적 개체 를 초기화합니다 .
? 로 표시된 모든 숫자 변수를 추가하여 데이터 세트를 생성해야 합니다. . 이러한 변수 옆에 있는 확인란을 클릭하여 추가합니다.
이제 데이터 세트가 있으므로 Jupyter 노트북으로 이동하여 이전에 있던 이 코드를 복사할 수 있습니다.
그런 다음 코드를 LuckyTemplates의 Python 스크립트 편집기에 복사합니다.
다음으로 계단 비주얼이 될 비주얼을 선택합니다. Jupyter로 돌아가 계단 비주얼에 사용한 코드를 복사합니다.
코드를 Python 스크립트 편집기에 붙여넣습니다.
마지막으로 할 일은 Python 스크립트에 필요한 plt.show 를 사용하고 있는지 확인하는 것입니다. 코드의 마지막 줄에 plt.show를 추가하고 스크립트 편집기의 오른쪽 상단 모서리에 있는 실행 아이콘을 클릭합니다.
더 큰 시각 효과를 위해 상자를 약간 늘려 모서리에서 실행 중인 스크립트를 볼 수 있습니다. 우리는 열 지도에 대한 시각 자료를 가지고 있는데 꽤 멋져 보입니다.
그리고 LuckyTemplates에서는 데이터 세트에 따라 시각적 개체가 어떻게 변경될 수 있는지 확실히 확인할 수 있습니다. 예를 들어 시각화 창에서 슬라이서 아이콘을 클릭하고 필드 창에서 유형 으로 이동할 수 있습니다.
데이터 세트에서 일반 및 유기의 두 가지 유형을 제공합니다 . 한 유형, 예를 들어 organic 을 클릭하면 히트맵이 변경되는 것을 볼 수 있습니다.
다음에 기존 유형을 클릭해도 변경 사항이 적용됩니다 .
이러한 필터를 작동시키려면 Python 스크립트 의 데이터 세트에 범주형 변수가 있어야 한다는 점을 기억하십시오 . 보시다시피 우리가 생성한 데이터 세트에는 유형이 포함되어 있어 해당 방식으로 시각적 개체를 필터링할 수 있습니다.
LuckyTemplates에서 데이터 모델 관계 구축
Python의 텍스트 분석 | LuckyTemplates 데이터 보고서의 Python 스크립팅 소개
결론
이 블로그에서는 Pearson 상관 관계 및 Spearman 순위 상관 관계와 같은 다양한 방법을 사용하여 Python 및 LuckyTemplates에서 상관 관계를 시각화하는 방법을 배웠습니다.
이제 산점도, 회귀 도표, 상관관계 매트릭스, 히트 맵 및 계단형 시각적 개체를 생성하여 데이터 세트에 대한 최상의 시각적 개체를 얻을 수 있습니다. 또한 다양한 매개변수를 사용하여 스타일과 시각적 요소를 개선할 수 있습니다.
모두 제일 좋다,
파이썬에서 자기란 무엇인가: 실제 사례
R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.
이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.
이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.
이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.
LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.
LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.
이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.
지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.
LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것