Python의 선형 회귀

데이터 분석에서 주요 영향 요인은 종속 변수에 상당한 영향을 미치는 변수입니다. 즉, 관심의 결과에 가장 크게 기여하는 요소들이다. Python에서 선형 회귀는 데이터 세트에서 주요 영향 요인을 식별하고 서로 다른 변수 간의 관계의 강도와 방향을 측정하는 데 사용됩니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다 .

주요 영향 요인을 식별하면 데이터 세트의 기본 관계를 이해하고 향후 결과를 예측하는 데 유용할 수 있습니다.

Python 라이브러리는 회귀 분석을 수행하고 데이터 세트에서 주요 영향 요인을 식별하기 위한 다양한 도구와 기능을 제공합니다.

선형 회귀 모델 사용
핵심 인플루언서 비주얼에 다양한 모델 사용
선형 회귀 분석의 정확도 테스트
결론

선형 회귀 모델 사용

이 기사에서는 선형 회귀 모델을 사용하여 일부 LuckyTemplates 주요 영향력 요인을 모방하는 방법을 보여줍니다 . 우리의 목표는 모든 변수를 사용하여 다른 변수에서 변경되는 사항을 설명하는 것입니다.

LuckyTemplates 주요 영향력 요인은 선형 회귀 모델입니다. 후드 아래에 무엇이 있는지 정확히 알지 못하더라도 종종 이것을 사용합니다. 이 자습서에서는 이를 사용하여 보험료에 기여하는 요인을 식별합니다.

Python의 선형 회귀

보험료의 데이터 세트를 살펴보겠습니다. 나는 이것을 흡연자 상태, 성별, 지역, 어린이, BMI 및 연령으로 설명하고 싶습니다.

Python의 선형 회귀

현재 주요 영향력 요인은 가장 영향력 있는 변수를 보여줍니다. 흡연자가 '예'인 경우 평균 요금은 흡연자의 다른 모든 값에 비해 $23,615 단위 더 높습니다.

훌륭한 비주얼이지만 충전에 영향을 미칠 수 있는 다른 변수를 제공하지 않습니다.

Python의 선형 회귀

드롭다운을 증가 에서 감소 로 변경하여 자세히 살펴 보겠습니다 .

이번에는 그 반대입니다. 흡연자가 아닌 경우 평균 요금은 흡연자의 다른 모든 가치에 비해 $23,615 단위 더 낮습니다.

Python의 선형 회귀

보시다시피 이것은 일부 Python 코드를 사용하여 빌드하고 최소한의 조건부 서식 으로 LuckyTemplates에 파이프한 선형 회귀 모델입니다 .

코딩 측면에서 우리는 이를 완벽하게 제어할 수 있으며 주요 인플루언서 시각적 개체에 대한 대안 또는 보완으로 이것을 어떻게 구축했는지 확인할 수 있습니다.

Python의 선형 회귀

Jupiter Notebook으로 넘어갑시다. 더 나은 이해를 위해 이러한 부분을 부분적으로 설명하겠습니다.

Python의 선형 회귀

사용된 Python 라이브러리

첫 번째 부분은 사용하려는 모든 라이브러리를 로드한 곳입니다. 라이브러리에 익숙하지 않은 경우 라이브러리는 개발자가 우리를 위해 구축한 코드 및 기능 모음입니다.

데이터 조작 라이브러리인 pd로 pandas를 가져오고 선형 계산 및 조건문을 수행할 수 있도록 np로 numpy를 가져왔습니다 .

사용 모델

제가 사용한 모델에 대해 이야기해 봅시다. 인 sklearn.linear_model을 가져와 선형 회귀 모델을 사용했습니다. 필요한 경우를 대비하여 데이터를 확장할 수 있는 sklearn.preprocessing import StandardScaler 도 가져왔습니다.

내가 사용하는 또 다른 모델은 xgboost import XGBRegressor 입니다 . 결정 트리 및 기타 유용한 측면이 있는 회귀 모델입니다.

또한 훈련 세트와 학습 세트 간에 데이터를 분할할 수 있기를 원하기 때문에 train_set_split 도 사용했습니다. 기계 학습에서는 알고리즘이 예측을 수행하기 전에 학습할 훈련 데이터 세트가 필요합니다.

또한 모델을 결정하기 위해 mean_squared_error를 가져왔고 시각적인 작업을 수행하려는 경우 matplotlib.pyplot 라이브러리를 가져왔습니다.

다 쓰지는 않겠지만 도움이 될 것 같아서 다 넣었습니다.

Python의 선형 회귀

사용된 데이터 세트

다음으로 데이터 세트를 간단히 살펴보겠습니다. df = pd.read_csv 함수를 사용하여 보험 데이터 세트를 가져온 다음 df1 = pd.get_dummies(df, drop_first = True)를 사용하여 데이터를 더미 변수로 변환했습니다 .

Python의 선형 회귀

이렇게 하려면 키보드에서 Esc + B를 눌러 새 셀을 만든 다음 df.head를 입력하여 데이터를 평가합니다.

연령, 성별, BMI, 어린이, 흡연자, 지역 및 종속 변수로 예측하려는 요금이 있습니다. 머신 러닝을 위해 준비되지 않은 데이터입니다.

기계 학습에서는 여성, 남성, 남서부 및 북서부와 같은 범주형 변수를 사용할 수 없습니다. 따라서 일반적인 회귀 모델인 경우 가장 먼저 해야 할 일은 범주형 변수를 수치 입력으로 변환하는 것입니다.

Python의 선형 회귀

이를 위해 pd.get_dummies 함수를 사용한 다음 df.head 를 df1.head 로 변경하여 숫자 열로 변경했습니다 . 실행 버튼을 클릭하여 어떻게 보이는지 살펴보겠습니다.

Python의 선형 회귀

이제 sex_male , smoker_yes , region_northwest 등과 같은 새로운 열 모음을 볼 수 있습니다 . 알고리즘은 1 이면 예를 의미하고 0은 아니오를 의미한다는 것을 자동으로 알고 있습니다.

모델을 지나치게 복잡하게 만들고 싶지 않기 때문에 sex_female 및 region_northeast 가 없습니다 . drop_first = True 함수를 사용하여 삭제했습니다 .

내가 한 다음 작업은 LinearRegression 함수를 가져와 변수 모델에 저장한 것입니다.

또한 Y 변수를 예측하기 위해 X 및 Y 변수를 만든 다음 이전에 사용한 것과 동일한 데이터 세트를 사용하여 예측 변수에 대한 다른 모든 열을 가져왔습니다.

Python의 선형 회귀

X 변수의 경우 df1.drop('charges', axis=1)을 사용하여 전하를 제거했습니다. 반면에 Y 변수에 대한 요금이 필요하므로 df1['charges'] 에 입력합니다 .

아래 함수로 train_test_split 함수 를 사용하여 X와 Y 모두에 대한 학습 및 테스트 세트를 생성 하고 X 및 Y 변수에 전달했습니다.

또한 훈련 데이터를 모델에 맞추기 위해 model.fit을 사용했습니다. 이것은 선형 회귀 모델이 훈련 데이터를 학습한다는 것을 의미합니다.

Python의 선형 회귀

이번에는 예측 변수를 살펴보겠습니다. 우리가 이것을 보는 방식은 계수를 통해서입니다. 계수는 이러한 각 기능 또는 변수가 요금에 미치는 영향을 설명하기 때문입니다.

또한 smoker_yes 에 대한 계수의 수는 주요 영향 요인 및 모델에 대한 수와 비교할 경우 매우 가깝습니다.

기능과 계수가 있는 테이블을 만들기 위해 pd.DataFrame을 사용하여 계수를 테이블로 가져오고 시각적 개체를 만들었습니다.

Python의 선형 회귀

핵심 인플루언서 비주얼에 다양한 모델 사용

또한 다른 모델을 사용하여 XGB.Regressor를 가져와 핵심 영향력 요인을 얻는 것이 좋습니다 .

모델을 나타낼 때는 단순한 선형 회귀일 뿐입니다. 하지만 XGB.Regressor를 가져왔을 때 모델을 최적화하는 데 사용할 수 있는 많은 매개변수가 있습니다.

Python의 선형 회귀

또한 아래 데이터 프레임을 만들 때 이러한 기능을 복제했습니다. 이러한 계수는 선형 회귀에서 본 것과 매우 다릅니다.

Python의 선형 회귀

이 표에서는 숫자가 정확합니다. 예를 들어 흡연자인 경우 요금이 $23,787 증가합니다. 자녀가 한 명인 경우 $472 등으로 인상될 것입니다.

Python의 선형 회귀

이러한 인플루언서는 선형 회귀 테이블에 있는 것을 반영하기 때문에 중요합니다. 약간 다르지만 이 인플루언서가 하나로 합쳐지기 때문에 매우 가깝습니다. 이것은 인플루언서를 보는 다른 방식일 뿐입니다.

Python의 선형 회귀

선형 회귀 분석의 정확도 테스트

그런 다음 모델의 정확도를 확인하고 싶기 때문에 y_pred = model.predict (X_test) 를 사용했습니다 . 그것은 5885.7에 의해 벗어났다는 예측을 내놓았습니다.

이것은 데이터의 테스트 세트일 뿐이며 예측이 좋은지 나쁜지 여전히 평가해야 합니다. 우리는 핵심 인플루언서에게만 집중하고 있기 때문에 지금 당장은 그렇게 하지 않을 것입니다.

Python의 선형 회귀

LuckyTemplates로 돌아가서 이것을 매우 쉽게 넣는 방법을 보여 드리겠습니다. 기능과 인플루언서를 볼 수 있는 별도의 테이블입니다.

Python의 선형 회귀

데이터 변환 으로 이동하여 수행했습니다 .

Python의 선형 회귀

그런 다음 데이터 세트를 복제하고 이 테이블을 만들 수 있었습니다. 적용된 단계 로 이동하여 Python 코드를 보고 사용한 변수를 검토 할 수도 있습니다 .

Python의 선형 회귀

Python 스크립트를 두 번 클릭하여 엽니다 .

Python의 선형 회귀

우리는 도서관을 가져 왔습니다. 우리는 그것을 0과 1에 불과한 기계 학습, 사전 처리 데이터 세트로 변환했습니다.

또한 회귀 모델을 가져와 데이터에 맞게 X와 Y를 만든 다음 테이블을 출력으로 저장했습니다. 모델이 충분히 좋기 때문에 훈련 테스트 세트를 사용하지 않았습니다.

내가 한 또 다른 작업은 쓰기가 더 쉽기 때문에 데이터 세트를 df 로 전환하는 것입니다. 데이터 세트는 원래 데이터의 변수입니다.

이 테이블을 사용하여 출력으로 저장했기 때문에 이러한 계수가 있습니다.

Python의 선형 회귀

이를 시각적으로 표시하려면 닫기 및 적용 을 클릭하십시오 .

Python의 선형 회귀

이제 막대 그래프가 생겼습니다 . 또한 긍정과 부정을 보여주기 위해 조건부 서식을 사용했습니다.

Python의 선형 회귀

LuckyTemplates에서 DAX Studio 및 테이블 형식 편집기를 설치하는 방법
LuckyTemplates에서 쿼리 설정 구성
쿼리 편집기를 통해 DAX Studio LuckyTemplates 매개 변수

결론

결론적으로 주요 영향 요인을 이해하고 Python에서 선형 회귀를 구현하는 것은 데이터 분석 및 예측을 위한 강력한 도구가 될 수 있습니다.

종속 변수에 영향을 미치는 핵심 요소를 식별하고 선형 회귀를 사용하여 관계를 모델링함으로써 미래 결과를 더 잘 이해하고 예측할 수 있습니다 .

Python의 강력한 라이브러리를 사용하면 선형 회귀를 쉽게 구현 하고 데이터에서 의미 있는 통찰력을 추출할 수 있습니다.

모두 제일 좋다,

SharePoint의 계산된 열 | 개요

SharePoint에서 계산된 열의 중요성과 목록에서 자동 계산 및 데이터 수집을 수행하는 방법을 알아보세요.

Power Apps에서 변수 만들기: 컬렉션 작업

컬렉션 변수를 사용하여 Power Apps에서 변수 만드는 방법 및 유용한 팁에 대해 알아보세요.

Microsoft Flow HTTP 트리거 | Power Automate 자습서

Microsoft Flow HTTP 트리거가 수행할 수 있는 작업과 Microsoft Power Automate의 예를 사용하여 이를 사용하는 방법을 알아보고 이해하십시오!

Power Automate 흐름: 사용법 및 유형 설명

Power Automate 흐름 및 용도에 대해 자세히 알아보세요. 다양한 작업 및 시나리오에 사용할 수 있는 다양한 유형의 흐름에 대해 설명합니다.

흐름에서 Power Automate 종료 작업 제어

조건이 충족되지 않는 경우 흐름에서 작업을 종료하는 Power Automate 종료 작업 컨트롤을 올바르게 사용하는 방법을 알아봅니다.

PowerApps 시작 기능: 앱에서 다른 서비스를 시작하는 방법

PowerApps 실행 기능에 대해 자세히 알아보고 자신의 앱에서 바로 웹사이트, 전화, 이메일 및 기타 앱과 같은 기타 서비스를 실행하십시오.

Power Automate의 HTTP 요청 – 소개

타사 애플리케이션 통합과 관련하여 Power Automate의 HTTP 요청이 작동하는 방식을 배우고 이해합니다.

Power Automate Desktop: 마우스 클릭 보내기 기능을 사용하는 방법

Power Automate Desktop에서 Send Mouse Click을 사용하는 방법을 알아보고 이것이 어떤 이점을 제공하고 흐름 성능을 개선하는지 알아보십시오.

PowerApps 변수: 컨텍스트 및 전역 변수 식별

PowerApps 변수의 작동 방식, 다양한 종류, 각 변수가 앱에 기여할 수 있는 사항을 알아보세요.

Power Automate에서 실행할 데스크톱 흐름 예약

이 자습서에서는 Power Automate를 사용하여 웹 또는 데스크톱에서 작업을 자동화하는 방법을 알려줍니다. 데스크톱 흐름 예약에 대한 포괄적인 가이드를 제공합니다.

Python의 선형 회귀

댓글 남기기

SharePoint의 계산된 열 | 개요

Power Apps에서 변수 만들기: 컬렉션 작업

Microsoft Flow HTTP 트리거 | Power Automate 자습서

Power Automate 흐름: 사용법 및 유형 설명

흐름에서 Power Automate 종료 작업 제어

PowerApps 시작 기능: 앱에서 다른 서비스를 시작하는 방법

Power Automate의 HTTP 요청 – 소개

Power Automate Desktop: 마우스 클릭 보내기 기능을 사용하는 방법

PowerApps 변수: 컨텍스트 및 전역 변수 식별

Power Automate에서 실행할 데스크톱 흐름 예약