파이썬에서 자기란 무엇인가: 실제 사례
파이썬에서 자기란 무엇인가: 실제 사례
데이터 분석에서 주요 영향 요인은 종속 변수에 상당한 영향을 미치는 변수입니다. 즉, 관심의 결과에 가장 크게 기여하는 요소들이다. Python에서 선형 회귀는 데이터 세트에서 주요 영향 요인을 식별하고 서로 다른 변수 간의 관계의 강도와 방향을 측정하는 데 사용됩니다. 이 블로그 하단에서 이 튜토리얼의 전체 비디오를 볼 수 있습니다 .
주요 영향 요인을 식별하면 데이터 세트의 기본 관계를 이해하고 향후 결과를 예측하는 데 유용할 수 있습니다.
Python 라이브러리는 회귀 분석을 수행하고 데이터 세트에서 주요 영향 요인을 식별하기 위한 다양한 도구와 기능을 제공합니다.
목차
선형 회귀 모델 사용
이 기사에서는 선형 회귀 모델을 사용하여 일부 LuckyTemplates 주요 영향력 요인을 모방하는 방법을 보여줍니다 . 우리의 목표는 모든 변수를 사용하여 다른 변수에서 변경되는 사항을 설명하는 것입니다.
LuckyTemplates 주요 영향력 요인은 선형 회귀 모델입니다. 후드 아래에 무엇이 있는지 정확히 알지 못하더라도 종종 이것을 사용합니다. 이 자습서에서는 이를 사용하여 보험료에 기여하는 요인을 식별합니다.
보험료의 데이터 세트를 살펴보겠습니다. 나는 이것을 흡연자 상태, 성별, 지역, 어린이, BMI 및 연령으로 설명하고 싶습니다.
현재 주요 영향력 요인은 가장 영향력 있는 변수를 보여줍니다. 흡연자가 '예'인 경우 평균 요금은 흡연자의 다른 모든 값에 비해 $23,615 단위 더 높습니다.
훌륭한 비주얼이지만 충전에 영향을 미칠 수 있는 다른 변수를 제공하지 않습니다.
드롭다운을 증가 에서 감소 로 변경하여 자세히 살펴 보겠습니다 .
이번에는 그 반대입니다. 흡연자가 아닌 경우 평균 요금은 흡연자의 다른 모든 가치에 비해 $23,615 단위 더 낮습니다.
보시다시피 이것은 일부 Python 코드를 사용하여 빌드하고 최소한의 조건부 서식 으로 LuckyTemplates에 파이프한 선형 회귀 모델입니다 .
코딩 측면에서 우리는 이를 완벽하게 제어할 수 있으며 주요 인플루언서 시각적 개체에 대한 대안 또는 보완으로 이것을 어떻게 구축했는지 확인할 수 있습니다.
Jupiter Notebook으로 넘어갑시다. 더 나은 이해를 위해 이러한 부분을 부분적으로 설명하겠습니다.
사용된 Python 라이브러리
첫 번째 부분은 사용하려는 모든 라이브러리를 로드한 곳입니다. 라이브러리에 익숙하지 않은 경우 라이브러리는 개발자가 우리를 위해 구축한 코드 및 기능 모음입니다.
데이터 조작 라이브러리인 pd로 pandas를 가져오고 선형 계산 및 조건문을 수행할 수 있도록 np로 numpy를 가져왔습니다 .
사용 모델
제가 사용한 모델에 대해 이야기해 봅시다. 인 sklearn.linear_model을 가져와 선형 회귀 모델을 사용했습니다. 필요한 경우를 대비하여 데이터를 확장할 수 있는 sklearn.preprocessing import StandardScaler 도 가져왔습니다.
내가 사용하는 또 다른 모델은 xgboost import XGBRegressor 입니다 . 결정 트리 및 기타 유용한 측면이 있는 회귀 모델입니다.
또한 훈련 세트와 학습 세트 간에 데이터를 분할할 수 있기를 원하기 때문에 train_set_split 도 사용했습니다. 기계 학습에서는 알고리즘이 예측을 수행하기 전에 학습할 훈련 데이터 세트가 필요합니다.
또한 모델을 결정하기 위해 mean_squared_error를 가져왔고 시각적인 작업을 수행하려는 경우 matplotlib.pyplot 라이브러리를 가져왔습니다.
다 쓰지는 않겠지만 도움이 될 것 같아서 다 넣었습니다.
사용된 데이터 세트
다음으로 데이터 세트를 간단히 살펴보겠습니다. df = pd.read_csv 함수를 사용하여 보험 데이터 세트를 가져온 다음 df1 = pd.get_dummies(df, drop_first = True)를 사용하여 데이터를 더미 변수로 변환했습니다 .
이렇게 하려면 키보드에서 Esc + B를 눌러 새 셀을 만든 다음 df.head를 입력하여 데이터를 평가합니다.
연령, 성별, BMI, 어린이, 흡연자, 지역 및 종속 변수로 예측하려는 요금이 있습니다. 머신 러닝을 위해 준비되지 않은 데이터입니다.
기계 학습에서는 여성, 남성, 남서부 및 북서부와 같은 범주형 변수를 사용할 수 없습니다. 따라서 일반적인 회귀 모델인 경우 가장 먼저 해야 할 일은 범주형 변수를 수치 입력으로 변환하는 것입니다.
이를 위해 pd.get_dummies 함수를 사용한 다음 df.head 를 df1.head 로 변경하여 숫자 열로 변경했습니다 . 실행 버튼을 클릭하여 어떻게 보이는지 살펴보겠습니다.
이제 sex_male , smoker_yes , region_northwest 등과 같은 새로운 열 모음을 볼 수 있습니다 . 알고리즘은 1 이면 예를 의미하고 0은 아니오를 의미한다는 것을 자동으로 알고 있습니다.
모델을 지나치게 복잡하게 만들고 싶지 않기 때문에 sex_female 및 region_northeast 가 없습니다 . drop_first = True 함수를 사용하여 삭제했습니다 .
내가 한 다음 작업은 LinearRegression 함수를 가져와 변수 모델에 저장한 것입니다.
또한 Y 변수를 예측하기 위해 X 및 Y 변수를 만든 다음 이전에 사용한 것과 동일한 데이터 세트를 사용하여 예측 변수에 대한 다른 모든 열을 가져왔습니다.
X 변수의 경우 df1.drop('charges', axis=1)을 사용하여 전하를 제거했습니다. 반면에 Y 변수에 대한 요금이 필요하므로 df1['charges'] 에 입력합니다 .
아래 함수로 train_test_split 함수 를 사용하여 X와 Y 모두에 대한 학습 및 테스트 세트를 생성 하고 X 및 Y 변수에 전달했습니다.
또한 훈련 데이터를 모델에 맞추기 위해 model.fit을 사용했습니다. 이것은 선형 회귀 모델이 훈련 데이터를 학습한다는 것을 의미합니다.
이번에는 예측 변수를 살펴보겠습니다. 우리가 이것을 보는 방식은 계수를 통해서입니다. 계수는 이러한 각 기능 또는 변수가 요금에 미치는 영향을 설명하기 때문입니다.
또한 smoker_yes 에 대한 계수의 수는 주요 영향 요인 및 모델에 대한 수와 비교할 경우 매우 가깝습니다.
기능과 계수가 있는 테이블을 만들기 위해 pd.DataFrame을 사용하여 계수를 테이블로 가져오고 시각적 개체를 만들었습니다.
핵심 인플루언서 비주얼에 다양한 모델 사용
또한 다른 모델을 사용하여 XGB.Regressor를 가져와 핵심 영향력 요인을 얻는 것이 좋습니다 .
모델을 나타낼 때는 단순한 선형 회귀일 뿐입니다. 하지만 XGB.Regressor를 가져왔을 때 모델을 최적화하는 데 사용할 수 있는 많은 매개변수가 있습니다.
또한 아래 데이터 프레임을 만들 때 이러한 기능을 복제했습니다. 이러한 계수는 선형 회귀에서 본 것과 매우 다릅니다.
이 표에서는 숫자가 정확합니다. 예를 들어 흡연자인 경우 요금이 $23,787 증가합니다. 자녀가 한 명인 경우 $472 등으로 인상될 것입니다.
이러한 인플루언서는 선형 회귀 테이블에 있는 것을 반영하기 때문에 중요합니다. 약간 다르지만 이 인플루언서가 하나로 합쳐지기 때문에 매우 가깝습니다. 이것은 인플루언서를 보는 다른 방식일 뿐입니다.
선형 회귀 분석의 정확도 테스트
그런 다음 모델의 정확도를 확인하고 싶기 때문에 y_pred = model.predict (X_test) 를 사용했습니다 . 그것은 5885.7에 의해 벗어났다는 예측을 내놓았습니다.
이것은 데이터의 테스트 세트일 뿐이며 예측이 좋은지 나쁜지 여전히 평가해야 합니다. 우리는 핵심 인플루언서에게만 집중하고 있기 때문에 지금 당장은 그렇게 하지 않을 것입니다.
LuckyTemplates로 돌아가서 이것을 매우 쉽게 넣는 방법을 보여 드리겠습니다. 기능과 인플루언서를 볼 수 있는 별도의 테이블입니다.
데이터 변환 으로 이동하여 수행했습니다 .
그런 다음 데이터 세트를 복제하고 이 테이블을 만들 수 있었습니다. 적용된 단계 로 이동하여 Python 코드를 보고 사용한 변수를 검토 할 수도 있습니다 .
Python 스크립트를 두 번 클릭하여 엽니다 .
우리는 도서관을 가져 왔습니다. 우리는 그것을 0과 1에 불과한 기계 학습, 사전 처리 데이터 세트로 변환했습니다.
또한 회귀 모델을 가져와 데이터에 맞게 X와 Y를 만든 다음 테이블을 출력으로 저장했습니다. 모델이 충분히 좋기 때문에 훈련 테스트 세트를 사용하지 않았습니다.
내가 한 또 다른 작업은 쓰기가 더 쉽기 때문에 데이터 세트를 df 로 전환하는 것입니다. 데이터 세트는 원래 데이터의 변수입니다.
이 테이블을 사용하여 출력으로 저장했기 때문에 이러한 계수가 있습니다.
이를 시각적으로 표시하려면 닫기 및 적용 을 클릭하십시오 .
이제 막대 그래프가 생겼습니다 . 또한 긍정과 부정을 보여주기 위해 조건부 서식을 사용했습니다.
LuckyTemplates에서 DAX Studio 및 테이블 형식 편집기를 설치하는 방법
LuckyTemplates에서 쿼리 설정 구성
쿼리 편집기를 통해 DAX Studio LuckyTemplates 매개 변수
결론
결론적으로 주요 영향 요인을 이해하고 Python에서 선형 회귀를 구현하는 것은 데이터 분석 및 예측을 위한 강력한 도구가 될 수 있습니다.
종속 변수에 영향을 미치는 핵심 요소를 식별하고 선형 회귀를 사용하여 관계를 모델링함으로써 미래 결과를 더 잘 이해하고 예측할 수 있습니다 .
Python의 강력한 라이브러리를 사용하면 선형 회귀를 쉽게 구현 하고 데이터에서 의미 있는 통찰력을 추출할 수 있습니다.
모두 제일 좋다,
파이썬에서 자기란 무엇인가: 실제 사례
R의 .rds 파일에서 개체를 저장하고 로드하는 방법을 배웁니다. 이 블로그에서는 R에서 LuckyTemplates로 개체를 가져오는 방법도 다룹니다.
이 DAX 코딩 언어 자습서에서는 GENERATE 함수를 사용하는 방법과 측정값 제목을 동적으로 변경하는 방법을 알아봅니다.
이 자습서에서는 다중 스레드 동적 시각적 개체 기술을 사용하여 보고서의 동적 데이터 시각화에서 통찰력을 만드는 방법을 다룹니다.
이 기사에서는 필터 컨텍스트를 살펴보겠습니다. 필터 컨텍스트는 모든 LuckyTemplates 사용자가 처음에 배워야 하는 주요 주제 중 하나입니다.
LuckyTemplates Apps 온라인 서비스가 다양한 소스에서 생성된 다양한 보고서 및 인사이트를 관리하는 데 어떻게 도움이 되는지 보여주고 싶습니다.
LuckyTemplates에서 측정 분기 및 DAX 수식 결합과 같은 기술을 사용하여 수익 마진 변경을 해결하는 방법을 알아봅니다.
이 자습서에서는 데이터 캐시의 구체화 아이디어와 결과 제공 시 DAX 성능에 미치는 영향에 대해 설명합니다.
지금까지 Excel을 계속 사용하고 있다면 지금이 비즈니스 보고 요구 사항에 LuckyTemplates를 사용하기 시작하는 가장 좋은 시기입니다.
LuckyTemplates 게이트웨이란? 당신이 알아야 할 모든 것