Ce este Sinele în Python: Exemple din lumea reală
Ce este Sinele în Python: Exemple din lumea reală
În analiza datelor, factorii de influență cheie sunt variabile care au un impact semnificativ asupra unei variabile dependente. Cu alte cuvinte, ei sunt factorii care contribuie cel mai mult la rezultatul de interes. În Python, regresia liniară este utilizată pentru a identifica factorii de influență cheie într-un set de date și pentru a măsura puterea și direcția relației dintre diferite variabile. Puteți viziona videoclipul complet al acestui tutorial în partea de jos a acestui blog .
Identificarea factorilor de influență cheie poate fi utilă pentru înțelegerea relațiilor care stau la baza unui set de date și pentru a face predicții despre rezultatele viitoare.
Bibliotecile Python oferă o gamă largă de instrumente și funcții pentru efectuarea analizei de regresie și identificarea factorilor de influență cheie într-un set de date.
Cuprins
Utilizarea unui model de regresie liniară
În acest articol, voi arăta cum puteți utiliza un model de regresie liniară pentru a imita unii dintre factorii de influență cheie LuckyTemplates. Obiectivul nostru este să folosim toate variabilele noastre pentru a putea descrie ce se schimbă într-o altă variabilă.
Influenții cheie LuckyTemplates sunt un model de regresie liniară. Adesea îl folosim chiar dacă nu știm exact ce se află sub capotă. În acest tutorial, îl folosesc pentru a identifica factorii care contribuie la taxele de asigurare.
Să aruncăm o privire la setul de date privind taxele de asigurare. Vreau ca acest lucru să fie explicat prin statutul de fumător, sex, regiune, copii, IMC și vârstă.
În prezent, influențatorii cheie arată cea mai influentă variabilă. Când fumătorul este da, taxa medie este cu 23.615 USD mai mare decât toate celelalte valori ale unui fumător.
Este o imagine excelentă, dar nu ne oferă alte variabile care pot afecta taxele.
Să ne aprofundăm în el schimbând meniul drop-down de la Creștere la Scădere .
De data aceasta, este invers. Dacă nu sunteți fumător, taxa medie este cu 23.615 USD mai mică în comparație cu toate celelalte valori ale unui fumător.
După cum puteți vedea, acesta este un model de regresie liniară pe care l-am construit folosind câteva coduri Python și l-am introdus în LuckyTemplates cu formatare condiționată minimă .
În ceea ce privește codificarea, avem control complet asupra acesteia și veți vedea cum l-am construit ca o alternativă sau o completare la vizualul influențelor cheie.
Să trecem la Jupiter Notebook. Pentru o mai bună înțelegere, permiteți-mi să explic aceste părți cu parte.
Biblioteci Python utilizate
Prima parte este unde am încărcat toate bibliotecile pe care vreau să le folosesc. Dacă nu sunteți familiarizat cu bibliotecile, acestea sunt colecții de coduri și funcții pe care dezvoltatorii le-au construit pentru noi.
Am importat panda ca pd, care este o bibliotecă de manipulare a datelor, și numpy ca np pentru a ne permite să facem calcule liniare și condiționale.
Modele folosite
Să vorbim despre modelele pe care le-am folosit. Am introdus sklearn.linear_model , care este o și am folosit un model de regresie liniară. În cazul în care avem nevoie, am adus și sklearn.preprocessing import StandardScaler , care ne va permite să ne scalam datele.
Un alt model pe care îl folosesc se numește xgboost import XGBRegressor . Este un model de regresie cu un arbore de decizie și alte aspecte utile.
În plus, am folosit și train_set_split pentru că vreau să pot împărți datele între un set de antrenament și un set de învățare. În Machine Learning, avem nevoie de un set de date de antrenament pentru ca algoritmul să învețe înainte de a face predicții.
Am adus și mean_squared_error pentru a determina modelul și biblioteca matplotlib.pyplot în cazul în care vrem să facem niște imagini.
S-ar putea să nu le folosim pe toate, dar ar putea fi de ajutor, așa că le-am introdus pe toate.
Setul de date utilizat
În continuare, să aruncăm o privire rapidă asupra setului de date. Am folosit funcția df = pd.read_csv pentru a introduce setul de date de asigurare și apoi am convertit datele în variabile simulate folosind df1 = pd.get_dummies (df, drop_first = True) .
Pentru a face acest lucru, să creăm o nouă celulă apăsând Esc + B pe tastatura noastră și apoi să tastam df.head pentru a evalua datele.
Avem vârsta, sexul, IMC, copiii, fumătorul, regiunea și tarifele pe care vrem să le prezicem ca variabilă dependentă. Acestea sunt datele care vin nepregătite pentru învățarea automată.
În învățarea automată, nu vom putea folosi variabile categorice, cum ar fi feminin, masculin, sud-vest și nord-vest. Prin urmare, primul lucru pe care trebuie să-l facem dacă este un model de regresie tipic este să traducem variabilele categoriale în intrare numerică.
Pentru a face asta, am folosit funcția pd.get_dummies și apoi am schimbat și aceasta într-o coloană numerică, schimbând df.head în df1.head . Să facem clic pe butonul Run pentru a arăta cum arată.
Acum putem vedea această nouă colecție de coloane precum sex_male , smoker_yes , region_northwest și așa mai departe. Algoritmul știe automat că dacă este 1 înseamnă da și 0 înseamnă nu.
În mod remarcabil, nu există sex_female și region_northeast pentru că nu vrem să complicăm prea mult modelul. Le-am eliminat folosind funcția drop_first = True .
Următorul lucru pe care l-am făcut a fost să introduc funcția LinearRegression și să o salvez pe modelul variabil.
De asemenea, am creat variabile X și Y pentru a prezice variabilele noastre Y și apoi am introdus toate celelalte coloane pentru predictorii noștri utilizând același set de date pe care l-am folosit mai devreme.
Pentru variabila X, am folosit df1.drop ('taxări', axa=1) pentru a reduce taxele. Pe de altă parte, avem nevoie de taxe pentru variabila Y, de aceea am introdus df1['charge'] .
Cu funcțiile de mai jos, am creat seturi de antrenament și de testare atât pentru X, cât și pentru Y, folosind funcția train_test_split și le-am trecut în variabilele X și Y.
În plus, am folosit model.fit pentru a potrivi datele de antrenament la modelul nostru. Aceasta înseamnă că modelul de regresie liniară va învăța datele de antrenament.
De data aceasta, să aruncăm o privire la predictorii noștri. Modul în care vedem acest lucru este prin intermediul coeficienților, deoarece ei descriu modul în care fiecare dintre aceste caracteristici sau variabile afectează taxele.
De asemenea, se observă că numărul de coeficient pentru smoker_yes este foarte apropiat dacă îl vei compara cu numărul de ceea ce avem pentru influențatorii cheie și în modelul nostru.
Pentru a crea un tabel în care avem caracteristicile și coeficienții, am folosit pd.DataFrame pentru a aduce coeficienții în tabel și a crea vizualul.
Folosirea diferitelor modele pentru influențele cheie vizuale
De asemenea, este recomandabil să folosiți diferite modele pentru a obține influențatorii cheie prin introducerea XGB.Regressor .
Când reprezentăm modelul, este doar o simplă regresie liniară; dar când am adus XGB.Regressor, există o mulțime de parametri pe care îi putem folosi pentru a optimiza modelul.
De asemenea, am replicat aceste funcții când am creat cadrul de date de mai jos. Acești coeficienți sunt foarte diferiți în comparație cu ceea ce am văzut în regresia liniară.
Cu acest tabel, numerele sunt exacte. De exemplu, dacă ești fumător, taxele tale vor crește cu 23.787 USD. Dacă aveți un copil, acesta va crește cu 472 USD și așa mai departe.
Acești factori de influență sunt și ei importanți, deoarece oglindesc ceea ce avem pe tabelul de regresie liniară. Este puțin diferit, dar foarte aproape, deoarece acești influenți însumează unul singur. Acesta este doar un mod diferit de a privi influențatorii.
Testarea acurateței analizei de regresie liniară
După aceea, dorim să vedem acuratețea modelului nostru, motiv pentru care am folosit y_pred = model.predict (X_test) . A venit cu o predicție că a fost oprit până la 5885.7.
Acesta este doar un set de date de testare și, dacă predicția este bună sau rea, trebuie totuși să o evaluăm. Nu vom face asta chiar acum, deoarece ne concentrăm doar pe influențatorii noștri cheie.
Revenind la LuckyTemplates, vă voi arăta cum am pus acest lucru foarte ușor. Acesta este un tabel separat în care puteți vedea caracteristicile și influențatorii.
Am făcut asta mergând la Transform data .
Apoi, mi-am duplicat setul de date și am putut crea acest tabel. De asemenea, putem merge la Pașii aplicați pentru a vedea codul Python și pentru a revizui variabilele pe care le-am folosit.
Să deschidem scriptul Python făcând dublu clic pe el.
Ne-am adus bibliotecile. L-am convertit într-un set de date de preprocesare de învățare automată, care era doar zerouri și unu.
De asemenea, am introdus un model de regresie, am creat X și Y pentru a se potrivi cu datele și apoi am salvat tabelul ca rezultat. Modelul este suficient de bun, așa că nu am folosit un set de teste de antrenament.
Un alt lucru pe care l-am făcut a fost să schimb setul de date la df pentru că este mai ușor de scris. Setul de date este variabila pentru datele originale.
Cu acest tabel, l-am salvat ca ieșire, de aceea avem acești coeficienți.
Pentru a aduce acest lucru ca o imagine vizuală, faceți clic pe Închideți și aplicați .
Acum avem un grafic cu bare . Am folosit și formatarea condiționată pentru a afișa aspectele pozitive și negative.
Cum se instalează DAX Studio și Editorul tabelar în LuckyTemplates
Configurați setările de interogare în LuckyTemplates DAX Studio
Parametrii LuckyTemplates prin Editorul de interogări
Concluzie
În concluzie, înțelegerea factorilor de influență cheie și implementarea regresiei liniare în Python poate fi un instrument puternic pentru analiza și predicția datelor.
Prin identificarea factorilor cheie care influențează o variabilă dependentă și prin utilizarea regresiei liniare pentru a modela relațiile lor, putem înțelege și prezice mai bine rezultatele viitoare .
Cu ajutorul bibliotecilor puternice Python, este ușor să implementați regresia liniară și să extrageți informații semnificative din date.
Toate cele bune,
Ce este Sinele în Python: Exemple din lumea reală
Veți învăța cum să salvați și să încărcați obiecte dintr-un fișier .rds în R. Acest blog va trata, de asemenea, cum să importați obiecte din R în LuckyTemplates.
În acest tutorial despre limbajul de codare DAX, aflați cum să utilizați funcția GENERATE și cum să schimbați în mod dinamic titlul unei măsuri.
Acest tutorial va acoperi cum să utilizați tehnica Multi Threaded Dynamic Visuals pentru a crea informații din vizualizările dinamice de date din rapoartele dvs.
În acest articol, voi trece prin contextul filtrului. Contextul de filtrare este unul dintre subiectele majore despre care orice utilizator LuckyTemplates ar trebui să învețe inițial.
Vreau să arăt cum serviciul online LuckyTemplates Apps poate ajuta la gestionarea diferitelor rapoarte și informații generate din diverse surse.
Aflați cum să vă calculați modificările marjei de profit folosind tehnici precum măsurarea ramificării și combinarea formulelor DAX în LuckyTemplates.
Acest tutorial va discuta despre ideile de materializare a cache-urilor de date și despre modul în care acestea afectează performanța DAX-ului în furnizarea de rezultate.
Dacă încă utilizați Excel până acum, atunci acesta este cel mai bun moment pentru a începe să utilizați LuckyTemplates pentru nevoile dvs. de raportare a afacerii.
Ce este LuckyTemplates Gateway? Tot ce trebuie să știți