Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Dalam analisis data, pengaruh utama ialah pembolehubah yang mempunyai kesan yang signifikan ke atas pembolehubah bersandar. Dalam erti kata lain, mereka adalah faktor yang paling banyak menyumbang kepada hasil minat. Dalam Python, regresi linear digunakan untuk mengenal pasti pengaruh utama dalam set data, dan untuk mengukur kekuatan dan arah hubungan antara pembolehubah yang berbeza. Anda boleh menonton video penuh tutorial ini di bahagian bawah blog ini .
Mengenal pasti pengaruh utama boleh berguna untuk memahami perhubungan asas dalam set data dan untuk membuat ramalan tentang hasil masa hadapan.
Perpustakaan Python menyediakan pelbagai alat dan fungsi untuk melaksanakan analisis regresi dan mengenal pasti pengaruh utama dalam set data.
Isi kandungan
Menggunakan Model Regresi Linear
Dalam artikel ini, saya akan menunjukkan cara anda boleh menggunakan model regresi linear untuk meniru beberapa pengaruh utama LuckyTemplates. Objektif kami adalah untuk menggunakan semua pembolehubah kami untuk dapat menerangkan perkara yang berubah dalam pembolehubah lain.
Pengaruh utama LuckyTemplates ialah model regresi linear. Sering kali kita menggunakan ini walaupun kita tidak tahu dengan tepat apa yang ada di bawah tudung. Dalam tutorial ini, saya menggunakan ini untuk mengenal pasti faktor yang menyumbang kepada caj insurans.
Mari kita lihat set data caj insurans. Saya mahu ini dijelaskan oleh status perokok, jantina, wilayah, kanak-kanak, BMI dan umur.
Pada masa ini, pengaruh utama menunjukkan pembolehubah yang paling berpengaruh. Apabila perokok ya, caj purata ialah $23,615 unit lebih tinggi berbanding semua nilai lain perokok.
Ia adalah visual yang hebat, tetapi ia tidak memberi kita sebarang pembolehubah lain yang boleh menjejaskan caj.
Mari kita mendalaminya dengan menukar dropdown daripada Increase kepada Decrease .
Kali ini, ia adalah sebaliknya. Jika anda bukan seorang perokok, caj purata adalah $23,615 unit lebih rendah berbanding semua nilai lain perokok.
Seperti yang anda lihat, ini ialah model regresi linear yang saya bina menggunakan beberapa kod Python dan disalurkan ke LuckyTemplates dengan pemformatan bersyarat yang minimum .
Dari segi pengekodan, kami mempunyai kawalan sepenuhnya ke atasnya, dan anda akan melihat bagaimana saya membina ini sebagai alternatif atau pelengkap kepada visual pengaruh utama.
Mari beralih ke Buku Nota Jupiter. Untuk pemahaman yang lebih baik, izinkan saya menerangkan bahagian demi bahagian ini.
Perpustakaan Python Digunakan
Bahagian pertama ialah tempat saya memuatkan semua perpustakaan yang ingin saya gunakan. Jika anda tidak biasa dengan perpustakaan, ia adalah koleksi kod dan fungsi yang telah dibina oleh pembangun untuk kami.
Saya mengimport panda sebagai pd yang merupakan perpustakaan manipulasi data, dan numpy sebagai np untuk membolehkan kami melakukan pengiraan linear dan bersyarat.
Model Digunakan
Mari kita bercakap tentang model yang saya gunakan. Saya membawa masuk sklearn.linear_model yang merupakan dan menggunakan model regresi linear. Sekiranya kami memerlukannya, saya turut membawa masuk sklearn.preprocessing import StandardScaler yang akan membolehkan kami menskalakan data kami.
Model lain yang saya gunakan dipanggil xgboost import XGBRegressor . Ia adalah model regresi dengan pepohon keputusan dan aspek berguna yang lain.
Selain itu, saya juga menggunakan train_set_split kerana saya ingin dapat membahagikan data antara set latihan dan set pembelajaran. Dalam Pembelajaran Mesin, kami memerlukan satu set data latihan untuk dipelajari oleh algoritma sebelum ia melakukan sebarang ramalan.
Saya juga membawa masuk mean_squared_error untuk menentukan model dan perpustakaan matplotlib.pyplot sekiranya kita ingin melakukan beberapa visual.
Kami mungkin tidak menggunakan semua ini, tetapi ia mungkin berguna, jadi saya meletakkan semuanya.
Set Data Digunakan
Seterusnya, mari kita lihat dengan pantas pada set data. Saya menggunakan fungsi df = pd.read_csv untuk membawa masuk set data insurans dan kemudian saya menukar data kepada pembolehubah tiruan dengan menggunakan df1 = pd.get_dummies (df, drop_first = True) .
Untuk melakukan ini, mari buat sel baharu dengan menekan Esc + B pada papan kekunci kami dan kemudian taip df.head untuk menilai data.
Kami mempunyai umur, jantina, BMI, kanak-kanak, perokok, wilayah dan caj yang kami mahu ramalkan sebagai pembolehubah bersandar kami. Ini adalah data yang masuk tanpa bersedia untuk pembelajaran mesin.
Dalam pembelajaran mesin, kami tidak akan dapat menggunakan pembolehubah kategori seperti perempuan, lelaki, barat daya dan barat laut. Oleh itu, perkara pertama yang perlu kita lakukan jika ia adalah model regresi biasa ialah menterjemahkan pembolehubah kategori ke dalam input berangka.
Untuk melakukan itu, saya menggunakan fungsi pd.get_dummies dan kemudian juga menukar ini menjadi lajur berangka dengan menukar df.head kepada df1.head . Mari klik butang Jalankan untuk menunjukkan rupanya.
Kini kita boleh melihat koleksi lajur baharu ini seperti sex_male , smoker_yes , region_northwest , dan sebagainya. Algoritma secara automatik mengetahui bahawa jika ia adalah 1 ia bermakna ya dan 0 bermakna tidak.
Nyata, tiada jantina_wanita dan wilayah_timur laut kerana kami tidak mahu terlalu merumitkan model. Kami menggugurkannya dengan menggunakan fungsi drop_first = True .
Perkara seterusnya yang saya lakukan ialah membawa masuk fungsi LinearRegression dan menyimpannya pada model pembolehubah.
Saya juga mencipta pembolehubah X dan Y untuk meramalkan pembolehubah Y kami dan kemudian membawa masuk semua lajur lain untuk peramal kami dengan menggunakan set data yang sama yang kami gunakan sebelum ini.
Untuk pembolehubah X, kami menggunakan df1.drop ('caj', paksi=1) untuk menggugurkan caj. Sebaliknya, kami memerlukan caj untuk pembolehubah Y, itulah sebabnya kami memasukkan df1['charges'] .
Dengan fungsi di bawah, saya mencipta set latihan dan ujian untuk kedua-dua X dan Y dengan menggunakan fungsi train_test_split dan menghantarnya ke dalam pembolehubah X dan Y.
Selain itu, saya menggunakan model.fit untuk menyesuaikan data latihan dengan model kami. Ini bermakna model regresi linear akan mempelajari data latihan.
Kali ini, mari kita lihat peramal kami. Cara kita melihat ini adalah melalui pekali kerana ia menerangkan cara setiap satu daripada ciri atau pembolehubah ini mempengaruhi caj.
Ia juga ketara bahawa bilangan pekali untuk smoker_yes adalah sangat hampir jika anda membandingkannya dengan bilangan yang kami ada untuk pengaruh utama dan dalam model kami.
Untuk mencipta jadual di mana kita mempunyai ciri dan pekali, saya menggunakan pd.DataFrame untuk membawa masuk pekali ke dalam jadual dan mencipta visual.
Menggunakan Model Berbeza Untuk Visual Pengaruh Utama
Ia juga dinasihatkan untuk menggunakan model yang berbeza untuk mendapatkan pengaruh utama dengan membawa masuk XGB.Regressor .
Apabila kita mewakili model, ia hanyalah regresi linear yang mudah; tetapi apabila kami membawa masuk XGB.Regressor, terdapat banyak parameter yang boleh kami gunakan untuk mengoptimumkan model.
Saya juga mereplikasi fungsi ini apabila saya mencipta bingkai data di bawah. Pekali ini sangat berbeza berbanding dengan apa yang kita lihat dalam regresi linear.
Dengan jadual ini, nombor adalah tepat. Contohnya, jika anda seorang perokok, caj anda akan meningkat sebanyak $23,787. Jika anda mempunyai seorang anak, ia akan meningkat sebanyak $472, dan seterusnya.
Pengaruh ini juga penting kerana mereka mencerminkan apa yang kita ada pada jadual regresi linear. Ia sedikit berbeza tetapi sangat rapat kerana pengaruh ini dijumlahkan kepada satu. Ini hanyalah cara yang berbeza untuk melihat pengaruh.
Menguji Ketepatan Analisis Regresi Linear
Selepas itu, kami ingin melihat ketepatan model kami, itulah sebabnya kami telah menggunakan y_pred = model.predict (X_test) . Ia datang dengan ramalan bahawa ia dimatikan sebanyak 5885.7.
Ini hanyalah set ujian data dan sama ada ramalan itu baik atau buruk, kita masih perlu menilainya. Kami tidak akan melakukannya sekarang kerana kami hanya menumpukan pada pengaruh utama kami.
Berbalik kepada LuckyTemplates, saya akan menunjukkan kepada anda cara saya meletakkan ini dengan sangat mudah. Ini ialah jadual berasingan di mana anda boleh melihat ciri dan pengaruh.
Saya melakukannya dengan pergi ke Transform data .
Kemudian, saya menduplikasi set data saya dan dapat mencipta jadual ini. Kami juga boleh pergi ke Langkah Gunaan untuk melihat kod Python dan menyemak pembolehubah yang kami gunakan.
Mari buka skrip Python dengan mengklik dua kali padanya.
Kami membawa masuk perpustakaan kami. Kami menukarnya kepada pembelajaran mesin, set data pra-pemprosesan yang hanya sifar dan satu.
Juga, kami membawa masuk model regresi, mencipta X dan Y kami agar sesuai dengan data, dan kemudian menyimpan jadual sebagai output. Modelnya cukup bagus jadi saya tidak menggunakan set ujian latihan.
Satu lagi perkara yang saya lakukan ialah menukar dataset kepada df kerana ia lebih mudah untuk ditulis. Set data ialah pembolehubah untuk data asal.
Dengan jadual ini, saya menyimpannya sebagai output itulah sebabnya kita mempunyai pekali ini.
Untuk membawa ini sebagai visual, klik Tutup & Gunakan .
Kami kini mempunyai graf bar . Saya juga menggunakan pemformatan bersyarat untuk menunjukkan positif dan negatif.
Cara Memasang DAX Studio & Editor Tabular Dalam LuckyTemplates
Konfigurasikan Tetapan Pertanyaan Dalam LuckyTemplates DAX Studio
Parameter LuckyTemplates Melalui Editor Pertanyaan
Kesimpulan
Kesimpulannya, memahami pengaruh utama dan melaksanakan regresi linear dalam Python boleh menjadi alat yang berkuasa untuk analisis dan ramalan data.
Dengan mengenal pasti faktor utama yang memberi kesan kepada pembolehubah bersandar dan menggunakan regresi linear untuk memodelkan perhubungan mereka, kita boleh memahami dan meramalkan hasil masa hadapan dengan lebih baik .
Dengan penggunaan perpustakaan Python yang berkuasa, adalah mudah untuk melaksanakan regresi linear dan mengekstrak cerapan bermakna daripada data.
Semua yang terbaik,
Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Anda akan belajar cara menyimpan dan memuatkan objek daripada fail .rds dalam R. Blog ini juga akan membincangkan cara mengimport objek dari R ke LuckyTemplates.
Dalam tutorial bahasa pengekodan DAX ini, pelajari cara menggunakan fungsi GENERATE dan cara menukar tajuk ukuran secara dinamik.
Tutorial ini akan merangkumi cara menggunakan teknik Visual Dinamik Berbilang Thread untuk mencipta cerapan daripada visualisasi data dinamik dalam laporan anda.
Dalam artikel ini, saya akan menjalankan konteks penapis. Konteks penapis ialah salah satu topik utama yang perlu dipelajari oleh mana-mana pengguna LuckyTemplates pada mulanya.
Saya ingin menunjukkan cara perkhidmatan dalam talian LuckyTemplates Apps boleh membantu dalam mengurus laporan dan cerapan berbeza yang dijana daripada pelbagai sumber.
Ketahui cara untuk menyelesaikan perubahan margin keuntungan anda menggunakan teknik seperti mengukur percabangan dan menggabungkan formula DAX dalam LuckyTemplates.
Tutorial ini akan membincangkan tentang idea pewujudan cache data dan cara ia mempengaruhi prestasi DAX dalam memberikan hasil.
Jika anda masih menggunakan Excel sehingga sekarang, maka inilah masa terbaik untuk mula menggunakan LuckyTemplates untuk keperluan pelaporan perniagaan anda.
Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu