ما هي الذات في بايثون: أمثلة من العالم الحقيقي
ما هي الذات في بايثون: أمثلة من العالم الحقيقي
في تحليل البيانات ، المؤثرات الرئيسية هي المتغيرات التي لها تأثير كبير على المتغير التابع. بمعنى آخر ، هم العوامل التي تساهم أكثر من غيرها في نتيجة الاهتمام. في بايثون ، يُستخدم الانحدار الخطي لتحديد المؤثرين الرئيسيين في مجموعة البيانات ، ولقياس قوة واتجاه العلاقة بين المتغيرات المختلفة. يمكنك مشاهدة الفيديو الكامل لهذا البرنامج التعليمي أسفل هذه المدونة .
يمكن أن يكون تحديد المؤثرين الرئيسيين مفيدًا لفهم العلاقات الأساسية في مجموعة البيانات وللتنبؤ بالنتائج المستقبلية.
توفر مكتبات Python مجموعة من الأدوات والوظائف لإجراء تحليل الانحدار وتحديد المؤثرين الرئيسيين في مجموعة البيانات.
جدول المحتويات
باستخدام نموذج الانحدار الخطي
في هذه المقالة ، سأوضح كيف يمكنك استخدام نموذج الانحدار الخطي لتقليد بعض المؤثرين الرئيسيين في LuckyTemplates. هدفنا هو استخدام جميع المتغيرات الخاصة بنا لنكون قادرين على وصف ما يتغير في متغير آخر.
المؤثرات الرئيسية في LuckyTemplates هي نموذج انحدار خطي. في كثير من الأحيان نستخدم هذا على الرغم من أننا لا نعرف بالضبط ما هو تحت الغطاء. في هذا البرنامج التعليمي ، أستخدم هذا لتحديد العوامل المساهمة في رسوم التأمين.
دعنا نلقي نظرة على مجموعة بيانات رسوم التأمين. أريد أن أوضح ذلك من خلال حالة المدخن والجنس والمنطقة والأطفال ومؤشر كتلة الجسم والعمر.
حاليًا ، يُظهر المؤثرون الرئيسيون المتغير الأكثر تأثيرًا. عندما يكون المدخن بنعم ، يكون متوسط التكلفة 23.615 دولارًا أعلى مقارنة بجميع القيم الأخرى للمدخن.
إنها بصرية رائعة ، لكنها لا تقدم لنا أي متغيرات أخرى يمكن أن تؤثر على الشحنات.
دعنا نتعمق في الأمر عن طريق تغيير القائمة المنسدلة من زيادة إلى نقص .
هذه المرة ، العكس هو الصحيح. إذا لم تكن مدخنًا ، فإن متوسط التكلفة هو 23.615 دولارًا أمريكيًا أقل مقارنة بجميع القيم الأخرى للمدخن.
كما ترى ، هذا هو نموذج الانحدار الخطي الذي قمت بإنشائه باستخدام بعض أكواد Python وتم نقله إلى LuckyTemplates مع الحد الأدنى من التنسيق الشرطي .
من حيث الترميز ، لدينا سيطرة كاملة عليه ، وسترى كيف قمت ببناء هذا كبديل أو مكمل للمؤثرين الرئيسيين البصريين.
دعنا ننتقل إلى دفتر جوبيتر. من أجل فهم أفضل ، اسمحوا لي أن أشرح هذه الأجزاء بجزء منها.
مكتبات بايثون المستخدمة
الجزء الأول هو المكان الذي قمت فيه بتحميل جميع المكتبات التي أريد استخدامها. إذا لم تكن على دراية بالمكتبات ، فهي عبارة عن مجموعات من الأكواد والوظائف التي أنشأها المطورون لنا.
لقد قمت باستيراد الباندا كـ pd وهي مكتبة لمعالجة البيانات ، و numpy كـ np للسماح لنا بإجراء عمليات حسابية وشرطية خطية.
النماذج المستخدمة
لنتحدث عن النماذج التي استخدمتها. أحضرت sklearn.linear_model وهي ، واستخدمت نموذج الانحدار الخطي. فقط في حالة احتياجنا إليها ، قمت أيضًا بإحضار sklearn.preprocessing import StandardScaler الذي سيسمح لنا بتوسيع نطاق بياناتنا.
نموذج آخر أستخدمه يسمى xgboost import XGBRegressor . إنه نموذج انحدار مع شجرة قرار وجوانب أخرى مفيدة.
بالإضافة إلى ذلك ، استخدمت أيضًا train_set_split لأنني أريد أن أكون قادرًا على تقسيم البيانات بين مجموعة التدريب ومجموعة التعلم. في التعلم الآلي ، نحتاج إلى مجموعة من بيانات التدريب لكي تتعلم الخوارزمية قبل أن تفعل أي تنبؤات.
لقد أحضرت أيضًا mean_squared_error لتحديد النموذج ومكتبة matplotlib.pyplot في حال أردنا القيام ببعض العناصر المرئية.
قد لا نستخدم كل هذه الأشياء ، ولكن قد يكون مفيدًا ، لذلك وضعتها جميعًا.
مجموعة البيانات المستخدمة
بعد ذلك ، دعنا نلقي نظرة سريعة على مجموعة البيانات. لقد استخدمت وظيفة df = pd.read_csv لإحضار مجموعة بيانات التأمين ثم قمت بتحويل البيانات إلى متغيرات وهمية باستخدام df1 = pd.get_dummies (df ، drop_first = True) .
للقيام بذلك ، دعنا ننشئ خلية جديدة بالضغط على Esc + B على لوحة المفاتيح الخاصة بنا ثم اكتب df.head لتقييم البيانات.
لدينا العمر والجنس ومؤشر كتلة الجسم والأطفال والمدخن والمنطقة والرسوم التي نريد توقعها كمتغير تابع لنا. هذه هي البيانات التي تأتي غير مهيأة للتعلم الآلي.
في التعلم الآلي ، لن نتمكن من استخدام المتغيرات الفئوية مثل الإناث والذكور والجنوب الغربي والشمال الغربي. ومن ثم ، فإن أول شيء يتعين علينا القيام به إذا كان نموذج انحدار نموذجي هو ترجمة المتغيرات الفئوية إلى مدخلات رقمية.
للقيام بذلك ، استخدمت وظيفة pd.get_dummies ثم قمت أيضًا بتغييرها إلى عمود رقمي عن طريق تغيير df.head إلى df1.head . دعنا نضغط على زر التشغيل لإظهار كيف يبدو.
يمكننا الآن رؤية هذه المجموعة الجديدة من الأعمدة مثل sex_male و smoker_yes و region_northwest وما إلى ذلك. تعرف الخوارزمية تلقائيًا أنه إذا كانت 1 فهذا يعني نعم و 0 يعني لا.
بشكل ملحوظ ، لا يوجد sex_f female و region_northeast لأننا لا نريد المبالغة في تعقيد النموذج. لقد أسقطناها باستخدام Drop_first = True function.
الشيء التالي الذي فعلته هو إحضار دالة LinearRegression وحفظها في النموذج المتغير.
لقد قمت أيضًا بإنشاء متغيري X و Y للتنبؤ بمتغيرات Y الخاصة بنا ثم جلبت جميع الأعمدة الأخرى للتنبؤات لدينا باستخدام نفس مجموعة البيانات التي استخدمناها سابقًا.
بالنسبة للمتغير X ، استخدمنا df1.drop ("الرسوم" ، المحور = 1) لإسقاط الرسوم. من ناحية أخرى ، نحتاج إلى شحنات للمتغير Y ولهذا السبب وضعنا df1 ["الشحنات"] .
باستخدام الوظائف أدناه ، قمت بإنشاء مجموعات تدريب واختبار لكل من X و Y باستخدام الدالة train_test_split وقمت بتمريرها إلى متغيري X و Y.
بالإضافة إلى ذلك ، استخدمت model.fit لتلائم بيانات التدريب مع نموذجنا. هذا يعني أن نموذج الانحدار الخطي سوف يتعلم بيانات التدريب.
هذه المرة ، دعنا نلقي نظرة على المتنبئين لدينا. الطريقة التي نرى بها ذلك هي من خلال المعاملات لأنها تصف كيف تؤثر كل واحدة من هذه الميزات أو المتغيرات على الرسوم.
ومن الملاحظ أيضًا أن عدد المعامل لنعم المدخن قريب جدًا إذا كنت ستقارنه بعدد ما لدينا بالنسبة للمؤثرين الرئيسيين وفي نموذجنا.
لإنشاء جدول حيث لدينا الميزات والمعاملات ، استخدمت pd.DataFrame لإدخال المعاملات في الجدول وإنشاء الصورة المرئية.
استخدام نماذج مختلفة لصور المؤثرين الرئيسيين
يُنصح أيضًا باستخدام نماذج مختلفة للحصول على المؤثرين الرئيسيين من خلال جلب XGB .
عندما نمثل النموذج ، فهو مجرد انحدار خطي بسيط ؛ ولكن عندما جلبنا XGB. Regressor ، هناك الكثير من المعلمات التي يمكننا استخدامها لتحسين النموذج.
لقد قمت أيضًا بتكرار هذه الوظائف عندما أنشأت إطار البيانات أدناه. هذه المعاملات مختلفة جدًا مقارنة بما رأيناه في الانحدار الخطي.
مع هذا الجدول ، فإن الأرقام دقيقة. على سبيل المثال ، إذا كنت مدخنًا ، فستزيد رسومك بمقدار 23.787 دولارًا. إذا كان لديك طفل واحد ، فسوف يرتفع بمقدار 472 دولارًا ، وهكذا.
هؤلاء المؤثرون مهمون أيضًا لأنهم يعكسون ما لدينا على جدول الانحدار الخطي. إنه مختلف قليلاً ولكنه قريب جدًا لأن هؤلاء المؤثرين يلخصون واحدًا. هذه مجرد طريقة مختلفة للنظر إلى المؤثرين.
اختبار دقة تحليل الانحدار الخطي
بعد ذلك ، نريد أن نرى دقة نموذجنا ، ولهذا السبب استخدمنا y_pred = model.predict (X_test) . لقد توصل إلى توقع أنه تم إيقافه بمقدار 5885.7.
هذه مجرد مجموعة اختبار من البيانات وما إذا كان التنبؤ جيدًا أم سيئًا ، ما زلنا بحاجة إلى تقييمه. لن نقوم بذلك الآن لأننا نركز فقط على المؤثرين الرئيسيين لدينا.
بالعودة إلى LuckyTemplates ، سأوضح لك كيف أضع هذا بسهولة شديدة. هذا جدول منفصل حيث يمكنك رؤية الميزات والمؤثرين.
فعلت ذلك بالذهاب إلى تحويل البيانات .
بعد ذلك ، قمت بنسخ مجموعة البيانات الخاصة بي وتمكنت من إنشاء هذا الجدول. يمكننا أيضًا الانتقال إلى " الخطوات التطبيقية " لرؤية كود بايثون ومراجعة المتغيرات التي استخدمناها.
دعنا نفتح نص Python بالنقر المزدوج عليه.
أحضرنا مكتباتنا. قمنا بتحويلها إلى مجموعة بيانات للتعلم الآلي والمعالجة المسبقة والتي كانت مجرد أصفار وآحاد.
أيضًا ، قمنا بإحضار نموذج الانحدار ، وقمنا بإنشاء X و Y لملاءمة البيانات ، ثم حفظنا الجدول كمخرج. النموذج جيد بما فيه الكفاية لذلك لم أستخدم مجموعة اختبار تدريب.
شيء آخر قمت به هو تبديل مجموعة البيانات إلى df لأنه من الأسهل الكتابة. مجموعة البيانات هي متغير البيانات الأصلية.
مع هذا الجدول ، قمت بحفظه كناتج لهذا السبب لدينا هذه المعاملات.
لإحضار هذا كصورة مرئية ، انقر فوق إغلاق وتطبيق .
لدينا الآن رسم بياني شريطي . لقد استخدمت أيضًا التنسيق الشرطي لإظهار الإيجابيات والسلبيات.
كيفية تثبيت DAX Studio & Tabular Editor في LuckyTemplates
تكوين إعدادات الاستعلام في LuckyTemplates DAX Studio
معلمات LuckyTemplates عبر محرر الاستعلام
خاتمة
في الختام ، يمكن أن يكون فهم المؤثرين الرئيسيين وتنفيذ الانحدار الخطي في بايثون أداة قوية لتحليل البيانات والتنبؤ.
من خلال تحديد العوامل الرئيسية التي تؤثر على متغير تابع واستخدام الانحدار الخطي لنمذجة علاقاتهم ، يمكننا فهم النتائج المستقبلية والتنبؤ بها بشكل أفضل .
باستخدام مكتبات Python القوية ، من السهل تنفيذ الانحدار الخطي واستخراج رؤى ذات مغزى من البيانات.
أتمنى لك كل خير،
ما هي الذات في بايثون: أمثلة من العالم الحقيقي
ستتعلم كيفية حفظ وتحميل الكائنات من ملف .rds في R. ستغطي هذه المدونة أيضًا كيفية استيراد الكائنات من R إلى LuckyTemplates.
في هذا البرنامج التعليمي للغة ترميز DAX ، تعرف على كيفية استخدام وظيفة الإنشاء وكيفية تغيير عنوان القياس ديناميكيًا.
سيغطي هذا البرنامج التعليمي كيفية استخدام تقنية Multi Threaded Dynamic Visuals لإنشاء رؤى من تصورات البيانات الديناميكية في تقاريرك.
في هذه المقالة ، سأقوم بتشغيل سياق عامل التصفية. يعد سياق عامل التصفية أحد الموضوعات الرئيسية التي يجب على أي مستخدم LuckyTemplates التعرف عليها في البداية.
أريد أن أوضح كيف يمكن لخدمة تطبيقات LuckyTemplates عبر الإنترنت أن تساعد في إدارة التقارير والرؤى المختلفة التي تم إنشاؤها من مصادر مختلفة.
تعرف على كيفية إجراء تغييرات في هامش الربح باستخدام تقنيات مثل قياس التفرع والجمع بين صيغ DAX في LuckyTemplates.
سيناقش هذا البرنامج التعليمي أفكار تجسيد مخازن البيانات وكيفية تأثيرها على أداء DAX في توفير النتائج.
إذا كنت لا تزال تستخدم Excel حتى الآن ، فهذا هو أفضل وقت لبدء استخدام LuckyTemplates لاحتياجات إعداد تقارير الأعمال الخاصة بك.
ما هي بوابة LuckyTemplates؟ كل شيئ ترغب بمعرفته