معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

الاستيفاء هو طريقة لتوليد النقاط بين نقاط معينة. في هذا البرنامج التعليمي ، سأوضح كيف يمكنك استخدام Interpolation في معالجة البيانات المفقودة في Python. يمكنك مشاهدة الفيديو الكامل لهذا البرنامج التعليمي أسفل هذه المدونة.

في بايثون ، الإقحام عبارة عن تقنية تستخدم في الغالب لحساب القيم المفقودة في إطار أو سلسلة البيانات أثناء المعالجة المسبقة للبيانات. سأوضح كيف يمكنك استخدام هذه الطريقة لتقدير نقاط البيانات المفقودة في بياناتك باستخدام Python في LuckyTemplates.

إذا نظرنا إلى بياناتنا الأصلية هنا أدناه والممثلة في الرسم البياني العلوي ، يمكننا أن نرى أن هناك الكثير من الثغرات أو البيانات المفقودة التي لا يمكننا رسمها بيانيًا لأنه لا يوجد شيء هناك. لكن في الرسم البياني السفلي ، يمكننا أن نرى أننا قمنا ببعض التقديرات لمعرفة الشكل الذي يمكن أن تبدو عليه تلك البيانات. يتم تمثيل البيانات الفعلية باللون الأزرق الفاتح ، بينما يتم عرض البيانات المحرف باللون الأزرق الداكن.

هناك نوعان مختلفان من التقديرات التي سنقوم بها. سنقوم بعمل استيفاء خطي ، أقرب إقحام ، ثم استيفاء زمني مرجح. كل من هؤلاء سيعطينا نتائج مختلفة قليلاً.

يستخدم المثال أعلاه الاستيفاء الزمني المرجح ، والذي يبدو تقريبًا مثل الاستيفاء الخطي ، باستثناء أنه يتم ترجيحه بناءً على الأيام. قدرت البيانات الخطية بناءً على المنحدر بين نقطتي البيانات هاتين. أقرب نوع من التقدير ، كما ترون أدناه ، حيث نظرنا إلى أقرب قيمة وتمكنا من تقدير ما هو موجود بين هذين النوعين.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

لذا ، دعنا ننتقل إلى دفتر Jupyter وإدخال ذلك.

جدول المحتويات

كيفية استخدام الاستيفاء في معالجة البيانات المفقودة في بايثون
خاتمة

كيفية استخدام الاستيفاء في معالجة البيانات المفقودة في بايثون

يمكنك استخدام محرر النص البرمجي لكتابة كل شيء ، ولكنه أسهل. تحصل على المزيد من الملاحظات في دفتر Jupyter الخاص بك. لذا ، دعنا نوثق ما نقوم به. عندما نقوم بنسخ هذا ولصقه في محرر Python Script الخاص بنا ، فسيكون نظيفًا وواضحًا للغاية.

دعنا نستورد المكتبات التي نريدها ، وسنقوم باستيراد Pandas وحفظها كمتغير PD. سنقوم باستيراد Numpy وحفظه كمتغير NP. Pandas هي مكتبة لمعالجة البيانات ، بينما تسمح لنا Numpy بمعالجة البيانات أيضًا وتعطينا بعض الجبر الخطي.

نريد إحضار مجموعة البيانات الخاصة بنا ، وسنقوم بحفظها كمتغير df . وسنقوم فقط باستخدام متغير Pandas ( pd ) واستخدام وظيفة read.csv . بعد ذلك ، سنقوم بنسخ هذا الملف ولصقه حيث يوجد هذا الملف على جهاز الكمبيوتر الخاص بنا. أنا موجود في دليل العمل الخاص بي ، لذلك كل ما علي فعله هو كتابة machine.csv وتغليف ذلك بين قوسين.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

ودعنا نلقي نظرة على مجموعة البيانات فقط باستخدام المتغير df. يمكنك أن ترى أن هذا يمتد من الأول من عام 2022 ، وصولًا إلى الخامس والعشرين. إنها أيام متتالية حتى اليوم الخامس عشر ، ثم هناك أربعة أيام مفقودة في التاسع عشر ، ثم هناك ثلاثة أيام مفقودة عندما نصل إلى اليوم الثاني والعشرين ، ويومان مفقودان في اليوم الخامس والعشرون.

الأيام التي تم تخطيها لا تنقصها البيانات. هذه ليست بيانات في مجموعة البيانات الخاصة بنا. ما سنتعامل معه هو البيانات المفقودة ، والتي تراها ممثلة بقيم NaN هذه أو بلا قيم.

الآن بعد أن أصبح لدينا مجموعة البيانات الخاصة بنا ، فلنستخدم أنواع التفسير المختلفة لدينا ونحفظها كأعمدة مختلفة. يمكننا أن نرى أن لدينا كائنًا ، والذي يمثله نص ، ولدينا أيضًا عائم .

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

سأقوم بعزل عمود التاريخ باستخدام تدوين القوسين. بعد ذلك ، سأستخدم تساوي لإسناد هذا. سأستخدم المتغير pd ، وبعد ذلك سأستخدم الدالة to_datetime. وبعد ذلك ، سأغلق هذه الوظيفة بالأقواس وأضيفها في عمود التاريخ.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

يمكننا أن نرى أن لدينا الآن التاريخ كنوع البيانات المناسب.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

لدينا فهرس هنا ، يُشار إليه بالأرقام من 1 إلى 18. عندما نقوم بعمل خطي ، فسيتم استخدام هذه الأرقام لإنشاء اتصال خطي بين نقاط البيانات الموجودة. لكننا نريد أيضًا أن نكون قادرين على استخدام الاستيفاء المقدر بالوقت ، والذي ينظر في الوقت ويعطينا النتائج بناءً على الأيام الفعلية. نريد تعيين عمود التاريخ كفهرس ، حتى نتمكن من استخدامه.

سأستخدم متغير إطار البيانات (df) الخاص بي ، وأقوم بعمل set_index. نحتاج إلى تمرير معلمة تسمى inplace للتأكد من تمريرها بشكل دائم. لذا ، سأستخدم inplace يساوي true ، ثم سأضغط على shift وأدخل. وبهذا ، يمكنك أن ترى اختفاء الفهرس العددي ، ولدينا مؤشر التاريخ والوقت.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

الآن ، يمكننا البدء في بناء تلك الأعمدة التي نريدها. لنقم ببناء عمود حيث نقوم بإقحام أقرب نقطة بيانات ، والذي سيملأ هذه القيم المفقودة بأقرب قيمة. نريد إنشاء عمود يسمى users_nearest ، ونريد تعيين ذلك لعمود Users .

نريد إنشاء عمود يسمى user_nearest ، ونريد تعيين ذلك لعمود مستخدم. والآن بعد أن تم عزل هذا العمود ، يمكننا استخدام دالة الإقحام ، ويمكننا الضغط على مفتاح shift لمعرفة المعلمات التي تأخذها هذه الوظيفة. هناك أنواع مختلفة من الطرق.

يمكنك أن ترى أن الإعداد الافتراضي خطي ، وإذا كنت تريده أن يرى جميع الطرق المختلفة ، فهناك معلومات داخل هذا. يمكنك فتح هذا على طول الطريق وهناك الكثير من المعلومات هنا التي ستمنحك الكثير من البصيرة. لكن من الأفضل دائمًا الانتقال إلى موقع Pandas ومعرفة ما هي جميع أنواع الاستيفاءات المختلفة.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

سنقوم الآن بتمرير الطريقة التي نريدها ، وسنستخدم أقرب طريقة إقحام. كل ما يتعين علينا القيام به هو تشغيل هذا ، ويمكنك أن ترى أنه تم إنشاء عمود. إذا نظرنا إلى هذا الخط المعين ، يمكننا أن نرى ذلك كقيمة مفقودة. ويمكنك أن ترى أنه قد تم إقحامها حيث تم أخذ أقرب قيمة وإضافتها هنا. كما ترى ، لم تعد لدينا قيم مفقودة لهذا الصف المحدد.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

الآن ، دعنا ننسخ هذا مرتين ، ودعنا نغير اسم هذه الأعمدة إلى user_linear و user_time . سنقوم بتغيير الأساليب أيضًا لتتناسب مع عناويننا. يمكننا التحول والدخول ، ويمكنك أن ترى أننا أنشأنا ثلاثة أعمدة بناءً على أنواع مختلفة من طرق الاستيفاء.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

بعد ذلك ، أرغب في إنشاء عمود أكثر تحديدًا يسمح لنا بالإشارة إلى أي منها فارغ ، مثل علامة في بياناتنا. سنستخدم Numpy لذلك.

لذا ، سننشئ عمودًا جديدًا يسمى df ، ثم نسميه علمًا. سنقوم بتعيين ذلك بعلامة التساوي. بعد ذلك ، سنستخدم np ، وهو متغير Numpy. وبعد ذلك ، سنستخدم دالة أين ، وهي دالة شرطية. نضع الشرط ثم نحصل على مثال للصواب والخطأ. نستخدم ضعف يساوي ، وهو ما يساوي في بايثون. عندما يكون هذا صحيحًا ، نريد أن نقول "بيانات مفقودة" . سيكون الخيار الآخر هو البيانات .

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

يمكننا استخدام هذا العلم في صورتنا المرئية. بمجرد أن نكون في دفتر ملاحظاتك ، انتقل إلى التحويل واضغط على تشغيل برنامج Python النصي. الآن هناك بضع خطوات مختلفة. نحتاج إلى تشغيل هذا في بيئة LuckyTemplates .

لدينا جميع الرموز الخاصة بنا هنا ونحتاج إلى إضافة بضع خطوات أخرى. أولاً ، عندما نتعامل مع التاريخ والوقت ، نحتاج إلى إضافة معلمة خطأ تقول ، إذا كان لدينا أي أخطاء ، فيمكنك إجبارها أو محاولة تغييرها. لذا ، سأضع الأخطاء هنا متساوية ، ثم أقواس أقواس . بعد ذلك ، نحتاج إلى إعادة تعيين متغير مجموعة البيانات كـ df.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

عندما نضغط على "موافق" ، سنحصل على خطأ آخر ، وهذا ما نحتاج إلى القيام به لإصلاح ذلك. إذا تجاوزنا خطواتنا ، فسنحتاج إلى عدم تنسيق التاريخ. سنسمح لـ Python بالعمل مع التواريخ لأن التواريخ فريدة لكل منصة. أول شيء يتعين علينا القيام به هو التخلص من النوع المتغير .

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

ليس لدينا عمود التاريخ لأن التاريخ هو الفهرس. لذلك ، نعود إلى نص Python الخاص بنا ثم نقوم بإعادة تعيين فهرسنا ، df.reset_index . نقول إننا نريد إعادة تعيينه إلى تجاوز عمود التاريخ في هذا القوس ، ثم نريد أن نفعل inplace = true .

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

والآن ، لدينا التاريخ وجميع أنواع البيانات الأخرى لدينا كاملة.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

إذا وضعنا ذلك في صورة بصرية ، فهذه هي الطريقة التي تبدو بها بثلاث طرق مختلفة للإقحام في معالجة البيانات المفقودة في بايثون.

معالجة البيانات المفقودة في بايثون باستخدام طريقة الاستيفاء

أسعار العملات في LuckyTemplates: معالجة البرمجة
النصية لبيانات Python المفقودة في تقارير بيانات LuckyTemplates
كيفية تحميل نماذج مجموعات البيانات في Python

خاتمة

لقد تعلمت في هذا البرنامج التعليمي ثلاث طرق للاستيفاء في معالجة البيانات المفقودة في بايثون . لقد ناقشنا طرق الاستيفاء الزمني الخطي والأقرب والمرجح.

أتمنى أن تجد هذا مفيدًا وأن تقوم بتطبيقه في عملك الخاص. يمكنك مشاهدة الفيديو التعليمي الكامل أدناه للحصول على مزيد من التفاصيل والتحقق من الروابط أدناه لمزيد من المحتوى ذي الصلة حول معالجة البيانات المفقودة في Python.

أتمنى لك كل خير!

جيليم

اترك تعليقاً

تقنية تصور LuckyTemplates: تعرف على كيفية إنشاء لوحات تصميم الخلفية

تعرف على تقنية تصور LuckyTemplates هذه حتى تتمكن من إنشاء قوالب الخلفية واستيرادها إلى تقارير LuckyTemplates الخاصة بك.

ما هي الذات في بايثون: أمثلة من العالم الحقيقي

كيفية حفظ وتحميل ملف RDS في R.

ستتعلم كيفية حفظ وتحميل الكائنات من ملف .rds في R. ستغطي هذه المدونة أيضًا كيفية استيراد الكائنات من R إلى LuckyTemplates.

تمت إعادة النظر في أول N أيام عمل - حل لغة ترميز DAX

في هذا البرنامج التعليمي للغة ترميز DAX ، تعرف على كيفية استخدام وظيفة الإنشاء وكيفية تغيير عنوان القياس ديناميكيًا.

اعرض الرؤى باستخدام تقنية المرئيات الديناميكية المتعددة الخيوط في LuckyTemplates

سيغطي هذا البرنامج التعليمي كيفية استخدام تقنية Multi Threaded Dynamic Visuals لإنشاء رؤى من تصورات البيانات الديناميكية في تقاريرك.

أفضل النصائح في استخدام التطبيقات في خدمة LuckyTemplates عبر الإنترنت

أريد أن أوضح كيف يمكن لخدمة تطبيقات LuckyTemplates عبر الإنترنت أن تساعد في إدارة التقارير والرؤى المختلفة التي تم إنشاؤها من مصادر مختلفة.

مقدمة لتصفية السياق في LuckyTemplates

في هذه المقالة ، سأقوم بتشغيل سياق عامل التصفية. يعد سياق عامل التصفية أحد الموضوعات الرئيسية التي يجب على أي مستخدم LuckyTemplates التعرف عليها في البداية.

تحليل تغييرات هامش الربح بمرور الوقت - التحليلات باستخدام LuckyTemplates و DAX

تعرف على كيفية إجراء تغييرات في هامش الربح باستخدام تقنيات مثل قياس التفرع والجمع بين صيغ DAX في LuckyTemplates.

أفكار التجسيد لذاكرة التخزين المؤقت للبيانات في DAX Studio

سيناقش هذا البرنامج التعليمي أفكار تجسيد مخازن البيانات وكيفية تأثيرها على أداء DAX في توفير النتائج.

إعداد تقارير الأعمال باستخدام LuckyTemplates

إذا كنت لا تزال تستخدم Excel حتى الآن ، فهذا هو أفضل وقت لبدء استخدام LuckyTemplates لاحتياجات إعداد تقارير الأعمال الخاصة بك.