تصور البيانات المفقودة في RW / GGMICE

عند تحليل البيانات ، نريد معرفة الخطوات التالية حول كيفية العثور على القيم المفقودة لأن معظم الأشياء في التحليلات يتم تحديدها بواسطة عوامل مختلفة. لمساعدتك في ذلك ، سنتعامل مع تصور البيانات المفقودة في R باستخدام حزمة ggmice . يمكنك مشاهدة الفيديو الكامل لهذا البرنامج التعليمي أسفل هذه المدونة .

"ماذا أفعل حيال القيم المفقودة؟" هذا سؤال أساسي يجب طرحه عند تحليل البيانات. نأمل جميعًا أن يسهل العثور عليها نظرًا لأنها مشفرة على أنها قيم خالية أو NAs.

سنلقي نظرة على بعض القواعد العامة والخطوات التالية. سوف نتعلم كيفية الإجابة على أسئلة مثل كم عدد البيانات المفقودة هناك؟ ما هو حجم المشكلة؟ هل يمكننا العثور على أي أنماط في البيانات؟

هناك العديد من الطرق للقيام بذلك ولكننا سنستخدم تصور البيانات المفقودة في R كأول بداية استكشافية.

جدول المحتويات

متى تسقط ومتى تجد القيم المفقودة

إذا لم يكن هناك نمط لكيفية فقدهم وكان يؤثر على أقل من 5٪ من الملاحظات ، سواء كان ذلك في العمود أو في مجموعة البيانات ، فيمكنك عندئذٍ إسقاط هذه القيم المفقودة.

ومع ذلك ، إذا اتضح أنه أكثر انتشارًا ويمكنك العثور على بعض الأنماط المهمة بناءً على التصورات ، فقد تحتاج إلى القيام بشيء ما بهذه البيانات.

لذا ، بدلاً من إسقاطها ، يمكننا أن ننسبها لأنه من المحتمل أن يكون هناك قصة حول سبب فقدان هذه القيم في النموذج كما هي.

تصور البيانات المفقودة في RW / GGMICE

في هذا العرض التوضيحي ، سنستخدم الحزمة التي ستحسب القيم المفقودة. هذه حزمة جديدة لتصور البيانات المفقودة في R وتسمى ggmice .

تكمن الفكرة في العثور على النمط وعدد القيم المفقودة ، وبالتالي سننظر في نمط الرسم ثم مصفوفة توقع الرسم .

MICE تعني التضمين متعدد المتغيرات بالطرق المقيدة . نحن لا ندخل في الميكانيكا ولكننا سنتعلم كيف ستحسب هذه الخوارزمية بياناتنا إذا استخدمناها.

شيء آخر يجب معرفته حول تصور البيانات المفقودة في R باستخدام ggmice هو أنه من المفترض حقًا أن يكون متوافقًا مع ggplot2 ، لذلك يمكننا إنشاء بعض التصورات على الجزء الخلفي من ggplot2 ، حزمة التصور الشهيرة. 

تصور البيانات المفقودة في RW / GGMICE

خطوات تصور البيانات المفقودة في R w / GGMICE

دعنا نمضي قدمًا ونقوم بتشغيل RStudio . أول شيء يتعين علينا القيام به هو استيراد جميع الحزم التي نحتاجها عن طريق الكتابة في مكتبة (ggmice) والمكتبة (tidyverse) التي تتضمن مجموعات بيانات ggplot2 والمكتبة (Ecdat) .

تحتوي حزمة المكتبة (Ecdat) على الكثير من مجموعات البيانات الجيدة للتدرب عليها. لهذا السبب نستخدمه ونستورده.

تصور البيانات المفقودة في RW / GGMICE

إحدى مجموعات البيانات هي help (MCAS) . لنقم بتشغيل وظيفة المساعدة على هذا.

كما نرى ، هذا من Ecdat ، وهو عبارة عن مجموعة بيانات اختبار. تصف وثائق المساعدة هذه كل عمود وتخبرنا عن مصدرها.

سنستخدم هذا لمعرفة ما إذا كانت هناك بيانات مفقودة وما النمط الذي تشكله إذا كان هناك أي بيانات.

تصور البيانات المفقودة في RW / GGMICE

دعنا نستخدم is.na (MCAS) وانقر فوق تشغيل . كما نرى ، هناك مجموعة من الصواب والخطأ. ما يمكننا فعله هو تلخيصها باستخدام دالة colSums (is.na (MCAS)) لأن FALSE و TRUE هما صفر وواحد مقنع. هذه طريقتنا في التحقق مما إذا كانت القيمة مفقودة أم لا.

تصور البيانات المفقودة في RW / GGMICE

كما هو موضح أدناه ، تم العثور على القيم المفقودة في ثلاثة أعمدة مثل spc و totsc8 و avgsalary . يمكننا رؤية وصف هذه الأعمدة في قسم وثائق المساعدة.

تصور البيانات المفقودة في RW / GGMICE

أيضًا ، باستخدام colSums (is.na (MCAS)) / nrow (MCAS) ، سيتحول عدد الصفوف إلى نسب مئوية. هذه طريقة واحدة للنظر إليها ، ولكنها ليست أسهل شيء يمكن القيام به.

تصور البيانات المفقودة في RW / GGMICE

في هذه الحالة ، دعنا نلقي نظرة على ما يمكن أن يفعله ggmice لنا. سنستخدم وظيفة browseVignettes (package = 'ggmice') ، ثم انقر فوق تشغيل .

تصور البيانات المفقودة في RW / GGMICE

تم العثور على بعض الصور النصفية لهذه الوظيفة ، لذلك دعنا نختار ggmice ونضغط على رابط HTML لمشاهدة بعض البرامج التعليمية المفيدة التي قد تساعد.

تصور البيانات المفقودة في RW / GGMICE

تصور البيانات المفقودة في RW / GGMICE

بالعودة إلى البرنامج النصي ، دعنا نستخدم وظيفة plot_pattern (MCAS) لتمرير مجموعة البيانات.

تصور البيانات المفقودة في RW / GGMICE

من أجل تصور ذلك بشكل أفضل ، انقر فوق الزر Zoom . كما هو موضح ، من بين 155 ملاحظة ، يحتوي spc على 9 قيم مفقودة ، و 25 لمتوسط ​​القيمة و 40 لـ totsc8 .

سنحاول معرفة ما إذا كان أي منها يتطابق ، وكم عددهم ، وما إذا كانوا يميلون إلى التواجد في مجموعة.

تصور البيانات المفقودة في RW / GGMICE

للتحقق من ذلك ، يمكننا تجربة الطريقة التناظرية باستخدام وظيفة العرض (MCAS) ثم النقر فوق تشغيل .

تصور البيانات المفقودة في RW / GGMICE

هذا نوع من عارض جداول البيانات حيث يمكننا رؤية جميع القيم المفقودة. يمكننا أيضًا توسيع هذا بالنقر فوق زر محرر المصدر .

تصور البيانات المفقودة في RW / GGMICE

على غرار Power Query ، يمكننا أن نرى إجمالي الإدخالات و NAs هي القيم المفقودة. بشكل ملحوظ ، إجمالي المدخلات في طريقة العرض (MCAS) هو 220 ، و 155 فقط للنمط plot_pattern (MCAS) لأنه ربما كانت هناك قيم كاملة لم يتم رسمها في حد ذاتها.

أيضًا ، يمكننا أن نرى أنها تميل إلى التجمع معًا بناءً على المتغيرات والصفوف. ومع ذلك ، في كثير من الحالات ، واحدة فقط أو الأخرى مفقودة. في الواقع ، من الصعب القيام بهذا الصف المرئي صفًا تلو الآخر ، لذلك هذا هو المكان الذي يأتي فيه التصور.

تصور البيانات المفقودة في RW / GGMICE

احتساب البيانات الناقصة

الشيء التالي الذي يجب فعله هو العودة إلى البرنامج النصي الخاص بنا ، ثم كتابة nrow (MCAS) ثم جمع (is.na (MCAS) $ totsc8)) .

في هذه الحالة ، نعلم أن 40 قيمة مفقودة من 200 ملاحظة. لنستخدم R كآلة حاسبة بوضع 40/200. لذلك ، لدينا حوالي 20٪ من القيم المفقودة ، وهو عدد كبير.

من الناحية المثالية ، نريد أن نعرف سبب فقد الكثير. ربما تكون الطريقة التي تم بها جمع البيانات هي السبب في أننا يمكن أن ننسب ذلك.

تصور البيانات المفقودة في RW / GGMICE

للقيام بذلك ، دعنا نستورد حزمة المكتبة (الفئران) . هذه إحدى طرق الإسناد.

تصور البيانات المفقودة في RW / GGMICE

بعد ذلك ، دعنا نستخدم وظائف MCAS_pred <- = "" quickpred = ""> و plot_pred (MCAS_pred) . تأكد من حفظها ، انقر فوق تشغيل ، وانقر فوق الزر Zoom .

تصور البيانات المفقودة في RW / GGMICE

إذا أردنا استخدام التضمين متعدد المتغيرات ، فستجد هذه الخوارزمية ملاحظات ونقاط بيانات مشابهة لتلك المفقودة ، ثم نحاول ملء تلك الملاحظات.

على سبيل المثال ، أعمدة spc . ستكون هذه مفيدة للتنبؤ بالقيم المفقودة نفسها مع totsc8 و avgsalary . في هذه المرحلة ، لا نقوم بذلك ، لكننا نرى القيم والمتغيرات المرتبطة والتي قد تكون مفيدة في إعاقة تلك القيم.

تصور البيانات المفقودة في RW / GGMICE

لنجرب شيئًا آخر. سنستخدم ggmice (MCAS، aes (x = avgsalary، y = totsc8)) + geom_point () ، ثم انقر فوق تشغيل .

هذه مؤامرة مبعثرة ، إلا أننا نستخدم ggmice. الفكرة الأساسية هي أنه يمكننا رؤية العلاقة بين هذين المتغيرين اللذين يحتويان على عدد قليل جدًا من القيم المفقودة. عندما يكون أحدهما مفقودًا والآخر متاحًا ، يمكننا أن نرى مكان تلك النقاط.

في هذه الحالة ، يتم ملاحظة كلاهما في إحدى هذه الحالات. واحد مفقود والآخر ليس كذلك. إذا كان كلاهما مفقودًا ، فلن يكون على قطعة الأرض.

تصور البيانات المفقودة في RW / GGMICE



تحرير البيانات في R باستخدام أفضل ممارسات الاستعلام عن حزمة DataEditR لنموذج البيانات الخاص بك
كيفية تثبيت حزم R في LuckyTemplates

خاتمة

عندما نعمل مع القيم المفقودة ، من المغري استخدام خوارزمية مثل MICE لأنها قوية جدًا في تحديد القيم. ومع ذلك ، من الأفضل استكشاف البيانات بنفسك وفهم ما يحدث.

من الناحية المثالية ، إذا كان لدينا الكثير من البيانات المفقودة ، فنحن نريد معرفة السبب وربما يمكننا محاولة الحصول على المزيد من البيانات أو يمكننا حسابها. يفضل دائمًا الانتقال مباشرة إلى المصدر.

إذا انتهى بنا الأمر إلى الرغبة في احتساب القيم المفقودة ، فيمكننا القيام ببعض طرق التضمين البسيطة باستخدام الحزمة tidyverse مثل المتوسط ​​أو الوسيط.

لا شك أن حزمة MICE قوية. يمكن أن يكون مبالغة بالنسبة للأشياء التي تتطلب الكثير من العمليات الحسابية ، لكننا نركز الآن على عنصر التصور فقط.

أتمنى أن تتعلم شيئًا ولا تتردد في استخدام هذه الحزمة. تأكد من مشاركتها وحاول نشر الكلمة لأنها حزمة رائعة للعمل مع القيم المفقودة المتوافقة مع ggplot2.

أتمنى لك كل خير،

جورج

Leave a Comment

تقنية تصور LuckyTemplates: تعرف على كيفية إنشاء لوحات تصميم الخلفية

تقنية تصور LuckyTemplates: تعرف على كيفية إنشاء لوحات تصميم الخلفية

تعرف على تقنية تصور LuckyTemplates هذه حتى تتمكن من إنشاء قوالب الخلفية واستيرادها إلى تقارير LuckyTemplates الخاصة بك.

ما هي الذات في بايثون: أمثلة من العالم الحقيقي

ما هي الذات في بايثون: أمثلة من العالم الحقيقي

ما هي الذات في بايثون: أمثلة من العالم الحقيقي

كيفية حفظ وتحميل ملف RDS في R.

كيفية حفظ وتحميل ملف RDS في R.

ستتعلم كيفية حفظ وتحميل الكائنات من ملف .rds في R. ستغطي هذه المدونة أيضًا كيفية استيراد الكائنات من R إلى LuckyTemplates.

تمت إعادة النظر في أول N أيام عمل - حل لغة ترميز DAX

تمت إعادة النظر في أول N أيام عمل - حل لغة ترميز DAX

في هذا البرنامج التعليمي للغة ترميز DAX ، تعرف على كيفية استخدام وظيفة الإنشاء وكيفية تغيير عنوان القياس ديناميكيًا.

اعرض الرؤى باستخدام تقنية المرئيات الديناميكية المتعددة الخيوط في LuckyTemplates

اعرض الرؤى باستخدام تقنية المرئيات الديناميكية المتعددة الخيوط في LuckyTemplates

سيغطي هذا البرنامج التعليمي كيفية استخدام تقنية Multi Threaded Dynamic Visuals لإنشاء رؤى من تصورات البيانات الديناميكية في تقاريرك.

مقدمة لتصفية السياق في LuckyTemplates

مقدمة لتصفية السياق في LuckyTemplates

في هذه المقالة ، سأقوم بتشغيل سياق عامل التصفية. يعد سياق عامل التصفية أحد الموضوعات الرئيسية التي يجب على أي مستخدم LuckyTemplates التعرف عليها في البداية.

أفضل النصائح في استخدام التطبيقات في خدمة LuckyTemplates عبر الإنترنت

أفضل النصائح في استخدام التطبيقات في خدمة LuckyTemplates عبر الإنترنت

أريد أن أوضح كيف يمكن لخدمة تطبيقات LuckyTemplates عبر الإنترنت أن تساعد في إدارة التقارير والرؤى المختلفة التي تم إنشاؤها من مصادر مختلفة.

تحليل تغييرات هامش الربح بمرور الوقت - التحليلات باستخدام LuckyTemplates و DAX

تحليل تغييرات هامش الربح بمرور الوقت - التحليلات باستخدام LuckyTemplates و DAX

تعرف على كيفية إجراء تغييرات في هامش الربح باستخدام تقنيات مثل قياس التفرع والجمع بين صيغ DAX في LuckyTemplates.

أفكار التجسيد لذاكرة التخزين المؤقت للبيانات في DAX Studio

أفكار التجسيد لذاكرة التخزين المؤقت للبيانات في DAX Studio

سيناقش هذا البرنامج التعليمي أفكار تجسيد مخازن البيانات وكيفية تأثيرها على أداء DAX ​​في توفير النتائج.

إعداد تقارير الأعمال باستخدام LuckyTemplates

إعداد تقارير الأعمال باستخدام LuckyTemplates

إذا كنت لا تزال تستخدم Excel حتى الآن ، فهذا هو أفضل وقت لبدء استخدام LuckyTemplates لاحتياجات إعداد تقارير الأعمال الخاصة بك.