تقنية تصور LuckyTemplates: تعرف على كيفية إنشاء لوحات تصميم الخلفية
تعرف على تقنية تصور LuckyTemplates هذه حتى تتمكن من إنشاء قوالب الخلفية واستيرادها إلى تقارير LuckyTemplates الخاصة بك.
عند تحليل البيانات ، نريد معرفة الخطوات التالية حول كيفية العثور على القيم المفقودة لأن معظم الأشياء في التحليلات يتم تحديدها بواسطة عوامل مختلفة. لمساعدتك في ذلك ، سنتعامل مع تصور البيانات المفقودة في R باستخدام حزمة ggmice . يمكنك مشاهدة الفيديو الكامل لهذا البرنامج التعليمي أسفل هذه المدونة .
"ماذا أفعل حيال القيم المفقودة؟" هذا سؤال أساسي يجب طرحه عند تحليل البيانات. نأمل جميعًا أن يسهل العثور عليها نظرًا لأنها مشفرة على أنها قيم خالية أو NAs.
سنلقي نظرة على بعض القواعد العامة والخطوات التالية. سوف نتعلم كيفية الإجابة على أسئلة مثل كم عدد البيانات المفقودة هناك؟ ما هو حجم المشكلة؟ هل يمكننا العثور على أي أنماط في البيانات؟
هناك العديد من الطرق للقيام بذلك ولكننا سنستخدم تصور البيانات المفقودة في R كأول بداية استكشافية.
جدول المحتويات
متى تسقط ومتى تجد القيم المفقودة
إذا لم يكن هناك نمط لكيفية فقدهم وكان يؤثر على أقل من 5٪ من الملاحظات ، سواء كان ذلك في العمود أو في مجموعة البيانات ، فيمكنك عندئذٍ إسقاط هذه القيم المفقودة.
ومع ذلك ، إذا اتضح أنه أكثر انتشارًا ويمكنك العثور على بعض الأنماط المهمة بناءً على التصورات ، فقد تحتاج إلى القيام بشيء ما بهذه البيانات.
لذا ، بدلاً من إسقاطها ، يمكننا أن ننسبها لأنه من المحتمل أن يكون هناك قصة حول سبب فقدان هذه القيم في النموذج كما هي.
في هذا العرض التوضيحي ، سنستخدم الحزمة التي ستحسب القيم المفقودة. هذه حزمة جديدة لتصور البيانات المفقودة في R وتسمى ggmice .
تكمن الفكرة في العثور على النمط وعدد القيم المفقودة ، وبالتالي سننظر في نمط الرسم ثم مصفوفة توقع الرسم .
MICE تعني التضمين متعدد المتغيرات بالطرق المقيدة . نحن لا ندخل في الميكانيكا ولكننا سنتعلم كيف ستحسب هذه الخوارزمية بياناتنا إذا استخدمناها.
شيء آخر يجب معرفته حول تصور البيانات المفقودة في R باستخدام ggmice هو أنه من المفترض حقًا أن يكون متوافقًا مع ggplot2 ، لذلك يمكننا إنشاء بعض التصورات على الجزء الخلفي من ggplot2 ، حزمة التصور الشهيرة.
خطوات تصور البيانات المفقودة في R w / GGMICE
دعنا نمضي قدمًا ونقوم بتشغيل RStudio . أول شيء يتعين علينا القيام به هو استيراد جميع الحزم التي نحتاجها عن طريق الكتابة في مكتبة (ggmice) والمكتبة (tidyverse) التي تتضمن مجموعات بيانات ggplot2 والمكتبة (Ecdat) .
تحتوي حزمة المكتبة (Ecdat) على الكثير من مجموعات البيانات الجيدة للتدرب عليها. لهذا السبب نستخدمه ونستورده.
إحدى مجموعات البيانات هي help (MCAS) . لنقم بتشغيل وظيفة المساعدة على هذا.
كما نرى ، هذا من Ecdat ، وهو عبارة عن مجموعة بيانات اختبار. تصف وثائق المساعدة هذه كل عمود وتخبرنا عن مصدرها.
سنستخدم هذا لمعرفة ما إذا كانت هناك بيانات مفقودة وما النمط الذي تشكله إذا كان هناك أي بيانات.
دعنا نستخدم is.na (MCAS) وانقر فوق تشغيل . كما نرى ، هناك مجموعة من الصواب والخطأ. ما يمكننا فعله هو تلخيصها باستخدام دالة colSums (is.na (MCAS)) لأن FALSE و TRUE هما صفر وواحد مقنع. هذه طريقتنا في التحقق مما إذا كانت القيمة مفقودة أم لا.
كما هو موضح أدناه ، تم العثور على القيم المفقودة في ثلاثة أعمدة مثل spc و totsc8 و avgsalary . يمكننا رؤية وصف هذه الأعمدة في قسم وثائق المساعدة.
أيضًا ، باستخدام colSums (is.na (MCAS)) / nrow (MCAS) ، سيتحول عدد الصفوف إلى نسب مئوية. هذه طريقة واحدة للنظر إليها ، ولكنها ليست أسهل شيء يمكن القيام به.
في هذه الحالة ، دعنا نلقي نظرة على ما يمكن أن يفعله ggmice لنا. سنستخدم وظيفة browseVignettes (package = 'ggmice') ، ثم انقر فوق تشغيل .
تم العثور على بعض الصور النصفية لهذه الوظيفة ، لذلك دعنا نختار ggmice ونضغط على رابط HTML لمشاهدة بعض البرامج التعليمية المفيدة التي قد تساعد.
بالعودة إلى البرنامج النصي ، دعنا نستخدم وظيفة plot_pattern (MCAS) لتمرير مجموعة البيانات.
من أجل تصور ذلك بشكل أفضل ، انقر فوق الزر Zoom . كما هو موضح ، من بين 155 ملاحظة ، يحتوي spc على 9 قيم مفقودة ، و 25 لمتوسط القيمة و 40 لـ totsc8 .
سنحاول معرفة ما إذا كان أي منها يتطابق ، وكم عددهم ، وما إذا كانوا يميلون إلى التواجد في مجموعة.
للتحقق من ذلك ، يمكننا تجربة الطريقة التناظرية باستخدام وظيفة العرض (MCAS) ثم النقر فوق تشغيل .
هذا نوع من عارض جداول البيانات حيث يمكننا رؤية جميع القيم المفقودة. يمكننا أيضًا توسيع هذا بالنقر فوق زر محرر المصدر .
على غرار Power Query ، يمكننا أن نرى إجمالي الإدخالات و NAs هي القيم المفقودة. بشكل ملحوظ ، إجمالي المدخلات في طريقة العرض (MCAS) هو 220 ، و 155 فقط للنمط plot_pattern (MCAS) لأنه ربما كانت هناك قيم كاملة لم يتم رسمها في حد ذاتها.
أيضًا ، يمكننا أن نرى أنها تميل إلى التجمع معًا بناءً على المتغيرات والصفوف. ومع ذلك ، في كثير من الحالات ، واحدة فقط أو الأخرى مفقودة. في الواقع ، من الصعب القيام بهذا الصف المرئي صفًا تلو الآخر ، لذلك هذا هو المكان الذي يأتي فيه التصور.
احتساب البيانات الناقصة
الشيء التالي الذي يجب فعله هو العودة إلى البرنامج النصي الخاص بنا ، ثم كتابة nrow (MCAS) ثم جمع (is.na (MCAS) $ totsc8)) .
في هذه الحالة ، نعلم أن 40 قيمة مفقودة من 200 ملاحظة. لنستخدم R كآلة حاسبة بوضع 40/200. لذلك ، لدينا حوالي 20٪ من القيم المفقودة ، وهو عدد كبير.
من الناحية المثالية ، نريد أن نعرف سبب فقد الكثير. ربما تكون الطريقة التي تم بها جمع البيانات هي السبب في أننا يمكن أن ننسب ذلك.
للقيام بذلك ، دعنا نستورد حزمة المكتبة (الفئران) . هذه إحدى طرق الإسناد.
بعد ذلك ، دعنا نستخدم وظائف MCAS_pred <- = "" quickpred = ""> و plot_pred (MCAS_pred) . تأكد من حفظها ، انقر فوق تشغيل ، وانقر فوق الزر Zoom .
إذا أردنا استخدام التضمين متعدد المتغيرات ، فستجد هذه الخوارزمية ملاحظات ونقاط بيانات مشابهة لتلك المفقودة ، ثم نحاول ملء تلك الملاحظات.
على سبيل المثال ، أعمدة spc . ستكون هذه مفيدة للتنبؤ بالقيم المفقودة نفسها مع totsc8 و avgsalary . في هذه المرحلة ، لا نقوم بذلك ، لكننا نرى القيم والمتغيرات المرتبطة والتي قد تكون مفيدة في إعاقة تلك القيم.
لنجرب شيئًا آخر. سنستخدم ggmice (MCAS، aes (x = avgsalary، y = totsc8)) + geom_point () ، ثم انقر فوق تشغيل .
هذه مؤامرة مبعثرة ، إلا أننا نستخدم ggmice. الفكرة الأساسية هي أنه يمكننا رؤية العلاقة بين هذين المتغيرين اللذين يحتويان على عدد قليل جدًا من القيم المفقودة. عندما يكون أحدهما مفقودًا والآخر متاحًا ، يمكننا أن نرى مكان تلك النقاط.
في هذه الحالة ، يتم ملاحظة كلاهما في إحدى هذه الحالات. واحد مفقود والآخر ليس كذلك. إذا كان كلاهما مفقودًا ، فلن يكون على قطعة الأرض.
تحرير البيانات في R باستخدام أفضل ممارسات الاستعلام عن حزمة DataEditR لنموذج البيانات الخاص بك
كيفية تثبيت حزم R في LuckyTemplates
خاتمة
عندما نعمل مع القيم المفقودة ، من المغري استخدام خوارزمية مثل MICE لأنها قوية جدًا في تحديد القيم. ومع ذلك ، من الأفضل استكشاف البيانات بنفسك وفهم ما يحدث.
من الناحية المثالية ، إذا كان لدينا الكثير من البيانات المفقودة ، فنحن نريد معرفة السبب وربما يمكننا محاولة الحصول على المزيد من البيانات أو يمكننا حسابها. يفضل دائمًا الانتقال مباشرة إلى المصدر.
إذا انتهى بنا الأمر إلى الرغبة في احتساب القيم المفقودة ، فيمكننا القيام ببعض طرق التضمين البسيطة باستخدام الحزمة tidyverse مثل المتوسط أو الوسيط.
لا شك أن حزمة MICE قوية. يمكن أن يكون مبالغة بالنسبة للأشياء التي تتطلب الكثير من العمليات الحسابية ، لكننا نركز الآن على عنصر التصور فقط.
أتمنى أن تتعلم شيئًا ولا تتردد في استخدام هذه الحزمة. تأكد من مشاركتها وحاول نشر الكلمة لأنها حزمة رائعة للعمل مع القيم المفقودة المتوافقة مع ggplot2.
أتمنى لك كل خير،
جورج
تعرف على تقنية تصور LuckyTemplates هذه حتى تتمكن من إنشاء قوالب الخلفية واستيرادها إلى تقارير LuckyTemplates الخاصة بك.
ما هي الذات في بايثون: أمثلة من العالم الحقيقي
ستتعلم كيفية حفظ وتحميل الكائنات من ملف .rds في R. ستغطي هذه المدونة أيضًا كيفية استيراد الكائنات من R إلى LuckyTemplates.
في هذا البرنامج التعليمي للغة ترميز DAX ، تعرف على كيفية استخدام وظيفة الإنشاء وكيفية تغيير عنوان القياس ديناميكيًا.
سيغطي هذا البرنامج التعليمي كيفية استخدام تقنية Multi Threaded Dynamic Visuals لإنشاء رؤى من تصورات البيانات الديناميكية في تقاريرك.
في هذه المقالة ، سأقوم بتشغيل سياق عامل التصفية. يعد سياق عامل التصفية أحد الموضوعات الرئيسية التي يجب على أي مستخدم LuckyTemplates التعرف عليها في البداية.
أريد أن أوضح كيف يمكن لخدمة تطبيقات LuckyTemplates عبر الإنترنت أن تساعد في إدارة التقارير والرؤى المختلفة التي تم إنشاؤها من مصادر مختلفة.
تعرف على كيفية إجراء تغييرات في هامش الربح باستخدام تقنيات مثل قياس التفرع والجمع بين صيغ DAX في LuckyTemplates.
سيناقش هذا البرنامج التعليمي أفكار تجسيد مخازن البيانات وكيفية تأثيرها على أداء DAX في توفير النتائج.
إذا كنت لا تزال تستخدم Excel حتى الآن ، فهذا هو أفضل وقت لبدء استخدام LuckyTemplates لاحتياجات إعداد تقارير الأعمال الخاصة بك.