คู่มือการดาวน์โหลดและติดตั้ง R และ RStudio
ค้นพบวิธีที่เราสามารถดาวน์โหลดและติดตั้ง R และ RStudio ซึ่งเป็นทั้งแบบฟรีและแบบโอเพ่นซอร์สสำหรับการเขียนโปรแกรมสถิติและกราฟิก
เมื่อวิเคราะห์ข้อมูล เราต้องการทราบขั้นตอนต่อไปเกี่ยวกับวิธีค้นหาค่าที่ขาดหายไป เนื่องจากข้อมูลส่วนใหญ่ในการวิเคราะห์ถูกกำหนดโดยปัจจัยที่แตกต่างกัน เพื่อช่วยคุณในเรื่องนี้ เราจะแก้ไขปัญหาการแสดงข้อมูลที่ขาดหายไปใน Rโดยใช้แพ็คเกจggmice คุณสามารถดูวิดีโอทั้งหมดของบทช่วยสอนนี้ได้ที่ด้านล่างของบล็อกนี้
“ฉันจะทำอย่างไรกับค่าที่หายไป” นี่เป็นคำถามสำคัญที่คุณควรถามเมื่อคุณวิเคราะห์ข้อมูล เราทุกคนหวังว่าพวกมันจะค้นหาได้ง่ายเนื่องจากมันถูกเข้ารหัสเป็นโมฆะหรือ NA
เราจะพิจารณากฎทั่วไปบางประการและขั้นตอนถัดไป เราจะเรียนรู้วิธีการตอบคำถาม เช่น มีข้อมูลหายไปกี่รายการ? ปัญหาใหญ่แค่ไหน? เราสามารถค้นหารูปแบบใด ๆ ในข้อมูลได้หรือไม่?
มีหลายวิธีในการทำเช่นนี้ แต่เราจะใช้การแสดงภาพที่ขาดหายไปใน R เป็นการเริ่มต้นการสำรวจครั้งแรก
สารบัญ
เมื่อใดควรทิ้งและเมื่อใดควรค้นหาค่าที่ขาดหายไป
หากไม่มีรูปแบบในการหายไปและมีผลกระทบต่อการสังเกตน้อยกว่า 5% ไม่ว่าจะเป็นในคอลัมน์หรือชุดข้อมูล คุณก็สามารถละทิ้งค่าที่ขาดหายไปเหล่านั้นได้
อย่างไรก็ตาม หากพบว่ามันแพร่หลายมากขึ้น และคุณสามารถพบรูปแบบที่สำคัญบางอย่างตามการแสดงภาพ คุณอาจต้องทำบางอย่างกับข้อมูลนั้น
ดังนั้น แทนที่จะทิ้งมัน เราสามารถใส่ค่าเหล่านี้ได้ เพราะอาจมีเรื่องราวเกี่ยวกับสาเหตุที่ค่าเหล่านั้นหายไปในรูปแบบที่เป็นอยู่
ในการสาธิตนี้ เราจะใช้แพ็คเกจที่จะใส่ค่าที่ขาดหายไป นี่คือแพ็คเกจใหม่สำหรับแสดงข้อมูลที่ขาด หายไปใน R และเรียกว่าggmice
แนวคิดคือการหารูปแบบและจำนวนค่าที่ขาดหายไป ดังนั้นเราจะดูที่รูปแบบพล็อตและเมทริกซ์ตัวทำนายพล็อต
MICE ย่อมาจากmultivariate imputation by chained method เราไม่ได้เข้าสู่กลไก แต่เราจะเรียนรู้ว่าอัลกอริทึมนี้จะใส่ข้อมูลของเราอย่างไรหากเราใช้
อีกสิ่งหนึ่งที่ควรรู้เกี่ยวกับการแสดงข้อมูลที่ขาดหายไปใน R โดยใช้ ggmice คือมันควรจะเข้ากันได้กับ ggplot2ดังนั้นเราจึงสามารถสร้างการแสดงภาพที่ด้านหลังของggplot2ซึ่งเป็นแพ็คเกจการแสดงภาพที่มีชื่อเสียง
ขั้นตอนในการแสดงข้อมูลที่ขาดหายไปใน R ด้วย GGMICE
ไปข้างหน้าและบูตRStudioกัน สิ่งแรกที่เราต้องทำคือนำเข้าแพ็คเกจทั้งหมดที่เราต้องการโดยพิมพ์library (ggmice) , library (tidyverse) ซึ่งรวมถึง ชุดข้อมูลggplot2 และlibrary (Ecdat)
แพ็คเกจห้องสมุด (Ecdat) มีชุดข้อมูลที่ดีมากมายให้ฝึกฝน นั่นเป็นเหตุผลที่เราใช้และนำเข้า
หนึ่งในชุดข้อมูลคือhelp (MCAS ) ลองเรียกใช้ฟังก์ชันความช่วยเหลือเกี่ยวกับสิ่งนี้
อย่างที่เราเห็น นี่มาจาก Ecdat และเป็นชุดข้อมูลคะแนนสอบ เอกสารช่วยเหลือนี้อธิบายแต่ละคอลัมน์และบอกเราเกี่ยวกับที่มา
เราจะใช้ข้อมูลนี้เพื่อเรียนรู้ว่ามีข้อมูลขาดหายไปหรือไม่ และรูปแบบใดจะเกิดขึ้นหากมี
ลองใช้is.na (MCAS)แล้วคลิกRun อย่างที่เราเห็นมีทั้ง TRUE และ FALSE สิ่งที่เราทำได้คือรวมค่าเหล่านี้โดยใช้ ฟังก์ชัน colSums (is.na(MCAS))เนื่องจาก FALSE และ TRUE เป็นศูนย์และหนึ่งปลอมตัว นี่คือวิธีของเราในการตรวจสอบว่าค่านั้นหายไปหรือไม่
ดังที่แสดงด้านล่าง ค่าที่ขาดหายไปจะอยู่ใน สามคอลัมน์ เช่นspc , totsc8และavgsalary เราสามารถดูรายละเอียดของคอลัมน์เหล่านี้ได้ในส่วนเอกสารช่วยเหลือ
นอกจากนี้ การใช้colSums (is.na(MCAS)) / nrow (MCAS)จำนวนแถวจะเปลี่ยนเป็นเปอร์เซ็นต์ นี่เป็นวิธีหนึ่งในการดู แต่ไม่ใช่วิธีที่ง่ายที่สุดที่จะทำ
ในกรณีนี้ เรามาดูกันดีกว่าว่า ggmice สามารถทำอะไรให้เราได้บ้าง เราจะใช้ ฟังก์ชัน browserVignettes (package = 'ggmice')จากนั้นคลิกRun
ฟังก์ชันนี้พบภาพวิกเน็ตต์บางส่วน ดังนั้นให้เลือกggmiceแล้วคลิก ลิงก์ HTMLเพื่อดูบทช่วยสอนที่อาจช่วยได้
กลับไปที่สคริปต์ ให้ใช้ ฟังก์ชัน plot_pattern (MCAS)เพื่อส่งผ่านชุดข้อมูล
เพื่อให้เห็นภาพได้ดีขึ้น ให้คลิกปุ่มซูม ตามภาพประกอบ จากการสังเกต 155 รายการspcมีค่าที่ขาดหายไป 9 ค่า 25 สำหรับavgsalary และ 40 สำหรับtotsc8
เราจะพยายามค้นหาว่ามีรายการใดที่ตรงกันบ้าง มีกี่รายการ และมีแนวโน้มที่จะอยู่ในคลัสเตอร์หรือไม่
ในการตรวจสอบข้ามสิ่งนี้ เราสามารถลองวิธีอนาล็อกได้โดยใช้ ฟังก์ชัน มุมมอง (MCAS)แล้วคลิกRun
นี่เป็นโปรแกรมดูสเปรดชีตที่เราสามารถดูค่าที่ขาดหายไปทั้งหมดได้ เรายังสามารถขยายได้โดยคลิกปุ่มตัวแก้ไขแหล่งที่มา
คล้ายกับPower Queryเราสามารถดูรายการทั้งหมดและ NAs เป็นค่าที่ขาดหายไป เห็นได้ชัดว่า รายการทั้งหมดในมุมมอง (MCAS) คือ 220 และเพียง 155 สำหรับ plot_pattern (MCAS) เนื่องจากอาจมีค่าสมบูรณ์ที่ไม่ได้ลงจุดต่อ se
นอกจากนี้ เราจะเห็นว่าพวกมันมีแนวโน้มที่จะรวมกลุ่มกันตามตัวแปรและแถว อย่างไรก็ตาม ในหลายกรณี มีเพียงอย่างใดอย่างหนึ่งเท่านั้นที่ขาดหายไป ความจริงก็คือ การทำภาพแบบนี้ทีละแถวเป็นเรื่องยาก ดังนั้นการสร้างภาพข้อมูลจึงเข้ามาที่นี่
ใส่ข้อมูลที่ขาดหายไป
สิ่งต่อไปที่ต้องทำคือกลับไปที่สคริปต์ของเรา จากนั้นพิมพ์nrow (MCAS)แล้วsum(is.na(MCAS)$totsc8) )
ในกรณีนี้ เรารู้ว่า 40 ไม่มีค่าจากการสังเกต 200 ครั้ง ลองใช้ R เป็นเครื่องคิดเลขโดยใส่ 40/200 ดังนั้นเราจึงมีค่าที่หายไปประมาณ 20% ซึ่งเป็นจำนวนมาก
เราต้องการทราบว่าเหตุใดจึงมีจำนวนมากหายไป อาจเป็นเพียงวิธีการรวบรวมข้อมูลซึ่งเป็นสาเหตุที่เราสามารถกล่าวอ้างได้
ในการทำเช่นนั้น มานำเข้าแพ็คเกจห้องสมุด (หนู) กันเถอะ นี่เป็นหนึ่งในวิธีการใส่ความ
จากนั้น ให้ใช้ ฟังก์ชัน MCAS_pred < –="" quickpred="">และฟังก์ชันplot_pred(MCAS_pred) อย่าลืมบันทึกสิ่งเหล่านี้ คลิกเรียกใช้แล้วคลิกปุ่มซูม
หากเราต้องการใช้การใส่ข้อมูลหลายตัวแปร อัลกอริทึมนี้จะค้นหาการสังเกตและจุดข้อมูลที่คล้ายกับจุดที่ขาดหายไป จากนั้นจึงพยายามเติมสิ่งเหล่านั้นเข้าไป
ตัวอย่างเช่นคอลัมน์spc สิ่งเหล่านี้จะเป็นประโยชน์สำหรับการทำนายค่าที่ขาดหายไปเช่นเดียวกับtotsc8และavgsalary ณ จุดนี้ เราไม่ได้ดำเนินการดังกล่าว แต่เรากำลังดูว่าค่าและตัวแปรใดที่เกี่ยวข้องกันซึ่งอาจเป็นประโยชน์ในการขัดขวางค่าเหล่านั้น
ลองอีกสิ่งหนึ่ง เราจะใช้ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point ( )แล้วคลิกRun
นี่คือพล็อตกระจายยกเว้นว่าเรากำลังใช้ ggmice โดยพื้นฐานแล้ว แนวคิดคือเราสามารถเห็นความสัมพันธ์ระหว่างตัวแปรสองตัวนี้ซึ่งมีค่าที่ขาดหายไปค่อนข้างน้อย เมื่อจุดใดจุดหนึ่งหายไปและอีกจุดหนึ่งว่าง เราสามารถดูว่าจุดเหล่านั้นอยู่ที่ไหน
ในสถานการณ์นี้ ทั้งสองสิ่งนี้ถูกสังเกตในกรณีใดกรณีหนึ่งเหล่านี้ หนึ่งหายไปและอีกไม่ได้ หากไม่มีทั้งสองอย่างก็จะไม่อยู่ในเนื้อเรื่อง
แก้ไขข้อมูลใน R โดยใช้ Power Query ของแพ็คเกจ DataEditR แนวทางปฏิบัติที่ดีที่สุดสำหรับโมเดลข้อมูลของคุณ
วิธีติดตั้งแพ็คเกจ R ใน LuckyTemplates
บทสรุป
เมื่อเราทำงานกับค่าที่ขาดหายไป การใช้อัลกอริทึมเช่น MICE นั้นน่าดึงดูดใจเพราะมีประสิทธิภาพมากในการใส่ค่า อย่างไรก็ตาม ควรสำรวจข้อมูลด้วยตัวคุณเองและทำความเข้าใจกับสิ่งที่เกิดขึ้นจะดีกว่า
หากเรามีข้อมูลที่ขาดหายไปจำนวนมาก เราต้องการทราบว่าเหตุใดและบางทีเราอาจลองรับข้อมูลเพิ่มเติมหรืออาจกล่าวอ้างได้ มุ่งตรงไปที่แหล่งที่มาเป็นที่ต้องการเสมอ
หากเราต้องการใส่ค่าที่ขาดหายไป เราสามารถใช้วิธีใส่ค่าง่ายๆ ด้วยแพ็คเกจ tidyverseเช่น ค่าเฉลี่ยหรือค่ามัธยฐาน
ไม่ต้องสงสัยเลยว่าแพ็คเกจ MICE นั้นทรงพลัง มันอาจจะเกินความจำเป็นสำหรับสิ่งต่าง ๆ ที่ต้องใช้การคำนวณมาก แต่ตอนนี้เรามุ่งเน้นไปที่องค์ประกอบการแสดงภาพของมันเท่านั้น
ฉันหวังว่าคุณจะได้เรียนรู้บางสิ่งและใช้แพ็คเกจนี้ได้อย่างอิสระ อย่าลืมแบ่งปันและพยายามพูดออกมาเพราะมันเป็นแพ็คเกจที่ดีที่จะทำงานกับค่าที่ขาดหายไปซึ่งเข้ากันได้กับ ggplot2
สิ่งที่ดีที่สุด
จอร์จ
ค้นพบวิธีที่เราสามารถดาวน์โหลดและติดตั้ง R และ RStudio ซึ่งเป็นทั้งแบบฟรีและแบบโอเพ่นซอร์สสำหรับการเขียนโปรแกรมสถิติและกราฟิก
วิธีลดขนาดไฟล์ Excel – 6 วิธีที่มีประสิทธิภาพ
Power Automate คืออะไร? - สุดยอดคู่มือที่ช่วยให้คุณเข้าใจและใช้ได้อย่างมีประสิทธิภาพ
วิธีใช้ Power Query ใน Excel: คำแนะนำทั้งหมดเพื่อทำให้ข้อมูลของคุณมีประสิทธิภาพมากขึ้น
ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates
ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก
บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ
ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น
ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร