คู่มือการดาวน์โหลดและติดตั้ง R และ RStudio
ค้นพบวิธีที่เราสามารถดาวน์โหลดและติดตั้ง R และ RStudio ซึ่งเป็นทั้งแบบฟรีและแบบโอเพ่นซอร์สสำหรับการเขียนโปรแกรมสถิติและกราฟิก
การแก้ไขเป็นวิธีการสร้างจุดระหว่างจุดที่กำหนดให้ ในบทช่วยสอนนี้ ฉันจะแสดงวิธีที่คุณสามารถใช้ Interpolation ในการจัดการข้อมูลที่ขาดหายไปใน Python คุณสามารถดูวิดีโอทั้งหมดของบทช่วยสอนนี้ได้ที่ด้านล่างของบล็อกนี้
ใน Python การแก้ไขเป็นเทคนิคที่ใช้โดยส่วนใหญ่เพื่อใส่ค่าที่ขาดหายไปใน data frame หรือ series ขณะที่ประมวลผลข้อมูลล่วงหน้า ฉันจะสาธิตวิธีที่คุณสามารถใช้วิธีนี้เพื่อประเมินจุดข้อมูลที่ขาดหายไปในข้อมูลของคุณโดยใช้Pythonใน LuckyTemplates
หากเราดูข้อมูลเดิมด้านล่างที่แสดงอยู่ในกราฟด้านบน เราจะเห็นว่ามีช่องโหว่หรือข้อมูลที่ขาดหายไปจำนวนมากซึ่งเราไม่สามารถสร้างกราฟได้เนื่องจากไม่มีสิ่งใดเลย แต่ในกราฟด้านล่าง เราจะเห็นว่าเราได้ประมาณค่าบางอย่างเพื่อหาว่าข้อมูลนั้นมีลักษณะอย่างไร ข้อมูลจริงแสดงเป็นสีน้ำเงินอ่อน ในขณะที่ข้อมูล Interpolated เป็นสีน้ำเงินเข้ม
เรากำลังจะทำการประเมินอยู่ 2-3 แบบ เราจะทำการแก้ไขเชิงเส้น การแก้ไขที่ใกล้ที่สุด และการแก้ไขตามเวลาแบบถ่วงน้ำหนัก แต่ละคนจะให้ผลลัพธ์ที่แตกต่างกันเล็กน้อย
ตัวอย่างข้างต้นใช้การประมาณค่าเวลาแบบถ่วงน้ำหนัก ซึ่งมีลักษณะเกือบเหมือนกับการแก้ไขเชิงเส้น ยกเว้นว่าจะถ่วงน้ำหนักตามวัน เชิงเส้นประเมินข้อมูลตามความชันระหว่างจุดข้อมูลทั้งสองนี้ การประมาณค่าที่ใกล้ที่สุดเป็นการประมาณค่าแบบประจบประแจง ดังที่คุณเห็นด้านล่าง ซึ่งเราดูค่าที่ใกล้เคียงที่สุดและสามารถประมาณสิ่งที่อยู่ระหว่างสองค่าดังกล่าวได้
ข้ามไปที่โน้ตบุ๊ก Jupyter แล้วนำสิ่งนั้นเข้ามา
สารบัญ
วิธีใช้การแก้ไขในการจัดการข้อมูลที่ขาดหายไปใน Python
คุณสามารถใช้ตัวแก้ไขสคริปต์เพื่อเขียนสคริปต์ทุกอย่างได้ แต่จะง่ายกว่า คุณจะได้รับคำติชมเพิ่มเติมในสมุดบันทึก Jupyter ของคุณ ดังนั้นเรามาบันทึกสิ่งที่เรากำลังทำอยู่ เมื่อเราคัดลอกและวางสิ่งนี้บน Python Script Editor มันจะสะอาดและชัดเจนมาก
มานำเข้าไลบรารีที่เราต้องการ และเราจะนำเข้าแพนด้าและบันทึกเป็นตัวแปร PD เราจะนำเข้าNumpyและบันทึกเป็นตัวแปร NP Pandas เป็นไลบรารีการจัดการข้อมูล ในขณะที่ Numpy ช่วยให้เราจัดการข้อมูลได้เช่นกัน และให้พีชคณิตเชิงเส้นแก่เรา
เราต้องการนำชุด ข้อมูลของเราเข้ามา และเราจะบันทึกเป็นตัวแปรdf และเราจะใช้ตัวแปร Pandas ( pd ) และใช้ฟังก์ชันread.csv จากนั้น เราจะคัดลอกและวางตำแหน่งที่ไฟล์นั้นอยู่ในพีซีของเรา ของฉันอยู่ในไดเร็กทอรีการทำงานของฉัน ดังนั้นสิ่งที่ฉันต้องทำคือเขียนmachines.csvและสรุปสิ่งนั้นในวงเล็บ
และลองดูชุดข้อมูลของเราโดยใช้ตัวแปร df คุณจะเห็นได้ตั้งแต่วันที่ 1 ปี 2022 ไปจนถึงวันที่ 25 มันเป็นวันที่ติดต่อกันจนถึงวันที่ 15 แล้วก็มีสี่วันที่ขาดหายไปในวันที่ 19 แล้วก็มีสามวันที่ขาดหายไปเมื่อเราไปถึงวันที่ 22 และอีกสองวันก็ขาดหายไปในวันที่ 25
วันที่ข้ามไม่มีข้อมูลขาดหายไป นั่นไม่ใช่ข้อมูลในชุดข้อมูลของเรา สิ่งที่เราจะจัดการคือข้อมูลที่ขาดหายไป ซึ่งคุณเห็นว่าแสดงด้วยNaN เหล่านี้ หรือไม่มีค่าเลย
ตอนนี้เรามีชุดข้อมูลแล้ว ให้ใช้การตีความประเภทต่างๆ และบันทึกเป็นคอลัมน์ต่างๆ เราจะเห็นว่าเรามีobjectซึ่งแสดงด้วยข้อความ และเราก็มีfloatเช่นกัน
ฉันจะแยก คอลัมน์ Dateโดยใช้เครื่องหมายวงเล็บเหลี่ยม จากนั้นฉันจะใช้เท่ากับเพื่อกำหนดสิ่งนี้ ฉันจะใช้ ตัวแปร pdแล้วฉันก็ใช้ฟังก์ชัน to_datetime จากนั้นฉันจะปิดฟังก์ชันนั้นด้วยวงเล็บและเพิ่มในคอลัมน์วันที่
เราจะเห็นว่าตอนนี้เรามีวันที่เป็นประเภทข้อมูลที่เหมาะสม
เรามีดัชนีที่นี่ ซึ่งระบุด้วยตัวเลข 1 ถึง 18 เมื่อเราทำ Linear จะใช้ตัวเลขเหล่านี้เพื่อสร้างการเชื่อมต่อเชิงเส้นระหว่างจุดข้อมูลที่มีอยู่ แต่เรายังต้องการให้สามารถใช้การประมาณค่าถ่วงน้ำหนักด้วยเวลา ซึ่งจะพิจารณาเวลาและให้ผลลัพธ์ตามวันจริง เราต้องการตั้งค่าคอลัมน์วันที่เป็นดัชนีเพื่อให้เราใช้ประโยชน์ได้
ฉันจะใช้ตัวแปร data frame (df) และทำ set_index เราต้องส่งพารามิเตอร์ที่เรียกว่าinplaceเพื่อให้แน่ใจว่ามันถูกส่งผ่านอย่างถาวร ดังนั้นฉันจะใช้ inplace เท่ากับ true จากนั้นฉันจะกด shift และ enter และด้วยเหตุนี้ คุณจะเห็นว่าดัชนีตัวเลขหายไป และเรามีดัชนีวันที่และเวลา
ตอนนี้เราสามารถเริ่มสร้างคอลัมน์ที่เราต้องการได้แล้ว มาสร้างคอลัมน์ที่เรากำลังแก้ไขจุดข้อมูลที่ใกล้ที่สุด ซึ่งจะเติมค่าที่ขาดหายไปเหล่านี้ด้วยค่าที่ใกล้ที่สุด เราต้องการสร้างคอลัมน์ชื่อusers_nearestและเราต้องการกำหนดให้กับคอลัมน์ผู้ใช้
เราต้องการสร้างคอลัมน์ชื่อuser_nearestและเราต้องการกำหนดให้กับคอลัมน์ผู้ใช้ และตอนนี้เราได้แยกคอลัมน์นั้นแล้ว เราสามารถใช้ ฟังก์ชัน การแทรกสอด และเราสามารถกด shift-tab เพื่อดูว่าฟังก์ชันนี้ใช้พารามิเตอร์ใด มีหลายวิธีหลายประเภท
คุณจะเห็นว่าค่าเริ่มต้นเป็นแบบเชิงเส้น และถ้าคุณต้องการให้เห็นวิธีการต่างๆ ทั้งหมด จะมีข้อมูลอยู่ในส่วนนี้ คุณสามารถเปิดมันได้จนสุดและมีข้อมูลมากมายที่จะทำให้คุณเข้าใจอย่างลึกซึ้ง แต่จะเป็นการดีกว่าเสมอที่จะลงไปที่ไซต์ของ Pandas และดูว่าการแก้ไขประเภทต่างๆ ทั้งหมดเป็นอย่างไร
ตอนนี้เราจะผ่านวิธีการที่เราต้องการและเราจะใช้วิธีการแก้ไขที่ใกล้ที่สุด สิ่งที่เราต้องทำคือเรียกใช้สิ่งนี้ และคุณจะเห็นว่าคอลัมน์ถูกสร้างขึ้น หากเราดูที่บรรทัดนั้น เราจะเห็นว่าเป็นค่าที่ขาดหายไป และคุณจะเห็นว่ามีการสอดแทรกโดยนำค่าที่ใกล้เคียงที่สุดมาบวกที่นี่ อย่างที่คุณเห็น เราไม่มีค่าที่ขาดหายไปสำหรับแถวนั้นอีกต่อไป
ตอนนี้ ลองคัดลอกสอง ครั้งและเปลี่ยนชื่อของคอลัมน์เหล่านี้เป็นuser_linearและuser_time เราจะเปลี่ยนวิธีการด้วยเพื่อให้ตรงกับหัวข้อของเรา เราสามารถเลื่อนและป้อนได้ และคุณจะเห็นว่าเราได้สร้างสามคอลัมน์ตามวิธีการแก้ไขประเภทต่างๆ
ต่อไป ฉันต้องการสร้างคอลัมน์เฉพาะเจาะจงอีกหนึ่งคอลัมน์ที่ช่วยให้เราสามารถระบุว่าคอลัมน์ใดว่างเปล่า เช่น ธงในข้อมูลของเรา เราจะใช้ Numpy เพื่อสิ่งนั้น
ดังนั้น เราจะสร้างคอลัมน์ใหม่ชื่อdfแล้วเราจะเรียกมันว่าแฟล็ก เราจะกำหนดให้มันด้วยเครื่องหมายเท่ากับนั้น จากนั้นเราจะใช้npซึ่งเป็นตัวแปร Numpy ของเรา จากนั้น เราจะใช้ ฟังก์ชัน whereซึ่งเป็นฟังก์ชันเงื่อนไข เรากำหนดเงื่อนไขแล้วเราจะได้ตัวอย่างจริงและเท็จ เราใช้ค่าเท่ากับสองเท่า ซึ่งเท่ากับใน Python เมื่อเป็นจริงเราต้องการบอกว่าMissing Data ตัวเลือกอื่นจะเป็นข้อมูล
เราสามารถใช้ธงนั้นในวิชวลของเราได้ เมื่อเราอยู่ในสมุดบันทึกของคุณแล้ว ให้ไปที่การแปลงแล้วกดรันสคริปต์ Python ตอนนี้มีสองสามขั้นตอนที่แตกต่างกัน เราจำเป็นต้องทำให้สิ่งนี้ทำงานภายในสภาพแวดล้อมLuckyTemplates
เรามีรหัสทั้งหมดของเราที่นี่ และเราต้องเพิ่มขั้นตอนอีกสองสามขั้นตอน ประการแรก เมื่อเราจัดการกับวันที่-เวลา เราต้องเพิ่มพารามิเตอร์ข้อผิดพลาดที่ระบุว่า หากเรามีข้อผิดพลาด คุณสามารถบังคับหรือพยายามเปลี่ยนแปลงได้ ผมจะใส่error ตรงนี้เท่ากับแล้วใส่วงเล็บcoerce ต่อไป เราต้องกำหนดตัวแปรชุดข้อมูลใหม่เป็น df
เมื่อเราคลิก OKAY เราจะได้รับข้อผิดพลาดอื่น และนี่คือสิ่งที่เราต้องทำเพื่อแก้ไขปัญหานี้ หากเราทำตามขั้นตอนของเรา เราไม่จำเป็นต้องจัดรูปแบบวันที่ของเรา เราจะให้ Python ทำงานกับวันที่ เนื่องจากวันที่ไม่ซ้ำกันสำหรับแต่ละแพลตฟอร์ม สิ่งแรกที่เราต้องทำ คือกำจัดChanged Type
เราไม่มีคอลัมน์วันที่เนื่องจากวันที่เป็นดัชนี ดังนั้น เรากลับไปที่สคริปต์ Python ของเรา จากนั้นเราเพิ่งรีเซ็ตดัชนีของเราdf.reset_index เราบอกว่าเราต้องการรีเซ็ตเป็นบายพาสคอลัมน์ Date ในวงเล็บนั้น จากนั้นเราต้องการทำinplace = true
และตอนนี้ เรามีวันที่และประเภทข้อมูลอื่น ๆ ทั้งหมดของเราเสร็จสมบูรณ์แล้ว
หากเราใส่เป็นภาพ นี่คือวิธีการแก้ไขที่แตกต่างกันสามวิธีในการจัดการข้อมูลที่ขาดหายไปใน Python
อัตราสกุลเงินใน LuckyTemplates: การจัดการข้อมูลที่หายไป
การเขียนสคริปต์ Python ในรายงานข้อมูล LuckyTemplates
วิธีโหลดชุดข้อมูลตัวอย่างใน Python
บทสรุป
คุณได้เรียนรู้วิธีการแก้ไขสามวิธีในการจัดการข้อมูลที่ขาดหายไปในPythonใน บทช่วยสอนนี้ เราได้กล่าวถึงวิธีการแก้ไขเวลาเชิงเส้น ใกล้ที่สุด และถ่วงน้ำหนัก
ฉันหวังว่าคุณจะพบว่าสิ่งนี้มีประโยชน์และนำไปใช้ในงานของคุณเอง คุณสามารถดูวิดีโอสอนแบบเต็มด้านล่างเพื่อดูรายละเอียดเพิ่มเติม และดูลิงก์ด้านล่างสำหรับเนื้อหาที่เกี่ยวข้องเพิ่มเติมเกี่ยวกับการจัดการข้อมูลที่ขาดหายไปใน Python
ดีที่สุด!
แกลิม
ค้นพบวิธีที่เราสามารถดาวน์โหลดและติดตั้ง R และ RStudio ซึ่งเป็นทั้งแบบฟรีและแบบโอเพ่นซอร์สสำหรับการเขียนโปรแกรมสถิติและกราฟิก
วิธีลดขนาดไฟล์ Excel – 6 วิธีที่มีประสิทธิภาพ
Power Automate คืออะไร? - สุดยอดคู่มือที่ช่วยให้คุณเข้าใจและใช้ได้อย่างมีประสิทธิภาพ
วิธีใช้ Power Query ใน Excel: คำแนะนำทั้งหมดเพื่อทำให้ข้อมูลของคุณมีประสิทธิภาพมากขึ้น
ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates
ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก
บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ
ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น
ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร