การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

การแก้ไขเป็นวิธีการสร้างจุดระหว่างจุดที่กำหนดให้ ในบทช่วยสอนนี้ ฉันจะแสดงวิธีที่คุณสามารถใช้ Interpolation ในการจัดการข้อมูลที่ขาดหายไปใน Python คุณสามารถดูวิดีโอทั้งหมดของบทช่วยสอนนี้ได้ที่ด้านล่างของบล็อกนี้

ใน Python การแก้ไขเป็นเทคนิคที่ใช้โดยส่วนใหญ่เพื่อใส่ค่าที่ขาดหายไปใน data frame หรือ series ขณะที่ประมวลผลข้อมูลล่วงหน้า ฉันจะสาธิตวิธีที่คุณสามารถใช้วิธีนี้เพื่อประเมินจุดข้อมูลที่ขาดหายไปในข้อมูลของคุณโดยใช้Pythonใน LuckyTemplates

หากเราดูข้อมูลเดิมด้านล่างที่แสดงอยู่ในกราฟด้านบน เราจะเห็นว่ามีช่องโหว่หรือข้อมูลที่ขาดหายไปจำนวนมากซึ่งเราไม่สามารถสร้างกราฟได้เนื่องจากไม่มีสิ่งใดเลย แต่ในกราฟด้านล่าง เราจะเห็นว่าเราได้ประมาณค่าบางอย่างเพื่อหาว่าข้อมูลนั้นมีลักษณะอย่างไร ข้อมูลจริงแสดงเป็นสีน้ำเงินอ่อน ในขณะที่ข้อมูล Interpolated เป็นสีน้ำเงินเข้ม

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

เรากำลังจะทำการประเมินอยู่ 2-3 แบบ เราจะทำการแก้ไขเชิงเส้น การแก้ไขที่ใกล้ที่สุด และการแก้ไขตามเวลาแบบถ่วงน้ำหนัก แต่ละคนจะให้ผลลัพธ์ที่แตกต่างกันเล็กน้อย

ตัวอย่างข้างต้นใช้การประมาณค่าเวลาแบบถ่วงน้ำหนัก ซึ่งมีลักษณะเกือบเหมือนกับการแก้ไขเชิงเส้น ยกเว้นว่าจะถ่วงน้ำหนักตามวัน เชิงเส้นประเมินข้อมูลตามความชันระหว่างจุดข้อมูลทั้งสองนี้ การประมาณค่าที่ใกล้ที่สุดเป็นการประมาณค่าแบบประจบประแจง ดังที่คุณเห็นด้านล่าง ซึ่งเราดูค่าที่ใกล้เคียงที่สุดและสามารถประมาณสิ่งที่อยู่ระหว่างสองค่าดังกล่าวได้

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

ข้ามไปที่โน้ตบุ๊ก Jupyter แล้วนำสิ่งนั้นเข้ามา

สารบัญ

วิธีใช้การแก้ไขในการจัดการข้อมูลที่ขาดหายไปใน Python

คุณสามารถใช้ตัวแก้ไขสคริปต์เพื่อเขียนสคริปต์ทุกอย่างได้ แต่จะง่ายกว่า คุณจะได้รับคำติชมเพิ่มเติมในสมุดบันทึก Jupyter ของคุณ ดังนั้นเรามาบันทึกสิ่งที่เรากำลังทำอยู่ เมื่อเราคัดลอกและวางสิ่งนี้บน Python Script Editor มันจะสะอาดและชัดเจนมาก

มานำเข้าไลบรารีที่เราต้องการ และเราจะนำเข้าแพนด้าและบันทึกเป็นตัวแปร PD เราจะนำเข้าNumpyและบันทึกเป็นตัวแปร NP Pandas เป็นไลบรารีการจัดการข้อมูล ในขณะที่ Numpy ช่วยให้เราจัดการข้อมูลได้เช่นกัน และให้พีชคณิตเชิงเส้นแก่เรา

เราต้องการนำชุด ข้อมูลของเราเข้ามา และเราจะบันทึกเป็นตัวแปรdf และเราจะใช้ตัวแปร Pandas ( pd ) และใช้ฟังก์ชันread.csv จากนั้น เราจะคัดลอกและวางตำแหน่งที่ไฟล์นั้นอยู่ในพีซีของเรา ของฉันอยู่ในไดเร็กทอรีการทำงานของฉัน ดังนั้นสิ่งที่ฉันต้องทำคือเขียนmachines.csvและสรุปสิ่งนั้นในวงเล็บ

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

และลองดูชุดข้อมูลของเราโดยใช้ตัวแปร df คุณจะเห็นได้ตั้งแต่วันที่ 1 ปี 2022 ไปจนถึงวันที่ 25 มันเป็นวันที่ติดต่อกันจนถึงวันที่ 15 แล้วก็มีสี่วันที่ขาดหายไปในวันที่ 19 แล้วก็มีสามวันที่ขาดหายไปเมื่อเราไปถึงวันที่ 22 และอีกสองวันก็ขาดหายไปในวันที่ 25

วันที่ข้ามไม่มีข้อมูลขาดหายไป นั่นไม่ใช่ข้อมูลในชุดข้อมูลของเรา สิ่งที่เราจะจัดการคือข้อมูลที่ขาดหายไป ซึ่งคุณเห็นว่าแสดงด้วยNaN เหล่านี้ หรือไม่มีค่าเลย

ตอนนี้เรามีชุดข้อมูลแล้ว ให้ใช้การตีความประเภทต่างๆ และบันทึกเป็นคอลัมน์ต่างๆ เราจะเห็นว่าเรามีobjectซึ่งแสดงด้วยข้อความ และเราก็มีfloatเช่นกัน

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

ฉันจะแยก คอลัมน์ Dateโดยใช้เครื่องหมายวงเล็บเหลี่ยม จากนั้นฉันจะใช้เท่ากับเพื่อกำหนดสิ่งนี้ ฉันจะใช้ ตัวแปร pdแล้วฉันก็ใช้ฟังก์ชัน to_datetime จากนั้นฉันจะปิดฟังก์ชันนั้นด้วยวงเล็บและเพิ่มในคอลัมน์วันที่

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

เราจะเห็นว่าตอนนี้เรามีวันที่เป็นประเภทข้อมูลที่เหมาะสม

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

เรามีดัชนีที่นี่ ซึ่งระบุด้วยตัวเลข 1 ถึง 18 เมื่อเราทำ Linear จะใช้ตัวเลขเหล่านี้เพื่อสร้างการเชื่อมต่อเชิงเส้นระหว่างจุดข้อมูลที่มีอยู่ แต่เรายังต้องการให้สามารถใช้การประมาณค่าถ่วงน้ำหนักด้วยเวลา ซึ่งจะพิจารณาเวลาและให้ผลลัพธ์ตามวันจริง เราต้องการตั้งค่าคอลัมน์วันที่เป็นดัชนีเพื่อให้เราใช้ประโยชน์ได้

ฉันจะใช้ตัวแปร data frame (df) และทำ set_index เราต้องส่งพารามิเตอร์ที่เรียกว่าinplaceเพื่อให้แน่ใจว่ามันถูกส่งผ่านอย่างถาวร ดังนั้นฉันจะใช้ inplace เท่ากับ true จากนั้นฉันจะกด shift และ enter และด้วยเหตุนี้ คุณจะเห็นว่าดัชนีตัวเลขหายไป และเรามีดัชนีวันที่และเวลา

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

ตอนนี้เราสามารถเริ่มสร้างคอลัมน์ที่เราต้องการได้แล้ว มาสร้างคอลัมน์ที่เรากำลังแก้ไขจุดข้อมูลที่ใกล้ที่สุด ซึ่งจะเติมค่าที่ขาดหายไปเหล่านี้ด้วยค่าที่ใกล้ที่สุด เราต้องการสร้างคอลัมน์ชื่อusers_nearestและเราต้องการกำหนดให้กับคอลัมน์ผู้ใช้

เราต้องการสร้างคอลัมน์ชื่อuser_nearestและเราต้องการกำหนดให้กับคอลัมน์ผู้ใช้ และตอนนี้เราได้แยกคอลัมน์นั้นแล้ว เราสามารถใช้ ฟังก์ชัน การแทรกสอด และเราสามารถกด shift-tab เพื่อดูว่าฟังก์ชันนี้ใช้พารามิเตอร์ใด มีหลายวิธีหลายประเภท

คุณจะเห็นว่าค่าเริ่มต้นเป็นแบบเชิงเส้น และถ้าคุณต้องการให้เห็นวิธีการต่างๆ ทั้งหมด จะมีข้อมูลอยู่ในส่วนนี้ คุณสามารถเปิดมันได้จนสุดและมีข้อมูลมากมายที่จะทำให้คุณเข้าใจอย่างลึกซึ้ง แต่จะเป็นการดีกว่าเสมอที่จะลงไปที่ไซต์ของ Pandas และดูว่าการแก้ไขประเภทต่างๆ ทั้งหมดเป็นอย่างไร

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

ตอนนี้เราจะผ่านวิธีการที่เราต้องการและเราจะใช้วิธีการแก้ไขที่ใกล้ที่สุด สิ่งที่เราต้องทำคือเรียกใช้สิ่งนี้ และคุณจะเห็นว่าคอลัมน์ถูกสร้างขึ้น หากเราดูที่บรรทัดนั้น เราจะเห็นว่าเป็นค่าที่ขาดหายไป และคุณจะเห็นว่ามีการสอดแทรกโดยนำค่าที่ใกล้เคียงที่สุดมาบวกที่นี่ อย่างที่คุณเห็น เราไม่มีค่าที่ขาดหายไปสำหรับแถวนั้นอีกต่อไป

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

ตอนนี้ ลองคัดลอกสอง ครั้งและเปลี่ยนชื่อของคอลัมน์เหล่านี้เป็นuser_linearและuser_time เราจะเปลี่ยนวิธีการด้วยเพื่อให้ตรงกับหัวข้อของเรา เราสามารถเลื่อนและป้อนได้ และคุณจะเห็นว่าเราได้สร้างสามคอลัมน์ตามวิธีการแก้ไขประเภทต่างๆ

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

ต่อไป ฉันต้องการสร้างคอลัมน์เฉพาะเจาะจงอีกหนึ่งคอลัมน์ที่ช่วยให้เราสามารถระบุว่าคอลัมน์ใดว่างเปล่า เช่น ธงในข้อมูลของเรา เราจะใช้ Numpy เพื่อสิ่งนั้น

ดังนั้น เราจะสร้างคอลัมน์ใหม่ชื่อdfแล้วเราจะเรียกมันว่าแฟล็ก เราจะกำหนดให้มันด้วยเครื่องหมายเท่ากับนั้น จากนั้นเราจะใช้npซึ่งเป็นตัวแปร Numpy ของเรา จากนั้น เราจะใช้ ฟังก์ชัน whereซึ่งเป็นฟังก์ชันเงื่อนไข เรากำหนดเงื่อนไขแล้วเราจะได้ตัวอย่างจริงและเท็จ เราใช้ค่าเท่ากับสองเท่า ซึ่งเท่ากับใน Python เมื่อเป็นจริงเราต้องการบอกว่าMissing Data ตัวเลือกอื่นจะเป็นข้อมูล

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

เราสามารถใช้ธงนั้นในวิชวลของเราได้ เมื่อเราอยู่ในสมุดบันทึกของคุณแล้ว ให้ไปที่การแปลงแล้วกดรันสคริปต์ Python ตอนนี้มีสองสามขั้นตอนที่แตกต่างกัน เราจำเป็นต้องทำให้สิ่งนี้ทำงานภายในสภาพแวดล้อมLuckyTemplates

เรามีรหัสทั้งหมดของเราที่นี่ และเราต้องเพิ่มขั้นตอนอีกสองสามขั้นตอน ประการแรก เมื่อเราจัดการกับวันที่-เวลา เราต้องเพิ่มพารามิเตอร์ข้อผิดพลาดที่ระบุว่า หากเรามีข้อผิดพลาด คุณสามารถบังคับหรือพยายามเปลี่ยนแปลงได้ ผมจะใส่error ตรงนี้เท่ากับแล้วใส่วงเล็บcoerce ต่อไป เราต้องกำหนดตัวแปรชุดข้อมูลใหม่เป็น df

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

เมื่อเราคลิก OKAY เราจะได้รับข้อผิดพลาดอื่น และนี่คือสิ่งที่เราต้องทำเพื่อแก้ไขปัญหานี้ หากเราทำตามขั้นตอนของเรา เราไม่จำเป็นต้องจัดรูปแบบวันที่ของเรา เราจะให้ Python ทำงานกับวันที่ เนื่องจากวันที่ไม่ซ้ำกันสำหรับแต่ละแพลตฟอร์ม สิ่งแรกที่เราต้องทำ คือกำจัดChanged Type

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

เราไม่มีคอลัมน์วันที่เนื่องจากวันที่เป็นดัชนี ดังนั้น เรากลับไปที่สคริปต์ Python ของเรา จากนั้นเราเพิ่งรีเซ็ตดัชนีของเราdf.reset_index เราบอกว่าเราต้องการรีเซ็ตเป็นบายพาสคอลัมน์ Date ในวงเล็บนั้น จากนั้นเราต้องการทำinplace = true

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

และตอนนี้ เรามีวันที่และประเภทข้อมูลอื่น ๆ ทั้งหมดของเราเสร็จสมบูรณ์แล้ว

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation

หากเราใส่เป็นภาพ นี่คือวิธีการแก้ไขที่แตกต่างกันสามวิธีในการจัดการข้อมูลที่ขาดหายไปใน Python

การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation


อัตราสกุลเงินใน LuckyTemplates: การจัดการข้อมูลที่หายไป
การเขียนสคริปต์ Python ในรายงานข้อมูล LuckyTemplates
วิธีโหลดชุดข้อมูลตัวอย่างใน Python

บทสรุป

คุณได้เรียนรู้วิธีการแก้ไขสามวิธีในการจัดการข้อมูลที่ขาดหายไปในPythonใน บทช่วยสอนนี้ เราได้กล่าวถึงวิธีการแก้ไขเวลาเชิงเส้น ใกล้ที่สุด และถ่วงน้ำหนัก

ฉันหวังว่าคุณจะพบว่าสิ่งนี้มีประโยชน์และนำไปใช้ในงานของคุณเอง คุณสามารถดูวิดีโอสอนแบบเต็มด้านล่างเพื่อดูรายละเอียดเพิ่มเติม และดูลิงก์ด้านล่างสำหรับเนื้อหาที่เกี่ยวข้องเพิ่มเติมเกี่ยวกับการจัดการข้อมูลที่ขาดหายไปใน Python

ดีที่สุด!

แกลิม

Leave a Comment

คู่มือการดาวน์โหลดและติดตั้ง R และ RStudio

คู่มือการดาวน์โหลดและติดตั้ง R และ RStudio

ค้นพบวิธีที่เราสามารถดาวน์โหลดและติดตั้ง R และ RStudio ซึ่งเป็นทั้งแบบฟรีและแบบโอเพ่นซอร์สสำหรับการเขียนโปรแกรมสถิติและกราฟิก

วิธีลดขนาดไฟล์ Excel – 6 วิธีที่มีประสิทธิภาพ

วิธีลดขนาดไฟล์ Excel – 6 วิธีที่มีประสิทธิภาพ

วิธีลดขนาดไฟล์ Excel – 6 วิธีที่มีประสิทธิภาพ

Power Automate คืออะไร? - สุดยอดคู่มือ

Power Automate คืออะไร? - สุดยอดคู่มือ

Power Automate คืออะไร? - สุดยอดคู่มือที่ช่วยให้คุณเข้าใจและใช้ได้อย่างมีประสิทธิภาพ

วิธีใช้ Power Query ใน Excel: คู่มือฉบับสมบูรณ์

วิธีใช้ Power Query ใน Excel: คู่มือฉบับสมบูรณ์

วิธีใช้ Power Query ใน Excel: คำแนะนำทั้งหมดเพื่อทำให้ข้อมูลของคุณมีประสิทธิภาพมากขึ้น

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

วิธีบันทึกและโหลดไฟล์ RDS ใน R

วิธีบันทึกและโหลดไฟล์ RDS ใน R

คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ

บทนำในการกรองบริบทใน LuckyTemplates

บทนำในการกรองบริบทใน LuckyTemplates

ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร