ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

เมื่อทำงานกับชุดข้อมูลที่ประกอบด้วยตัวแปรหลายตัว วิธีที่ดีที่สุดคือการทำความเข้าใจว่าตัวแปรเหล่านี้แตกต่างกันอย่างไรและมีปฏิสัมพันธ์กันอย่างไร ในบทช่วยสอนนี้ ฉันจะสาธิตวิธีที่คุณสามารถใช้ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพทางเลือกในการแจกแจงของตัวแปร คุณสามารถดูวิดีโอทั้งหมดของบทช่วยสอนนี้ได้ที่ด้านล่างของบล็อกนี้

สารบัญ

การใช้ฟังก์ชัน Seaborn ใน Python

ฉันจะสาธิตสิ่งนี้ในชุดข้อมูล MPG ซึ่งมีอยู่ใน Seaborn เอาเลย นำเข้าแพ็คเกจที่เราต้องการรวมถึงข้อมูลที่เราต้องการ เราจะดูการแจกแจงของตัวแปร MPG ที่นี่และความแตกต่างของมัน วิธีทั่วไปสองวิธีในการทำเช่นนั้นคือฮิสโตแกรมและบ็อกซ์พล็อ

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

ดังนั้นฉันจะใช้ ฟังก์ชัน displot (DIS สำหรับการแจกจ่าย) จากนั้นต้องระบุว่าเป็นชุดข้อมูลใดและตัวแปรใดที่เราจะใส่ในแกน X และด้วยเหตุนี้เราจึงมีการกระจาย

นี่เป็นสิ่งที่ดีทีเดียว นี่เป็นเรื่องง่ายมากที่จะเห็นการกระจายและรูปร่างทั้งหมด ข้อบกพร่องสองสามประการในการแสดงภาพการกระจายนี้ หนึ่งคือจำนวนถังขยะที่เราใช้นั้นขึ้นอยู่กับอำเภอใจ อีกอย่างคือเราไม่สามารถรู้ได้ทันทีว่าค่าเฉลี่ยของตัวแปรคืออะไร

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

สิ่งที่ดีสำหรับ Seaborn คือเมื่อฉันตั้งค่าตัวแปรที่ฉันต้องการ ที่ไหน และชุดข้อมูลใดที่ฉันใช้ มันเป็นเรื่องง่ายมากสำหรับการสร้างภาพข้อมูลใหม่ ตอนนี้เรากำลังจะไปที่ boxplot Boxplot ไม่ใช้ถังขยะ

แนวคิดคือเราสามารถเห็นค่าควอไทล์ได้อย่างชัดเจน โดยเฉพาะค่ามัธยฐาน และเราเห็นค่าควอไทล์อื่นๆ เราเห็นว่ามีความผิดปกติ และนี่เป็นพล็อตที่แม่นยำมาก โครงเรื่องของปัญหาคือมันแม่นยำกับสิ่งที่โดยทั่วไปแล้วผู้ใช้ทางธุรกิจจำนวนมากอาจไม่สนใจ

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

ดังนั้น เนื้อเรื่องนี้จึงค่อนข้างยากสำหรับคนที่ไม่มีค่าสถิติในการได้รับคุณค่ามากมาย และอีกครั้ง มันกำลังรวบรวมข้อมูล ดังนั้นเราจึงสูญเสียรายละเอียดไปมาก เป็นการยากที่จะรู้ว่าสิ่งนี้มีลักษณะอย่างไร เราเห็นได้ว่ามีค่าผิดปกติ เราสามารถเห็นค่าส่วนใหญ่อยู่ที่นี่ ฮิสโตแกรมช่วยให้เราดูสิ่งนั้นได้ง่ายขึ้น

นี่เป็นพล็อตที่ดีทั้งคู่ พวกเขาทั้งสองมีจุดประสงค์ มาดูทางเลือกอื่นโดยใช้ Seaborn เพื่อให้เห็นภาพ เราจ��ยึดติดกับ MPG สำหรับการแจกแจงของตัวแปรนั้น

คล้ายกับ boxplot คุณจะเห็นที่นี่ว่าค่ามัธยฐานถูกทำเครื่องหมายไว้อย่างชัดเจน เราเห็นช่วงควอไทล์ด้วย และเราสามารถดูได้ดีขึ้นว่าการแจกแจงโดยรวมคืออะไร นี่เป็นเหมือนฮิสโตแกรมเช่นกัน เรียกว่าพล็อตการประเมินความหนาแน่นของเคอร์เนลหรือพล็อต KDE เป็นฮิสโตแกรมเวอร์ชันที่ราบรื่น เราไม่ได้ใช้ Binning ตามอำเภอใจ ทุกอย่างราบรื่นเป็นช่วงต่อเนื่องที่นี่

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

นี่เป็นการผสมผสานระหว่างสองแนวทางนี้และดูแลข้อบกพร่องบางประการอย่างแท้จริง อย่างไรก็ตาม ขึ้นอยู่กับผู้ชมของคุณ พวกเขาอาจประสบปัญหาในการดูสิ่งนี้จริงๆ พวกเขาอาจไม่คุ้นเคยกับมัน แต่ก็มีประโยชน์บางอย่างสำหรับแนวทางดั้งเดิม

ด้วยแนวทางนี้ เราจะไม่รวบรวมข้อมูลอีกต่อไป ทุกจุดถูกลงจุด สิ่งนี้ใช้องค์ประกอบของพล็อตกระจายใช่ไหม หากคุณคิดเกี่ยวกับพล็อตกระจาย เราจะพล็อตทุกจุดบนพิกัด X และ Y

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

สุดท้าย เรามีสตริปพล็อต สิ่งที่เรากำลังทำอยู่นี้คือการแจกแจงนั้น และเรากำลังกระจายแบบสุ่ม นี่เป็นกระบวนการสุ่ม เราไม่ได้พยายามสร้างรูปแบบการกระจายนั้นอีกต่อไป ปัญหาของสิ่งนี้คือเรามีกระจุกเหล่านี้วิ่งเข้าหากัน ดังนั้นอาจไม่ดีขึ้นอยู่กับสิ่งที่คุณพยายามทำ บางทีคุณอาจต้องการลงสีตามกลุ่มหรืออะไรทำนองนั้น ดังนั้นจึงมีตัวเลือกสำหรับสิ่งนั้น

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

เราสามารถเปลี่ยน jitter เป็น .25 และดูว่าเมื่อเราเพิ่ม jitter จุดเหล่านี้จะกระจายออกไปอีกเล็กน้อย

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

อย่างไรก็ตาม ทุกครั้งที่ฉันเรียกใช้งาน พวกเขาจะดูแตกต่างออกไปเล็กน้อย ดังนั้น หากคุณต้องการกำจัดสิ่งนั้นและทำให้เหมือนเดิมทุกครั้ง คุณสามารถนำเข้า numpy เป็น npได้ สิ่งนี้เรียกว่าการตั้งค่าเมล็ดสุ่ม

ทุกครั้งที่ฉันเรียกใช้บางอย่างที่เกี่ยวข้องกับตัวเลขสุ่ม มันจะใช้ตัวเลขสุ่มตัวเดิม สิ่งต่าง ๆ จะไม่เปลี่ยนแปลงแบบสุ่มเมื่อคุณเรียกใช้ซ้ำ สิ่งนี้อาจดีสำหรับการจำลองแบบใดก็ตามที่คุณกำลังทำอยู่ ซึ่งเกิดขึ้นมากมายในวิทยาการข้อมูลและการวิเคราะห์ด้วยการสร้างภาพข้อมูลนี้เช่นกัน ทีนี้ ทุกครั้งที่ผมรันพล็อตนี้ เราจะได้หน้าตาเหมือนเดิม

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร

ฉันสามารถเพิ่ม Y origin ได้ที่นี่ และตอนนี้เราเห็นว่าเรากำลังสร้างการแจกแจงแบบไบแวเรียนต์ เรากำลังใช้การแบ่งระยะและแบ่งตามจุดเริ่มต้น

ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพการกระจายของตัวแปร


วิธีใช้สคริปต์ Python ใน LuckyTemplates
การเขียนสคริปต์ Python ในรายงานข้อมูล LuckyTemplates
ชุดข้อมูลใน Pandas ด้วย ProfileReport() | Python ใน LuckyTemplates

บทสรุป

นี่เป็นทางเลือกในการแสดงภาพการแจกแจงของตัวแปรเดียว พวกเขาทั้งหมดมีข้อดีและข้อเสีย นี่ไม่ได้หมายความว่าอย่าใช้ boxplot หรือฮิสโตแกรม แต่เป็นการบอกว่านี่คือตัวเลือกอื่น ๆ ขึ้นอยู่กับสิ่งที่คุณพยายามแสดง

ทั้งหมดนี้สร้างได้ง่ายพอๆ กับอันอื่นๆ เมื่อเราใช้ฟังก์ชัน Seaborn ใน Python หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับPythonโปรดดูลิงก์ด้านล่าง

ดีที่สุด!


ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

วิธีบันทึกและโหลดไฟล์ RDS ใน R

วิธีบันทึกและโหลดไฟล์ RDS ใน R

คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ

บทนำในการกรองบริบทใน LuckyTemplates

บทนำในการกรองบริบทใน LuckyTemplates

ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร

วิเคราะห์การเปลี่ยนแปลงอัตรากำไรล่วงเวลา – การวิเคราะห์ด้วย LuckyTemplates และ DAX

วิเคราะห์การเปลี่ยนแปลงอัตรากำไรล่วงเวลา – การวิเคราะห์ด้วย LuckyTemplates และ DAX

เรียนรู้วิธีคำนวณการเปลี่ยนแปลงอัตรากำไรของคุณโดยใช้เทคนิคต่างๆ เช่น การแยกสาขาและการรวมสูตร DAX ใน LuckyTemplates

แนวคิด Materialization สำหรับแคชข้อมูลใน DAX Studio

แนวคิด Materialization สำหรับแคชข้อมูลใน DAX Studio

บทช่วยสอนนี้จะหารือเกี่ยวกับแนวคิดของการทำให้แคชข้อมูลเป็นรูปธรรมและวิธีที่สิ่งเหล่านี้ส่งผลต่อประสิทธิภาพของ DAX ในการให้ผลลัพธ์

การรายงานทางธุรกิจโดยใช้ LuckyTemplates

การรายงานทางธุรกิจโดยใช้ LuckyTemplates

หากคุณยังคงใช้ Excel อยู่จนถึงตอนนี้ นี่เป็นเวลาที่ดีที่สุดในการเริ่มใช้ LuckyTemplates สำหรับความต้องการในการรายงานทางธุรกิจของคุณ

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้