ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
เมื่อทำงานกับชุดข้อมูลที่ประกอบด้วยตัวแปรหลายตัว วิธีที่ดีที่สุดคือการทำความเข้าใจว่าตัวแปรเหล่านี้แตกต่างกันอย่างไรและมีปฏิสัมพันธ์กันอย่างไร ในบทช่วยสอนนี้ ฉันจะสาธิตวิธีที่คุณสามารถใช้ฟังก์ชัน Seaborn ใน Python เพื่อแสดงภาพทางเลือกในการแจกแจงของตัวแปร คุณสามารถดูวิดีโอทั้งหมดของบทช่วยสอนนี้ได้ที่ด้านล่างของบล็อกนี้
สารบัญ
การใช้ฟังก์ชัน Seaborn ใน Python
ฉันจะสาธิตสิ่งนี้ในชุดข้อมูล MPG ซึ่งมีอยู่ใน Seaborn เอาเลย นำเข้าแพ็คเกจที่เราต้องการรวมถึงข้อมูลที่เราต้องการ เราจะดูการแจกแจงของตัวแปร MPG ที่นี่และความแตกต่างของมัน วิธีทั่วไปสองวิธีในการทำเช่นนั้นคือฮิสโตแกรมและบ็อกซ์พล็อต
ดังนั้นฉันจะใช้ ฟังก์ชัน displot (DIS สำหรับการแจกจ่าย) จากนั้นต้องระบุว่าเป็นชุดข้อมูลใดและตัวแปรใดที่เราจะใส่ในแกน X และด้วยเหตุนี้เราจึงมีการกระจาย
นี่เป็นสิ่งที่ดีทีเดียว นี่เป็นเรื่องง่ายมากที่จะเห็นการกระจายและรูปร่างทั้งหมด ข้อบกพร่องสองสามประการในการแสดงภาพการกระจายนี้ หนึ่งคือจำนวนถังขยะที่เราใช้นั้นขึ้นอยู่กับอำเภอใจ อีกอย่างคือเราไม่สามารถรู้ได้ทันทีว่าค่าเฉลี่ยของตัวแปรคืออะไร
สิ่งที่ดีสำหรับ Seaborn คือเมื่อฉันตั้งค่าตัวแปรที่ฉันต้องการ ที่ไหน และชุดข้อมูลใดที่ฉันใช้ มันเป็นเรื่องง่ายมากสำหรับการสร้างภาพข้อมูลใหม่ ตอนนี้เรากำลังจะไปที่ boxplot Boxplot ไม่ใช้ถังขยะ
แนวคิดคือเราสามารถเห็นค่าควอไทล์ได้อย่างชัดเจน โดยเฉพาะค่ามัธยฐาน และเราเห็นค่าควอไทล์อื่นๆ เราเห็นว่ามีความผิดปกติ และนี่เป็นพล็อตที่แม่นยำมาก โครงเรื่องของปัญหาคือมันแม่นยำกับสิ่งที่โดยทั่วไปแล้วผู้ใช้ทางธุรกิจจำนวนมากอาจไม่สนใจ
ดังนั้น เนื้อเรื่องนี้จึงค่อนข้างยากสำหรับคนที่ไม่มีค่าสถิติในการได้รับคุณค่ามากมาย และอีกครั้ง มันกำลังรวบรวมข้อมูล ดังนั้นเราจึงสูญเสียรายละเอียดไปมาก เป็นการยากที่จะรู้ว่าสิ่งนี้มีลักษณะอย่างไร เราเห็นได้ว่ามีค่าผิดปกติ เราสามารถเห็นค่าส่วนใหญ่อยู่ที่นี่ ฮิสโตแกรมช่วยให้เราดูสิ่งนั้นได้ง่ายขึ้น
นี่เป็นพล็อตที่ดีทั้งคู่ พวกเขาทั้งสองมีจุดประสงค์ มาดูทางเลือกอื่นโดยใช้ Seaborn เพื่อให้เห็นภาพ เราจ��ยึดติดกับ MPG สำหรับการแจกแจงของตัวแปรนั้น
คล้ายกับ boxplot คุณจะเห็นที่นี่ว่าค่ามัธยฐานถูกทำเครื่องหมายไว้อย่างชัดเจน เราเห็นช่วงควอไทล์ด้วย และเราสามารถดูได้ดีขึ้นว่าการแจกแจงโดยรวมคืออะไร นี่เป็นเหมือนฮิสโตแกรมเช่นกัน เรียกว่าพล็อตการประเมินความหนาแน่นของเคอร์เนลหรือพล็อต KDE เป็นฮิสโตแกรมเวอร์ชันที่ราบรื่น เราไม่ได้ใช้ Binning ตามอำเภอใจ ทุกอย่างราบรื่นเป็นช่วงต่อเนื่องที่นี่
นี่เป็นการผสมผสานระหว่างสองแนวทางนี้และดูแลข้อบกพร่องบางประการอย่างแท้จริง อย่างไรก็ตาม ขึ้นอยู่กับผู้ชมของคุณ พวกเขาอาจประสบปัญหาในการดูสิ่งนี้จริงๆ พวกเขาอาจไม่คุ้นเคยกับมัน แต่ก็มีประโยชน์บางอย่างสำหรับแนวทางดั้งเดิม
ด้วยแนวทางนี้ เราจะไม่รวบรวมข้อมูลอีกต่อไป ทุกจุดถูกลงจุด สิ่งนี้ใช้องค์ประกอบของพล็อตกระจายใช่ไหม หากคุณคิดเกี่ยวกับพล็อตกระจาย เราจะพล็อตทุกจุดบนพิกัด X และ Y
สุดท้าย เรามีสตริปพล็อต สิ่งที่เรากำลังทำอยู่นี้คือการแจกแจงนั้น และเรากำลังกระจายแบบสุ่ม นี่เป็นกระบวนการสุ่ม เราไม่ได้พยายามสร้างรูปแบบการกระจายนั้นอีกต่อไป ปัญหาของสิ่งนี้คือเรามีกระจุกเหล่านี้วิ่งเข้าหากัน ดังนั้นอาจไม่ดีขึ้นอยู่กับสิ่งที่คุณพยายามทำ บางทีคุณอาจต้องการลงสีตามกลุ่มหรืออะไรทำนองนั้น ดังนั้นจึงมีตัวเลือกสำหรับสิ่งนั้น
เราสามารถเปลี่ยน jitter เป็น .25 และดูว่าเมื่อเราเพิ่ม jitter จุดเหล่านี้จะกระจายออกไปอีกเล็กน้อย
อย่างไรก็ตาม ทุกครั้งที่ฉันเรียกใช้งาน พวกเขาจะดูแตกต่างออกไปเล็กน้อย ดังนั้น หากคุณต้องการกำจัดสิ่งนั้นและทำให้เหมือนเดิมทุกครั้ง คุณสามารถนำเข้า numpy เป็น npได้ สิ่งนี้เรียกว่าการตั้งค่าเมล็ดสุ่ม
ทุกครั้งที่ฉันเรียกใช้บางอย่างที่เกี่ยวข้องกับตัวเลขสุ่ม มันจะใช้ตัวเลขสุ่มตัวเดิม สิ่งต่าง ๆ จะไม่เปลี่ยนแปลงแบบสุ่มเมื่อคุณเรียกใช้ซ้ำ สิ่งนี้อาจดีสำหรับการจำลองแบบใดก็ตามที่คุณกำลังทำอยู่ ซึ่งเกิดขึ้นมากมายในวิทยาการข้อมูลและการวิเคราะห์ด้วยการสร้างภาพข้อมูลนี้เช่นกัน ทีนี้ ทุกครั้งที่ผมรันพล็อตนี้ เราจะได้หน้าตาเหมือนเดิม
ฉันสามารถเพิ่ม Y origin ได้ที่นี่ และตอนนี้เราเห็นว่าเรากำลังสร้างการแจกแจงแบบไบแวเรียนต์ เรากำลังใช้การแบ่งระยะและแบ่งตามจุดเริ่มต้น
วิธีใช้สคริปต์ Python ใน LuckyTemplates
การเขียนสคริปต์ Python ในรายงานข้อมูล LuckyTemplates
ชุดข้อมูลใน Pandas ด้วย ProfileReport() | Python ใน LuckyTemplates
บทสรุป
นี่เป็นทางเลือกในการแสดงภาพการแจกแจงของตัวแปรเดียว พวกเขาทั้งหมดมีข้อดีและข้อเสีย นี่ไม่ได้หมายความว่าอย่าใช้ boxplot หรือฮิสโตแกรม แต่เป็นการบอกว่านี่คือตัวเลือกอื่น ๆ ขึ้นอยู่กับสิ่งที่คุณพยายามแสดง
ทั้งหมดนี้สร้างได้ง่ายพอๆ กับอันอื่นๆ เมื่อเราใช้ฟังก์ชัน Seaborn ใน Python หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับPythonโปรดดูลิงก์ด้านล่าง
ดีที่สุด!
ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates
ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก
บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ
ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น
ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร
เรียนรู้วิธีคำนวณการเปลี่ยนแปลงอัตรากำไรของคุณโดยใช้เทคนิคต่างๆ เช่น การแยกสาขาและการรวมสูตร DAX ใน LuckyTemplates
บทช่วยสอนนี้จะหารือเกี่ยวกับแนวคิดของการทำให้แคชข้อมูลเป็นรูปธรรมและวิธีที่สิ่งเหล่านี้ส่งผลต่อประสิทธิภาพของ DAX ในการให้ผลลัพธ์
หากคุณยังคงใช้ Excel อยู่จนถึงตอนนี้ นี่เป็นเวลาที่ดีที่สุดในการเริ่มใช้ LuckyTemplates สำหรับความต้องการในการรายงานทางธุรกิจของคุณ
เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้