ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
บทช่วยสอนนี้เป็นความต่อเนื่องในการอภิปรายเกี่ยวกับแพ็คเกจdplyr คุณจะได้เรียนรู้วิธีการจัดเรียง กรอง และจัดกลุ่มแถวใน R
บทเรียนที่แล้วเกี่ยวกับการทำงานของคอลัมน์ คราวนี้ โฟกัสไปที่ การ ดำเนินการแถวในdplyr
เราจะครอบคลุมพื้นฐานต่างๆ ซึ่งรวมถึง การเรียง ลำดับและการกรองชุดข้อมูล การรวม และการสรุปบันทึก เพื่อให้คุณเห็นภาพรวมเกี่ยวกับสิ่งที่คาดหวังจากบทเรียนนี้ ให้นึกถึงตารางเดือยใน MS Excel
สารบัญ
เริ่มต้นใช้งาน
เปิดสคริปต์ R ใหม่ใน RStudio
เช่นเดียวกับบทเรียนการดำเนินการคอลัมน์ การสาธิตนี้จะใช้ชุดข้อมูล Lahman ดาวน์โหลดได้โดยทำการค้นหาโดย Google อย่างรวดเร็ว
หากต้องการนำแพ็คเกจ Lahman เข้าสู่ R ให้เรียกใช้library (Lahman ) หากต้องการเปิดใช้งาน แพ็คเกจ dplyrให้เรียกใช้ไลบรารี (tidyverse ) นอกจากนี้โปรดจำไว้ว่าแนวทางปฏิบัติที่ดีที่สุดสำหรับการตั้งชื่อแบบแผนใน R คือการใช้อักษรตัวพิมพ์เล็ก ดังนั้นให้กำหนดTeamsเป็นทีม
ฟังก์ชันพื้นฐานสำหรับการดำเนินการแถว
1. จัดเรียงแถวใน R
การดำเนินการแถวแรกใน dpyllr คือsort ( ) ฟังก์ชันนี้ช่วยให้คุณจัดลำดับแถวใหม่ได้ ทำงานโดยการจัดเรียง data frame df ก่อน จากนั้นตามด้วยฟิลด์ที่กำหนด
ตัวอย่าง เช่นลองเรียงลำดับตามteamID เรียกใช้ การจัดเรียง ( ทีม, teamID)
หากต้องการให้จัดเรียงตามลำดับจากมากไปน้อย คุณต้องใช้ฟังก์ชันdesc ( )
ตัวอย่างเช่น หากคุณต้องการเรียงลำดับตามปีจากมากไปน้อย ให้เรียกใช้sort (teams, desc(yearID))
เมื่อคุณทำเช่น นี้คุณจะไม่ได้กำหนดผลลัพธ์กลับให้กับทีม คุณเพิ่งเห็นผลลัพธ์ในคอนโซล
นอกจากนี้ยังสามารถจัดเรียงตามเกณฑ์ต่างๆ ตัวอย่างเช่น ถ้าคุณต้องการเรียงลำดับตามรหัสทีมและรหัสปีตามลำดับจากมากไปน้อย คุณต้องเรียกใช้โค้ดนี้เท่านั้น:
เมื่อคุณจัดเรียงแถว คุณไม่ได้เปลี่ยนแปลงข้อมูล ข้อมูลกำลังถูกเคลื่อนย้ายไปรอบๆ ไม่มีการเพิ่มหรือลบอะไร
2. กรองแถวใน R
ฟังก์ชันตัวกรอง ( )เพิ่มหรือลบข้อมูลขึ้นอยู่กับเกณฑ์ที่เลือก รหัสพื้นฐานของมันคือ:
ตัวอย่างเช่น ลองรับข้อมูลทั้งหมดที่รหัสปีมากกว่าหรือเท่ากับ 2000 ทำตามรูปแบบของฟังก์ชันตัวกรองและป้อนข้อมูลที่จำเป็น จากนั้นเรียกใช้ อย่าลืมกำหนดสิ่งนี้ให้กับวัตถุใหม่ ในกรณีนี้ ถูกกำหนดให้เป็นmodern .
หากต้องการตรวจสอบว่าแถวถูกกรองจริงหรือไม่ คุณสามารถใช้ฟังก์ชันหรี่แสง ( ) ให้จำนวนแถวและคอลัมน์ใน data frame
หากคุณเรียกใช้dim (teams)คุณจะเห็นว่า data frame มี 2,955 แถวและ 48 คอลัมน์
หากคุณเรียกใช้ ฟังก์ชัน หรี่ในmodernคุณจะเห็นว่าจำนวนแถวลดลงเหลือ 630 ในขณะที่จำนวนคอลัมน์ยังคงเท่าเดิม
แถวถูกตัดออกเนื่องจากบางระเบียนเกินปี 2000
นอกจากนี้ยังสามารถกรองแถวตามหลายฟิลด์ใน R ได้ คุณจะต้องใช้คำสั่งANDและOR
ตัวอย่างเช่น ลองกรองทีมตามพื้นที่ ในกรณีนี้ วัตถุohio ใหม่ จะถูกสร้างขึ้น เกณฑ์การกรองคือteamIDควรมีเฉพาะ Cleveland และ Cincinnati
คุณต้องใช้เครื่องหมายเท่ากับคู่ ( == ) เพื่อตรวจสอบความเท่าเทียมกัน หากคุณใช้เครื่องหมายเท่ากับเพียงตัวเดียว R จะถือว่าเป็นตัวดำเนินการกำหนด ใช้เครื่องหมายและ ( & ) เพื่อแทนAND
หากต้องการตรวจสอบ ให้ใช้ฟังก์ชันหรี่แสง คุณจะเห็นว่าจำนวนแถวคือ 0
ซึ่งหมายความว่าไม่มีทีมใดที่พวกเขาทั้งสองตั้งอยู่ในคลีฟแลนด์และซินซินนาติ
ต่อไป มาลองคลีฟแลนด์หรือซินซินนาติกัน ตัวดำเนินการ OR แสดงโดยตัวดำเนินการไปป์ ( | ) ดังนั้น สิ่งที่คุณต้องทำคือแทนที่เครื่องหมายแอมเปอร์แซนด์ด้วยตัวดำเนินการไปป์แล้วเรียกใช้ หลังจากนั้น ให้เรียกใช้ ฟังก์ชัน หรี่แสงอีกครั้ง
คุณจะเห็นว่ามี 251 แถวแทนที่จะเป็นศูนย์
ทีนี้ถ้าคุณลืมใช้เครื่องหมายเท่ากับสองเท่าและใช้เครื่องหมายเดียวแทนล่ะ นี่คือสิ่งที่เกิดขึ้น:
RStudio จะแสดงข้อความแสดงข้อผิดพลาดที่มีประโยชน์มากใน Console เพื่อเตือนให้คุณใช้เครื่องหมายเท่ากับสองเท่า
3. จัดกลุ่มตามและสรุปแถวใน R
ฟังก์ชันจัดกลุ่มตาม ( )ช่วยให้คุณสามารถรวมระเบียนตามคอลัมน์ที่เลือก แล้วสรุปคอลัมน์อื่นตามการรวมนั้น
ฟังก์ชันจัดกลุ่มตาม ( ) ทำตามอัลกอริทึมนี้:
ตัวอย่างเช่น ลองจัดกลุ่มตามรหัสทีมและกำหนดให้กับวัตถุใหม่ ในกรณีนี้ วัตถุใหม่จะเรียกว่าteam_ID จากนั้นพิมพ์
ใน Console คุณจะสังเกตเห็นว่าบรรทัดแรกบอกว่าเป็นเสียงพูดtibble
tibble คือการปรับปรุงความ เป็นระเบียบเรียบร้อยเหนือกรอบข้อมูลพื้นฐาน เป็นคุณสมบัติในแพ็คเกจที่เสริมและปรับปรุงสิ่งที่มีอยู่นอกกรอบ
บรรทัดที่สองคือGroups ดังนั้น ข้อมูลจึงถูกจัดกลุ่มตามคอลัมน์ teamID
และด้วยเหตุนี้ คุณสามารถใช้ ฟังก์ชัน สรุป ( )กับกลุ่มเหล่านั้น ได้แล้ว
หมายเหตุ:ฟังก์ชันสรุปสามารถเป็นได้ทั้ง s หรือ z และจะขึ้นอยู่กับการใช้ภาษาอังกฤษแบบบริติชหรือแบบอเมริกัน
ตัวอย่างเช่น ลองสรุปteam_IDและรับสถิติสรุปพื้นฐาน มาดูค่าเฉลี่ย ขั้นต่ำ และสูงสุดของการชนะของแต่ละทีม อย่าลืมเน้นรหัสทั้งหมดก่อนที่จะเลือกเรียกใช้
จากนั้นคุณจะเห็นในคอนโซลว่าสรุปสถิติของแต่ละทีมปรากฏขึ้น ซึ่งคล้ายกับตาราง Pivot ที่คุณกำลังรวบรวมและสรุปข้อมูล
เฟรมข้อมูลใน R: การเรียนรู้ระดับปัจจัยพื้นฐาน
ใน R: การใช้ตัวแปรหมวดหมู่และลำดับ
เพิ่ม ลบ และเปลี่ยนชื่อคอลัมน์ใน R โดยใช้ dplyr
บทสรุป
เพื่อสรุป ได้มีการกล่าวถึงการดำเนินการสองอย่างใน dplyr บทช่วยสอนก่อนหน้านี้มุ่งเน้นไปที่การดำเนินการของคอลัมน์ ในขณะเดียวกัน บทเรียนปัจจุบันนี้แสดงให้คุณเห็นวิธีการดำเนินการกับแถวโดยใช้ แพ็คเกจ dplyrใน RStudio คุณได้เรียนรู้วิธีจัดเรียง กรอง และจัดกลุ่มแถวใน R
สิ่งต่อไปที่ต้องเรียนรู้คือวิธีรวมการดำเนินการทั้งสองนี้เข้าด้วยกัน การใช้ฟังก์ชันทั้งหมดที่คุณได้เรียนรู้มาจะช่วยคุณอย่างมากในการสร้างโค้ดใน R อย่างไรก็ตาม เทคนิคที่เป็นประโยชน์มากกว่าคือไปป์ไลน์ สิ่งนี้จะช่วยให้ทุกอย่างไหลมารวมกัน ดังนั้นอย่าลืมทบทวนบทเรียนถัดไปด้วย
ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates
ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก
บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ
ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น
ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร
เรียนรู้วิธีคำนวณการเปลี่ยนแปลงอัตรากำไรของคุณโดยใช้เทคนิคต่างๆ เช่น การแยกสาขาและการรวมสูตร DAX ใน LuckyTemplates
บทช่วยสอนนี้จะหารือเกี่ยวกับแนวคิดของการทำให้แคชข้อมูลเป็นรูปธรรมและวิธีที่สิ่งเหล่านี้ส่งผลต่อประสิทธิภาพของ DAX ในการให้ผลลัพธ์
หากคุณยังคงใช้ Excel อยู่จนถึงตอนนี้ นี่เป็นเวลาที่ดีที่สุดในการเริ่มใช้ LuckyTemplates สำหรับความต้องการในการรายงานทางธุรกิจของคุณ
เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้