จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

บทช่วยสอนนี้เป็นความต่อเนื่องในการอภิปรายเกี่ยวกับแพ็คเกจdplyr คุณจะได้เรียนรู้วิธีการจัดเรียง กรอง และจัดกลุ่มแถวใน R

บทเรียนที่แล้วเกี่ยวกับการทำงานของคอลัมน์ คราวนี้ โฟกัสไปที่ การ ดำเนินการแถวในdplyr

เราจะครอบคลุมพื้นฐานต่างๆ ซึ่งรวมถึง การเรียง ลำดับและการกรองชุดข้อมูล การรวม และการสรุปบันทึก เพื่อให้คุณเห็นภาพรวมเกี่ยวกับสิ่งที่คาดหวังจากบทเรียนนี้ ให้นึกถึงตารางเดือยใน MS Excel

สารบัญ

เริ่มต้นใช้งาน

เปิดสคริปต์ R ใหม่ใน RStudio

เช่นเดียวกับบทเรียนการดำเนินการคอลัมน์ การสาธิตนี้จะใช้ชุดข้อมูล Lahman ดาวน์โหลดได้โดยทำการค้นหาโดย Google อย่างรวดเร็ว

หากต้องการนำแพ็คเกจ Lahman เข้าสู่ R ให้เรียกใช้library (Lahman ) หากต้องการเปิดใช้งาน แพ็คเกจ dplyrให้เรียกใช้ไลบรารี (tidyverse ) นอกจากนี้โปรดจำไว้ว่าแนวทางปฏิบัติที่ดีที่สุดสำหรับการตั้งชื่อแบบแผนใน R คือการใช้อักษรตัวพิมพ์เล็ก ดังนั้นให้กำหนดTeamsเป็นทีม

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

ฟังก์ชันพื้นฐานสำหรับการดำเนินการแถว

1. จัดเรียงแถวใน R

การดำเนินการแถวแรกใน dpyllr คือsort ( ) ฟังก์ชันนี้ช่วยให้คุณจัดลำดับแถวใหม่ได้ ทำงานโดยการจัดเรียง data frame df ก่อน จากนั้นตามด้วยฟิลด์ที่กำหนด

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

ตัวอย่าง เช่นลองเรียงลำดับตามteamID เรียกใช้ การจัดเรียง ( ทีม, teamID)

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

หากต้องการให้จัดเรียงตามลำดับจากมากไปน้อย คุณต้องใช้ฟังก์ชันdesc ( )

ตัวอย่างเช่น หากคุณต้องการเรียงลำดับตามปีจากมากไปน้อย ให้เรียกใช้sort (teams, desc(yearID))

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

เมื่อคุณทำเช่น นี้คุณจะไม่ได้กำหนดผลลัพธ์กลับให้กับทีม คุณเพิ่งเห็นผลลัพธ์ในคอนโซล

นอกจากนี้ยังสามารถจัดเรียงตามเกณฑ์ต่างๆ ตัวอย่างเช่น ถ้าคุณต้องการเรียงลำดับตามรหัสทีมและรหัสปีตามลำดับจากมากไปน้อย คุณต้องเรียกใช้โค้ดนี้เท่านั้น:

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

เมื่อคุณจัดเรียงแถว คุณไม่ได้เปลี่ยนแปลงข้อมูล ข้อมูลกำลังถูกเคลื่อนย้ายไปรอบๆ ไม่มีการเพิ่มหรือลบอะไร

2. กรองแถวใน R

ฟังก์ชันตัวกรอง ( )เพิ่มหรือลบข้อมูลขึ้นอยู่กับเกณฑ์ที่เลือก รหัสพื้นฐานของมันคือ:

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

ตัวอย่างเช่น ลองรับข้อมูลทั้งหมดที่รหัสปีมากกว่าหรือเท่ากับ 2000 ทำตามรูปแบบของฟังก์ชันตัวกรองและป้อนข้อมูลที่จำเป็น จากนั้นเรียกใช้ อย่าลืมกำหนดสิ่งนี้ให้กับวัตถุใหม่ ในกรณีนี้ ถูกกำหนดให้เป็นmodern .

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

หากต้องการตรวจสอบว่าแถวถูกกรองจริงหรือไม่ คุณสามารถใช้ฟังก์ชันหรี่แสง ( ) ให้จำนวนแถวและคอลัมน์ใน data frame

หากคุณเรียกใช้dim (teams)คุณจะเห็นว่า data frame มี 2,955 แถวและ 48 คอลัมน์

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

หากคุณเรียกใช้ ฟังก์ชัน หรี่ในmodernคุณจะเห็นว่าจำนวนแถวลดลงเหลือ 630 ในขณะที่จำนวนคอลัมน์ยังคงเท่าเดิม

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

แถวถูกตัดออกเนื่องจากบางระเบียนเกินปี 2000

กรองแถวตามหลายฟิลด์

นอกจากนี้ยังสามารถกรองแถวตามหลายฟิลด์ใน R ได้ คุณจะต้องใช้คำสั่งANDและOR

ตัวอย่างเช่น ลองกรองทีมตามพื้นที่ ในกรณีนี้ วัตถุohio ใหม่ จะถูกสร้างขึ้น เกณฑ์การกรองคือteamIDควรมีเฉพาะ Cleveland และ Cincinnati

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

คุณต้องใช้เครื่องหมายเท่ากับคู่ ( == ) เพื่อตรวจสอบความเท่าเทียมกัน หากคุณใช้เครื่องหมายเท่ากับเพียงตัวเดียว R จะถือว่าเป็นตัวดำเนินการกำหนด ใช้เครื่องหมายและ ( & ) เพื่อแทนAND

หากต้องการตรวจสอบ ให้ใช้ฟังก์ชันหรี่แสง คุณจะเห็นว่าจำนวนแถวคือ 0

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

ซึ่งหมายความว่าไม่มีทีมใดที่พวกเขาทั้งสองตั้งอยู่ในคลีฟแลนด์และซินซินนาติ

ต่อไป มาลองคลีฟแลนด์หรือซินซินนาติกัน ตัวดำเนินการ OR แสดงโดยตัวดำเนินการไปป์ ( | ) ดังนั้น สิ่งที่คุณต้องทำคือแทนที่เครื่องหมายแอมเปอร์แซนด์ด้วยตัวดำเนินการไปป์แล้วเรียกใช้ หลังจากนั้น ให้เรียกใช้ ฟังก์ชัน หรี่แสงอีกครั้ง

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

คุณจะเห็นว่ามี 251 แถวแทนที่จะเป็นศูนย์

ทีนี้ถ้าคุณลืมใช้เครื่องหมายเท่ากับสองเท่าและใช้เครื่องหมายเดียวแทนล่ะ นี่คือสิ่งที่เกิดขึ้น:

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

RStudio จะแสดงข้อความแสดงข้อผิดพลาดที่มีประโยชน์มากใน Console เพื่อเตือนให้คุณใช้เครื่องหมายเท่ากับสองเท่า

3. จัดกลุ่มตามและสรุปแถวใน R

ฟังก์ชันจัดกลุ่มตาม ( )ช่วยให้คุณสามารถรวมระเบียนตามคอลัมน์ที่เลือก แล้วสรุปคอลัมน์อื่นตามการรวมนั้น

ฟังก์ชันจัดกลุ่มตาม ( ) ทำตามอัลกอริทึมนี้:

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

ตัวอย่างเช่น ลองจัดกลุ่มตามรหัสทีมและกำหนดให้กับวัตถุใหม่ ในกรณีนี้ วัตถุใหม่จะเรียกว่าteam_ID จากนั้นพิมพ์

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

ใน Console คุณจะสังเกตเห็นว่าบรรทัดแรกบอกว่าเป็นเสียงพูดtibble

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

tibble คือการปรับปรุงความ เป็นระเบียบเรียบร้อยเหนือกรอบข้อมูลพื้นฐาน เป็นคุณสมบัติในแพ็คเกจที่เสริมและปรับปรุงสิ่งที่มีอยู่นอกกรอบ

บรรทัดที่สองคือGroups ดังนั้น ข้อมูลจึงถูกจัดกลุ่มตามคอลัมน์ teamID

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

และด้วยเหตุนี้ คุณสามารถใช้ ฟังก์ชัน สรุป ( )กับกลุ่มเหล่านั้น ได้แล้ว

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

หมายเหตุ:ฟังก์ชันสรุปสามารถเป็นได้ทั้ง s หรือ z และจะขึ้นอยู่กับการใช้ภาษาอังกฤษแบบบริติชหรือแบบอเมริกัน

ตัวอย่างเช่น ลองสรุปteam_IDและรับสถิติสรุปพื้นฐาน มาดูค่าเฉลี่ย ขั้นต่ำ และสูงสุดของการชนะของแต่ละทีม อย่าลืมเน้นรหัสทั้งหมดก่อนที่จะเลือกเรียกใช้

จัดเรียง กรอง และจัดกลุ่มแถวใน R โดยใช้ Dplyr

จากนั้นคุณจะเห็นในคอนโซลว่าสรุปสถิติของแต่ละทีมปรากฏขึ้น ซึ่งคล้ายกับตาราง Pivot ที่คุณกำลังรวบรวมและสรุปข้อมูล


เฟรมข้อมูลใน R: การเรียนรู้ระดับปัจจัยพื้นฐาน
ใน R: การใช้ตัวแปรหมวดหมู่และลำดับ
เพิ่ม ลบ และเปลี่ยนชื่อคอลัมน์ใน R โดยใช้ dplyr

บทสรุป

เพื่อสรุป ได้มีการกล่าวถึงการดำเนินการสองอย่างใน dplyr บทช่วยสอนก่อนหน้านี้มุ่งเน้นไปที่การดำเนินการของคอลัมน์ ในขณะเดียวกัน บทเรียนปัจจุบันนี้แสดงให้คุณเห็นวิธีการดำเนินการกับแถวโดยใช้ แพ็คเกจ dplyrใน RStudio คุณได้เรียนรู้วิธีจัดเรียง กรอง และจัดกลุ่มแถวใน R

สิ่งต่อไปที่ต้องเรียนรู้คือวิธีรวมการดำเนินการทั้งสองนี้เข้าด้วยกัน การใช้ฟังก์ชันทั้งหมดที่คุณได้เรียนรู้มาจะช่วยคุณอย่างมากในการสร้างโค้ดใน R อย่างไรก็ตาม เทคนิคที่เป็นประโยชน์มากกว่าคือไปป์ไลน์ สิ่งนี้จะช่วยให้ทุกอย่างไหลมารวมกัน ดังนั้นอย่าลืมทบทวนบทเรียนถัดไปด้วย


ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

วิธีบันทึกและโหลดไฟล์ RDS ใน R

วิธีบันทึกและโหลดไฟล์ RDS ใน R

คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ

บทนำในการกรองบริบทใน LuckyTemplates

บทนำในการกรองบริบทใน LuckyTemplates

ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร

วิเคราะห์การเปลี่ยนแปลงอัตรากำไรล่วงเวลา – การวิเคราะห์ด้วย LuckyTemplates และ DAX

วิเคราะห์การเปลี่ยนแปลงอัตรากำไรล่วงเวลา – การวิเคราะห์ด้วย LuckyTemplates และ DAX

เรียนรู้วิธีคำนวณการเปลี่ยนแปลงอัตรากำไรของคุณโดยใช้เทคนิคต่างๆ เช่น การแยกสาขาและการรวมสูตร DAX ใน LuckyTemplates

แนวคิด Materialization สำหรับแคชข้อมูลใน DAX Studio

แนวคิด Materialization สำหรับแคชข้อมูลใน DAX Studio

บทช่วยสอนนี้จะหารือเกี่ยวกับแนวคิดของการทำให้แคชข้อมูลเป็นรูปธรรมและวิธีที่สิ่งเหล่านี้ส่งผลต่อประสิทธิภาพของ DAX ในการให้ผลลัพธ์

การรายงานทางธุรกิจโดยใช้ LuckyTemplates

การรายงานทางธุรกิจโดยใช้ LuckyTemplates

หากคุณยังคงใช้ Excel อยู่จนถึงตอนนี้ นี่เป็นเวลาที่ดีที่สุดในการเริ่มใช้ LuckyTemplates สำหรับความต้องการในการรายงานทางธุรกิจของคุณ

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้