คู่มือการดาวน์โหลดและติดตั้ง R และ RStudio
ค้นพบวิธีที่เราสามารถดาวน์โหลดและติดตั้ง R และ RStudio ซึ่งเป็นทั้งแบบฟรีและแบบโอเพ่นซอร์สสำหรับการเขียนโปรแกรมสถิติและกราฟิก
ในบทช่วยสอนนี้ คุณจะได้เรียนรู้วิธีการสุ่มตัวอย่างข้อมูลอนุกรมเวลา ใหม่ โดยใช้ Pandas คุณสามารถดูวิดีโอทั้งหมดของบทช่วยสอนนี้ได้ที่ด้านล่างของบล็อกนี้
แนวคิดของการสุ่มตัวอย่างซ้ำคืออะไร สิ่งนี้เกี่ยวข้องกับข้อมูลอนุกรมเวลา และสิ่งที่เราจะทำคือเปลี่ยนความถี่ของการรายงานข้อมูลนั้น ตัวอย่างเช่น เปลี่ยนค่ารายปีเป็นรายเดือนหรือรายสัปดาห์ หรือเปลี่ยนข้อมูลรายชั่วโมงเป็นรายวัน ในระยะสั้น เรากำลังเปลี่ยนระดับในลำดับชั้น
ซึ่งสามารถใช้ด้วยเหตุผลหลายประการ เช่น การได้รับแนวโน้มที่น่าเชื่อถือมาก ขึ้น ขนาดตัวอย่างและฤดูกาล ในบางรายงาน มันจะสมเหตุสมผลมากขึ้นหากเราใช้ลำดับชั้นบางระดับกับอีกระดับหนึ่ง
นอกจากนี้ การสุ่มตัวอย่างใหม่สามารถช่วยได้หากคุณมีแหล่งข้อมูลที่แตกต่างกัน และคุณจำเป็นต้องทำการรวมข้อมูลอนุกรมเวลาเข้าด้วยกัน สิ่งนี้จะช่วยในการจัดการกับความไม่ตรงกันในลำดับชั้น
หากต้องการแยกรายละเอียดเพิ่มเติม เรามีการสุ่มตัวอย่างและการสุ่มตัวอย่าง
การสุ่มตัวอย่างคือการ ลดความถี่ของการรายงาน อาจเป็นได้หลายอย่าง เช่น การแปลงจากวินาทีเป็นหนึ่งชั่วโมงเพื่อให้มีค่าน้อยลงหรือสุ่มตัวอย่างแบบเดือนต่อไตรมาส
ในทางกลับกันการสุ่มตัวอย่างเป็นการเพิ่มความถี่ในการรายงานจากระดับเดือนลงมาเป็นวัน เราจะมีตัวอย่างเพิ่มเติมในภายหลัง
สารบัญ
วิธีสุ่มตัวอย่างข้อมูลอนุกรมเวลาใหม่โดยใช้ Pandas
เราจะทำสิ่งนี้ใน Pandas ได้อย่างไร
ก่อนอื่น เราจะเปลี่ยน ดัชนีเป็นคอลัมน์ ข้อมูลอนุกรมเวลาของเรา จากนั้น เราสามารถสุ่มตัวอย่างโดยใช้การแก้ไข ซึ่งจะเติมค่าต่างๆ และเราสามารถสุ่มตัวอย่างเพื่อสะสมโดยการรวมค่าต่างๆ
ไปที่ Jupyter Notebook Python แล้วลองดูกับ Pandas
ในการเริ่มต้น เราจะใช้ Pandas โดยพิมพ์import pandas เป็น pdตามด้วยimport seaborn เป็น snsเพื่อให้เห็นภาพ และนำเข้า matplotlib.pyplot เป็น pltเพื่อปรับแต่งการแสดงภาพของ Seaborn
สิ่งต่อ ไปที่ต้องทำคือรับข้อมูลจาก vega_datasets import data เป็นสถานที่ที่ดีในการหาแหล่งตัวอย่าง นอกจากนี้ เรากำลังจะได้รับsp = data.sp500 ( )และ sp.head ( ) library
นี่คือข้อมูลของเราจนถึงตอนนี้ เรามีผลตอบแทนรายวันและราคาสำหรับแต่ละวัน
หากต้องการตั้งค่าดัชนีเป็นคอลัมน์วันที่ ให้พิมพ์sp.set_index(['date'], inplace=True)แล้วเรียกsp.headอีกครั้ง
ใช้การสุ่มตัวอย่างเพื่อรับค่า
จากนั้นเพื่อให้มีค่ามากขึ้น ให้ใช้การสุ่มตัวอย่าง เนื่องจากเรามีข้อมูลทุกวัน เราจึงสามารถลงเป็นรายชั่วโมงได้โดยใช้ฟังก์ชันที่ง่ายที่สุดซึ่งก็คือsp [['price']] resample ('H').ffill ( )แล้วเรียกใช้ Hหมายถึงชั่วโมงMหมายถึงเดือนDหมายถึงวัน เป็นต้น คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับสิ่งนี้ได้ใน เอกสารประกอบ ของPandas
อย่างที่เราเห็น วันที่ 1 มกราคม เวลาเที่ยงคืน ราคาคือ 1394.46 เช่นเดียวกับชั่วโมงถัดไปตั้งแต่ 01:00 น. ถึง 04:00 น. อีกตัวอย่างคือวันที่ 2 มกราคม ซึ่งราคาปิดอยู่ที่ 1366.42
มีวิธีอื่นในการทำเช่นนี้ แม้ว่าค่าจะไม่พร้อมใช้งานในระดับชั่วโมงก็ตาม นอกจากนี้ยังมี วิธีที่ซับซ้อนกว่าการเติมไปข้างหน้า สำหรับตัวอย่างของเรา สิ่งที่เราทำเป็นวิธีพื้นฐานในการแก้ไขการสุ่มตัวอย่าง
ต่อไป ไปที่ downsampling โดยพิมพ์avg_month = sp [['price]].resample ('M').mean ( )จากนั้นavg_month.head ( )แล้วรันเพื่อตรวจสอบ
ตามภาพประกอบ เราจะเห็นวันสุดท้ายของแต่ละเดือนและราคาเฉลี่ย เราสามารถลดตัวอย่างให้มีค่าน้อยลงหรือที่เราเรียกว่าการลดขนาด
เพื่อให้เห็นภาพ ลองพิมพ์ re-plot มิติที่วาด จาก นั้นตามด้วยsns.lineplot แผนภาพเส้นทำงานได้ดีขึ้นกับแกน X ที่ยาวขึ้น ในขณะที่ค่า Y คือราคาเฉลี่ยต่อเดือน
หากต้องการดูราคาเฉลี่ยสำหรับเดือนที่ลงจุด ลองเรียกใช้สิ่งนี้
อีกครั้ง มีหลายวิธีที่เราสามารถทำได้ ตัวอย่างเช่น หากเราต้องการทราบราคาต่ำสุดต่อไตรมาส สิ่งที่เราต้องทำคือพิมพ์quarter_lowแล้วตามด้วยquarter_low.headเพื่อเรียกใช้
ตอนนี้เราสามารถเห็นค่าต่ำสุดรายไตรมาสที่พบในแต่ละไตรมาส นี่คือวิธีที่คุณทำตัวอย่างใหม่
การจัดการข้อมูลที่หายไปใน Python โดยใช้วิธี Interpolation
MultiIndex ใน Pandas สำหรับ
ชุดข้อมูลหลายระดับหรือลำดับชั้นใน Pandas ด้วย ProfileReport | Python ใน LuckyTemplates
บทสรุป
สรุปได้ว่าPandas ถูกสร้างขึ้นมาสำหรับการสุ่มตัวอย่างใหม่และข้อมูลอนุกรมเวลา หากคุณกำลังทำงานกับข้อมูลอนุกรมเวลาและมีความละเอียดต่างกัน การสุ่มตัวอย่างใหม่อาจมีประโยชน์มาก
นอกจากนี้ อย่าลืมอ่านเอกสารประกอบของ Pandas เกี่ยวกับวิธีการ resample เพื่อเรียนรู้วิธีการต่างๆ มากมายในการทำเช่นนี้ เราดูที่สิ่งพื้นฐาน แต่คุณสามารถทำสิ่งต่างๆ ได้ เช่น รายปักษ์ วันทำงานสุดท้ายของเดือน และตัวเลือกเพิ่มเติมสำหรับการสุ่มตัวอย่างใหม่
สิ่งที่ดีที่สุด
จอร์จ เมาท์
ค้นพบวิธีที่เราสามารถดาวน์โหลดและติดตั้ง R และ RStudio ซึ่งเป็นทั้งแบบฟรีและแบบโอเพ่นซอร์สสำหรับการเขียนโปรแกรมสถิติและกราฟิก
วิธีลดขนาดไฟล์ Excel – 6 วิธีที่มีประสิทธิภาพ
Power Automate คืออะไร? - สุดยอดคู่มือที่ช่วยให้คุณเข้าใจและใช้ได้อย่างมีประสิทธิภาพ
วิธีใช้ Power Query ใน Excel: คำแนะนำทั้งหมดเพื่อทำให้ข้อมูลของคุณมีประสิทธิภาพมากขึ้น
ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง
คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates
ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก
บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ
ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น
ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร