Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Interpolasi ialah kaedah untuk menjana mata antara titik yang diberikan. Dalam tutorial ini, saya akan menunjukkan bagaimana anda boleh menggunakan Interpolasi dalam mengendalikan data yang hilang dalam Python. Anda boleh menonton video penuh tutorial ini di bahagian bawah blog ini.
Dalam Python, Interpolasi ialah teknik yang kebanyakannya digunakan untuk mengaitkan nilai yang hilang dalam bingkai atau siri data semasa prapemprosesan data. Saya akan menunjukkan cara anda boleh menggunakan kaedah ini untuk menganggarkan titik data yang hilang dalam data anda menggunakan Python dalam LuckyTemplates.
Jika kita melihat data asal kami di sini di bawah yang diwakili dalam graf teratas, kami dapat melihat bahawa terdapat banyak lubang atau data yang hilang yang tidak dapat kami graf kerana tiada apa-apa di sana. Tetapi dalam graf bawah, kita dapat melihat bahawa kita telah melakukan beberapa anggaran untuk mengetahui rupa data tersebut. Data sebenar diwakili dalam warna biru muda, manakala data Interpolasi adalah dalam warna biru tua.
Terdapat beberapa jenis anggaran yang akan kami lakukan. Kami akan melakukan Interpolasi Linear, Interpolasi Terdekat, dan kemudian Interpolasi Masa Berwajaran. Setiap daripada mereka akan memberi kita hasil yang sedikit berbeza.
Contoh di atas menggunakan Interpolasi Masa Berwajaran, yang kelihatan hampir sama dengan Interpolasi Linear, dengan pengecualian bahawa ini ditimbang berdasarkan hari. Linear menganggarkan data berdasarkan kecerunan antara dua titik data ini. Interpolasi Terdekat mempunyai jenis anggaran yang lebih rata, seperti yang anda boleh lihat di bawah, di mana kami melihat nilai terdekat dan dapat menganggarkan perkara yang wujud di antara kedua-duanya.
Jadi, mari beralih ke buku nota Jupyter dan bawa masuk.
Isi kandungan
Cara Menggunakan Interpolasi Dalam Mengendalikan Data Hilang Dalam Python
Anda boleh menggunakan Editor Skrip untuk menskrip semuanya, tetapi ia lebih mudah. Anda mendapat lebih banyak maklum balas dalam buku nota Jupyter anda. Jadi, mari kita dokumentasikan apa yang kita lakukan. Apabila kami menyalin dan menampal ini ke Editor Skrip Python kami, ia akan menjadi sangat bersih dan jelas.
Mari kita mengimport perpustakaan yang kita mahu, dan kita akan mengimport Panda dan menyimpannya sebagai PD boleh ubah. Kami akan mengimport Numpy dan menyimpannya sebagai pembolehubah NP. Pandas ialah perpustakaan manipulasi data, manakala Numpy membenarkan kami melakukan manipulasi data juga dan memberi kami beberapa algebra linear.
Kami ingin memasukkan set data kami dan kami akan menyimpannya sebagai pembolehubah df . Dan kita hanya akan menggunakan pembolehubah Pandas ( pd ) dan menggunakan fungsi read.csv . Kemudian, kami akan menyalin dan menampal di mana fail itu wujud pada PC kami. Milik saya ada dalam direktori kerja saya, jadi apa yang perlu saya lakukan ialah menulis machines.csv dan merangkumnya dalam kurungan.
Dan mari kita lihat set data kami hanya dengan menggunakan pembolehubah df. Anda boleh lihat ini bermula dari 1hb 2022, sehingga ke-25. Ia adalah hari berturut-turut sehingga ke 15, dan kemudian terdapat empat hari yang hilang pada 19, dan kemudian terdapat tiga hari yang hilang apabila kita sampai ke 22, dan dua hari yang hilang pada 25.
Hari-hari yang dilangkau tidak kehilangan data. Itu bukan data dalam set data kami. Perkara yang akan kami uruskan ialah kehilangan data, yang anda lihat diwakili dengan nilai NaN ini atau tiada.
Sekarang setelah kami mempunyai set data kami, mari gunakan jenis tafsiran kami yang berbeza dan simpannya sebagai lajur yang berbeza. Kita dapat melihat bahawa kita mempunyai object , yang diwakili oleh teks, dan kita mempunyai float juga.
Saya akan mengasingkan lajur Tarikh dengan menggunakan notasi kurungan. Kemudian, saya akan menggunakan equals untuk menetapkan ini. Saya akan menggunakan pembolehubah pd , dan kemudian saya hanya menggunakan fungsi to_datetime. Dan kemudian, saya akan menutup fungsi itu dengan kurungan dan menambah dalam lajur Tarikh.
Kita dapat melihat bahawa sekarang kita mempunyai Tarikh sebagai jenis data yang betul.
Kami mempunyai indeks di sini, yang ditunjukkan oleh nombor 1 hingga 18. Apabila kami melakukan Linear, ia akan menggunakan nombor ini untuk membuat sambungan linear antara titik data sedia ada. Tetapi kami juga mahu boleh menggunakan Interpolasi berwajaran Masa, yang melihat masa dan memberikan kami hasil berdasarkan hari sebenar. Kami ingin menetapkan lajur Tarikh sebagai indeks, supaya kami boleh menggunakannya.
Saya akan menggunakan pembolehubah bingkai data (df) saya, dan lakukan set_index. Kita perlu memasukkan parameter yang dipanggil inplace untuk memastikan ia dimasukkan secara kekal. Jadi, saya akan menggunakan inplace equals true, dan kemudian saya akan menekan shift dan enter. Dan dengan itu, anda dapat melihat bahawa indeks berangka hilang, dan kami mempunyai indeks Datetime.
Sekarang, kita boleh mula membina lajur yang kita mahu. Mari bina lajur di mana kita menginterpolasi titik data terdekat, yang akan mengisi nilai yang hilang ini dengan nilai terdekat. Kami mahu membuat lajur yang dipanggil users_nearest , dan kami mahu menetapkannya kepada lajur Pengguna .
Kami ingin membuat lajur yang dipanggil user_nearest , dan kami mahu memberikannya kepada lajur pengguna. Dan sekarang kita telah mengasingkan lajur itu, kita boleh menggunakan fungsi interpolate , dan kita boleh menekan tab shift untuk melihat parameter yang digunakan oleh fungsi ini. Terdapat pelbagai jenis kaedah.
Anda boleh melihat bahawa lalai adalah linear, dan jika anda mahu ia melihat semua kaedah yang berbeza, terdapat maklumat dalam ini. Anda boleh membuka ini sepenuhnya dan terdapat banyak maklumat di sini yang akan memberi anda banyak cerapan. Tetapi adalah lebih baik untuk pergi ke tapak Pandas dan lihat sahaja jenis interpolasi yang berbeza.
Sekarang kita akan lulus dalam kaedah yang kita mahu, dan kita akan menggunakan kaedah Interpolasi Terdekat. Apa yang perlu kita lakukan ialah menjalankan ini, dan anda boleh melihat bahawa lajur dibuat. Jika kita melihat baris tertentu itu, kita dapat melihatnya sebagai nilai yang hilang. Dan anda boleh melihat bahawa ia telah diinterpolasi di mana ia diambil nilai terdekat dan ditambah di sini. Seperti yang anda lihat, kami tidak mempunyai nilai yang hilang lagi untuk baris tertentu itu.
Sekarang, mari salin ini dua kali dan mari tukar nama lajur ini kepada user_linear dan user_time . Kami akan menukar kaedah juga untuk memadankan tajuk kami. Kami boleh beralih dan masuk, dan anda dapat melihat bahawa kami telah mencipta tiga lajur berdasarkan pelbagai jenis kaedah interpolasi.
Seterusnya, saya ingin mencipta satu lagi lajur tertentu yang membolehkan kami menunjukkan yang mana antara ini kosong, seperti bendera dalam data kami. Kami akan menggunakan Numpy untuk itu.
Jadi, kami hanya akan mencipta lajur baharu yang dipanggil df , dan kemudian kami akan memanggilnya bendera. Kami akan menetapkannya dengan tanda yang sama. Kemudian, kami akan menggunakan np , iaitu pembolehubah Numpy kami. Dan kemudian, kita akan menggunakan fungsi where , yang merupakan fungsi bersyarat. Kami menetapkan syarat dan kemudian kami mendapat contoh untuk benar dan salah. Kami menggunakan double equals, yang sama dalam Python. Apabila ia benar, kami ingin mengatakan Data Hilang . Pilihan lain ialah Data .
Kita boleh menggunakan bendera itu dalam visual kita. Sebaik sahaja kami berada dalam buku nota anda, pergi untuk mengubah, dan tekan jalankan skrip Python. Kini terdapat beberapa langkah yang berbeza. Kita perlu memastikan ini berfungsi dalam persekitaran LuckyTemplates .
Kami mempunyai semua kod kami di sini dan kami perlu menambah beberapa langkah lagi. Satu, apabila kita berurusan dengan tarikh-masa, kita perlu menambah parameter ralat yang mengatakan, jika kita mempunyai sebarang ralat, anda boleh memaksa atau cuba mengubahnya. Jadi, saya akan meletakkan di sini errors equal , dan kemudian parenthesis coerce . Seterusnya, kita perlu menetapkan semula pembolehubah set data sebagai df.
Apabila kami mengklik OKAY, kami akan mendapat satu lagi ralat, dan inilah yang perlu kami lakukan untuk membetulkannya. Jika kita meneruskan langkah kita, kita tidak perlu memformat tarikh kita. Kami akan membiarkan Python berfungsi dengan tarikh kerana tarikh adalah unik untuk setiap platform. Perkara pertama yang perlu kita lakukan ialah menyingkirkan Jenis Berubah .
Kami tidak mempunyai lajur Tarikh kerana tarikh ialah indeks. Jadi, kami kembali ke skrip Python kami dan kemudian kami hanya menetapkan semula indeks kami, df.reset_index . Kami katakan kami ingin menetapkannya semula kepada pintasan lajur Tarikh dalam kurungan itu, dan kemudian kami mahu lakukan inplace = true .
Dan sekarang, kami mempunyai Tarikh dan semua jenis data kami yang lain telah lengkap.
Jika kita meletakkannya dalam visual, ini adalah bagaimana ia kelihatan dalam tiga kaedah interpolasi yang berbeza dalam mengendalikan data yang hilang dalam Python.
Kadar Mata Wang Dalam LuckyTemplates: Mengendalikan
Skrip Python Data Yang Hilang Dalam Laporan Data LuckyTemplates
Cara Memuatkan Set Data Contoh Dalam Python
Kesimpulan
Anda telah mempelajari dalam tutorial ini tiga kaedah interpolasi dalam mengendalikan data yang hilang dalam Python . Kami telah membincangkan kaedah Interpolasi Masa Linear, Terdekat dan Berwajaran.
Saya harap anda mendapati ini berguna dan mengaplikasikannya dalam kerja anda sendiri. Anda boleh menonton tutorial video penuh di bawah untuk butiran lanjut dan semak pautan di bawah untuk lebih banyak kandungan berkaitan tentang pengendalian data yang hilang dalam Python.
Semua yang terbaik!
Gaelim
Apa Itu Diri Dalam Python: Contoh Dunia Sebenar
Anda akan belajar cara menyimpan dan memuatkan objek daripada fail .rds dalam R. Blog ini juga akan membincangkan cara mengimport objek dari R ke LuckyTemplates.
Dalam tutorial bahasa pengekodan DAX ini, pelajari cara menggunakan fungsi GENERATE dan cara menukar tajuk ukuran secara dinamik.
Tutorial ini akan merangkumi cara menggunakan teknik Visual Dinamik Berbilang Thread untuk mencipta cerapan daripada visualisasi data dinamik dalam laporan anda.
Dalam artikel ini, saya akan menjalankan konteks penapis. Konteks penapis ialah salah satu topik utama yang perlu dipelajari oleh mana-mana pengguna LuckyTemplates pada mulanya.
Saya ingin menunjukkan cara perkhidmatan dalam talian LuckyTemplates Apps boleh membantu dalam mengurus laporan dan cerapan berbeza yang dijana daripada pelbagai sumber.
Ketahui cara untuk menyelesaikan perubahan margin keuntungan anda menggunakan teknik seperti mengukur percabangan dan menggabungkan formula DAX dalam LuckyTemplates.
Tutorial ini akan membincangkan tentang idea pewujudan cache data dan cara ia mempengaruhi prestasi DAX dalam memberikan hasil.
Jika anda masih menggunakan Excel sehingga sekarang, maka inilah masa terbaik untuk mula menggunakan LuckyTemplates untuk keperluan pelaporan perniagaan anda.
Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu