Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Interpolasi ialah kaedah untuk menjana mata antara titik yang diberikan. Dalam tutorial ini, saya akan menunjukkan bagaimana anda boleh menggunakan Interpolasi dalam mengendalikan data yang hilang dalam Python. Anda boleh menonton video penuh tutorial ini di bahagian bawah blog ini.

Dalam Python, Interpolasi ialah teknik yang kebanyakannya digunakan untuk mengaitkan nilai yang hilang dalam bingkai atau siri data semasa prapemprosesan data. Saya akan menunjukkan cara anda boleh menggunakan kaedah ini untuk menganggarkan titik data yang hilang dalam data anda menggunakan Python dalam LuckyTemplates.

Jika kita melihat data asal kami di sini di bawah yang diwakili dalam graf teratas, kami dapat melihat bahawa terdapat banyak lubang atau data yang hilang yang tidak dapat kami graf kerana tiada apa-apa di sana. Tetapi dalam graf bawah, kita dapat melihat bahawa kita telah melakukan beberapa anggaran untuk mengetahui rupa data tersebut. Data sebenar diwakili dalam warna biru muda, manakala data Interpolasi adalah dalam warna biru tua.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Terdapat beberapa jenis anggaran yang akan kami lakukan. Kami akan melakukan Interpolasi Linear, Interpolasi Terdekat, dan kemudian Interpolasi Masa Berwajaran. Setiap daripada mereka akan memberi kita hasil yang sedikit berbeza.

Contoh di atas menggunakan Interpolasi Masa Berwajaran, yang kelihatan hampir sama dengan Interpolasi Linear, dengan pengecualian bahawa ini ditimbang berdasarkan hari. Linear menganggarkan data berdasarkan kecerunan antara dua titik data ini. Interpolasi Terdekat mempunyai jenis anggaran yang lebih rata, seperti yang anda boleh lihat di bawah, di mana kami melihat nilai terdekat dan dapat menganggarkan perkara yang wujud di antara kedua-duanya.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Jadi, mari beralih ke buku nota Jupyter dan bawa masuk.

Isi kandungan

Cara Menggunakan Interpolasi Dalam Mengendalikan Data Hilang Dalam Python

Anda boleh menggunakan Editor Skrip untuk menskrip semuanya, tetapi ia lebih mudah. Anda mendapat lebih banyak maklum balas dalam buku nota Jupyter anda. Jadi, mari kita dokumentasikan apa yang kita lakukan. Apabila kami menyalin dan menampal ini ke Editor Skrip Python kami, ia akan menjadi sangat bersih dan jelas.

Mari kita mengimport perpustakaan yang kita mahu, dan kita akan mengimport Panda dan menyimpannya sebagai PD boleh ubah. Kami akan mengimport Numpy dan menyimpannya sebagai pembolehubah NP. Pandas ialah perpustakaan manipulasi data, manakala Numpy membenarkan kami melakukan manipulasi data juga dan memberi kami beberapa algebra linear.

Kami ingin memasukkan set data kami dan kami akan menyimpannya sebagai pembolehubah df . Dan kita hanya akan menggunakan pembolehubah Pandas ( pd ) dan menggunakan fungsi read.csv . Kemudian, kami akan menyalin dan menampal di mana fail itu wujud pada PC kami. Milik saya ada dalam direktori kerja saya, jadi apa yang perlu saya lakukan ialah menulis machines.csv dan merangkumnya dalam kurungan.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Dan mari kita lihat set data kami hanya dengan menggunakan pembolehubah df. Anda boleh lihat ini bermula dari 1hb 2022, sehingga ke-25. Ia adalah hari berturut-turut sehingga ke 15, dan kemudian terdapat empat hari yang hilang pada 19, dan kemudian terdapat tiga hari yang hilang apabila kita sampai ke 22, dan dua hari yang hilang pada 25.

Hari-hari yang dilangkau tidak kehilangan data. Itu bukan data dalam set data kami. Perkara yang akan kami uruskan ialah kehilangan data, yang anda lihat diwakili dengan nilai NaN ini atau tiada.

Sekarang setelah kami mempunyai set data kami, mari gunakan jenis tafsiran kami yang berbeza dan simpannya sebagai lajur yang berbeza. Kita dapat melihat bahawa kita mempunyai object , yang diwakili oleh teks, dan kita mempunyai float juga.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Saya akan mengasingkan lajur Tarikh dengan menggunakan notasi kurungan. Kemudian, saya akan menggunakan equals untuk menetapkan ini. Saya akan menggunakan pembolehubah pd , dan kemudian saya hanya menggunakan fungsi to_datetime. Dan kemudian, saya akan menutup fungsi itu dengan kurungan dan menambah dalam lajur Tarikh.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Kita dapat melihat bahawa sekarang kita mempunyai Tarikh sebagai jenis data yang betul.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Kami mempunyai indeks di sini, yang ditunjukkan oleh nombor 1 hingga 18. Apabila kami melakukan Linear, ia akan menggunakan nombor ini untuk membuat sambungan linear antara titik data sedia ada. Tetapi kami juga mahu boleh menggunakan Interpolasi berwajaran Masa, yang melihat masa dan memberikan kami hasil berdasarkan hari sebenar. Kami ingin menetapkan lajur Tarikh sebagai indeks, supaya kami boleh menggunakannya.

Saya akan menggunakan pembolehubah bingkai data (df) saya, dan lakukan set_index. Kita perlu memasukkan parameter yang dipanggil inplace untuk memastikan ia dimasukkan secara kekal. Jadi, saya akan menggunakan inplace equals true, dan kemudian saya akan menekan shift dan enter. Dan dengan itu, anda dapat melihat bahawa indeks berangka hilang, dan kami mempunyai indeks Datetime.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Sekarang, kita boleh mula membina lajur yang kita mahu. Mari bina lajur di mana kita menginterpolasi titik data terdekat, yang akan mengisi nilai yang hilang ini dengan nilai terdekat. Kami mahu membuat lajur yang dipanggil users_nearest , dan kami mahu menetapkannya kepada lajur Pengguna .

Kami ingin membuat lajur yang dipanggil user_nearest , dan kami mahu memberikannya kepada lajur pengguna. Dan sekarang kita telah mengasingkan lajur itu, kita boleh menggunakan fungsi interpolate , dan kita boleh menekan tab shift untuk melihat parameter yang digunakan oleh fungsi ini. Terdapat pelbagai jenis kaedah.

Anda boleh melihat bahawa lalai adalah linear, dan jika anda mahu ia melihat semua kaedah yang berbeza, terdapat maklumat dalam ini. Anda boleh membuka ini sepenuhnya dan terdapat banyak maklumat di sini yang akan memberi anda banyak cerapan. Tetapi adalah lebih baik untuk pergi ke tapak Pandas dan lihat sahaja jenis interpolasi yang berbeza.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Sekarang kita akan lulus dalam kaedah yang kita mahu, dan kita akan menggunakan kaedah Interpolasi Terdekat. Apa yang perlu kita lakukan ialah menjalankan ini, dan anda boleh melihat bahawa lajur dibuat. Jika kita melihat baris tertentu itu, kita dapat melihatnya sebagai nilai yang hilang. Dan anda boleh melihat bahawa ia telah diinterpolasi di mana ia diambil nilai terdekat dan ditambah di sini. Seperti yang anda lihat, kami tidak mempunyai nilai yang hilang lagi untuk baris tertentu itu.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Sekarang, mari salin ini dua kali dan mari tukar nama lajur ini kepada user_linear dan user_time . Kami akan menukar kaedah juga untuk memadankan tajuk kami. Kami boleh beralih dan masuk, dan anda dapat melihat bahawa kami telah mencipta tiga lajur berdasarkan pelbagai jenis kaedah interpolasi.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Seterusnya, saya ingin mencipta satu lagi lajur tertentu yang membolehkan kami menunjukkan yang mana antara ini kosong, seperti bendera dalam data kami. Kami akan menggunakan Numpy untuk itu.

Jadi, kami hanya akan mencipta lajur baharu yang dipanggil df , dan kemudian kami akan memanggilnya bendera. Kami akan menetapkannya dengan tanda yang sama. Kemudian, kami akan menggunakan np , iaitu pembolehubah Numpy kami. Dan kemudian, kita akan menggunakan fungsi where , yang merupakan fungsi bersyarat. Kami menetapkan syarat dan kemudian kami mendapat contoh untuk benar dan salah. Kami menggunakan double equals, yang sama dalam Python. Apabila ia benar, kami ingin mengatakan Data Hilang . Pilihan lain ialah Data .

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Kita boleh menggunakan bendera itu dalam visual kita. Sebaik sahaja kami berada dalam buku nota anda, pergi untuk mengubah, dan tekan jalankan skrip Python. Kini terdapat beberapa langkah yang berbeza. Kita perlu memastikan ini berfungsi dalam persekitaran LuckyTemplates .

Kami mempunyai semua kod kami di sini dan kami perlu menambah beberapa langkah lagi. Satu, apabila kita berurusan dengan tarikh-masa, kita perlu menambah parameter ralat yang mengatakan, jika kita mempunyai sebarang ralat, anda boleh memaksa atau cuba mengubahnya. Jadi, saya akan meletakkan di sini errors equal , dan kemudian parenthesis coerce . Seterusnya, kita perlu menetapkan semula pembolehubah set data sebagai df.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Apabila kami mengklik OKAY, kami akan mendapat satu lagi ralat, dan inilah yang perlu kami lakukan untuk membetulkannya. Jika kita meneruskan langkah kita, kita tidak perlu memformat tarikh kita. Kami akan membiarkan Python berfungsi dengan tarikh kerana tarikh adalah unik untuk setiap platform. Perkara pertama yang perlu kita lakukan ialah menyingkirkan Jenis Berubah .

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Kami tidak mempunyai lajur Tarikh kerana tarikh ialah indeks. Jadi, kami kembali ke skrip Python kami dan kemudian kami hanya menetapkan semula indeks kami, df.reset_index . Kami katakan kami ingin menetapkannya semula kepada pintasan lajur Tarikh dalam kurungan itu, dan kemudian kami mahu lakukan inplace = true .

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Dan sekarang, kami mempunyai Tarikh dan semua jenis data kami yang lain telah lengkap.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi

Jika kita meletakkannya dalam visual, ini adalah bagaimana ia kelihatan dalam tiga kaedah interpolasi yang berbeza dalam mengendalikan data yang hilang dalam Python.

Mengendalikan Data Hilang Dalam Python Menggunakan Kaedah Interpolasi


Kadar Mata Wang Dalam LuckyTemplates: Mengendalikan
Skrip Python Data Yang Hilang Dalam Laporan Data LuckyTemplates
Cara Memuatkan Set Data Contoh Dalam Python

Kesimpulan

Anda telah mempelajari dalam tutorial ini tiga kaedah interpolasi dalam mengendalikan data yang hilang dalam Python . Kami telah membincangkan kaedah Interpolasi Masa Linear, Terdekat dan Berwajaran.

Saya harap anda mendapati ini berguna dan mengaplikasikannya dalam kerja anda sendiri. Anda boleh menonton tutorial video penuh di bawah untuk butiran lanjut dan semak pautan di bawah untuk lebih banyak kandungan berkaitan tentang pengendalian data yang hilang dalam Python.

Semua yang terbaik!

Gaelim


Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Anda akan belajar cara menyimpan dan memuatkan objek daripada fail .rds dalam R. Blog ini juga akan membincangkan cara mengimport objek dari R ke LuckyTemplates.

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

Dalam tutorial bahasa pengekodan DAX ini, pelajari cara menggunakan fungsi GENERATE dan cara menukar tajuk ukuran secara dinamik.

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Tutorial ini akan merangkumi cara menggunakan teknik Visual Dinamik Berbilang Thread untuk mencipta cerapan daripada visualisasi data dinamik dalam laporan anda.

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Dalam artikel ini, saya akan menjalankan konteks penapis. Konteks penapis ialah salah satu topik utama yang perlu dipelajari oleh mana-mana pengguna LuckyTemplates pada mulanya.

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Saya ingin menunjukkan cara perkhidmatan dalam talian LuckyTemplates Apps boleh membantu dalam mengurus laporan dan cerapan berbeza yang dijana daripada pelbagai sumber.

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Ketahui cara untuk menyelesaikan perubahan margin keuntungan anda menggunakan teknik seperti mengukur percabangan dan menggabungkan formula DAX dalam LuckyTemplates.

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Tutorial ini akan membincangkan tentang idea pewujudan cache data dan cara ia mempengaruhi prestasi DAX dalam memberikan hasil.

Pelaporan Perniagaan Menggunakan LuckyTemplates

Pelaporan Perniagaan Menggunakan LuckyTemplates

Jika anda masih menggunakan Excel sehingga sekarang, maka inilah masa terbaik untuk mula menggunakan LuckyTemplates untuk keperluan pelaporan perniagaan anda.

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu