Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Dalam blog ini, kami akan menunjukkan kepada anda cara melakukan analisis teks menggunakan Python untuk mengenal pasti bahagian pertuturan dalam data teks dalam LuckyTemplates. Kami akan merangkumi langkah-langkah untuk menggunakan Python untuk analisis teks dan memberikan contoh dan petua untuk membantu anda memulakan projek analisis teks anda sendiri. Anda boleh menonton video penuh tutorial ini di bahagian bawah blog ini.

Isi kandungan

Data Sumber

Dalam tutorial ini, kami akan menggunakan awan perkataan di luar kotak yang mengandungi teks yang akan kami nilai. Ini ditunjukkan di sebelah kiri imej di bawah. Di sebelah kanan, kami mempunyai penapis untuk mengenal pasti bahagian pertuturan yang berbeza, contohnya, kata sifat atau kata kerja. 

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Kita boleh menapis perkataan yang adverba, kata nama, pelbagai jenis kata nama atau kata kerja, dan dasar kata kerja. Ini sangat berguna apabila membuat kempen pemasaran dan mencari perkataan dalam ulasan pelanggan anda. 

Mari mulakan dengan membuka editor Power Query kami . 

Dalam data sumber kami, kami mempunyai lajur untuk ID, umur, tajuk dan teks ulasan. Kami akan menumpukan pada lajur Teks Semakan , dan kami akan menghuraikannya untuk melakukan analisis teks kami. Terdapat juga kategori lain yang mungkin berguna dalam analisis kami.

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Analisis Teks Menggunakan Python

Mari kita mulakan dengan data biasa yang kami bawa. Perkara pertama yang akan kami lakukan ialah menapis baris kerana kami mempunyai banyak data, dan apabila kami melakukan analisis teks, ia mengambil masa. 

Untuk menapis data kami, ambil 50 baris pertama untuk membuat analisis teks lebih cepat sedikit. 

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Setelah ditapis, pergi ke Transform and Run Python skrip. Kami akan mengekodkan segala-galanya di sini kerana tidak banyak kod. 

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Mengimport Pakej

Mari bawa masuk dua pakej untuk analisis teks Python kami menggunakan editor skrip Python kami . Kami akan "mengimport panda sebagai pd" , perpustakaan manipulasi data kami untuk disimpan sebagai pd pembolehubah. Dan kemudian " dari gumpalan teks " , kami akan " mengimport TextBlob " dengan huruf besar di antara perkataan. 

Kami sentiasa boleh mendokumentasikan perkara yang kami lakukan dengan meletakkan rentetan dokumen. Mari tulis #bawa masuk perpustakaan penting di atas pakej kami.

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Menamakan Semula Pembolehubah

Dalam baris pertama skrip kami, terdapat baris ini yang disediakan oleh LuckyTemplates yang mengatakan # 'set data' menyimpan data input untuk skrip ini. Baris ini mengatakan bahawa data kami dipanggil set data. 

Jadi mari kita ubah itu kerana ia mengambil masa terlalu lama untuk menulis "set data". Taipkan #ubah pembolehubah set data dan df = set data dalam baris seterusnya.

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Kini lebih pendek untuk menulis pembolehubah kami. 

Melakukan Analisis Teks

Mari teruskan dengan analisis teks kami. Ingat bahawa teks ulasan kami berada dalam lajur dengan sel individu. Persediaan ini tidak begitu membantu kami kerana kami mahu semua teks bersama-sama supaya kami boleh melakukan analisis ke atasnya. 

Walau bagaimanapun, kami tidak mahu mereka digabungkan tanpa ruang, jadi mari mulakan kod kami dengan ruang di dalam tanda petikan berganda .  

Kemudian mari tambah .join dan asingkan lajur teks ulasan kami dengan menggunakan pembolehubah df kami , yang menyimpan set data. Taip 'Teks Semakan' diletakkan di dalam notasi kurungan yang mengasingkan lajur. 

Kod ini akan menyertai segala-galanya, tetapi kita perlu menyimpannya jadi mari kita buat pembolehubah yang dipanggil perkataan.

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Setelah kita mempunyai semua perkataan bersama-sama, kita kemudian boleh menggunakan gumpalan teks kita untuk mula menganalisis perkataan. 

Perkara pertama yang perlu dilakukan ialah mencipta bahagian pertuturan kami menggunakan pembolehubah gumpalan yang kami perlukan untuk mengeluarkan perkataan kepada gumpalan teks. Kami akan menggunakan gumpalan teks itu dan menghantar teks, iaitu perkataan kami . Ini ditaip sebagai gumpalan = TextBlob(perkataan).

Setelah kita mempunyai gumpalan itu, kita kemudian akan mengambilnya dan mencipta pembolehubah bahagian_of_speech kami menggunakan blob.tags . Teg akan menjadi singkatan bagi setiap satu bahagian pertuturan. 

Apa yang akan kami lakukan seterusnya ialah menyimpan ini sebagai bingkai data menggunakan Panda yang kami bawa masuk. Mari kita panggil ia data kami yang sama dengan pd.DataFrame dan kami membawa bahagian_of_speech kami . 

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Mari klik OK untuk menjalankan kod kami. Selepas menjalankan kod kami, kami harus mendapatkan jadual pembolehubah kami. Kami mempunyai set data atau data asal kami. Kami juga mempunyai data kami dan df

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Jika anda tidak mendapat hasil yang diharapkan, kami akan menunjukkan kepada anda cara berbeza untuk mengelakkan beberapa ralat yang mungkin anda perolehi dalam kod tersebut.

Membetulkan Kod Untuk Analisis Teks Dalam Python

Kadangkala, kita mungkin perlu bersikap sangat eksplisit dalam menukar format teks yang kita bimbangkan. 

Kita boleh melakukannya dengan memanggil pembolehubah df kami , mengasingkan 'Teks Semakan ' yang diletakkan di dalam notasi kurungan, dan kemudian menukar jenis kepada rentetan menggunakan .astype('str') . Kemudian simpan semula ini ke dalam pembolehubah df

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Klik OK untuk menjalankan semula kod. Kita sepatutnya mendapat keputusan yang sama seperti yang kita dapat sebelum ini.

Sekarang, kami mahu membuka data kami , pembolehubah terakhir yang kami bawa untuk melihat rupanya. 

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Kita sepatutnya mempunyai semua perkataan kita dipecahkan oleh bahagian-bahagian ucapan. Kami belum menamakan lajur kami, tetapi kami boleh melakukannya dengan mudah. 

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Dalam versi lama analisis teks yang sama ini, saya memanggil lajur pertama sebagai Word dan yang kedua sebagai Singkatan

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Dalam pertanyaan Bahagian Pertuturan , kami membawa masuk perkataan sebenar untuk singkatan ini dan menghubungkan semuanya bersama-sama.

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Sekarang, mari Tutup & Mohon

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan

Langkah-langkah yang kami lakukan membolehkan kami menapis bahagian pertuturan yang berbeza yang kami kenal pasti menggunakan kod Python mudah . Ia memberi kita visual ini dalam LuckyTemplates di mana kita boleh menapis teks kita dengan mudah berdasarkan bahagian kategori pertuturan yang termasuk dalam kategori pertuturan. 

Analisis Teks Menggunakan Python: Cara Mengenalpasti Bahagian Pertuturan


Analisis Teks Dalam Python | Pengenalan
Fungsi Ditakrifkan Pengguna Python | Gambaran Keseluruhan
Senarai Python Dan Untuk Gelung Dalam LuckyTemplates

Kesimpulan

Sebagai penganalisis data , anda mungkin menemui keperluan untuk mengekstrak cerapan dan makna daripada sejumlah besar data teks tidak berstruktur. Apa yang anda pelajari ialah pendekatan yang berguna untuk memahami data teks melalui analisis teks.

Kini, anda boleh memecahkan teks dengan mudah kepada unit yang lebih kecil seperti perkataan dan ayat, dan kemudian menganalisis unit ini untuk corak dan perhubungan. Anda boleh mencapai semua matlamat ini menggunakan analisis teks dalam Python dan LuckyTemplates. 

Semua yang terbaik,


Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Anda akan belajar cara menyimpan dan memuatkan objek daripada fail .rds dalam R. Blog ini juga akan membincangkan cara mengimport objek dari R ke LuckyTemplates.

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

Dalam tutorial bahasa pengekodan DAX ini, pelajari cara menggunakan fungsi GENERATE dan cara menukar tajuk ukuran secara dinamik.

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Tutorial ini akan merangkumi cara menggunakan teknik Visual Dinamik Berbilang Thread untuk mencipta cerapan daripada visualisasi data dinamik dalam laporan anda.

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Dalam artikel ini, saya akan menjalankan konteks penapis. Konteks penapis ialah salah satu topik utama yang perlu dipelajari oleh mana-mana pengguna LuckyTemplates pada mulanya.

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Saya ingin menunjukkan cara perkhidmatan dalam talian LuckyTemplates Apps boleh membantu dalam mengurus laporan dan cerapan berbeza yang dijana daripada pelbagai sumber.

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Ketahui cara untuk menyelesaikan perubahan margin keuntungan anda menggunakan teknik seperti mengukur percabangan dan menggabungkan formula DAX dalam LuckyTemplates.

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Tutorial ini akan membincangkan tentang idea pewujudan cache data dan cara ia mempengaruhi prestasi DAX dalam memberikan hasil.

Pelaporan Perniagaan Menggunakan LuckyTemplates

Pelaporan Perniagaan Menggunakan LuckyTemplates

Jika anda masih menggunakan Excel sehingga sekarang, maka inilah masa terbaik untuk mula menggunakan LuckyTemplates untuk keperluan pelaporan perniagaan anda.

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu