Analisis Teks Dalam Python | Satu Pengenalan

Analisis Teks Dalam Python | Satu Pengenalan

Dalam blog ini, kita akan membincangkan analisis teks dalam Python untuk mencipta data yang dibina daripada kandungan teks. Ini akan membantu anda dalam menganalisis sejumlah besar data dan menggunakan lebih sedikit masa dalam mengerjakan tugasan tertentu. Anda juga akan memperoleh pengetahuan tentang textblob yang menangani tugas pemprosesan bahasa semula jadi.

Analisis teks ialah proses menganalisis teks dengan menggunakan kod untuk proses automatik menghasilkan dan mengumpulkan data teks.

Sebelum kami meneruskan, anda mungkin perlu memasang perpustakaan yang akan kami gunakan dalam tutorial ini.

Isi kandungan

Melaksanakan Analisis Teks Dalam Python

Mari mulakan dengan mengimport textblob . Ingat untuk mendokumentasikan perkara yang anda lakukan dengan menggunakan ulasan.

Analisis Teks Dalam Python |  Satu Pengenalan

Dengan menjalankan kod di atas, kami kini mempunyai akses kepada pustaka textblob . Langkah seterusnya yang akan kita lakukan ialah mencipta ayat yang akan kita gunakan untuk contoh kita. Kami akan melakukan ini dengan menyimpan ayat dalam pembolehubah bernama ayat .

Ingatlah untuk melampirkan ayat yang anda ingin tambah dengan tanda petikan dua kali.

Analisis Teks Dalam Python |  Satu Pengenalan

Textblob ialah perpustakaan yang hebat di mana kita boleh mencipta gumpalan dan menggunakan beberapa fungsinya untuk analisis teks kita dalam Python .

Analisis Teks Dalam Python |  Satu Pengenalan

Dalam mencipta gumpalan, kita mulakan dengan mencipta pembolehubah dan menamakannya gumpalan . Dalam pembolehubah ini, kita perlu menambah TextBlob yang merupakan perpustakaan yang kita gunakan.

Di dalam kurungan, kami akan menggunakan pembolehubah ayat yang memegang ayat yang kami buat sebelum ini. Ambil perhatian bahawa anda boleh memilih untuk menaip ayat itu sendiri secara manual di dalam kurungan untuk bahagian ini.

Untuk menyemak apa yang dilakukan oleh pembolehubah gumpalan ini , anda hanya boleh memulakannya dengan menaip nama pembolehubah dan menekan kekunci Shift + Enter. Output harus serupa dengan contoh di bawah.

Analisis Teks Dalam Python |  Satu Pengenalan

Seperti yang anda lihat daripada hasilnya, ayat yang kami simpan dalam pembolehubah ayat kini terkandung oleh TextBlob .

Tokenizing Data Teks Dalam Python

Jika anda ingin mengalih keluar beberapa perkataan dalam ayat, kami boleh memisahkan setiap perkataan ini kepada bahagian individu dalam senarai. Dengan ayat yang diberikan ini, apa yang akan kita lakukan ialah menandakannya atau mengasingkan setiap perkataan dan meletakkannya dalam senarai.

Untuk melakukan ini, kami akan menggunakan pembolehubah gumpalan dan menggunakan fungsi tokenize . Kemudian kami akan menyimpannya dalam pembolehubah bernama perkataan .

Analisis Teks Dalam Python |  Satu Pengenalan

Mari kita mulakan pembolehubah perkataan dengan cara yang sama seperti yang kita lakukan dalam memulakan pembolehubah gumpalan untuk melihat apa yang ada dalam senarai token .

Analisis Teks Dalam Python |  Satu Pengenalan

Seperti yang anda lihat, setiap perkataan, malah tanda baca kini dipisahkan dalam senarai. Beginilah cara fungsi tokenize berfungsi.

Sekarang kita mempunyai senarai perkataan, kita kemudian boleh melaksanakan fungsi lain daripadanya. Mari kita buat satu lagi senarai perkataan yang kita tidak mahu dimasukkan ke dalam senarai kita seperti tanda baca dan artikel. Untuk melakukan langkah ini, rujuk tangkapan skrin di bawah.

Analisis Teks Dalam Python |  Satu Pengenalan

Dalam mencipta senarai kata henti, kami menggunakan kurungan untuk menyertakan senarai kata henti. Kemudian setiap kata henti disertakan dengan petikan tunggal dan setiap satu dipisahkan dengan koma. Kami menyimpan senarai dalam pembolehubah stop_words .

Dari sini, kami akan melaksanakan pemahaman senarai untuk mengalih keluar perkataan yang diperlukan untuk menjalankan analisis teks dalam Python . Ini termasuk membersihkan ayat, membuat token dan membandingkan senarai yang berbeza. Kami kini akan membandingkan kedua-dua senarai ini dan mencipta senarai baru clean_tokens .

Analisis Teks Dalam Python |  Satu Pengenalan

Dalam kod yang dibentangkan di atas, kami menggunakan ruang letak iaitu w untuk mewakili elemen . Apa yang kami cuba lakukan dalam bahagian ini ialah mendapatkan elemen dalam pembolehubah perkataan jika elemen itu tidak wujud dalam pembolehubah stop_words . Jika kita akan memulakan clean_tokens , ini akan menjadi hasilnya.

Analisis Teks Dalam Python |  Satu Pengenalan

Dalam proses ini, kami dapat membersihkan token kami dengan melakukan proses mengalih keluar token yang tidak diperlukan seperti tanda baca dan artikel. Kerana itu, kami hanya mempunyai kata-kata inti dalam senarai kami.

Menyertai Token Untuk Membentuk Ayat Dalam Python

Sekarang kita telah memisahkan token bersih , mari cuba letakkan kesemuanya dalam satu ayat. Untuk melakukan itu, kita perlu menggunakan fungsi .join . Semak contoh di bawah untuk rujukan.

Analisis Teks Dalam Python |  Satu Pengenalan

Dalam contoh di atas, kami mencipta pembolehubah bernama clean_sentence untuk menyimpan token bersih kami yang akan digabungkan menjadi ayat. Anda juga boleh melihat bahawa kami menambah ruang yang disertakan dengan petikan berganda dan fungsi .join . Di dalam parameter, kami memasukkan pembolehubah clean_tokens .

Ini akan menjadi output jika kita memulakan pembolehubah clean_sentence .

Analisis Teks Dalam Python |  Satu Pengenalan

Perasannya, ayat itu kelihatan tidak betul kerana kami telah mengeluarkan artikel dan tanda baca tadi.

Selepas mencipta clean_sentence , mari cuba mencipta textblob baharu yang mengandungi clean_sentence yang baru kita buat. Kemudian kami akan menyimpannya dalam pembolehubah baru clean_blob .

Analisis Teks Dalam Python |  Satu Pengenalan

Membedah Textblob Untuk Bahagian Pertuturan Menggunakan Fungsi .tags

Daripada gumpalan analisis ini, kita boleh menggunakan kepingan gumpalan ini untuk menyemak bahagian pertuturan atau membuat lebih banyak perubahan. Mari cuba semak bahagian pertuturan setiap perkataan dalam textblob baharu kami .

Analisis Teks Dalam Python |  Satu Pengenalan

Untuk menyemak bahagian pertuturan dalam gumpalan teks, anda harus menggunakan fungsi .tags . Saya melakukan ini dengan menggunakan pembolehubah clean_blob kami kemudian saya menambah fungsi .tags sejurus selepas itu.

Jika anda pernah menerima mesej ralat semasa memulakan fungsi .tags , cuma baca dan ikut langkah untuk membetulkan ralat. Dalam kes ini, ini adalah bagaimana ia kelihatan.

Analisis Teks Dalam Python |  Satu Pengenalan

Jika anda menatal ke bawah pada penghujung mesej ralat ini, anda akan melihat data yang diperlukan yang anda perlukan untuk ciri yang anda cuba gunakan.

Analisis Teks Dalam Python |  Satu Pengenalan

Sebaik sahaja kami menemui kod yang perlu kami mulakan untuk memuat turun data yang diperlukan, hanya salin kod dan kemudian buka Anaconda Prompt menggunakan Carian Windows .

Analisis Teks Dalam Python |  Satu Pengenalan

Menggunakan Anaconda Prompt , kami akan cuba membetulkan ralat yang kami terima semasa memulakan fungsi .tags . Kami kini akan menampal kod yang kami salin daripada mesej ralat sebelum ini dan menjalankannya dengan menekan Enter .

Analisis Teks Dalam Python |  Satu Pengenalan

Setelah selesai, cuba jalankan fungsi .tags sekali lagi dan lihat jika ia berfungsi.

Analisis Teks Dalam Python |  Satu Pengenalan

Setelah menjalankan kod itu sekali lagi, kami dapat melihat bahawa ralat telah diperbaiki dan kami menerima hasil yang mengandungi setiap perkataan daripada gumpalan teks baharu bersama dengan tag atau bahagian pertuturan.

Jika anda tidak tahu apa maksud teg ini , anda boleh pergi ke tapak web textblob untuk menyemak perkara yang diwakili oleh tag ini. 

Menggunakan Fungsi ngrams Untuk Analisis Teks Dalam Python

Mari kita beralih ke contoh lain, iaitu tentang mendapatkan ngrams . Fungsi ngrams digunakan untuk mencari perkataan yang sering dilihat bersama dalam ayat atau dokumen. Sebagai contoh, mari kita mulakan dengan mencipta textblob baharu dan menyimpannya dalam pembolehubah blob3 .

Analisis Teks Dalam Python |  Satu Pengenalan

Selepas itu, mari gunakan fungsi ngrams dalam pembolehubah blob3 untuk menyemak beberapa gabungan perkataan.

Analisis Teks Dalam Python |  Satu Pengenalan

Secara lalai, jika anda tidak menentukan nilai dalam parameter, ia akan memaparkan trigram atau gabungan 3 perkataan. Tetapi jika kita ingin melihat gabungan 2 perkataan daripada ayat, kita boleh menetapkan 2 dalam parameter seperti dalam contoh di bawah.

Analisis Teks Dalam Python |  Satu Pengenalan

Mari cuba dengan ayat yang lebih panjang kali ini. Dalam contoh ini, saya hanya menyalin teks yang lebih panjang daripada ulasan filem. Anda boleh menggunakan mana-mana ayat yang anda mahukan untuk bahagian ini.

Analisis Teks Dalam Python |  Satu Pengenalan

Sebagai contoh terakhir, mari cuba menggunakan ngrams sekali lagi dengan ayat yang lebih bermaklumat.

Analisis Teks Dalam Python |  Satu Pengenalan

Dengan semua contoh ini, kami boleh melakukan lebih banyak analisis teks dalam Python berdasarkan hasil yang kami peroleh dengan fungsi ngrams .


Python II Untuk Pengguna LuckyTemplates – Kursus Baharu Dalam Platform Atas Permintaan
Cara Memuatkan Contoh Set Data Dalam Python
Menggunakan Python Dalam LuckyTemplates | Set Data Dan Fungsi Rentetan

Kesimpulan

Ringkasnya, anda telah mempelajari tentang pelbagai fungsi yang boleh anda gunakan untuk melaksanakan analisis teks dalam Python.

Ini ialah fungsi .tokenize untuk memisahkan perkataan dalam ayat, fungsi .join untuk menggabungkan perkataan tokenized, fungsi .tags untuk menyemak bahagian pertuturan perkataan, dan fungsi ngrams untuk melihat gabungan perkataan.

Selain itu, anda telah mempelajari cara membetulkan ralat seperti yang kami lakukan dalam fungsi .tags menggunakan Anaconda Prompt . Anda juga telah mempelajari cara mengimport, mencipta gumpalan teks dan menggunakan perpustakaan ini untuk melaksanakan analisis teks dalam Python .

Semua yang terbaik,

Gaellim


Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Apa Itu Diri Dalam Python: Contoh Dunia Sebenar

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Cara Menyimpan & Memuatkan Fail RDS Dalam R

Anda akan belajar cara menyimpan dan memuatkan objek daripada fail .rds dalam R. Blog ini juga akan membincangkan cara mengimport objek dari R ke LuckyTemplates.

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

N Hari Perniagaan Pertama Dilawati Semula – Penyelesaian Bahasa Pengekodan DAX

Dalam tutorial bahasa pengekodan DAX ini, pelajari cara menggunakan fungsi GENERATE dan cara menukar tajuk ukuran secara dinamik.

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Pamerkan Cerapan Menggunakan Teknik Visual Dinamik Berbilang Thread Dalam LuckyTemplates

Tutorial ini akan merangkumi cara menggunakan teknik Visual Dinamik Berbilang Thread untuk mencipta cerapan daripada visualisasi data dinamik dalam laporan anda.

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Pengenalan Untuk Menapis Konteks Dalam LuckyTemplates

Dalam artikel ini, saya akan menjalankan konteks penapis. Konteks penapis ialah salah satu topik utama yang perlu dipelajari oleh mana-mana pengguna LuckyTemplates pada mulanya.

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Petua Terbaik Menggunakan Aplikasi Dalam Perkhidmatan Dalam Talian LuckyTemplates

Saya ingin menunjukkan cara perkhidmatan dalam talian LuckyTemplates Apps boleh membantu dalam mengurus laporan dan cerapan berbeza yang dijana daripada pelbagai sumber.

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Analisis Perubahan Margin Keuntungan Lebih Masa – Analitis Dengan LuckyTemplates Dan DAX

Ketahui cara untuk menyelesaikan perubahan margin keuntungan anda menggunakan teknik seperti mengukur percabangan dan menggabungkan formula DAX dalam LuckyTemplates.

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Idea Pewujudan Untuk Cache Data Dalam DAX Studio

Tutorial ini akan membincangkan tentang idea pewujudan cache data dan cara ia mempengaruhi prestasi DAX dalam memberikan hasil.

Pelaporan Perniagaan Menggunakan LuckyTemplates

Pelaporan Perniagaan Menggunakan LuckyTemplates

Jika anda masih menggunakan Excel sehingga sekarang, maka inilah masa terbaik untuk mula menggunakan LuckyTemplates untuk keperluan pelaporan perniagaan anda.

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu

Apakah LuckyTemplates Gateway? Semua yang Anda Perlu Tahu