การวิเคราะห์ข้อความใน Python | การแนะนำ

การวิเคราะห์ข้อความใน Python | การแนะนำ

ในบล็อกนี้ เราจะพูดถึงการวิเคราะห์ข้อความ ใน Python สำหรับการสร้างข้อมูลที่สร้างขึ้นจากเนื้อหาข้อความ สิ่งนี้จะช่วยคุณในการวิเคราะห์ข้อมูลจำนวนมากและใช้เวลาน้อยลงในการทำงานบางอย่าง นอกจากนี้คุณยังจะได้รับความรู้เกี่ยวกับtextblobซึ่งจัดการกับงานประมวลผลภาษาธรรมชาติ

การวิเคราะห์ข้อความคือกระบวนการวิเคราะห์ข้อความโดยใช้รหัสสำหรับกระบวนการอัตโนมัติในการผลิตและจัดกลุ่มข้อมูลข้อความ

ก่อนที่เราจะดำเนินการต่อ คุณอาจต้องติดตั้งไลบรารีที่เราจะใช้ในบทช่วยสอนนี้

สารบัญ

การใช้การวิเคราะห์ข้อความใน Python

เริ่มต้นด้วยการนำเข้าtextblob อย่าลืมบันทึกสิ่งที่คุณกำลังทำโดยใช้ความคิดเห็น

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ด้วยการรันโค้ดด้านบน ตอนนี้เราสามารถเข้าถึงไลบรารีtextblob ขั้นตอนต่อไปที่เราจะทำคือสร้างประโยคที่เราจะใช้สำหรับตัวอย่างของเรา เราจะทำสิ่งนี้โดยเก็บประโยคไว้ในตัวแปรชื่อประโยค

อย่าลืมปิดประโยคที่คุณต้องการเพิ่มด้วยเครื่องหมายอัญประกาศ

การวิเคราะห์ข้อความใน Python |  การแนะนำ

textblob เป็นไลบรารีที่ยอดเยี่ยมที่เราสามารถสร้าง blob และใช้ฟังก์ชันบางอย่างสำหรับการวิเคราะห์ข้อความในPython

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ในการสร้าง blob เราเริ่มต้นด้วยการสร้างตัวแปรและตั้งชื่อว่าblob ในตัวแปรนี้ เราต้องเพิ่มTextBlobซึ่งเป็นไลบรารีที่เราใช้งานอยู่

ภายในวงเล็บ เราจะใช้ ตัวแปร ประโยคซึ่งเก็บประโยคที่เราสร้างไว้ก่อนหน้านี้ โปรดทราบว่าคุณสามารถเลือกที่จะพิมพ์ประโยคด้วยตนเองภายในวงเล็บสำหรับส่วนนี้ได้

หากต้องการตรวจสอบว่า ตัวแปร Blob นี้ ทำอะไร คุณสามารถเริ่มต้นได้โดยพิมพ์ชื่อตัวแปรแล้วกดแป้น Shift + Enter ผลลัพธ์ควรคล้ายกับตัวอย่างด้านล่าง

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ดังที่คุณเห็นจากผลลัพธ์ ประโยคที่เราเก็บไว้ในตัวแปรประโยคถูกรวมไว้โดยTextBlob

Tokenizing ข้อมูลข้อความใน Python

หากคุณต้องการลบบางคำในประโยค เราสามารถแยกแต่ละคำเหล่านี้ออกเป็นส่วนๆ ในรายการได้ ด้วยประโยคที่กำหนดนี้ สิ่งที่เราจะทำคือ tokenize พวกมันหรือแยกแต่ละคำแล้วใส่ในรายการ

ในการทำเช่นนี้ เราจะใช้ ตัวแปร blobและใช้ฟังก์ชันtokenize จากนั้นเราจะเก็บไว้ในตัวแปรชื่อword

การวิเคราะห์ข้อความใน Python |  การแนะนำ

มาเริ่มต้น ตัวแปร wordแบบเดียวกับที่เราเริ่มต้นตัวแปรblobเพื่อดูว่ามีอะไรอยู่ในรายการโทเค็น

การวิเคราะห์ข้อความใน Python |  การแนะนำ

อย่างที่คุณเห็น ตอนนี้แต่ละคำและแม้กระทั่งเครื่องหมายวรรคตอนจะถูกแยกออกจากกันในรายการ นี่คือวิธีการทำงาน ของ โทเค็นไนซ์

ตอนนี้เรามีรายการคำแล้ว เราสามารถทำหน้าที่อื่นจากมันได้ มาสร้างรายการคำที่เราไม่ต้องการให้รวมอยู่ในรายการของเรา เช่น เครื่องหมายวรรคตอนและบทความ หากต้องการทำตามขั้นตอนนี้ โปรดดูภาพหน้าจอด้านล่าง

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ในการสร้างรายการคำหยุด เราใช้วงเล็บปิดรายการคำหยุด จากนั้นคำหยุดแต่ละคำจะถูกปิดด้วยเครื่องหมายอัญประกาศเดี่ยวและคั่นด้วยเครื่องหมายจุลภาค เราเก็บรายการไว้ในตัวแปรstop_words

จากที่นี่ เราจะทำรายการความเข้าใจเพื่อลบคำที่จำเป็นสำหรับการวิเคราะห์ข้อความในPython ซึ่งรวมถึงการทำความสะอาดประโยค โทเค็น และการเป��ียบเทียบรายการต่างๆ ตอนนี้เราจะเปรียบเทียบสองรายการนี้และสร้างรายการใหม่ของclean_tokens

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ในโค้ดที่แสดงด้านบน เราใช้ตัวยึดตำแหน่งซึ่งก็คือw เพื่อแสดงองค์ประกอบ สิ่งที่เราพยายามทำในส่วนนี้คือการรับองค์ประกอบในตัวแปร word ถ้าองค์ประกอบนั้นไม่มีอยู่ในตัวแปรstop_words ถ้าเรากำลังจะเริ่มต้นclean_tokensนี่จะเป็นผลลัพธ์

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ในกระบวนการนี้ เราสามารถล้างโทเค็น ของเรา ได้โดยการลบโทเค็นที่ไม่จำเป็นออก เช่น เครื่องหมายวรรคตอนและบทความ ด้วยเหตุนี้เราจึงมีเฉพาะคำสำคัญที่เหลืออยู่ในรายการของเรา

การรวมโทเค็นเพื่อสร้างประโยคใน Python

ตอนนี้เราได้แยกโทเค็น ที่สะอาด แล้ว มาลองรวมเข้าด้วยกันในประโยคเดียว ในการทำเช่นนั้น เราต้องใช้ฟังก์ชัน.join ตรวจสอบตัวอย่างด้านล่างเพื่อเป็นข้อมูลอ้างอิง

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ในตัวอย่างข้างต้น เราสร้างตัวแปรชื่อclean_sentenceเพื่อเก็บโทเค็นที่สะอาดของเราที่จะรวมกันเป็นประโยค คุณยังสามารถสังเกตว่าเราได้เพิ่มช่องว่างที่ล้อมรอบด้วยเครื่องหมายคำพูดคู่และฟังก์ชัน . join ภายในพารามิเตอร์ เรารวมตัวแปรclean_tokens

นี่จะเป็นผลลัพธ์ถ้าเราเริ่มต้นตัวแปรclean_sentence

การวิเคราะห์ข้อความใน Python |  การแนะนำ

เห็นได้ชัดว่าประโยคดูไม่ถูกต้องเพราะเราลบบทความและเครื่องหมายวรรคตอนก่อนหน้านี้

หลังจากสร้างclean_sentence แล้ว ลองสร้างtextblob ใหม่ ที่มีclean_sentenceที่เราเพิ่งสร้างขึ้น จากนั้นเราจะเก็บไว้ในตัวแปรใหม่clean_blob

การวิเคราะห์ข้อความใน Python |  การแนะนำ

การแยก Textblob สำหรับส่วนของคำพูดโดยใช้ฟังก์ชัน .tags

จากการวิเคราะห์หยดนี้ เราสามารถใช้ชิ้นส่วนของหยดนี้เพื่อตรวจสอบส่วนของคำพูดหรือทำการเปลี่ยนแปลงเพิ่มเติม ลองตรวจสอบส่วนของคำพูดของแต่ละคำใน textblob ใหม่ของเรา

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ในการตรวจสอบส่วนของคำพูดใน textblob คุณควรใช้ฟังก์ชัน.tags ฉันทำสิ่งนี้โดยใช้ ตัวแปร clean_blobจากนั้นฉันเพิ่ม ฟังก์ชัน .tagsทันที

หากคุณเคยได้รับข้อความแสดงข้อผิดพลาดขณะเริ่มต้น ฟังก์ชัน .tagsเพียงอ่านและทำตามขั้นตอนเพื่อแก้ไขข้อผิดพลาด ในกรณีนี้จะเป็นลักษณะนี้

การวิเคราะห์ข้อความใน Python |  การแนะนำ

หากคุณเลื่อนลงมาที่ส่วนท้ายของข้อความแสดงข้อผิดพลาดนี้ คุณจะเห็นข้อมูลที่จำเป็นซึ่งคุณต้องการสำหรับคุณลักษณะที่คุณกำลังพยายามใช้

การวิเคราะห์ข้อความใน Python |  การแนะนำ

เมื่อเราพบโค้ดที่ต้องเริ่มต้นเพื่อดาวน์โหลดข้อมูลที่จำเป็นแล้ว ให้คัดลอกโค้ดแล้วเปิดAnaconda Promptโดยใช้Windows Search

การวิเคราะห์ข้อความใน Python |  การแนะนำ

เมื่อใช้Anaconda Promptเราจะพยายามแก้ไขข้อผิดพลาดที่ได้รับในการเริ่มต้นฟังก์ชัน . tags ตอนนี้เราจะวางรหัสที่เราคัดลอกมาจากข้อความแสดงข้อผิดพลาดก่อนหน้านี้ และเรียกใช้โดยกดEnter

การวิเคราะห์ข้อความใน Python |  การแนะนำ

เมื่อเสร็จแล้ว ให้ลองเรียกใช้ ฟังก์ชัน .tagsอีกครั้งและดูว่าใช้งานได้หรือไม่

การวิเคราะห์ข้อความใน Python |  การแนะนำ

เมื่อรันโค้ดอีกครั้ง เราจะเห็นว่าข้อผิดพลาดได้รับการแก้ไขแล้ว และเราได้รับผลลัพธ์ที่มีแต่ละคำจาก textblob ใหม่พร้อมกับแท็กหรือส่วนของคำพูด

หากคุณไม่รู้ว่าแท็ก เหล่านี้ หมายถึงอะไร คุณสามารถไปที่เว็บไซต์ textblobเพื่อตรวจสอบว่าแท็กเหล่านี้หมายถึงอะไร 

การใช้ฟังก์ชัน ngrams สำหรับการวิเคราะห์ข้อความใน Python

ย้ายไปที่ตัวอย่างอื่นซึ่งเกี่ยวกับการรับngrams ฟังก์ชันngramsใช้เพื่อค้นหาคำที่พบบ่อยในประโยคหรือเอกสาร ตัวอย่างเช่น เริ่มจากการสร้างtextblob ใหม่ และเก็บไว้ในตัวแปรblob3

การวิเคราะห์ข้อความใน Python |  การแนะนำ

หลังจากนั้น ลองใช้ฟังก์ชันngrams ใน ตัวแปร blob3เพื่อตรวจสอบการผสมคำ

การวิเคราะห์ข้อความใน Python |  การแนะนำ

ตามค่าเริ่มต้น หากคุณไม่ได้ระบุค่าในพารามิเตอร์ พารามิเตอร์นั้นจะแสดงไตรแกรมหรือการผสมคำ 3 คำ แต่ถ้าเราต้องการดูการผสมคำ 2 คำจากประโยค เราสามารถกำหนด2ในพารามิเตอร์ได้เหมือนตัวอย่างด้านล่าง

การวิเคราะห์ข้อความใน Python |  การแนะนำ

คราวนี้มาลองใช้ประโยคที่ยาวขึ้นกันดีกว่า ในตัวอย่างนี้ ฉันเพิ่งคัดลอกข้อความที่ยาวขึ้นจากบทวิจารณ์ภาพยนตร์ คุณสามารถใช้ประโยคใดก็ได้ที่คุณต้องการสำหรับส่วนนี้

การวิเคราะห์ข้อความใน Python |  การแนะนำ

เป็นตัวอย่างสุดท้าย ลองใช้ngramsอีกครั้งกับประโยคที่ให้ข้อมูลมากขึ้น

การวิเคราะห์ข้อความใน Python |  การแนะนำ

จากตัวอย่างทั้งหมดเหล่านี้ เราสามารถวิเคราะห์ข้อความได้มากขึ้นใน Pythonตามผลลัพธ์ที่เราได้รับจากฟังก์ชันngrams


Python II สำหรับผู้ใช้ LuckyTemplates – หลักสูตรใหม่ในแพลตฟอร์มตามความต้องการ
วิธีโหลดชุดข้อมูลตัวอย่างใน Python
โดยใช้ Python ใน LuckyTemplates | ชุดข้อมูลและฟังก์ชันสตริง

บทสรุป

โดยสรุป คุณได้เรียนรู้เกี่ยวกับฟังก์ชันต่างๆ ที่คุณสามารถใช้เพื่อดำเนินการวิเคราะห์ข้อความใน Python

เหล่านี้คือฟังก์ชัน .tokenizeสำหรับแยกคำในประโยคฟังก์ชัน .joinสำหรับการรวมคำที่เป็นโทเค็นฟังก์ชัน .tagsสำหรับตรวจสอบส่วนของคำพูดของคำ และฟังก์ชัน ngramsสำหรับดูการรวมกันของคำ

นอกจากนี้ คุณได้เรียนรู้วิธีแก้ไขข้อผิดพลาดเช่นเดียวกับที่เราทำในฟังก์ชัน.tagsโดยใช้Anaconda Prompt คุณยังได้เรียนรู้วิธีการนำเข้า สร้าง textblob และใช้ไลบรารีนี้สำหรับการวิเคราะห์ข้อความในPython

สิ่งที่ดีที่สุด

เกลลิม


ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

ตนเองคืออะไรใน Python: ตัวอย่างในโลกแห่งความเป็นจริง

วิธีบันทึกและโหลดไฟล์ RDS ใน R

วิธีบันทึกและโหลดไฟล์ RDS ใน R

คุณจะได้เรียนรู้วิธีการบันทึกและโหลดวัตถุจากไฟล์ .rds ใน R บล็อกนี้จะครอบคลุมถึงวิธีการนำเข้าวัตถุจาก R ไปยัง LuckyTemplates

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

เยี่ยมชม N วันทำการแรก – โซลูชันภาษาการเข้ารหัส DAX

ในบทช่วยสอนภาษาการเข้ารหัส DAX นี้ เรียนรู้วิธีใช้ฟังก์ชัน GENERATE และวิธีเปลี่ยนชื่อหน่วยวัดแบบไดนามิก

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

แสดงข้อมูลเชิงลึกโดยใช้เทคนิคการแสดงภาพแบบไดนามิกแบบหลายเธรดใน LuckyTemplates

บทช่วยสอนนี้จะครอบคลุมถึงวิธีการใช้เทคนิค Multi Threaded Dynamic Visuals เพื่อสร้างข้อมูลเชิงลึกจากการแสดงข้อมูลแบบไดนามิกในรายงานของคุณ

บทนำในการกรองบริบทใน LuckyTemplates

บทนำในการกรองบริบทใน LuckyTemplates

ในบทความนี้ ฉันจะเรียกใช้ผ่านบริบทตัวกรอง บริบทตัวกรองเป็นหนึ่งในหัวข้อหลักที่ผู้ใช้ LuckyTemplates ควรเรียนรู้ในขั้นต้น

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

เคล็ดลับที่ดีที่สุดในการใช้แอปใน LuckyTemplates Online Service

ฉันต้องการแสดงให้เห็นว่าบริการออนไลน์ของ LuckyTemplates Apps สามารถช่วยในการจัดการรายงานและข้อมูลเชิงลึกต่างๆ ที่สร้างจากแหล่งข้อมูลต่างๆ ได้อย่างไร

วิเคราะห์การเปลี่ยนแปลงอัตรากำไรล่วงเวลา – การวิเคราะห์ด้วย LuckyTemplates และ DAX

วิเคราะห์การเปลี่ยนแปลงอัตรากำไรล่วงเวลา – การวิเคราะห์ด้วย LuckyTemplates และ DAX

เรียนรู้วิธีคำนวณการเปลี่ยนแปลงอัตรากำไรของคุณโดยใช้เทคนิคต่างๆ เช่น การแยกสาขาและการรวมสูตร DAX ใน LuckyTemplates

แนวคิด Materialization สำหรับแคชข้อมูลใน DAX Studio

แนวคิด Materialization สำหรับแคชข้อมูลใน DAX Studio

บทช่วยสอนนี้จะหารือเกี่ยวกับแนวคิดของการทำให้แคชข้อมูลเป็นรูปธรรมและวิธีที่สิ่งเหล่านี้ส่งผลต่อประสิทธิภาพของ DAX ในการให้ผลลัพธ์

การรายงานทางธุรกิจโดยใช้ LuckyTemplates

การรายงานทางธุรกิจโดยใช้ LuckyTemplates

หากคุณยังคงใช้ Excel อยู่จนถึงตอนนี้ นี่เป็นเวลาที่ดีที่สุดในการเริ่มใช้ LuckyTemplates สำหรับความต้องการในการรายงานทางธุรกิจของคุณ

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้

เกตเวย์ LuckyTemplates คืออะไร ทั้งหมดที่คุณต้องการรู้