تحليل النص في بايثون

في هذه المدونة ، سنناقش تحليل النص في Python لإنشاء بيانات مبنية من محتوى نصي. سيساعدك هذا في تحليل كميات كبيرة من البيانات واستهلاك وقت أقل في العمل على مهام معينة. ستكتسب أيضًا المعرفة حول textblob التي تتعامل مع مهام معالجة اللغة الطبيعية.

تحليل النص هو عملية تحليل النصوص باستخدام الرموز للعمليات الآلية لإنتاج البيانات النصية وتجميعها.

قبل المتابعة ، قد تضطر إلى تثبيت المكتبة التي سنستخدمها في هذا البرنامج التعليمي.

جدول المحتويات

تنفيذ تحليل النص في بايثون
تحويل بيانات النص إلى رموز رمزية في لغة بايثون
الانضمام إلى الرموز لتشكيل جملة في بايثون
- تشريح Textblob لأجزاء من الكلام باستخدام وظيفة .tags
- استخدام وظيفة ngrams لتحليل النص في Python
خاتمة

تنفيذ تحليل النص في بايثون

لنبدأ باستيراد textblob . تذكر أن توثق ما تفعله باستخدام التعليقات.

تحليل النص في بايثون | مقدمة

من خلال تشغيل الكود أعلاه ، يمكننا الآن الوصول إلى مكتبة textblob . الخطوة التالية التي سنقوم بها هي إنشاء جملة سنستخدمها في الأمثلة. سنقوم بذلك عن طريق تخزين جملة في متغير يسمى الجملة .

تذكر أن تقوم بإحاطة الجملة التي تريد إضافتها بعلامات اقتباس مزدوجة.

تحليل النص في بايثون | مقدمة

تعد textblob مكتبة رائعة حيث يمكننا إنشاء blob واستخدام بعض وظائفها لتحليل النص في Python .

تحليل النص في بايثون | مقدمة

في إنشاء blob ، نبدأ بإنشاء متغير وتسميته blob . في هذا المتغير ، نحتاج إلى إضافة TextBlob وهي المكتبة التي نستخدمها.

داخل الأقواس ، سنستخدم متغير الجملة الذي يحمل الجملة التي أنشأناها سابقًا. لاحظ أنه يمكنك اختيار كتابة الجملة نفسها يدويًا داخل الأقواس لهذا الجزء.

للتحقق مما يفعله متغير blob هذا ، يمكنك ببساطة تهيئته عن طريق كتابة اسم المتغير والضغط على مفتاحي Shift + Enter. يجب أن يكون الإخراج مشابهًا للمثال أدناه.

تحليل النص في بايثون | مقدمة

كما ترى من النتيجة ، فإن الجملة التي قمنا بتخزينها في متغير الجملة موجودة الآن في TextBlob .

تحويل بيانات النص إلى رموز رمزية في لغة بايثون

إذا كنت تريد إزالة بعض الكلمات في جملة ، فيمكننا فصل كل كلمة من هذه الكلمات إلى أجزاء فردية في القائمة. مع هذه الجملة المعطاة ، ما سنفعله هو ترميزهم أو فصل كل كلمة ووضعها في قائمة.

للقيام بذلك ، سنستخدم متغير blob ونستخدم وظيفة الرمز المميز . ثم سنخزنها في متغير باسم الكلمات .

تحليل النص في بايثون | مقدمة

دعنا نهيئ متغير الكلمات بنفس الطريقة التي قمنا بها في تهيئة متغير blob لمعرفة ما هو موجود في القائمة المميزة .

تحليل النص في بايثون | مقدمة

كما ترى ، تم الآن فصل كل كلمة وحتى علامات الترقيم في قائمة. هذه هي الطريقة التي تعمل بها وظيفة الرمز المميز .

الآن بعد أن أصبح لدينا قائمة بالكلمات ، يمكننا بعد ذلك أداء وظيفة أخرى منها. لنقم بإنشاء قائمة أخرى من الكلمات التي لا نريد تضمينها في قائمتنا مثل علامات الترقيم والمقالات. لتنفيذ هذه الخطوة ، ارجع إلى لقطة الشاشة أدناه.

تحليل النص في بايثون | مقدمة

في إنشاء قائمة كلمات التوقف ، استخدمنا الأقواس لإحاطة قائمة الكلمات الموقوفة. ثم يتم إرفاق كل كلمة من كلمات التوقف بعلامات اقتباس مفردة ويتم الفصل بينها بفاصلة. قمنا بتخزين القائمة في متغير stop_words .

من هنا ، سنقوم بعمل قائمة الفهم لإزالة الكلمات الضرورية لإجراء تحليل النص في بايثون . يتضمن ذلك تنظيف الجمل ، والترميز ، ومقارنة القوائم المختلفة. سنقوم الآن بمقارنة هاتين القائمتين وإنشاء قائمة جديدة من العناصر النظيفة .

تحليل النص في بايثون | مقدمة

في الكود المقدم أعلاه ، استخدمنا عنصرًا نائبًا وهو w لتمثيل عنصر . ما نحاول القيام به في هذا الجزء هو الحصول على العنصر في متغير الكلمات إذا كان العنصر غير موجود في متغير stop_words . إذا أردنا تهيئة clean_tokens ، فستكون هذه هي النتيجة.

تحليل النص في بايثون | مقدمة

في هذه العملية ، يمكننا تنظيف الرموز المميزة الخاصة بنا من خلال وضع عملية لإزالة الرموز المميزة غير الضرورية مثل علامات الترقيم والمقالات. لهذا السبب ، لم يتبق لدينا سوى الكلمات الجوهرية في قائمتنا.

الانضمام إلى الرموز لتشكيل جملة في بايثون

الآن بعد أن فصلنا الرموز المميزة النظيفة ، دعنا نحاول وضعها معًا في جملة واحدة. للقيام بذلك ، علينا استخدام وظيفة . تحقق من المثال أدناه كمرجع.

تحليل النص في بايثون | مقدمة

في المثال أعلاه ، أنشأنا متغيرًا باسم clean_sentence للاحتفاظ برموزنا النظيفة التي سيتم دمجها في جملة. يمكنك أيضًا ملاحظة أننا أضفنا مسافة محاطة بعلامات اقتباس مزدوجة ووظيفة الانضمام . داخل المعلمات ، قمنا بتضمين متغير clean_tokens .

سيكون هذا هو الناتج إذا قمنا بتهيئة متغير clean_sentence .

تحليل النص في بايثون | مقدمة

من الملاحظ أن الجملة لا تبدو صحيحة لأننا أزلنا المقالات وعلامات الترقيم سابقًا.

بعد إنشاء clean_sentence ، دعنا نحاول إنشاء نص جديد يحتوي على clean_sentence الذي أنشأناه للتو. ثم سنخزنه في متغير جديد clean_blob .

تحليل النص في بايثون | مقدمة

تشريح Textblob لأجزاء من الكلام باستخدام وظيفة .tags

من خلال هذا التحليل ، يمكننا استخدام أجزاء هذه النقطة للتحقق من وجود أجزاء من الكلام أو إجراء المزيد من التغييرات. دعنا نحاول فحص أجزاء الكلام لكل كلمة في نصنا الجديد .

تحليل النص في بايثون | مقدمة

للتحقق من أجزاء الكلام في ملف نصي ، يجب عليك استخدام وظيفة العلامات . لقد فعلت ذلك من خلال استخدام متغير clean_blob الخاص بنا ، ثم أضفت وظيفة .tags مباشرة بعد ذلك.

إذا تلقيت رسالة خطأ عند تهيئة وظيفة العلامات ، فما عليك سوى قراءة واتباع الخطوات لإصلاح الخطأ. في هذه الحالة ، هكذا تبدو.

تحليل النص في بايثون | مقدمة

إذا قمت بالتمرير لأسفل في نهاية رسالة الخطأ هذه ، فسترى البيانات المطلوبة التي تحتاجها للميزة التي تحاول استخدامها.

تحليل النص في بايثون | مقدمة

بمجرد العثور على الكود الذي نحتاجه للتهيئة لتنزيل البيانات الضرورية ، ما عليك سوى نسخ الرمز ثم فتح Anaconda Prompt باستخدام Windows Search .

تحليل النص في بايثون | مقدمة

باستخدام Anaconda Prompt ، سنحاول إصلاح الخطأ الذي تلقيناه في تهيئة وظيفة .tags . سنقوم الآن بلصق الرمز الذي قمنا بنسخه من رسالة الخطأ سابقًا وتشغيله بالضغط على Enter .

تحليل النص في بايثون | مقدمة

بمجرد الانتهاء ، حاول تشغيل وظيفة .tags مرة أخرى ومعرفة ما إذا كانت تعمل.

تحليل النص في بايثون | مقدمة

عند تشغيل الكود مرة أخرى ، يمكننا أن نرى أن الخطأ قد تم إصلاحه وتلقينا نتيجة تحتوي على كل كلمة من النص الجديد مع العلامات أو أجزاء الكلام.

إذا لم تكن لديك فكرة عما تعنيه هذه العلامات ، فيمكنك ببساطة الانتقال إلى موقع textblob للتحقق مما تمثله هذه العلامات.

استخدام وظيفة ngrams لتحليل النص في Python

دعنا ننتقل إلى مثال آخر ، وهو حول الحصول على ngrams . تُستخدم وظيفة ngrams للبحث عن الكلمات التي كثيرًا ما تُرى معًا في جملة أو مستند. كمثال ، لنبدأ بإنشاء ملف نصي جديد وتخزينه في متغير blob3 .

تحليل النص في بايثون | مقدمة

بعد ذلك ، دعنا نستخدم وظيفة ngrams في متغير blob3 للتحقق من بعض تركيبات الكلمات.

تحليل النص في بايثون | مقدمة

بشكل افتراضي ، إذا لم تحدد قيمة في المعلمات ، فسيتم عرض الأشكال الثلاثية أو مجموعات مكونة من 3 كلمات. ولكن إذا أردنا رؤية مجموعات مكونة من كلمتين من الجملة ، فيمكننا تعيين 2 في المعلمات كما في المثال أدناه.

تحليل النص في بايثون | مقدمة

دعنا نجربها بجملة أطول هذه المرة. في هذا المثال ، قمت للتو بنسخ نص أطول من مراجعة فيلم. يمكنك استخدام أي جملة تريدها لهذا الجزء.

تحليل النص في بايثون | مقدمة

كمثال أخير ، دعنا نحاول استخدام ngrams مرة أخرى بجملة أكثر إفادة.

تحليل النص في بايثون | مقدمة

مع كل هذه الأمثلة ، يمكننا إجراء المزيد من تحليل النص في Python بناءً على النتائج التي نحصل عليها باستخدام وظيفة ngrams .

Python II لمستخدمي LuckyTemplates - دورة تدريبية جديدة في النظام الأساسي عند الطلب
كيفية تحميل نماذج مجموعات البيانات في Python
باستخدام Python في LuckyTemplates | وظيفة مجموعة البيانات والسلسلة

خاتمة

باختصار ، لقد تعرفت على الوظائف المختلفة التي يمكنك استخدامها لإجراء تحليل نصي في Python.

هذه هي وظيفة .tokenize لفصل الكلمات في الجملة ، وظيفة .join لدمج الكلمات المميزة ، وظيفة .tags لفحص أجزاء الكلام من الكلمات ، ووظيفة ngrams لعرض مجموعة الكلمات.

بالإضافة إلى ذلك ، تعلمت كيفية إصلاح الأخطاء مثل ما فعلناه في وظيفة .tags باستخدام Anaconda Prompt . لقد تعلمت أيضًا كيفية الاستيراد وإنشاء نص مكتوب واستخدام هذه المكتبة لإجراء تحليل النص في Python .

أتمنى لك كل خير،

غيليم

اترك تعليقاً

تقنية تصور LuckyTemplates: تعرف على كيفية إنشاء لوحات تصميم الخلفية

تعرف على تقنية تصور LuckyTemplates هذه حتى تتمكن من إنشاء قوالب الخلفية واستيرادها إلى تقارير LuckyTemplates الخاصة بك.

ما هي الذات في بايثون: أمثلة من العالم الحقيقي

كيفية حفظ وتحميل ملف RDS في R.

ستتعلم كيفية حفظ وتحميل الكائنات من ملف .rds في R. ستغطي هذه المدونة أيضًا كيفية استيراد الكائنات من R إلى LuckyTemplates.

تمت إعادة النظر في أول N أيام عمل - حل لغة ترميز DAX

في هذا البرنامج التعليمي للغة ترميز DAX ، تعرف على كيفية استخدام وظيفة الإنشاء وكيفية تغيير عنوان القياس ديناميكيًا.

اعرض الرؤى باستخدام تقنية المرئيات الديناميكية المتعددة الخيوط في LuckyTemplates

سيغطي هذا البرنامج التعليمي كيفية استخدام تقنية Multi Threaded Dynamic Visuals لإنشاء رؤى من تصورات البيانات الديناميكية في تقاريرك.

أفضل النصائح في استخدام التطبيقات في خدمة LuckyTemplates عبر الإنترنت

أريد أن أوضح كيف يمكن لخدمة تطبيقات LuckyTemplates عبر الإنترنت أن تساعد في إدارة التقارير والرؤى المختلفة التي تم إنشاؤها من مصادر مختلفة.

مقدمة لتصفية السياق في LuckyTemplates

في هذه المقالة ، سأقوم بتشغيل سياق عامل التصفية. يعد سياق عامل التصفية أحد الموضوعات الرئيسية التي يجب على أي مستخدم LuckyTemplates التعرف عليها في البداية.

تحليل تغييرات هامش الربح بمرور الوقت - التحليلات باستخدام LuckyTemplates و DAX

تعرف على كيفية إجراء تغييرات في هامش الربح باستخدام تقنيات مثل قياس التفرع والجمع بين صيغ DAX في LuckyTemplates.

أفكار التجسيد لذاكرة التخزين المؤقت للبيانات في DAX Studio

سيناقش هذا البرنامج التعليمي أفكار تجسيد مخازن البيانات وكيفية تأثيرها على أداء DAX في توفير النتائج.

إعداد تقارير الأعمال باستخدام LuckyTemplates

إذا كنت لا تزال تستخدم Excel حتى الآن ، فهذا هو أفضل وقت لبدء استخدام LuckyTemplates لاحتياجات إعداد تقارير الأعمال الخاصة بك.