ما هي الذات في بايثون: أمثلة من العالم الحقيقي
ما هي الذات في بايثون: أمثلة من العالم الحقيقي
في هذه المدونة ، سنناقش تحليل النص في Python لإنشاء بيانات مبنية من محتوى نصي. سيساعدك هذا في تحليل كميات كبيرة من البيانات واستهلاك وقت أقل في العمل على مهام معينة. ستكتسب أيضًا المعرفة حول textblob التي تتعامل مع مهام معالجة اللغة الطبيعية.
تحليل النص هو عملية تحليل النصوص باستخدام الرموز للعمليات الآلية لإنتاج البيانات النصية وتجميعها.
قبل المتابعة ، قد تضطر إلى تثبيت المكتبة التي سنستخدمها في هذا البرنامج التعليمي.
جدول المحتويات
تنفيذ تحليل النص في بايثون
لنبدأ باستيراد textblob . تذكر أن توثق ما تفعله باستخدام التعليقات.
من خلال تشغيل الكود أعلاه ، يمكننا الآن الوصول إلى مكتبة textblob . الخطوة التالية التي سنقوم بها هي إنشاء جملة سنستخدمها في الأمثلة. سنقوم بذلك عن طريق تخزين جملة في متغير يسمى الجملة .
تذكر أن تقوم بإحاطة الجملة التي تريد إضافتها بعلامات اقتباس مزدوجة.
تعد textblob مكتبة رائعة حيث يمكننا إنشاء blob واستخدام بعض وظائفها لتحليل النص في Python .
في إنشاء blob ، نبدأ بإنشاء متغير وتسميته blob . في هذا المتغير ، نحتاج إلى إضافة TextBlob وهي المكتبة التي نستخدمها.
داخل الأقواس ، سنستخدم متغير الجملة الذي يحمل الجملة التي أنشأناها سابقًا. لاحظ أنه يمكنك اختيار كتابة الجملة نفسها يدويًا داخل الأقواس لهذا الجزء.
للتحقق مما يفعله متغير blob هذا ، يمكنك ببساطة تهيئته عن طريق كتابة اسم المتغير والضغط على مفتاحي Shift + Enter. يجب أن يكون الإخراج مشابهًا للمثال أدناه.
كما ترى من النتيجة ، فإن الجملة التي قمنا بتخزينها في متغير الجملة موجودة الآن في TextBlob .
تحويل بيانات النص إلى رموز رمزية في لغة بايثون
إذا كنت تريد إزالة بعض الكلمات في جملة ، فيمكننا فصل كل كلمة من هذه الكلمات إلى أجزاء فردية في القائمة. مع هذه الجملة المعطاة ، ما سنفعله هو ترميزهم أو فصل كل كلمة ووضعها في قائمة.
للقيام بذلك ، سنستخدم متغير blob ونستخدم وظيفة الرمز المميز . ثم سنخزنها في متغير باسم الكلمات .
دعنا نهيئ متغير الكلمات بنفس الطريقة التي قمنا بها في تهيئة متغير blob لمعرفة ما هو موجود في القائمة المميزة .
كما ترى ، تم الآن فصل كل كلمة وحتى علامات الترقيم في قائمة. هذه هي الطريقة التي تعمل بها وظيفة الرمز المميز .
الآن بعد أن أصبح لدينا قائمة بالكلمات ، يمكننا بعد ذلك أداء وظيفة أخرى منها. لنقم بإنشاء قائمة أخرى من الكلمات التي لا نريد تضمينها في قائمتنا مثل علامات الترقيم والمقالات. لتنفيذ هذه الخطوة ، ارجع إلى لقطة الشاشة أدناه.
في إنشاء قائمة كلمات التوقف ، استخدمنا الأقواس لإحاطة قائمة الكلمات الموقوفة. ثم يتم إرفاق كل كلمة من كلمات التوقف بعلامات اقتباس مفردة ويتم الفصل بينها بفاصلة. قمنا بتخزين القائمة في متغير stop_words .
من هنا ، سنقوم بعمل قائمة الفهم لإزالة الكلمات الضرورية لإجراء تحليل النص في بايثون . يتضمن ذلك تنظيف الجمل ، والترميز ، ومقارنة القوائم المختلفة. سنقوم الآن بمقارنة هاتين القائمتين وإنشاء قائمة جديدة من العناصر النظيفة .
في الكود المقدم أعلاه ، استخدمنا عنصرًا نائبًا وهو w لتمثيل عنصر . ما نحاول القيام به في هذا الجزء هو الحصول على العنصر في متغير الكلمات إذا كان العنصر غير موجود في متغير stop_words . إذا أردنا تهيئة clean_tokens ، فستكون هذه هي النتيجة.
في هذه العملية ، يمكننا تنظيف الرموز المميزة الخاصة بنا من خلال وضع عملية لإزالة الرموز المميزة غير الضرورية مثل علامات الترقيم والمقالات. لهذا السبب ، لم يتبق لدينا سوى الكلمات الجوهرية في قائمتنا.
الانضمام إلى الرموز لتشكيل جملة في بايثون
الآن بعد أن فصلنا الرموز المميزة النظيفة ، دعنا نحاول وضعها معًا في جملة واحدة. للقيام بذلك ، علينا استخدام وظيفة . تحقق من المثال أدناه كمرجع.
في المثال أعلاه ، أنشأنا متغيرًا باسم clean_sentence للاحتفاظ برموزنا النظيفة التي سيتم دمجها في جملة. يمكنك أيضًا ملاحظة أننا أضفنا مسافة محاطة بعلامات اقتباس مزدوجة ووظيفة الانضمام . داخل المعلمات ، قمنا بتضمين متغير clean_tokens .
سيكون هذا هو الناتج إذا قمنا بتهيئة متغير clean_sentence .
من الملاحظ أن الجملة لا تبدو صحيحة لأننا أزلنا المقالات وعلامات الترقيم سابقًا.
بعد إنشاء clean_sentence ، دعنا نحاول إنشاء نص جديد يحتوي على clean_sentence الذي أنشأناه للتو. ثم سنخزنه في متغير جديد clean_blob .
تشريح Textblob لأجزاء من الكلام باستخدام وظيفة .tags
من خلال هذا التحليل ، يمكننا استخدام أجزاء هذه النقطة للتحقق من وجود أجزاء من الكلام أو إجراء المزيد من التغييرات. دعنا نحاول فحص أجزاء الكلام لكل كلمة في نصنا الجديد .
للتحقق من أجزاء الكلام في ملف نصي ، يجب عليك استخدام وظيفة العلامات . لقد فعلت ذلك من خلال استخدام متغير clean_blob الخاص بنا ، ثم أضفت وظيفة .tags مباشرة بعد ذلك.
إذا تلقيت رسالة خطأ عند تهيئة وظيفة العلامات ، فما عليك سوى قراءة واتباع الخطوات لإصلاح الخطأ. في هذه الحالة ، هكذا تبدو.
إذا قمت بالتمرير لأسفل في نهاية رسالة الخطأ هذه ، فسترى البيانات المطلوبة التي تحتاجها للميزة التي تحاول استخدامها.
بمجرد العثور على الكود الذي نحتاجه للتهيئة لتنزيل البيانات الضرورية ، ما عليك سوى نسخ الرمز ثم فتح Anaconda Prompt باستخدام Windows Search .
باستخدام Anaconda Prompt ، سنحاول إصلاح الخطأ الذي تلقيناه في تهيئة وظيفة .tags . سنقوم الآن بلصق الرمز الذي قمنا بنسخه من رسالة الخطأ سابقًا وتشغيله بالضغط على Enter .
بمجرد الانتهاء ، حاول تشغيل وظيفة .tags مرة أخرى ومعرفة ما إذا كانت تعمل.
عند تشغيل الكود مرة أخرى ، يمكننا أن نرى أن الخطأ قد تم إصلاحه وتلقينا نتيجة تحتوي على كل كلمة من النص الجديد مع العلامات أو أجزاء الكلام.
إذا لم تكن لديك فكرة عما تعنيه هذه العلامات ، فيمكنك ببساطة الانتقال إلى موقع textblob للتحقق مما تمثله هذه العلامات.
استخدام وظيفة ngrams لتحليل النص في Python
دعنا ننتقل إلى مثال آخر ، وهو حول الحصول على ngrams . تُستخدم وظيفة ngrams للبحث عن الكلمات التي كثيرًا ما تُرى معًا في جملة أو مستند. كمثال ، لنبدأ بإنشاء ملف نصي جديد وتخزينه في متغير blob3 .
بعد ذلك ، دعنا نستخدم وظيفة ngrams في متغير blob3 للتحقق من بعض تركيبات الكلمات.
بشكل افتراضي ، إذا لم تحدد قيمة في المعلمات ، فسيتم عرض الأشكال الثلاثية أو مجموعات مكونة من 3 كلمات. ولكن إذا أردنا رؤية مجموعات مكونة من كلمتين من الجملة ، فيمكننا تعيين 2 في المعلمات كما في المثال أدناه.
دعنا نجربها بجملة أطول هذه المرة. في هذا المثال ، قمت للتو بنسخ نص أطول من مراجعة فيلم. يمكنك استخدام أي جملة تريدها لهذا الجزء.
كمثال أخير ، دعنا نحاول استخدام ngrams مرة أخرى بجملة أكثر إفادة.
مع كل هذه الأمثلة ، يمكننا إجراء المزيد من تحليل النص في Python بناءً على النتائج التي نحصل عليها باستخدام وظيفة ngrams .
Python II لمستخدمي LuckyTemplates - دورة تدريبية جديدة في النظام الأساسي عند الطلب
كيفية تحميل نماذج مجموعات البيانات في Python
باستخدام Python في LuckyTemplates | وظيفة مجموعة البيانات والسلسلة
خاتمة
باختصار ، لقد تعرفت على الوظائف المختلفة التي يمكنك استخدامها لإجراء تحليل نصي في Python.
هذه هي وظيفة .tokenize لفصل الكلمات في الجملة ، وظيفة .join لدمج الكلمات المميزة ، وظيفة .tags لفحص أجزاء الكلام من الكلمات ، ووظيفة ngrams لعرض مجموعة الكلمات.
بالإضافة إلى ذلك ، تعلمت كيفية إصلاح الأخطاء مثل ما فعلناه في وظيفة .tags باستخدام Anaconda Prompt . لقد تعلمت أيضًا كيفية الاستيراد وإنشاء نص مكتوب واستخدام هذه المكتبة لإجراء تحليل النص في Python .
أتمنى لك كل خير،
غيليم
ما هي الذات في بايثون: أمثلة من العالم الحقيقي
ستتعلم كيفية حفظ وتحميل الكائنات من ملف .rds في R. ستغطي هذه المدونة أيضًا كيفية استيراد الكائنات من R إلى LuckyTemplates.
في هذا البرنامج التعليمي للغة ترميز DAX ، تعرف على كيفية استخدام وظيفة الإنشاء وكيفية تغيير عنوان القياس ديناميكيًا.
سيغطي هذا البرنامج التعليمي كيفية استخدام تقنية Multi Threaded Dynamic Visuals لإنشاء رؤى من تصورات البيانات الديناميكية في تقاريرك.
في هذه المقالة ، سأقوم بتشغيل سياق عامل التصفية. يعد سياق عامل التصفية أحد الموضوعات الرئيسية التي يجب على أي مستخدم LuckyTemplates التعرف عليها في البداية.
أريد أن أوضح كيف يمكن لخدمة تطبيقات LuckyTemplates عبر الإنترنت أن تساعد في إدارة التقارير والرؤى المختلفة التي تم إنشاؤها من مصادر مختلفة.
تعرف على كيفية إجراء تغييرات في هامش الربح باستخدام تقنيات مثل قياس التفرع والجمع بين صيغ DAX في LuckyTemplates.
سيناقش هذا البرنامج التعليمي أفكار تجسيد مخازن البيانات وكيفية تأثيرها على أداء DAX في توفير النتائج.
إذا كنت لا تزال تستخدم Excel حتى الآن ، فهذا هو أفضل وقت لبدء استخدام LuckyTemplates لاحتياجات إعداد تقارير الأعمال الخاصة بك.
ما هي بوابة LuckyTemplates؟ كل شيئ ترغب بمعرفته