Lemmatisation en Python | Un guide du débutant

Lemmatisation en Python | Un guide du débutant

Dans ce tutoriel, nous allons discuter de la lemmatisation en Python qui est une méthode utilisée pour regrouper les différents éléments d'un mot. La lemmatisation vise également à réduire l'inflexion des mots et se concentre sur la fourniture de la racine ou de la forme de base d'un mot, ce que signifie le mot lemme .

Table des matières

Lemmatisation Vs Stemming

La lemmatisation est similaire à la radicalisation qui fonctionne également pour réduire les inflexions dans les mots. La seule différence est que la lemmatisation utilise comme résultat des mots basés sur un dictionnaire.

D'un autre côté, la radicalisation ne supprime que les affixes d'un mot fléchi, ce qui peut entraîner des mots qui n'existent pas.

Par exemple, si nous utilisons la racine du mot studies , cela donnera le mot studi en sortie puisqu'il vise à supprimer le suffixe es du mot studies .

D'autre part, si la lemmatisation est utilisée, l' étude des mots sera donnée en conséquence car elle se concentre sur la fourniture de la forme de base d'un mot.

Choses à considérer lors de l'utilisation de la lemmatisation

  • Il utilise des mots basés sur un dictionnaire. Avec le terme lemme qui signifie la racine ou la forme de base d'un mot, la lemmatisation vise à fournir la forme de base d'un mot plutôt que de simplement supprimer les inflexions d'un mot.
  • Cela dépend complètement des parties du discours pour trouver un mot de base. Sans spécifier les parties du discours), la lemmatisation pourrait ne pas fonctionner correctement et vous pourriez ne pas obtenir le résultat que vous recherchez.
  • C'est plus lent que le stemming mais c'est plus puissant. Étant donné que la lemmatisation ne suit pas un algorithme à exécuter sur les mots et la nécessité de fournir des parties du discours, elle est considérée comme plus lente que la radicalisation. Cependant, il est plus puissant dans le sens où il utilise des mots basés sur un dictionnaire pour les résultats. 
  • Il a une plus grande précision dans la recherche du mot racine. Comme la lemmatisation utilise des mots basés sur un dictionnaire pour présenter les résultats d'un mot fléchi, vous aurez plus de chances d'obtenir des résultats précis.

Étape de préparation à la lemmatisation en Python

Avant de procéder à l'implémentation de la lemmatisation, commençons par importer la bibliothèque Word depuis textblob .

Lemmatisation en Python |  Un guide du débutant

Après cela, nous allons créer un objet mot. 

Lemmatisation en Python |  Un guide du débutant

Pour créer un objet mot, nous avons créé une variable nommée w . Ensuite, nous avons stocké la bibliothèque Word qui contient notre objet mot qui est octopi , la forme plurielle du mot octopus. Notez que lors du passage d'un élément à l'aide de la bibliothèque Word, il est important de placer cet élément entre guillemets simples.

Initialisons la variable w pour voir si elle contient le mot objet que nous venons de créer.

Lemmatisation en Python |  Un guide du débutant

Lors de l'exécution de la variable w , nous obtenons le mot objet octopi en conséquence.

Implémentation de la lemmatisation en Python

Ensuite, nous allons implémenter la lemmatisation en utilisant la fonction .lemmatize

Lemmatisation en Python |  Un guide du débutant

Dans cette étape, nous avons utilisé la variable w qui contient le mot objet octopi et nous avons utilisé la fonction .lemmatize pour appliquer la lemmatisation. En conséquence, nous avons obtenu le mot pieuvre qui est la racine ou la forme de base du mot pieuvre .

Après cela, essayons d'appliquer la lemmatisation avec le mot better .

Lemmatisation en Python |  Un guide du débutant

Dans l'exemple précédent, nous avons mis à jour notre objet mot de octopi vers better . Ensuite, nous l'avons lemmatisé avec la fonction .lemmatize . Ainsi, le résultat que nous avons obtenu est le même que le mot objet que nous avons utilisé.

En utilisant la fonction .lemmatize, vous pouvez changer le mode de sa lemmatisation en passant une partie du discours. Par exemple, essayons de passer a à la fonction .lemmatize qui représente l'adjectif dans les parties du discours. 

Lemmatisation en Python |  Un guide du débutant

Après avoir ajouté une partie du discours à la fonction .lemmatize, nous sommes en mesure d'obtenir le mot de base bon en conséquence.

Changeons à nouveau notre mot object en running . Changeons également la partie du discours que nous allons passer à la fonction .lemmatize en v qui signifie verbe.

Lemmatisation en Python |  Un guide du débutant

Après avoir apporté les modifications et initialisé la fonction .lemmatize, nous avons obtenu le mot racine du mot running qui est exécuté en conséquence. La plupart des lemmatiseurs ne sont pas capables d'exécuter les méthodes que nous venons de faire en utilisant la fonction .lemmatize.

Cependant, la fonction .lemmatize est un outil considérable à utiliser lors de l'exécution de certains types d' analyse de texte en Python pour obtenir la forme de base d'un mot.


Comment utiliser le script Python dans LuckyTemplates
Comment charger des exemples de jeux de données en Python
Fonctions définies par l'utilisateur Python | Un aperçu

Conclusion

En bref, nous sommes en mesure de comprendre l'utilisation de la lemmatisation en Python et son fonctionnement. Nous avons également discuté de la similitude et des différences entre la lemmatisation et la origine . Nous sommes également en mesure de créer un objet Word à l'aide de la bibliothèque Word et d'utiliser la fonction .lemmatize .

De plus, nous avons appris à appliquer différentes parties du discours dans la fonction .lemmatize. La mise en œuvre de la lemmatisation dans vos tâches quotidiennes d'analyse de texte vous aidera grandement à réduire le temps et les efforts nécessaires à la recherche du mot de base d'un mot spécifique.

Tous mes vœux,

Gaellim


Quest-ce que le self en Python ? Exemples concrets

Quest-ce que le self en Python ? Exemples concrets

Qu'est-ce que le self en Python ? Exemples concrets

Comment enregistrer et charger un fichier RDS dans R

Comment enregistrer et charger un fichier RDS dans R

Vous apprendrez à enregistrer et à charger des objets à partir d'un fichier .rds dans R. Ce blog expliquera également comment importer des objets de R vers LuckyTemplates.

First N Business Days Revisited - Une solution de langage de codage DAX

First N Business Days Revisited - Une solution de langage de codage DAX

Dans ce didacticiel sur le langage de codage DAX, découvrez comment utiliser la fonction GENERATE et comment modifier dynamiquement le titre d'une mesure.

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Présentez des informations à laide de la technique des visuels dynamiques multi-threads dans LuckyTemplates

Ce didacticiel explique comment utiliser la technique Multi Threaded Dynamic Visuals pour créer des informations à partir de visualisations de données dynamiques dans vos rapports.

Introduction au filtrage du contexte dans LuckyTemplates

Introduction au filtrage du contexte dans LuckyTemplates

Dans cet article, je vais parcourir le contexte du filtre. Le contexte de filtrage est l'un des principaux sujets que tout utilisateur de LuckyTemplates doit d'abord connaître.

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Meilleurs conseils pour utiliser les applications dans le service en ligne LuckyTemplates

Je souhaite montrer comment le service en ligne LuckyTemplates Apps peut aider à gérer différents rapports et informations générés à partir de diverses sources.

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Analyser les changements de marge bénéficiaire au fil du temps - Analytics avec LuckyTemplates et DAX

Découvrez comment calculer les modifications de votre marge bénéficiaire à l'aide de techniques telles que la création de branches de mesure et la combinaison de formules DAX dans LuckyTemplates.

Idées de matérialisation pour les caches de données dans DAX Studio

Idées de matérialisation pour les caches de données dans DAX Studio

Ce didacticiel abordera les idées de matérialisation des caches de données et comment elles affectent les performances des DAX dans la fourniture de résultats.

Rapports dentreprise à laide de LuckyTemplates

Rapports dentreprise à laide de LuckyTemplates

Si vous utilisez encore Excel jusqu'à présent, c'est le meilleur moment pour commencer à utiliser LuckyTemplates pour vos besoins en matière de rapports commerciaux.

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Quest-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir

Qu'est-ce que la passerelle LuckyTemplates ? Tout ce que tu as besoin de savoir